Luận Văn Thạc Sĩ: Nhận Dạng Cảm Xúc Khuôn Mặt Bằng Mạng Nơ-Ron Tích Chập

Khám phá luận văn thạc sĩ về nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập, ứng dụng trong công nghệ và trí tuệ nhân tạo.

Trường đại học

Trường Đại Học Thủ Dầu Một

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

105

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

DANH MỤC CHỮ VIẾT TẮT

DANH MỤC BẢNG BIỂU

DANH MỤC HÌNH, ĐỒ THỊ

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng, phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Ý nghĩa khoa học và thực tiễn

1.6. Bố cục luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Mạng Nơ-ron tích chập

2.2. Mạng Nơ-ron nhân tạo

2.3. Các mô hình học sâu CNN

2.3.1. Sự hình thành và phát triển

2.3.2. Các mô hình CNN tiêu biểu

2.4. Nhận dạng cảm xúc khuôn mặt

2.4.1. Hướng tiếp cận

2.4.2. Hướng đề xuất nghiên cứu

2.5. Các nghiên cứu liên quan

2.6. Tiểu kết chương

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Tổng quan mô hình đề xuất

3.2. Các đặc trưng của mô hình

3.3. Phát hiện khuôn mặt

3.4. Nhận dạng cảm xúc với CNN

3.5. Mô hình học sâu lai CNN-LSTM

3.6. Nhận dạng cảm xúc

3.7. Phương pháp đánh giá kết quả

3.8. Huấn luyện mô hình

3.9. Xây dựng ứng dụng

4. CHƯƠNG 4: THỰC NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

CÔNG TRÌNH CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập

Nhận dạng cảm xúc khuôn mặt là một lĩnh vực nghiên cứu quan trọng trong thị giác máy tính. Nó không chỉ giúp máy tính hiểu được cảm xúc của con người mà còn mở ra nhiều ứng dụng thực tiễn trong cuộc sống. Sử dụng mạng nơ ron tích chập (CNN) để nhận dạng cảm xúc khuôn mặt đã trở thành một xu hướng phổ biến. CNN có khả năng trích xuất đặc trưng từ hình ảnh một cách hiệu quả, giúp cải thiện độ chính xác trong việc nhận diện cảm xúc.

1.1. Lý do nghiên cứu nhận dạng cảm xúc khuôn mặt

Cảm xúc khuôn mặt đóng vai trò quan trọng trong giao tiếp phi ngôn ngữ. Việc tự động nhận dạng cảm xúc giúp cải thiện tương tác giữa người và máy, đồng thời có thể ứng dụng trong nhiều lĩnh vực như an ninh, chăm sóc sức khỏe và giáo dục.

1.2. Mục tiêu của luận văn thạc sĩ

Luận văn này nhằm nghiên cứu và phát triển một mô hình nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ ron tích chập. Mục tiêu là xây dựng một hệ thống có khả năng nhận diện cảm xúc trong thời gian thực từ hình ảnh đầu vào.

II. Thách thức trong nhận dạng cảm xúc khuôn mặt

Mặc dù có nhiều tiến bộ trong công nghệ nhận dạng cảm xúc, nhưng vẫn tồn tại nhiều thách thức. Các yếu tố như ánh sáng, góc nhìn và biểu cảm khuôn mặt có thể ảnh hưởng đến độ chính xác của mô hình. Việc phát triển một hệ thống có khả năng nhận diện chính xác trong các điều kiện khác nhau là một thách thức lớn.

2.1. Ảnh hưởng của điều kiện ánh sáng

Ánh sáng không đồng đều có thể làm giảm chất lượng hình ảnh, dẫn đến việc nhận diện cảm xúc không chính xác. Các nghiên cứu đã chỉ ra rằng việc cải thiện điều kiện ánh sáng có thể nâng cao hiệu suất của mô hình.

2.2. Đa dạng biểu cảm khuôn mặt

Mỗi người có cách thể hiện cảm xúc khác nhau. Điều này tạo ra sự đa dạng trong dữ liệu huấn luyện, làm cho việc nhận diện cảm xúc trở nên khó khăn hơn. Cần có các phương pháp để xử lý sự đa dạng này trong mô hình.

III. Phương pháp nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập

Phương pháp sử dụng mạng nơ ron tích chập (CNN) để nhận dạng cảm xúc khuôn mặt đã được chứng minh là hiệu quả. CNN có khả năng tự động trích xuất đặc trưng từ hình ảnh mà không cần phải thiết kế thủ công. Điều này giúp giảm thiểu thời gian và công sức trong quá trình phát triển mô hình.

3.1. Cấu trúc của mạng nơ ron tích chập

Mạng nơ ron tích chập bao gồm nhiều lớp, mỗi lớp có nhiệm vụ trích xuất các đặc trưng khác nhau từ hình ảnh. Các lớp này bao gồm lớp tích chập, lớp gộp và lớp đầu ra, giúp cải thiện độ chính xác trong việc nhận diện cảm xúc.

3.2. Quy trình huấn luyện mô hình CNN

Quy trình huấn luyện mô hình CNN bao gồm việc chuẩn bị dữ liệu, thiết lập các tham số và tối ưu hóa mô hình. Sử dụng các thuật toán như Adam hoặc SGD giúp cải thiện hiệu suất của mô hình trong quá trình huấn luyện.

IV. Ứng dụng thực tiễn của nhận dạng cảm xúc khuôn mặt

Nhận dạng cảm xúc khuôn mặt có nhiều ứng dụng thực tiễn trong cuộc sống hàng ngày. Từ việc cải thiện trải nghiệm người dùng trong các ứng dụng đến việc hỗ trợ trong lĩnh vực an ninh, công nghệ này đang ngày càng trở nên quan trọng.

4.1. Ứng dụng trong an ninh và bảo mật

Hệ thống nhận dạng cảm xúc có thể được sử dụng để phát hiện hành vi đáng ngờ trong các khu vực công cộng. Điều này giúp nâng cao mức độ an toàn cho cộng đồng.

4.2. Ứng dụng trong chăm sóc sức khỏe

Trong lĩnh vực chăm sóc sức khỏe, nhận dạng cảm xúc có thể hỗ trợ trong việc theo dõi tâm trạng của bệnh nhân, từ đó giúp bác sĩ đưa ra các quyết định điều trị phù hợp.

V. Kết luận và hướng phát triển trong tương lai

Nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập là một lĩnh vực đầy tiềm năng. Nghiên cứu này không chỉ đóng góp vào lý thuyết mà còn mở ra nhiều ứng dụng thực tiễn. Hướng phát triển trong tương lai có thể bao gồm việc cải thiện độ chính xác và khả năng thích ứng của mô hình trong các điều kiện khác nhau.

5.1. Hướng phát triển công nghệ nhận dạng cảm xúc

Cần tiếp tục nghiên cứu và phát triển các thuật toán mới để cải thiện độ chính xác và khả năng xử lý của mô hình. Việc tích hợp các công nghệ mới như học sâu và trí tuệ nhân tạo sẽ là chìa khóa cho sự phát triển này.

5.2. Tương lai của nhận dạng cảm xúc trong xã hội

Nhận dạng cảm xúc có thể trở thành một phần không thể thiếu trong các ứng dụng công nghệ trong tương lai. Việc hiểu và phân tích cảm xúc sẽ giúp cải thiện tương tác giữa con người và máy móc, tạo ra những trải nghiệm tốt hơn cho người dùng.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 và sự phát triển mạnh mẽ của trí tuệ nhân tạo, nhận dạng cảm xúc khuôn mặt trở thành một lĩnh vực nghiên cứu quan trọng trong ngành thị giác máy tính và học máy. Theo các chuyên gia, giao tiếp phi ngôn ngữ chiếm tới 2/3 hiệu quả giao tiếp, trong đó cảm xúc khuôn mặt đóng vai trò then chốt trong việc truyền tải thông điệp phi ngôn ngữ. Việc tự động nhận dạng cảm xúc khuôn mặt không chỉ giúp cải thiện tương tác giữa người và máy tính mà còn có ứng dụng rộng rãi trong an ninh, chăm sóc sức khỏe, giáo dục và an toàn giao thông.

Luận văn tập trung nghiên cứu và phát triển một mô hình nhận dạng cảm xúc khuôn mặt dựa trên mạng nơ-ron tích chập (CNN) kết hợp với bộ nhớ ngắn dài hạn (LSTM). Mục tiêu chính là xây dựng hệ thống có khả năng phát hiện khuôn mặt và phân loại chính xác 7 loại cảm xúc cơ bản: tức giận, ghê tởm, sợ hãi, hạnh phúc, không cảm xúc, buồn bã và ngạc nhiên. Nghiên cứu sử dụng cơ sở dữ liệu FER-2013 với hàng nghìn ảnh khuôn mặt được gán nhãn cảm xúc, thực hiện trong phạm vi thời gian từ năm 2019 đến 2020 tại Trường Đại học Thủ Dầu Một, tỉnh Bình Dương.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận dạng cảm xúc, góp phần phát triển các ứng dụng thực tiễn trong nhiều lĩnh vực. Các chỉ số đánh giá như độ chính xác (accuracy) và ma trận nhầm lẫn (confusion matrix) được sử dụng để đo lường hiệu quả mô hình, với kết quả vượt trội so với các mô hình CNN truyền thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). ANN mô phỏng hoạt động của hệ thần kinh sinh học, gồm các lớp đầu vào, lớp ẩn và lớp đầu ra, với trọng số kết nối được điều chỉnh qua quá trình huấn luyện. Hàm kích hoạt phi tuyến như ReLU được sử dụng để tăng khả năng biểu diễn của mạng.

CNN là một dạng mạng nơ-ron sâu chuyên biệt cho xử lý dữ liệu hình ảnh, với các lớp tích chập (convolutional layers), lớp kích hoạt (activation layers), lớp lấy mẫu (pooling layers) và lớp kết nối đầy đủ (fully connected layers). CNN tận dụng các bộ lọc cục bộ để trích xuất đặc trưng từ ảnh, giảm số lượng tham số và tăng hiệu quả tính toán. Các kiến trúc CNN tiêu biểu được nghiên cứu bao gồm LeNet-5, AlexNet, VGG-16, GoogleNet-Inception và ResNet-50, mỗi kiến trúc có ưu điểm riêng về độ sâu, số lượng tham số và khả năng trích xuất đặc trưng.

Ngoài ra, mô hình học sâu lai CNN-LSTM được áp dụng để kết hợp khả năng trích xuất đặc trưng không gian của CNN với khả năng ghi nhớ thông tin theo chuỗi thời gian của LSTM, giúp cải thiện hiệu quả nhận dạng cảm xúc khuôn mặt trong video hoặc chuỗi ảnh.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu FER-2013, bao gồm khoảng 35.000 ảnh khuôn mặt với 7 nhãn cảm xúc cơ bản. Dữ liệu được chia thành tập huấn luyện, tập kiểm tra và tập đánh giá theo tỷ lệ chuẩn để đảm bảo tính khách quan.

Phương pháp phân tích sử dụng kỹ thuật học sâu với mô hình CNN 5 tầng tự xây dựng, đồng thời so sánh với các mô hình CNN phổ biến như VGG-16, ResNet-50 và mô hình lai CNN-LSTM. Quá trình huấn luyện sử dụng thuật toán lan truyền ngược (backpropagation) và tối ưu bằng phương pháp trượt dốc (gradient descent) với hàm mất mát cross-entropy.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn: tổng hợp lý thuyết và tài liệu, thiết kế mô hình, huấn luyện và đánh giá mô hình, xây dựng ứng dụng nhận dạng cảm xúc khuôn mặt theo thời gian thực.

Phương pháp đánh giá kết quả dựa trên các chỉ số chính như độ chính xác (accuracy), ma trận nhầm lẫn (confusion matrix), và so sánh hiệu năng giữa các mô hình. Các thí nghiệm được thực hiện trên môi trường Python với các thư viện học sâu phổ biến như TensorFlow và Keras.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình CNN 5 tầng tự xây dựng: Mô hình đạt độ chính xác trung bình khoảng 72% trên tập kiểm tra FER-2013, vượt trội hơn so với các mô hình CNN 3 lớp truyền thống với độ chính xác khoảng 65%.
Mô hình lai CNN-LSTM cải thiện nhận dạng cảm xúc theo chuỗi thời gian: Khi áp dụng CNN kết hợp LSTM, độ chính xác nhận dạng cảm xúc tăng lên khoảng 75%, cho thấy khả năng ghi nhớ thông tin theo chuỗi giúp mô hình nhận dạng tốt hơn các biểu cảm phức tạp.
So sánh với các kiến trúc CNN nổi tiếng: Mô hình VGG-16 và ResNet-50 đạt độ chính xác lần lượt khoảng 74% và 76%, tuy nhiên mô hình tự xây dựng có ưu điểm về tốc độ huấn luyện và yêu cầu tài nguyên thấp hơn.
Phân tích ma trận nhầm lẫn: Các cảm xúc như hạnh phúc và không cảm xúc được nhận dạng chính xác trên 80%, trong khi cảm xúc sợ hãi và ghê tởm có tỷ lệ nhầm lẫn cao hơn, khoảng 15-20%, do đặc trưng khuôn mặt tương tự.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả nhận dạng là nhờ vào khả năng trích xuất đặc trưng cục bộ và phi tuyến của CNN, kết hợp với khả năng ghi nhớ chuỗi của LSTM. Kết quả phù hợp với các nghiên cứu gần đây trong lĩnh vực học sâu cho nhận dạng cảm xúc khuôn mặt, đồng thời cho thấy mô hình lai CNN-LSTM là hướng đi tiềm năng cho các ứng dụng thực tế.

Việc phân tích ma trận nhầm lẫn giúp nhận diện các điểm yếu trong mô hình, từ đó có thể tập trung cải tiến cho các cảm xúc dễ nhầm lẫn. Kết quả cũng cho thấy mô hình tự xây dựng có thể đáp ứng tốt yêu cầu về độ chính xác và tốc độ xử lý trong các ứng dụng thời gian thực.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng ma trận nhầm lẫn minh họa tỷ lệ nhận dạng đúng/sai từng cảm xúc, giúp trực quan hóa hiệu quả mô hình.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện: Thu thập thêm dữ liệu đa dạng về độ tuổi, giới tính và điều kiện ánh sáng để cải thiện khả năng tổng quát của mô hình, hướng tới tăng độ chính xác nhận dạng lên trên 80% trong vòng 12 tháng tới. Chủ thể thực hiện: nhóm nghiên cứu và các đối tác cung cấp dữ liệu.
Phát triển mô hình lai CNN-LSTM nâng cao: Nghiên cứu và áp dụng các kiến trúc LSTM cải tiến hoặc Transformer để nâng cao khả năng nhận dạng cảm xúc theo chuỗi thời gian, dự kiến hoàn thành trong 6 tháng. Chủ thể thực hiện: nhóm phát triển AI.
Tối ưu hóa mô hình cho thiết bị di động: Giảm kích thước mô hình và tăng tốc độ xử lý để ứng dụng trên các thiết bị di động và camera giám sát, nhằm mở rộng phạm vi ứng dụng trong an ninh và chăm sóc sức khỏe. Thời gian thực hiện dự kiến 9 tháng. Chủ thể thực hiện: bộ phận kỹ thuật phần mềm.
Xây dựng hệ thống ứng dụng thực tế: Triển khai hệ thống nhận dạng cảm xúc khuôn mặt trong các lĩnh vực như giáo dục, an toàn giao thông và chăm sóc sức khỏe, đồng thời thu thập phản hồi để cải tiến liên tục. Thời gian triển khai 12 tháng. Chủ thể thực hiện: các tổ chức, doanh nghiệp liên quan.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Luận văn cung cấp kiến thức sâu về mạng nơ-ron tích chập và ứng dụng trong nhận dạng cảm xúc, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển sản phẩm AI và thị giác máy tính: Tham khảo để áp dụng mô hình CNN-LSTM trong xây dựng các hệ thống nhận dạng khuôn mặt và cảm xúc, nâng cao hiệu quả sản phẩm.
Doanh nghiệp trong lĩnh vực an ninh, chăm sóc sức khỏe và giáo dục: Áp dụng công nghệ nhận dạng cảm xúc khuôn mặt để cải thiện dịch vụ, tăng cường tương tác người dùng và nâng cao an toàn.
Nhà quản lý và hoạch định chính sách công nghệ: Hiểu rõ tiềm năng và ứng dụng của công nghệ nhận dạng cảm xúc khuôn mặt trong các lĩnh vực xã hội, từ đó xây dựng các chính sách hỗ trợ phát triển công nghệ.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao được sử dụng trong nhận dạng cảm xúc khuôn mặt?
CNN là mô hình học sâu chuyên biệt cho xử lý ảnh, có khả năng tự động trích xuất đặc trưng từ dữ liệu hình ảnh. CNN giúp nhận dạng cảm xúc khuôn mặt hiệu quả nhờ khả năng phát hiện các đặc điểm cục bộ như đường nét, biểu cảm, từ đó phân loại chính xác các trạng thái cảm xúc.
Tại sao kết hợp CNN với LSTM lại cải thiện hiệu quả nhận dạng?
LSTM là mạng nơ-ron hồi tiếp có khả năng ghi nhớ thông tin theo chuỗi thời gian. Khi kết hợp với CNN, mô hình không chỉ trích xuất đặc trưng không gian mà còn nắm bắt được sự biến đổi cảm xúc theo thời gian, giúp nhận dạng chính xác hơn trong video hoặc chuỗi ảnh.
Cơ sở dữ liệu FER-2013 có đặc điểm gì nổi bật?
FER-2013 là bộ dữ liệu lớn với khoảng 35.000 ảnh khuôn mặt được gán nhãn 7 loại cảm xúc cơ bản. Dữ liệu đa dạng về biểu cảm và điều kiện ánh sáng, được sử dụng rộng rãi trong nghiên cứu nhận dạng cảm xúc khuôn mặt.
Các cảm xúc nào dễ bị nhầm lẫn trong nhận dạng?
Các cảm xúc như sợ hãi và ghê tởm thường có đặc trưng khuôn mặt tương tự, dẫn đến tỷ lệ nhầm lẫn cao hơn so với các cảm xúc rõ ràng như hạnh phúc hay tức giận. Việc cải tiến mô hình và tăng cường dữ liệu có thể giảm thiểu nhầm lẫn này.
Ứng dụng thực tế của nhận dạng cảm xúc khuôn mặt là gì?
Công nghệ này được ứng dụng trong an ninh (phát hiện hành vi bất thường), chăm sóc sức khỏe (theo dõi tâm trạng bệnh nhân), giáo dục (đánh giá phản ứng học sinh), và an toàn giao thông (giám sát trạng thái lái xe), góp phần nâng cao hiệu quả và an toàn trong nhiều lĩnh vực.

Kết luận

Luận văn đã phát triển thành công mô hình nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập kết hợp LSTM, đạt độ chính xác khoảng 75% trên cơ sở dữ liệu FER-2013.
Mô hình tự xây dựng có ưu điểm về tốc độ huấn luyện và yêu cầu tài nguyên thấp, phù hợp cho các ứng dụng thời gian thực.
Phân tích ma trận nhầm lẫn giúp xác định các cảm xúc dễ nhầm lẫn để tập trung cải tiến mô hình.
Nghiên cứu góp phần mở rộng ứng dụng học sâu trong lĩnh vực nhận dạng cảm xúc, tạo tiền đề cho các nghiên cứu tiếp theo.
Đề xuất các hướng phát triển như tăng cường dữ liệu, tối ưu mô hình và triển khai ứng dụng thực tế nhằm nâng cao hiệu quả và phạm vi ứng dụng trong tương lai.

Để tiếp tục phát triển, nhóm nghiên cứu khuyến khích các nhà khoa học và doanh nghiệp hợp tác mở rộng dữ liệu và ứng dụng mô hình trong các lĩnh vực đa dạng. Hành động ngay hôm nay để khai thác tiềm năng của công nghệ nhận dạng cảm xúc khuôn mặt trong kỷ nguyên số!

Trích đoạn nội dung tài liệu

Chương 1 trình bày khái quát về bài toán nhận dạng cảm xúc khuôn mặt, những ứng dụng cũng như mục tiêu của đề tài. Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan: Chương 2 trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát hiện, nhận dạng và phân loại hình ảnh được phát triển trong luận văn. Chương 3: Mô hình đề xuất: Chương 3 trình bày phương pháp phát hiện khuôn mặt, phương pháp nhận dạng, phân loại cảm xúc, sơ đồ liên kết giữa mô hình và ứng dụng web. 4 Chương 4: Thực nghiệm: Chương 4 trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các kết quả đạt được.

Chương 5: Kết luận và hướng phát triển: Chương 5 tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương lai. 5 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2. Mạng Nơ-ron tích chập 2. Mạng Nơ-ron nhân tạo Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật hay còn gọi là mạng Nơ-ron sinh học (hình 2.

Cấu tạo từ số lượng lớn các nơ-ron được kết nối với nhau để xử lý thông tin. ANN giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn luyện, có khả năng lưu giữ những kinh nghiệm tri thức và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits. 1: Mạng Nơ-ron sinh học [21] Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự động, khai phá dữ liệu, nhận dạng,… Một ANN gồm ba tầng: lớp đầu vào (input layer), các lớp ẩn (hidden layers) và cuối cùng là lớp đầu ra (output layer) được mô tả trong hình 2.2 6 [21], trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo.

Một ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn. 2: Cấu trúc của mạng nơ-ron nhân tạo [21] Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu đầu vào xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơ- ron này có thể làm dữ liệu đầu vào của các nơ-ron khác.3 [21] mô tả quá trình xử lý của một nơ-ron trong ANN.

Trong đó input là dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết hay trọng số (connection weights hay gọi tắt là weights) là thành phần rất quan trọng, thể hiện mức độ quan trọng đối với quá trình xử lý dữ liệu từ lớp này sang lớp khác. Quá trình học của ANN thực ra là quá trình điều chỉnh trọng số của các dữ liệu đầu vào. 3: Quá trình xử lý của một nơ-ron trong ANN [21] Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào.

Hàm tính tổng một nơ-ron của k dữ liệu đầu vào của lớp thứ i 𝑎𝑖 = ∑ 𝑥𝑘 𝜔𝑖,𝑘 (2.1) Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gaussian, tanh, softmax. 4: Đồ thị các hàm kích hoạt: (a).

Hàm Sigmoid Kết quả xử lý đầu ra hàm tổng của nơ-ron đôi khi quá lớn, hàm kích hoạt thường dùng để xử lý đầu ra này trước khi chuyển đến lớp tiếp theo. Đôi khi thay vì sử dụng hàm kích hoạt, ta thường sử dụng giá trị ngưỡng để 9 kiểm soát đầu ra của nơ-ron. Nếu đầu ra của một nơ-ron nhỏ hơn ngưỡng thì sẽ không được chuyển đến lớp tiếp theo. Một số dạng mạng nơ-ron nhân tạo: Mạng liên kết đầy đủ (fully connected-FC): nếu mọi đầu ra của một lớp liên kết với mọi nơ-ron của lớp tiếp theo.

Mạng lan truyền thẳng (feedforward network): nếu không tồn tại liên kết giữa các nơ-ron thuộc cùng một lớp. Mạng phản hồi (feedback network): nếu tồn tại đầu ra của một nơ-ron liên kết ngược lại làm đầu vào của một nơ-ron cùng lớp. Mạng hồi quy (recurrent network): nếu các mạng phản hồi có các vòng lặp kín. Quá trình học của mạng nơron là quá trình lan truyền thông tin để làm thay đổi các trọng số tốt nhất có thể.

Mạng nơ-ron được huấn luyện hay được học theo ba phương pháp học có giám sát, học không giám sát và học tăng cường: Học có giám sát (supervised learning): là phương pháp học từ một tập dữ liệu huấn luyện ta đã biết trước nhãn của dữ liệu cần học và số lớp cần phân loại của bộ dữ liệu được đem đi huấn luyện. Đây là phương pháp học phổ biến nhất trong các phương pháp học của mạng nơ-ron. Mục đích của phương pháp này là từ tập dữ liệu đã gán nhãn qua quá trình học tạo ra một hàm số thật tốt để khi có dữ liệu mới ta có thể tính hay dự đoán được nhãn tương ứng của dữ liệu đó [21]. Phương pháp học có giám sát chia ra thành hai loại chính là: - Phân loại (classification): Nếu nhãn của các dữ liệu đầu vào được chia thành một số hữu hạn nhóm.

Như các bài toán nhận dạng chữ số viết tay, dò tìm khuôn mặt người, … 10 - Hồi quy (regression): Nếu nhãn của các dữ liệu đầu vào không được chia thành các nhóm mà là một giá trị thực cụ thể. Ví dụ như bài toán dự đoán giá của một căn nhà, giá trị dinh dưỡng của một món ăn,… Học không giám sát (Unsupervised Learning): là phương pháp học từ một tập dữ liệu cần học ta không biết trước nhãn của dữ liệu, cũng như số lớp đầu ra. Thuật toán sẽ dựa vào cấu trúc của dữ liệu để phân nhóm hay giảm chiều của dữ liệu,… Học không giám sát có liên quan chặt chẽ đến việc ước lượng mật độ trong thống kê. Cách học này không sử dụng tri thức từ bên ngoài trong quá trình học nên còn được gọi là tự tổ chức.

Mạng nơ-ron điển hình cho cách học này là Self – Organizing Map (SOM). Một số thuật toán học không giám sát khác như k-means, Hierarchical Agglomerative Clustering (HAC), Fuzzy Cognitive Map (FCM),….[21] Phần lớn ứng dụng học không giám sát vào các bài toán ước lượng như mô hình hóa thống kê, nén, lọc, phân nhóm,… Học tăng cường (Reinforcement Learning): là phương pháp học giúp cho một hệ thống tự động xác định hành động dựa trên hoàn cảnh để đạt lợi ích cao nhất. Học tăng cường bằng cách thử nghiệm dữ liệu để khám phá ra hành động nào là tốt nhất. Hành động đó không chỉ có lợi ích tốt cho bước hiện tại mà còn cho các bước tiếp theo.

Hai đặc điểm quan trọng để phân biệt học tăng cường là tìm kiếm thử - sai (trialand-error search) và bồi dưỡng chậm (delayed reward).[21] Môi trường học thường được biểu diễn dưới dạng quy trình quyết định markov (Markov Decision Process - MDP) trạng thái hữu hạn và các thuật toán học tăng cường liên quan đến các kỹ thuật quy hoạch động. Hiện tại, học tăng cường chủ yếu được áp dụng vào Lý thuyết trò chơi, thuật toán cần xác định hành động tiếp theo để đạt số điểm tốt nhất. Ví 11 dụ, AlphaGo của Google đánh cờ vây thắng con người, trong khi cờ vây có độ phức tạp cao xấp xỉ 10761. AlphaGo kết hợp cả học có giám sát và học tăng cường, Hình 2.

5: AlphaGo của Google1 Thuật toán lan truyền ngược Với thuật toán lan truyền ngược (Backpropagation Algorithm), giả sử L(W,b,X,Y) là một hàm lỗi của bài toán, trong đó W,b là tập hợp tất cả các ma trận trọng số giữa các lớp và hướng của mỗi lớp. X,Y là cặp dữ liệu huấn luyện, X là tập hợp các điểm dữ liệu, Y là nhãn của các điểm dữ liệu tương ứng trong X. Đầu ra dự đoán y ̂ của dữ liệu đầu vào x của mạng neural truyền thẳng đa lớp được tính như sau: 𝑎(0) = 𝑥 (2.com 12 Với 𝑙 = 1, … , 𝐿 là số thứ tự của lớp, a là kết quả của hàm kích hoạt tại mỗi node của một lớp. Bước này được gọi là truyền thẳng vì cách tính toán được thực hiện từ lớp đầu tiên đến lớp cuối của mạng nơ-ron.

Phương pháp phổ biến nhất để tối ưu mạng nơ-ron truyền thẳng đa lớp là trượt dốc. Để có thể áp dụng trượt dốc, ta cần tính được đạo hàm của hàm lỗi theo từng ma trận trọng số W(l) và vector hướng b(l) 𝜕𝐿 𝜕𝐿 ; (2.12) 𝑁 Với N là số cặp dữ liệu (X,Y) trong tập huấn luyện. Theo công thức (2.12) thì việc tính đạo hàm của hàm lỗi theo trọng số và hướng một cách trực tiếp là cực kỳ phức tạp, vì hàm lỗi không phụ thuộc trực tiếp vào các hệ số. Phương pháp phổ biến nhất để tính đạo hàm của hàm lỗi có tên là lan truyền ngược.

Lan truyền ngược giúp tính đạo hàm ngược từ lớp cuối cùng đến lớp đầu tiên. Lớp cuối cùng được tính trước vì nó gần hơn với đầu ra dự đoán và hàm lỗi. Việc tính toán đạo hàm của các lớp trước được thực hiện dựa trên nguyên tắc xích, tức là đạo hàm của hàm hợp.13) 𝜕𝑥 𝜕𝑦 𝜕𝑥 Với z = f(y) và y = g(x) 13 Với một cặp điểm dữ liệu huấn luyện (x,y) và hàm lỗi L chỉ xét cho cặp điểm này, ta có thể tính đạo hàm của hàm lỗi theo ma trận trọng số và hướng. Đạo hàm của hàm lỗi theo chỉ một thành phần của ma trận trọng số của lớp cuối cùng.6 mô phỏng cách tính lan truyền ngược, với đạo hàm theo hệ số ở các lớp 𝑙 thấp hơn, lớp cuối có thể là lớp đầu ra, 𝑑 (𝑙) là số node trong lớp ẩn thứ 𝑙.

6: Mô phỏng cách tính lan truyền ngược [1] 14 Dựa vào hình 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu này cung cấp cái nhìn tổng quan về các phương pháp hiện đại trong lĩnh vực nhận diện và phát hiện thông tin, đặc biệt là trong việc nhận diện biển số xe và cảm xúc dựa trên ngữ cảnh. Những điểm chính của tài liệu bao gồm việc áp dụng các kỹ thuật học sâu để cải thiện độ chính xác và hiệu suất trong việc nhận diện biển số xe, cũng như việc phát triển mô hình nhận diện cảm xúc thông qua ngữ cảnh, giúp nâng cao trải nghiệm người dùng trong các ứng dụng công nghệ.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về các công nghệ tiên tiến trong lĩnh vực khoa học máy tính và cách chúng có thể được áp dụng trong thực tiễn. Để mở rộng kiến thức của mình, bạn có thể tham khảo thêm các tài liệu liên quan như Luận văn thạc sĩ khoa học máy tính phát hiện và nhận diện biển số xe sử dụng phương pháp học sâu, nơi bạn sẽ tìm thấy những nghiên cứu sâu hơn về nhận diện biển số xe, hoặc Khóa luận tốt nghiệp khoa học máy tính mô hình nhận diện cảm xúc dựa trên ngữ cảnh, tài liệu này sẽ giúp bạn hiểu rõ hơn về cách nhận diện cảm xúc trong các tình huống khác nhau. Những tài liệu này không chỉ mở rộng kiến thức mà còn cung cấp những góc nhìn mới mẻ về các ứng dụng công nghệ trong đời sống.

#Luận văn Thạc sĩ

#hệ thống thông tin

#thị giác máy tính

#mạng nơ-ron tích chập

#phát hiện khuôn mặt

#cảm xúc con người

Chủ đề

Phương pháp học sâu trong AI

ứng dụng của mạng nơ-ron

Nghiên cứu về nhận dạng cảm xúc

Tác động của cảm xúc trong giao tiếp