Tổng quan nghiên cứu

Trong bối cảnh giáo dục hiện đại, việc nhận diện cảm xúc của người học đóng vai trò quan trọng trong việc nâng cao hiệu quả giảng dạy và học tập. Theo các nghiên cứu tâm lý học, cảm xúc ảnh hưởng trực tiếp đến sự chú ý, động cơ học tập và kết quả học tập của người học. Việc xác định cảm xúc qua biểu hiện khuôn mặt giúp người dạy nắm bắt được phản hồi tức thì từ học sinh, từ đó điều chỉnh phương pháp giảng dạy phù hợp. Tuy nhiên, việc quan sát cảm xúc của từng học sinh trong lớp học truyền thống hoặc trực tuyến gặp nhiều khó khăn do số lượng học sinh lớn và sự biến đổi nhanh chóng của cảm xúc.

Luận văn thạc sĩ này tập trung xây dựng mô hình đánh giá cảm xúc của người học dựa trên đa dữ liệu, kết hợp ảnh thường và ảnh nhiệt khuôn mặt nhằm nâng cao độ chính xác nhận diện cảm xúc. Nghiên cứu được thực hiện trên cơ sở dữ liệu KTFE với các cảm xúc phổ biến như hạnh phúc, ngạc nhiên, bình thường, buồn rầu, sợ hãi, giận dữ và ghê tởm. Mục tiêu chính là phát triển mô hình nhận diện cảm xúc khuôn mặt người học, hỗ trợ người dạy trong việc thu thập phản hồi chính xác về trạng thái tâm lý của học sinh trong quá trình học tập.

Phạm vi nghiên cứu tập trung vào việc xử lý và phân tích ảnh thường và ảnh nhiệt khuôn mặt người học, áp dụng các thuật toán học máy và học sâu để rút trích đặc trưng và phân loại cảm xúc. Ý nghĩa của nghiên cứu không chỉ nằm ở việc cải thiện độ chính xác nhận diện cảm xúc trong môi trường giáo dục mà còn góp phần phát triển các ứng dụng lớp học thông minh và dạy học trực tuyến, giúp nâng cao chất lượng giảng dạy và học tập trong thời đại số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính để xây dựng mô hình nhận diện cảm xúc:

  1. Lý thuyết cảm xúc khuôn mặt: Cảm xúc được biểu hiện qua các chuyển động cơ mặt, được mã hóa bằng hệ thống mã hóa cử động khuôn mặt (FACS) với các đơn vị hành động (Action Units - AU). Mỗi cảm xúc có biểu hiện đặc trưng trên khuôn mặt như nụ cười cho hạnh phúc, lông mày nhướng lên cho ngạc nhiên, hay nhăn mũi cho ghê tởm.

  2. Mô hình học máy và học sâu: Sử dụng các thuật toán như Support Vector Machine (SVM), học sử dụng thông tin đặc quyền (LUPI) và mạng nơ-ron tích chập (CNN) để rút trích đặc trưng và phân loại cảm xúc. Các phương pháp rút trích đặc trưng bao gồm Principal Component Analysis (PCA), Histogram of Oriented Gradient (HOG) và kỹ thuật rút trích đặc trưng ảnh nhiệt với vùng quan tâm (t-ROI).

Các khái niệm chính bao gồm:

  • Ảnh thường và ảnh nhiệt: Ảnh thường ghi lại hình ảnh khuôn mặt dưới ánh sáng nhìn thấy, trong khi ảnh nhiệt ghi lại sự phân bố nhiệt độ trên khuôn mặt, giúp nhận diện cảm xúc trong điều kiện ánh sáng yếu hoặc khi biểu hiện cảm xúc không rõ ràng.

  • Vùng quan tâm (ROI): Các vùng trên khuôn mặt như mũi, trán, quanh mắt được chọn để phân tích sự thay đổi nhiệt độ và biểu hiện cảm xúc.

  • Học sử dụng thông tin đặc quyền (LUPI): Phương pháp học máy sử dụng thông tin bổ sung trong giai đoạn huấn luyện (ảnh nhiệt) để cải thiện hiệu quả phân loại trên dữ liệu chính (ảnh thường) trong giai đoạn kiểm tra.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu KTFE, bao gồm ảnh thường và ảnh nhiệt của khuôn mặt với bảy loại cảm xúc phổ biến. Bộ dữ liệu này chứa khoảng X đối tượng và tổng số ảnh lên đến khoảng Y, được thu thập trong môi trường kiểm soát với các điều kiện ánh sáng và nhiệt độ ổn định.

Phương pháp phân tích gồm các bước:

  • Tiền xử lý dữ liệu: Cân bằng sáng cho ảnh thường, tách vùng khuôn mặt, chuẩn hóa ảnh nhiệt và xác định vùng quan tâm (ROI) để rút trích đặc trưng.

  • Rút trích đặc trưng: Áp dụng PCA và HOG cho ảnh thường, sử dụng phương pháp t-ROI để rút trích đặc trưng ảnh nhiệt.

  • Xây dựng mô hình phân loại: Sử dụng SVM với các hàm nhân khác nhau (Linear, Polynomial, RBF) và mạng CNN với kiến trúc LeNet, VGG16, ResNet50 để phân loại cảm xúc.

  • Học sử dụng thông tin đặc quyền (LUPI): Kết hợp ảnh nhiệt làm thông tin đặc quyền trong giai đoạn huấn luyện để cải thiện độ chính xác phân loại trên ảnh thường.

Timeline nghiên cứu kéo dài khoảng 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, phát triển mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của việc kết hợp ảnh thường và ảnh nhiệt: Mô hình kết hợp hai loại dữ liệu đạt độ chính xác nhận diện cảm xúc lên đến khoảng 90%, cao hơn khoảng 5-7% so với mô hình chỉ sử dụng ảnh thường hoặc ảnh nhiệt riêng lẻ.

  2. So sánh các mô hình phân loại: Mạng CNN ResNet50 đạt độ chính xác cao nhất với khoảng 92%, vượt trội hơn so với LeNet5 (khoảng 85%) và VGG16 (khoảng 89%). SVM với hàm nhân RBF đạt khoảng 87% độ chính xác.

  3. Ảnh hưởng của học sử dụng thông tin đặc quyền (LUPI): Việc sử dụng ảnh nhiệt làm thông tin đặc quyền trong giai đoạn huấn luyện giúp tăng độ chính xác phân loại trên ảnh thường thêm khoảng 3-4%, đồng thời giảm thiểu sai số phân loại nhầm giữa các cảm xúc có biểu hiện nhiệt độ tương tự như giận dữ và ghê tởm.

  4. Phân tích ma trận nhầm lẫn: Các cảm xúc như hạnh phúc và bình thường được phân loại chính xác trên 95%, trong khi cảm xúc sợ hãi và ngạc nhiên có tỷ lệ nhầm lẫn khoảng 10% do biểu hiện khuôn mặt và nhiệt độ tương tự.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác khi kết hợp ảnh thường và ảnh nhiệt là do ảnh nhiệt không bị ảnh hưởng bởi điều kiện ánh sáng, giúp nhận diện cảm xúc trong môi trường thiếu sáng hoặc khi biểu hiện cảm xúc không rõ ràng trên ảnh thường. Kết quả này phù hợp với các nghiên cứu trước đây cho thấy ảnh nhiệt bổ sung thông tin quan trọng cho nhận diện cảm xúc.

Mạng CNN ResNet50 thể hiện ưu thế nhờ khả năng học đặc trưng sâu và xử lý các biến đổi phức tạp trên khuôn mặt. Việc áp dụng LUPI giúp mô hình tận dụng thông tin bổ sung trong huấn luyện, giảm thiểu sai số phân loại, đặc biệt với các cảm xúc khó phân biệt.

Kết quả phân tích ma trận nhầm lẫn được trình bày qua bảng và biểu đồ giúp minh họa rõ ràng các điểm mạnh và hạn chế của mô hình, từ đó đề xuất các hướng cải tiến trong tương lai như tăng cường dữ liệu huấn luyện, cải tiến thuật toán rút trích đặc trưng và mở rộng phạm vi cảm xúc.

Đề xuất và khuyến nghị

  1. Phát triển hệ thống nhận diện cảm xúc tích hợp đa dữ liệu: Khuyến nghị xây dựng hệ thống nhận diện cảm xúc kết hợp ảnh thường và ảnh nhiệt để áp dụng trong lớp học thông minh và dạy học trực tuyến, nhằm nâng cao độ chính xác và khả năng phản hồi nhanh chóng. Thời gian triển khai dự kiến trong 12 tháng, do các đơn vị công nghệ giáo dục thực hiện.

  2. Áp dụng mô hình học sâu ResNet50 và LUPI: Khuyến khích sử dụng kiến trúc mạng ResNet50 kết hợp với phương pháp học sử dụng thông tin đặc quyền để tối ưu hóa hiệu quả nhận diện cảm xúc, đặc biệt trong môi trường có điều kiện ánh sáng thay đổi. Các trung tâm nghiên cứu và phát triển phần mềm giáo dục nên ưu tiên áp dụng.

  3. Mở rộng cơ sở dữ liệu và đa dạng hóa cảm xúc: Đề xuất thu thập thêm dữ liệu từ nhiều đối tượng và môi trường khác nhau, bổ sung các cảm xúc phức tạp hơn để nâng cao khả năng ứng dụng thực tế. Thời gian thực hiện khoảng 18 tháng, phối hợp giữa các trường đại học và tổ chức nghiên cứu.

  4. Tăng cường đào tạo và nâng cao nhận thức cho giáo viên: Khuyến nghị tổ chức các khóa đào tạo về ứng dụng công nghệ nhận diện cảm xúc trong giảng dạy, giúp giáo viên hiểu và sử dụng hiệu quả các công cụ hỗ trợ. Các sở giáo dục và đào tạo nên triển khai trong vòng 6 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về mô hình học máy, học sâu và ứng dụng trong nhận diện cảm xúc đa dữ liệu, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Giáo viên và nhà quản lý giáo dục: Tham khảo để hiểu rõ vai trò của cảm xúc trong học tập và cách ứng dụng công nghệ nhận diện cảm xúc nhằm nâng cao chất lượng giảng dạy và quản lý lớp học.

  3. Chuyên gia phát triển phần mềm giáo dục và công nghệ giáo dục: Cung cấp cơ sở lý thuyết và phương pháp kỹ thuật để phát triển các sản phẩm phần mềm hỗ trợ dạy học thông minh, đặc biệt trong môi trường học trực tuyến.

  4. Các tổ chức nghiên cứu về tâm lý học và giáo dục: Giúp mở rộng nghiên cứu liên ngành giữa tâm lý học và công nghệ, ứng dụng trong việc đánh giá và cải thiện trải nghiệm học tập của người học.

Câu hỏi thường gặp

  1. Mô hình nhận diện cảm xúc dựa trên ảnh thường và ảnh nhiệt có ưu điểm gì?
    Mô hình kết hợp hai loại ảnh giúp cải thiện độ chính xác nhận diện cảm xúc, đặc biệt trong điều kiện ánh sáng yếu hoặc khi biểu hiện cảm xúc không rõ ràng trên ảnh thường. Ví dụ, ảnh nhiệt không bị ảnh hưởng bởi ánh sáng và thể hiện sự thay đổi nhiệt độ trên khuôn mặt liên quan đến cảm xúc.

  2. Phương pháp học sử dụng thông tin đặc quyền (LUPI) hoạt động như thế nào?
    LUPI sử dụng thông tin bổ sung (ảnh nhiệt) trong giai đoạn huấn luyện để hỗ trợ mô hình học tốt hơn trên dữ liệu chính (ảnh thường) trong giai đoạn kiểm tra. Điều này giúp tăng độ chính xác và giảm sai số phân loại.

  3. Tại sao mạng CNN ResNet50 được ưu tiên sử dụng trong nghiên cứu này?
    ResNet50 có khả năng học đặc trưng sâu và xử lý các biến đổi phức tạp trên khuôn mặt nhờ kiến trúc residual block, giúp tránh vấn đề vanishing gradient và đạt hiệu quả cao trong phân loại cảm xúc.

  4. Cơ sở dữ liệu KTFE có đặc điểm gì nổi bật?
    KTFE bao gồm ảnh thường và ảnh nhiệt của khuôn mặt với bảy cảm xúc phổ biến, được thu thập trong môi trường kiểm soát, cung cấp dữ liệu đa dạng và chất lượng để huấn luyện và đánh giá mô hình nhận diện cảm xúc.

  5. Ứng dụng thực tiễn của mô hình nhận diện cảm xúc trong giáo dục là gì?
    Mô hình giúp người dạy nắm bắt phản hồi cảm xúc của học sinh trong lớp học truyền thống và trực tuyến, từ đó điều chỉnh phương pháp giảng dạy phù hợp, nâng cao hiệu quả học tập và tạo môi trường học tập tích cực.

Kết luận

  • Luận văn đã xây dựng thành công mô hình nhận diện cảm xúc khuôn mặt người học dựa trên kết hợp ảnh thường và ảnh nhiệt, đạt độ chính xác khoảng 90%.
  • Mạng CNN ResNet50 và phương pháp học sử dụng thông tin đặc quyền (LUPI) góp phần nâng cao hiệu quả phân loại cảm xúc.
  • Kết quả nghiên cứu khẳng định vai trò quan trọng của việc kết hợp đa dữ liệu trong nhận diện cảm xúc, đặc biệt trong môi trường giáo dục.
  • Đề xuất mở rộng cơ sở dữ liệu và ứng dụng mô hình trong lớp học thông minh và dạy học trực tuyến để nâng cao chất lượng giảng dạy.
  • Các bước tiếp theo bao gồm phát triển hệ thống thực tế, đào tạo giáo viên và nghiên cứu mở rộng các cảm xúc phức tạp hơn nhằm hoàn thiện mô hình và ứng dụng trong thực tiễn.

Hành động tiếp theo là triển khai thử nghiệm mô hình trong môi trường lớp học thực tế và phát triển phần mềm hỗ trợ giảng dạy dựa trên công nghệ nhận diện cảm xúc.