## Tổng quan nghiên cứu

Trong kỷ nguyên công nghiệp 4.0, việc trao đổi thông tin giữa con người và máy móc ngày càng trở nên quan trọng, đặc biệt trong lĩnh vực nhận dạng cảm xúc qua biểu hiện khuôn mặt. Theo ước tính, biểu hiện khuôn mặt chiếm tới 55% cơ sở để con người hiểu nhau trong giao tiếp xã hội. Tuy nhiên, việc máy tính nhận diện cảm xúc dựa trên ảnh thường gặp nhiều khó khăn do ảnh thường bị ảnh hưởng bởi điều kiện ánh sáng, màu da và biểu cảm không rõ ràng. Để khắc phục, nghiên cứu này tập trung xây dựng mô hình kết hợp ảnh thường và ảnh nhiệt nhằm ước lượng cảm xúc con người chính xác hơn. Mục tiêu cụ thể là phát triển mô hình đa nguồn dữ liệu, nhận dạng bảy cảm xúc cơ bản: giận dữ, ghê tởm, sợ hãi, hạnh phúc, bình thường, buồn rầu và ngạc nhiên, dựa trên cơ sở dữ liệu KTFE thu thập từ 30 đối tượng đa quốc tịch trong khoảng tuổi 11-32. Nghiên cứu có ý nghĩa khoa học trong việc phát triển các mô hình học sâu đa nguồn dữ liệu, đồng thời có ý nghĩa thực tiễn trong ứng dụng trí tuệ nhân tạo phục vụ giao tiếp người-máy và các lĩnh vực tâm lý học, an ninh, y tế.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơ-ron tích chập (CNN):** Là mô hình học sâu phổ biến trong nhận dạng hình ảnh, CNN gồm các lớp tích chập, lớp pooling và lớp fully connected, giúp trích xuất đặc trưng hình ảnh hiệu quả.
- **Học chuyển giao (Transfer Learning):** Kỹ thuật tái sử dụng mô hình đã được huấn luyện trên bộ dữ liệu lớn (ImageNet) để tăng tốc độ và độ chính xác khi huấn luyện trên bộ dữ liệu nhỏ hơn.
- **Mạng Residual Network (ResNet):** Giải quyết vấn đề suy thoái độ chính xác khi tăng số lớp mạng bằng cách sử dụng các residual block với kết nối bỏ qua, giúp mô hình sâu hơn và hiệu quả hơn.
- **Các khái niệm chính:** Đặc trưng hình học khuôn mặt, đặc trưng xuất hiện (LBP, HOG), ảnh nhiệt hồng ngoại, đơn vị hành động mặt (AU), độ đo đánh giá mô hình phân lớp (Precision, Recall, F1-Score).

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng cơ sở dữ liệu Kotani Thermal Facial Emotion (KTFE) gồm 130 GB dữ liệu video ảnh thường và ảnh nhiệt của 30 đối tượng với 7 cảm xúc.
- **Phương pháp phân tích:** 
  - Tiền xử lý ảnh: cắt vùng khuôn mặt ảnh thường bằng thuật toán Viola-Jones, loại bỏ vùng nền ảnh nhiệt dựa trên nhiệt độ ≥ 30°C.
  - Huấn luyện mô hình CNN ResNet-50 với kỹ thuật học chuyển giao và fine-tune toàn bộ mạng.
  - Tăng cường dữ liệu (data augmentation) bằng các phép biến đổi ảnh như lật, phóng to, dịch chuyển.
  - Kết hợp kết quả phân lớp từ hai mô hình riêng biệt trên ảnh thường và ảnh nhiệt bằng công thức tuyến tính dựa trên F1-Score và xác suất Softmax.
- **Timeline nghiên cứu:** Thu thập và xử lý dữ liệu, xây dựng mô hình, huấn luyện và đánh giá trên tập dữ liệu chia theo tỷ lệ 80% huấn luyện và 20% kiểm tra.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Vi-Resnet-50 (ảnh thường) đạt độ chính xác phân lớp trung bình khoảng 89%, trong đó cảm xúc hạnh phúc đạt 92.25%, buồn rầu 93.13%, sợ hãi 90%, còn giận dữ, ghê tởm và bình thường dao động từ 86.87% đến 88.41%.
- Mô hình Ther-Resnet-50 (ảnh nhiệt) cũng cho kết quả khả quan với độ chính xác cao hơn trong các trường hợp thiếu ánh sáng hoặc biểu cảm không rõ ràng.
- Mô hình kết hợp Fu-Resnet-50 cho thấy cải thiện rõ rệt về độ chính xác, vượt trội hơn so với từng mô hình đơn lẻ, với F1-Score tăng trung bình khoảng 3-5%.
- So sánh với các phương pháp truyền thống như PCA, EMC và SVM trên cùng bộ dữ liệu KTFE, mô hình đề xuất đạt tỷ lệ công nhận cao hơn, ví dụ phương pháp PCA-EMC đạt 90.42% trong khi mô hình kết hợp đạt trên 93%.

### Thảo luận kết quả

- Việc kết hợp ảnh thường và ảnh nhiệt giúp khắc phục hạn chế của từng loại ảnh riêng biệt, đặc biệt ảnh nhiệt không bị ảnh hưởng bởi điều kiện ánh sáng và phản ánh sự thay đổi vật lý nhiệt độ trên khuôn mặt liên quan đến cảm xúc.
- Kết quả cho thấy mô hình học sâu ResNet-50 với học chuyển giao và fine-tune phù hợp với bài toán nhận dạng cảm xúc đa nguồn dữ liệu, tăng độ chính xác và khả năng tổng quát hóa.
- So với các nghiên cứu trước đây chỉ sử dụng ảnh thường hoặc ảnh nhiệt riêng lẻ, mô hình kết hợp mang lại hiệu quả vượt trội, phù hợp với các ứng dụng thực tế trong môi trường đa dạng.
- Dữ liệu thử nghiệm được trình bày qua bảng so sánh độ chính xác, precision, recall và F1-Score cho từng cảm xúc, minh họa rõ sự cải thiện khi sử dụng mô hình kết hợp.

## Đề xuất và khuyến nghị

- **Phát triển thêm cơ sở dữ liệu đa dạng:** Mở rộng số lượng đối tượng và cảm xúc, bổ sung dữ liệu trong điều kiện môi trường khác nhau để tăng tính đại diện và độ chính xác mô hình.
- **Tối ưu mô hình học sâu:** Áp dụng các kiến trúc mạng mới hơn, kỹ thuật regularization và fine-tune sâu hơn để nâng cao hiệu suất nhận dạng.
- **Ứng dụng trong thực tế:** Triển khai mô hình vào các hệ thống giao tiếp người-máy, giám sát an ninh, chăm sóc sức khỏe tâm lý với mục tiêu tăng độ chính xác nhận dạng cảm xúc trên 95% trong vòng 1-2 năm.
- **Nghiên cứu kết hợp đa cảm biến:** Kết hợp thêm dữ liệu âm thanh, sinh trắc học để cải thiện khả năng nhận diện cảm xúc toàn diện.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho các nhà nghiên cứu và doanh nghiệp về ứng dụng mô hình học sâu trong nhận dạng cảm xúc, thúc đẩy ứng dụng rộng rãi.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Thị giác máy tính:** Học hỏi phương pháp xây dựng mô hình học sâu kết hợp đa nguồn dữ liệu, kỹ thuật học chuyển giao và fine-tune.
- **Chuyên gia tâm lý học và y tế:** Áp dụng mô hình nhận dạng cảm xúc để hỗ trợ chẩn đoán và theo dõi trạng thái tâm lý bệnh nhân.
- **Doanh nghiệp phát triển công nghệ AI và robot:** Nâng cao khả năng tương tác người-máy thông qua nhận dạng cảm xúc chính xác, cải thiện trải nghiệm người dùng.
- **Cơ quan an ninh và giám sát:** Ứng dụng công nghệ nhận dạng cảm xúc trong giám sát hành vi, phát hiện tình huống bất thường.

## Câu hỏi thường gặp

1. **Mô hình kết hợp ảnh thường và ảnh nhiệt có ưu điểm gì?**  
   Mô hình kết hợp tận dụng ưu điểm của ảnh nhiệt không bị ảnh hưởng bởi ánh sáng và ảnh thường có độ phân giải cao, giúp nhận dạng cảm xúc chính xác hơn trong nhiều điều kiện.

2. **Tại sao sử dụng ResNet-50 trong nghiên cứu?**  
   ResNet-50 giải quyết vấn đề suy thoái khi tăng số lớp mạng, giúp mô hình sâu hơn mà không giảm hiệu suất, phù hợp với bài toán nhận dạng cảm xúc phức tạp.

3. **Cơ sở dữ liệu KTFE có điểm gì nổi bật?**  
   KTFE chứa dữ liệu ảnh thường và ảnh nhiệt đồng thời, với 7 cảm xúc tự phát từ 30 đối tượng đa quốc tịch, giúp nghiên cứu thực tế và đa dạng hơn.

4. **Phương pháp học chuyển giao được áp dụng như thế nào?**  
   Mô hình ResNet-50 được khởi tạo từ trọng số đã huấn luyện trên ImageNet, sau đó fine-tune toàn bộ mạng trên bộ dữ liệu KTFE để tăng độ chính xác và giảm thời gian huấn luyện.

5. **Làm thế nào để cải thiện độ chính xác mô hình trong tương lai?**  
   Có thể mở rộng dữ liệu, áp dụng kiến trúc mạng mới, kết hợp đa cảm biến và tối ưu thuật toán học sâu để nâng cao hiệu quả nhận dạng cảm xúc.

## Kết luận

- Đã xây dựng thành công mô hình kết hợp ảnh thường và ảnh nhiệt sử dụng mạng học sâu ResNet-50 để ước lượng cảm xúc con người với độ chính xác cao.  
- Mô hình kết hợp vượt trội hơn so với mô hình đơn lẻ và các phương pháp truyền thống, đạt F1-Score trên 90% cho 7 cảm xúc cơ bản.  
- Cơ sở dữ liệu KTFE được khai thác hiệu quả, cung cấp nền tảng dữ liệu đa dạng và thực tế cho nghiên cứu.  
- Kết quả nghiên cứu có ý nghĩa khoa học và thực tiễn, mở ra hướng phát triển ứng dụng trí tuệ nhân tạo trong giao tiếp người-máy và các lĩnh vực liên quan.  
- Đề xuất các hướng nghiên cứu tiếp theo nhằm nâng cao độ chính xác và mở rộng ứng dụng trong tương lai gần.  

Hãy tiếp tục nghiên cứu và ứng dụng mô hình để góp phần phát triển công nghệ nhận dạng cảm xúc đa nguồn dữ liệu trong kỷ nguyên số.