I. Tổng quan
Nhận dạng cảm xúc khuôn mặt người (FER) là một lĩnh vực nghiên cứu quan trọng trong công nghệ nhận diện và tương tác giữa người và máy. Việc phát hiện và phân loại cảm xúc từ khuôn mặt có ứng dụng rộng rãi trong nhiều lĩnh vực như an ninh, tâm lý học, và chăm sóc khách hàng. Các phương pháp hiện có như LBP (Local Binary Patterns) và CNN (Convolutional Neural Networks) đã chứng minh hiệu quả trong việc nâng cao độ chính xác của bài toán này. LBP có ưu điểm vượt trội trong việc trích xuất đặc trưng khuôn mặt, ít bị ảnh hưởng bởi điều kiện ánh sáng và góc nhìn. Trong khi đó, CNN cho phép xử lý dữ liệu lớn và học được các đặc trưng phức tạp từ hình ảnh. Luận văn này tập trung vào việc kết hợp LBP và CNN để cải thiện hiệu suất nhận diện cảm xúc khuôn mặt.
1.1 Giới thiệu
Nhận dạng cảm xúc khuôn mặt (FER) đóng vai trò quan trọng trong việc hiểu và tương tác với con người. Các biểu hiện cảm xúc như buồn, hạnh phúc, tức giận được thể hiện qua khuôn mặt. Paul Ekman đã xác định sáu cảm xúc cơ bản, và việc phát hiện khuôn mặt là bước đầu tiên trong quy trình nhận diện cảm xúc. Các phương pháp như Gabor Wavelet, PCA, và LDA đã được nghiên cứu, nhưng LBP nổi bật nhờ vào tốc độ xử lý nhanh và độ chính xác cao. Kết hợp với CNN, luận văn này sẽ nghiên cứu cách mà LBP có thể được sử dụng như một đặc trưng đầu vào cho CNN nhằm nâng cao khả năng nhận diện cảm xúc.
1.2 Các hướng tiếp cận
Có hai hướng tiếp cận chính trong nhận dạng cảm xúc khuôn mặt: dựa trên diện mạo và dựa trên hình học. Hướng tiếp cận dựa trên diện mạo tập trung vào việc phân tích các đặc trưng từ hình ảnh, trong khi hướng dựa trên hình học xem xét các yếu tố như vị trí và hình dạng của các bộ phận trên khuôn mặt. Hệ thống FACS (Face Action Coding System) được phát triển để phân tích các cử động cơ mặt, giúp xác định cảm xúc từ các đơn vị hành động. Nghiên cứu cho thấy LBP kết hợp với các thuật toán phân loại như SVM có thể đạt được độ chính xác cao hơn so với các phương pháp khác, cho thấy tiềm năng của LBP trong việc cải thiện hiệu suất nhận diện cảm xúc.
II. Cơ sở lý thuyết
Chương này trình bày các phương pháp phát hiện khuôn mặt và các kỹ thuật liên quan đến LBP và CNN. Các phương pháp phát hiện khuôn mặt có thể chia thành bốn hướng tiếp cận chính: dựa trên tri thức, đặc trưng không thay đổi, so khớp mẫu, và diện mạo. Hướng tiếp cận dựa trên tri thức sử dụng các luật mô tả các đặc trưng khuôn mặt, trong khi hướng so khớp mẫu dựa vào các mẫu chuẩn để xác định khuôn mặt. Hướng tiếp cận dựa trên diện mạo sử dụng các mô hình học từ tập ảnh huấn luyện. Các nghiên cứu đã chỉ ra rằng CNN có khả năng học được các đặc trưng phức tạp từ dữ liệu lớn, giúp cải thiện độ chính xác trong nhận diện cảm xúc.
2.1 Các phương pháp phát hiện khuôn mặt người
Nhiều nghiên cứu đã tìm kiếm các phương pháp xác định khuôn mặt từ ảnh xám đến ảnh màu. Các phương pháp này có thể chia thành bốn hướng tiếp cận chính: dựa trên tri thức, đặc trưng không thay đổi, so khớp mẫu, và diện mạo. Hướng tiếp cận dựa trên tri thức sử dụng các luật mô tả các đặc trưng khuôn mặt, trong khi hướng so khớp mẫu dựa vào các mẫu chuẩn để xác định khuôn mặt. Hướng tiếp cận dựa trên diện mạo sử dụng các mô hình học từ tập ảnh huấn luyện. Các nghiên cứu đã chỉ ra rằng CNN có khả năng học được các đặc trưng phức tạp từ dữ liệu lớn, giúp cải thiện độ chính xác trong nhận diện cảm xúc.
2.2 Hướng tiếp cận dựa trên tri thức
Hướng tiếp cận này dựa vào tri thức của con người để xây dựng các luật mô tả các đặc trưng khuôn mặt. Các luật này có thể mô tả các quan hệ giữa các đặc trưng như khoảng cách và vị trí. Tuy nhiên, việc chuyển đổi tri thức con người thành các luật có thể gặp khó khăn, đặc biệt khi cần mở rộng để xác định các khuôn mặt ở nhiều tư thế khác nhau. Các nghiên cứu đã chỉ ra rằng việc sử dụng các luật mô tả có thể giúp xác định khuôn mặt, nhưng độ chính xác vẫn chưa cao. Hệ thống đa độ phân giải đã được đề xuất để cải thiện khả năng xác định khuôn mặt.
III. Xây dựng thuật giải
Chương này tập trung vào việc xây dựng thuật toán nhận diện cảm xúc khuôn mặt dựa trên LBP và CNN. Đầu tiên, việc xác định vị trí khuôn mặt là rất quan trọng, và thuật toán Viola-Jones được sử dụng để phát hiện khuôn mặt trong ảnh. Sau khi xác định được khuôn mặt, đặc trưng LBP sẽ được trích xuất để sử dụng làm đầu vào cho CNN. Mô hình CNN sẽ được thiết kế để phân loại các cảm xúc từ các đặc trưng đã trích xuất. Việc tối ưu hóa mô hình cũng sẽ được thực hiện để đạt được hiệu suất cao nhất trong việc nhận diện cảm xúc.
3.1 Xác định vị trí khuôn mặt
Xác định vị trí khuôn mặt là bước đầu tiên trong quy trình nhận diện cảm xúc. Thuật toán Viola-Jones được sử dụng để phát hiện khuôn mặt trong ảnh với độ chính xác cao và thời gian xử lý nhanh. Phương pháp này cho phép xác định khuôn mặt được chụp thẳng, giúp giảm thiểu các yếu tố gây nhiễu từ môi trường xung quanh. Sau khi xác định được khuôn mặt, các bước tiếp theo sẽ tập trung vào việc trích xuất đặc trưng và phân loại cảm xúc.
3.2 Trích đặc trưng LBP
Trích đặc trưng LBP là một bước quan trọng trong quy trình nhận diện cảm xúc. LBP giúp tạo ra các đặc trưng mạnh mẽ từ hình ảnh khuôn mặt, ít bị ảnh hưởng bởi điều kiện ánh sáng và góc nhìn. Quá trình trích xuất này bao gồm việc chuyển đổi hình ảnh thành các mẫu nhị phân, từ đó tạo ra các đặc trưng có thể được sử dụng trong mô hình CNN. Việc sử dụng LBP không chỉ giúp cải thiện độ chính xác mà còn tăng tốc độ xử lý, cho phép hệ thống hoạt động hiệu quả hơn trong các tình huống thực tế.