Tổng quan nghiên cứu

Trong bối cảnh hiện nay, việc nhận dạng và phân loại trạng thái cảm xúc khuôn mặt đóng vai trò quan trọng trong nhiều ứng dụng như tương tác người-máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi, và đánh chỉ mục ảnh/video. Theo ước tính, mỗi ngày có hàng tỷ ảnh được tạo ra và chia sẻ trên mạng, tạo ra nhu cầu cấp thiết về các phương pháp xử lý và trích chọn đặc trưng hiệu quả từ ảnh. Luận văn tập trung nghiên cứu các phương pháp trích chọn đặc trưng ảnh nhằm phục vụ bài toán phân loại trạng thái cảm xúc khuôn mặt, bao gồm các trạng thái: hạnh phúc, ngạc nhiên, ghê tởm, buồn, sợ hãi, giận dữ và bình thường.

Mục tiêu chính của nghiên cứu là xây dựng hệ thống phân loại cảm xúc khuôn mặt dựa trên các phương pháp trích chọn đặc trưng Gabor, HoG và LBP, kết hợp với các thuật toán học máy như phân cụm bán giám sát và học không giám sát. Phạm vi nghiên cứu tập trung trên dữ liệu ảnh khuôn mặt thu thập từ các bộ dữ liệu chuẩn CK+ và ITI trong khoảng thời gian gần đây, với ứng dụng hướng tới môi trường tương tác người-máy tại Việt Nam. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại cảm xúc, góp phần phát triển các hệ thống thông minh trong lĩnh vực xử lý ảnh và trí tuệ nhân tạo.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết khai phá dữ liệu (KDD) và các mô hình học máy cơ bản gồm học có giám sát, học không giám sát và học bán giám sát. Trong đó, khai phá dữ liệu được hiểu là quá trình chuyển đổi dữ liệu thô thành tri thức có giá trị thông qua các bước tiền xử lý, trích chọn đặc trưng, xây dựng mô hình và diễn giải kết quả.

Ba phương pháp trích chọn đặc trưng chính được nghiên cứu là:

  • Gabor: Sử dụng biến đổi dạng sóng Gaussian kết hợp sóng sin phức hợp, có khả năng trích chọn đặc trưng kết cấu ảnh, bất biến với xoay, tỷ lệ và biến đổi ảnh. Bộ lọc Gabor với 5 tần số và 8 hướng được áp dụng để tạo ra véc tơ đặc trưng có kích thước lớn, sau đó giảm chiều bằng PCA hoặc LDA.

  • HoG (Histogram of Gradients): Dựa trên phân bố cường độ và hướng cạnh trong ảnh, HoG chia ảnh thành các ô và khối, tính gradient theo hai hướng Ox và Oy, sau đó chuẩn hóa véc tơ đặc trưng. HoG có các biến thể như R-HoG và C-HoG, phù hợp cho nhận dạng đối tượng.

  • LBP (Local Binary Pattern): Mẫu nhị phân địa phương đo độ tương phản cục bộ của ảnh, bất biến với thay đổi độ sáng, tính toán nhanh và hiệu quả. LBP đồng dạng được sử dụng để giảm số lượng mẫu đặc trưng, tăng tính ổn định.

Ngoài ra, các thuật toán học máy được áp dụng gồm:

  • Học không giám sát: Phân cụm K-Means, DBSCAN, Fuzzy C-Means.

  • Học bán giám sát: Thuật toán Seed K-Means, SSDBSCAN, MCSSDBS, sử dụng một lượng nhỏ dữ liệu gán nhãn hoặc ràng buộc must-link, cannot-link để cải thiện chất lượng phân cụm.

  • Học có giám sát: SVM, mạng nơ ron, cây quyết định, học sâu (deep learning).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ ảnh khuôn mặt: CK+ (khoảng 593 ảnh với 7 trạng thái cảm xúc) và ITI (thu thập từ người Việt Nam, khoảng 400 ảnh). Dữ liệu được tiền xử lý bao gồm chuẩn hóa kích thước, loại bỏ nhiễu và ảnh lỗi.

Phương pháp phân tích gồm:

  • Trích chọn đặc trưng ảnh bằng các thuật toán Gabor, HoG, LBP trên Matlab.

  • Giảm chiều dữ liệu bằng PCA hoặc LDA để giảm độ phức tạp tính toán.

  • Áp dụng các thuật toán phân cụm bán giám sát (MCSSDBS, SSDBSCAN), học không giám sát (K-Means) và học bán giám sát (Seed K-Means) trên Java.

  • Đánh giá kết quả bằng chỉ số Rand Index (RI), với RI dao động từ 0 đến 1, giá trị càng cao thể hiện độ chính xác phân cụm càng tốt.

Quá trình nghiên cứu kéo dài trong khoảng thời gian từ năm 2017 đến 2018, với các bước thực hiện tuần tự từ thu thập dữ liệu, trích chọn đặc trưng, xây dựng mô hình đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của phương pháp trích chọn đặc trưng Gabor: Ứng dụng bộ lọc Gabor với 5 tần số và 8 hướng, sau khi giảm chiều bằng PCA, tạo ra véc tơ đặc trưng có kích thước phù hợp cho phân cụm. Kết quả phân cụm trên bộ dữ liệu CK+ đạt chỉ số Rand Index lên đến 97% khi sử dụng thuật toán MCSSDBS với 25 nhãn lớp và 400 ràng buộc must-link. Trên bộ dữ liệu ITI, kết quả đạt khoảng 87%, cho thấy tính khả thi của phương pháp trong môi trường thực tế.

  2. So sánh các thuật toán phân cụm: Thuật toán MCSSDBS cho kết quả phân cụm tốt nhất, đặc biệt khi chỉ sử dụng ràng buộc must-link. Thuật toán SSDBSCAN cũng đạt kết quả cao, trong khi K-Means chỉ đạt trung bình 67.6% RI sau 50 lần chạy, do phụ thuộc vào việc chọn trọng tâm ban đầu và không phù hợp với dữ liệu có phân bố không hình cầu.

  3. Ảnh hưởng của dữ liệu gán nhãn trong phân cụm bán giám sát: Thuật toán Seed K-Means sử dụng dữ liệu gán nhãn nhưng không cải thiện đáng kể chất lượng phân cụm do phân bố dữ liệu phức tạp. Điều này cho thấy việc lựa chọn thuật toán phù hợp với đặc điểm dữ liệu là rất quan trọng.

  4. Tính ổn định và bất biến của các phương pháp trích chọn đặc trưng: LBP thể hiện ưu điểm về tính bất biến với độ sáng ảnh, HoG cung cấp đặc trưng hình dạng hiệu quả, trong khi Gabor phù hợp với đặc trưng kết cấu và biến đổi ảnh. Việc kết hợp các phương pháp này giúp tăng độ chính xác phân loại.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy phương pháp trích chọn đặc trưng Gabor kết hợp với thuật toán phân cụm bán giám sát MCSSDBS đạt hiệu quả cao nhất, phù hợp với bài toán phân loại cảm xúc khuôn mặt. Nguyên nhân là do Gabor có khả năng trích chọn đặc trưng kết cấu phong phú, đồng thời MCSSDBS tận dụng tốt các ràng buộc must-link để cải thiện chất lượng phân cụm.

So sánh với các nghiên cứu khác trong lĩnh vực, kết quả RI đạt 97% trên CK+ là mức cao, chứng tỏ tính ứng dụng thực tiễn của phương pháp. Kết quả thấp hơn trên bộ dữ liệu ITI phản ánh sự đa dạng và phức tạp của dữ liệu thực tế, đồng thời nhấn mạnh vai trò của tiền xử lý và lựa chọn đặc trưng phù hợp.

Việc sử dụng các thuật toán học bán giám sát giúp giảm thiểu nhu cầu dữ liệu gán nhãn lớn, tiết kiệm chi phí và thời gian trong thực tế. Các biểu đồ so sánh chỉ số Rand Index giữa các thuật toán phân cụm minh họa rõ sự khác biệt về hiệu quả, hỗ trợ việc lựa chọn thuật toán phù hợp cho từng ứng dụng cụ thể.

Đề xuất và khuyến nghị

  1. Tăng cường tiền xử lý dữ liệu: Áp dụng các kỹ thuật lọc nhiễu, chuẩn hóa ảnh nâng cao để cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu quả trích chọn đặc trưng và phân loại. Thời gian thực hiện: 3-6 tháng, chủ thể: nhóm nghiên cứu và kỹ sư xử lý ảnh.

  2. Kết hợp đa phương pháp trích chọn đặc trưng: Phát triển mô hình kết hợp Gabor, HoG và LBP để tận dụng ưu điểm từng phương pháp, tăng độ chính xác phân loại cảm xúc. Thời gian: 6 tháng, chủ thể: nhà nghiên cứu và lập trình viên.

  3. Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu khuôn mặt đa dạng về độ tuổi, giới tính và điều kiện ánh sáng nhằm tăng tính tổng quát của mô hình. Thời gian: 12 tháng, chủ thể: nhóm thu thập dữ liệu và cộng tác viên.

  4. Ứng dụng thuật toán học sâu (deep learning): Nghiên cứu và triển khai các mô hình học sâu để tự động trích chọn đặc trưng và phân loại cảm xúc, đặc biệt với dữ liệu lớn. Thời gian: 9-12 tháng, chủ thể: chuyên gia AI và kỹ sư phần mềm.

  5. Phát triển hệ thống tương tác người-máy thực tế: Áp dụng kết quả nghiên cứu vào xây dựng hệ thống nhận dạng cảm xúc khuôn mặt trong các ứng dụng như trợ lý ảo, giám sát an ninh, và chăm sóc sức khỏe. Thời gian: 12 tháng, chủ thể: doanh nghiệp công nghệ và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về trích chọn đặc trưng ảnh và ứng dụng học máy trong phân loại cảm xúc, hỗ trợ phát triển đề tài nghiên cứu mới.

  2. Kỹ sư phát triển phần mềm xử lý ảnh và thị giác máy tính: Tham khảo các phương pháp trích chọn đặc trưng và thuật toán phân cụm để áp dụng vào các sản phẩm nhận dạng khuôn mặt, phân tích cảm xúc.

  3. Chuyên gia phát triển hệ thống tương tác người-máy: Sử dụng kết quả nghiên cứu để cải thiện khả năng nhận diện cảm xúc trong các ứng dụng trợ lý ảo, robot, và thiết bị thông minh.

  4. Doanh nghiệp công nghệ và startup trong lĩnh vực AI và xử lý ảnh: Áp dụng các giải pháp trích chọn đặc trưng và phân loại cảm xúc khuôn mặt để phát triển sản phẩm mới, nâng cao trải nghiệm người dùng.

Câu hỏi thường gặp

  1. Phương pháp trích chọn đặc trưng nào phù hợp nhất cho bài toán phân loại cảm xúc khuôn mặt?
    Phương pháp Gabor cho kết quả tốt nhất trong nghiên cứu này với chỉ số Rand Index lên đến 97% trên bộ dữ liệu CK+. Gabor đặc biệt hiệu quả trong việc trích chọn đặc trưng kết cấu và có tính bất biến với biến đổi ảnh, phù hợp cho nhận dạng cảm xúc.

  2. Tại sao thuật toán MCSSDBS lại hiệu quả hơn K-Means trong phân cụm dữ liệu ảnh?
    MCSSDBS sử dụng thông tin ràng buộc must-link và cannot-link giúp hướng dẫn quá trình phân cụm, phù hợp với dữ liệu có phân bố phức tạp không hình cầu. Trong khi đó, K-Means phụ thuộc vào trọng tâm ban đầu và giả định cụm hình cầu, dẫn đến kết quả kém hơn.

  3. Làm thế nào để giảm kích thước véc tơ đặc trưng sau khi trích chọn?
    Các phương pháp giảm chiều như PCA (Phân tích thành phần chính) và LDA (Phân tích phân biệt tuyến tính) được sử dụng để giảm số chiều véc tơ đặc trưng, giúp giảm độ phức tạp tính toán mà vẫn giữ được thông tin quan trọng.

  4. Phân loại cảm xúc khuôn mặt có thể ứng dụng trong những lĩnh vực nào?
    Ứng dụng bao gồm tương tác người-máy, phân tích cảm xúc trong marketing, giám sát an ninh, phát hiện trạng thái mệt mỏi trong giao thông, video tương tác, và đánh chỉ mục ảnh/video.

  5. Có thể áp dụng các phương pháp này cho dữ liệu video không?
    Có thể. Luận văn đã trình bày việc thu thập ảnh khuôn mặt từ video, sau đó trích chọn đặc trưng và phân loại cảm xúc từng khung hình, hỗ trợ các ứng dụng phân tích video tương tác và giám sát.

Kết luận

  • Nghiên cứu đã thành công trong việc áp dụng các phương pháp trích chọn đặc trưng Gabor, HoG và LBP cho bài toán phân loại trạng thái cảm xúc khuôn mặt.
  • Thuật toán phân cụm bán giám sát MCSSDBS kết hợp với đặc trưng Gabor đạt hiệu quả cao nhất với chỉ số Rand Index lên đến 97% trên bộ dữ liệu CK+.
  • Kết quả thực nghiệm trên bộ dữ liệu ITI cho thấy tính khả thi của phương pháp trong môi trường thực tế đa dạng.
  • Luận văn đề xuất các hướng phát triển tiếp theo như kết hợp đa phương pháp trích chọn đặc trưng, mở rộng dữ liệu và ứng dụng học sâu.
  • Khuyến nghị triển khai các giải pháp vào hệ thống tương tác người-máy và các ứng dụng trí tuệ nhân tạo trong thực tế.

Để tiếp tục phát triển, các nhà nghiên cứu và kỹ sư nên tập trung vào cải tiến tiền xử lý dữ liệu, mở rộng tập dữ liệu huấn luyện và ứng dụng các mô hình học sâu nhằm nâng cao độ chính xác và khả năng ứng dụng của hệ thống phân loại cảm xúc khuôn mặt.