Luận văn thạc sĩ: Nghiên cứu phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong phân ...

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

1.1. Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức

1.2. Các mô hình học máy cơ bản

1.3. Ứng dụng của học máy

1.4. Tổng quan về bài toán trích chọn đặc trưng, trích chọn đặc trưng cho dữ liệu hình ảnh

1.5. Bài toán phân loại cảm xúc khuôn mặt

1.6. Những vấn đề nghiên cứu của luận văn

2. CHƯƠNG 2: NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO ẢNH

2.1. Tổng quan về trích chọn đặc trưng

2.2. Phương pháp trích chọn đặc trưng Gabor

2.3. Phương pháp trích chọn đặc trưng HoG

2.4. Phương pháp trích chọn đặc trưng LBP

3. CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM VỚI PHƯƠNG PHÁP PHÂN CỤM

3.1. Thực hiện phương pháp Gabor

3.2. Kết quả thực nghiệm với thuật toán học bán giám sát MCSSDBS, SSDBSCAN

3.3. Kết quả thực nghiệm với thuật toán K-Means và Seed K-Means

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu phương pháp trích chọn đặc trưng ảnh

Nghiên cứu về trích chọn đặc trưng ảnh là một lĩnh vực quan trọng trong khoa học máy tính, đặc biệt là trong việc phân loại cảm xúc khuôn mặt. Việc hiểu rõ về các phương pháp này giúp cải thiện độ chính xác trong nhận diện cảm xúc. Các phương pháp trích chọn đặc trưng như Gabor, HoG và LBP đã được áp dụng rộng rãi trong nhiều ứng dụng thực tiễn.

1.1. Khái niệm về trích chọn đặc trưng ảnh

Trích chọn đặc trưng ảnh là quá trình xác định và trích xuất các đặc điểm quan trọng từ ảnh để phục vụ cho việc phân loại. Điều này giúp giảm thiểu kích thước dữ liệu mà vẫn đảm bảo thông tin cần thiết cho việc phân tích.

1.2. Vai trò của trích chọn đặc trưng trong phân loại cảm xúc

Trích chọn đặc trưng đóng vai trò quan trọng trong việc phân loại cảm xúc khuôn mặt. Nó giúp hệ thống nhận diện các trạng thái cảm xúc như hạnh phúc, buồn, hay giận dữ một cách chính xác hơn.

II. Những thách thức trong nghiên cứu phân loại cảm xúc khuôn mặt

Mặc dù có nhiều tiến bộ trong phân loại cảm xúc khuôn mặt, nhưng vẫn tồn tại nhiều thách thức. Các yếu tố như ánh sáng, góc chụp và độ phân giải ảnh có thể ảnh hưởng đến độ chính xác của các phương pháp trích chọn đặc trưng.

2.1. Ảnh hưởng của điều kiện ánh sáng

Điều kiện ánh sáng không đồng nhất có thể làm giảm chất lượng ảnh, dẫn đến việc trích chọn đặc trưng không chính xác. Việc xử lý ảnh trước khi trích chọn đặc trưng là cần thiết để cải thiện kết quả.

2.2. Độ phân giải và góc chụp ảnh

Độ phân giải thấp và góc chụp không phù hợp có thể làm mất đi các đặc trưng quan trọng của khuôn mặt. Điều này gây khó khăn trong việc phân loại cảm xúc chính xác.

III. Phương pháp trích chọn đặc trưng Gabor cho ảnh khuôn mặt

Phương pháp Gabor là một trong những kỹ thuật phổ biến trong trích chọn đặc trưng ảnh. Nó sử dụng các bộ lọc Gabor để phát hiện các đặc trưng hình ảnh theo nhiều hướng và tần số khác nhau.

3.1. Nguyên lý hoạt động của bộ lọc Gabor

Bộ lọc Gabor hoạt động dựa trên nguyên lý phân tích tần số, cho phép phát hiện các đặc trưng hình ảnh theo các hướng khác nhau. Điều này giúp tăng cường khả năng nhận diện cảm xúc.

3.2. Ứng dụng của phương pháp Gabor trong phân loại cảm xúc

Phương pháp Gabor đã được áp dụng thành công trong nhiều hệ thống nhận diện cảm xúc, giúp cải thiện độ chính xác trong việc phân loại các trạng thái cảm xúc khác nhau.

IV. Phương pháp HoG trong trích chọn đặc trưng ảnh

Phương pháp Histogram of Oriented Gradients (HoG) là một kỹ thuật hiệu quả trong việc trích chọn đặc trưng cho ảnh khuôn mặt. HoG tập trung vào việc phân tích hướng của các gradient trong ảnh.

4.1. Cách thức hoạt động của HoG

HoG phân tích hướng của gradient trong các ô nhỏ của ảnh, từ đó tạo ra một biểu đồ hướng. Điều này giúp nhận diện các đặc trưng hình ảnh một cách hiệu quả.

4.2. Lợi ích của HoG trong phân loại cảm xúc

Phương pháp HoG giúp cải thiện độ chính xác trong việc phân loại cảm xúc khuôn mặt nhờ vào khả năng phát hiện các đặc trưng hình ảnh mạnh mẽ.

V. Phương pháp LBP và ứng dụng trong phân loại cảm xúc

Local Binary Patterns (LBP) là một phương pháp trích chọn đặc trưng đơn giản nhưng hiệu quả. LBP giúp phát hiện các đặc trưng bề mặt của khuôn mặt, từ đó hỗ trợ trong việc phân loại cảm xúc.

5.1. Nguyên lý hoạt động của LBP

LBP hoạt động bằng cách so sánh mỗi điểm ảnh với các điểm lân cận, từ đó tạo ra một mã nhị phân. Điều này giúp xác định các đặc trưng bề mặt của khuôn mặt.

5.2. Ứng dụng của LBP trong nhận diện cảm xúc

Phương pháp LBP đã được áp dụng trong nhiều hệ thống nhận diện cảm xúc, giúp cải thiện độ chính xác và tốc độ xử lý.

VI. Kết luận và tương lai của nghiên cứu phân loại cảm xúc khuôn mặt

Nghiên cứu về phân loại cảm xúc khuôn mặt thông qua các phương pháp trích chọn đặc trưng đang ngày càng phát triển. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều ứng dụng thực tiễn trong cuộc sống.

6.1. Xu hướng phát triển trong nghiên cứu

Các nghiên cứu hiện tại đang tập trung vào việc cải thiện độ chính xác và tốc độ của các phương pháp trích chọn đặc trưng, nhằm đáp ứng nhu cầu ngày càng cao trong các ứng dụng thực tiễn.

6.2. Ứng dụng tiềm năng trong tương lai

Các ứng dụng của phân loại cảm xúc khuôn mặt có thể mở rộng ra nhiều lĩnh vực như y tế, giáo dục và giải trí, tạo ra những cơ hội mới cho nghiên cứu và phát triển.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, việc nhận dạng và phân loại trạng thái cảm xúc khuôn mặt đóng vai trò quan trọng trong nhiều ứng dụng như tương tác người-máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi, và đánh chỉ mục ảnh/video. Theo ước tính, mỗi ngày có hàng tỷ ảnh được tạo ra và chia sẻ trên mạng, tạo ra nhu cầu cấp thiết về các phương pháp xử lý và trích chọn đặc trưng hiệu quả từ ảnh. Luận văn tập trung nghiên cứu các phương pháp trích chọn đặc trưng ảnh nhằm phục vụ bài toán phân loại trạng thái cảm xúc khuôn mặt, bao gồm các trạng thái: hạnh phúc, ngạc nhiên, ghê tởm, buồn, sợ hãi, giận dữ và bình thường.

Mục tiêu chính của nghiên cứu là xây dựng hệ thống phân loại cảm xúc khuôn mặt dựa trên các phương pháp trích chọn đặc trưng Gabor, HoG và LBP, kết hợp với các thuật toán học máy như phân cụm bán giám sát và học không giám sát. Phạm vi nghiên cứu tập trung trên dữ liệu ảnh khuôn mặt thu thập từ các bộ dữ liệu chuẩn CK+ và ITI trong khoảng thời gian gần đây, với ứng dụng hướng tới môi trường tương tác người-máy tại Việt Nam. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại cảm xúc, góp phần phát triển các hệ thống thông minh trong lĩnh vực xử lý ảnh và trí tuệ nhân tạo.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết khai phá dữ liệu (KDD) và các mô hình học máy cơ bản gồm học có giám sát, học không giám sát và học bán giám sát. Trong đó, khai phá dữ liệu được hiểu là quá trình chuyển đổi dữ liệu thô thành tri thức có giá trị thông qua các bước tiền xử lý, trích chọn đặc trưng, xây dựng mô hình và diễn giải kết quả.

Ba phương pháp trích chọn đặc trưng chính được nghiên cứu là:

Gabor: Sử dụng biến đổi dạng sóng Gaussian kết hợp sóng sin phức hợp, có khả năng trích chọn đặc trưng kết cấu ảnh, bất biến với xoay, tỷ lệ và biến đổi ảnh. Bộ lọc Gabor với 5 tần số và 8 hướng được áp dụng để tạo ra véc tơ đặc trưng có kích thước lớn, sau đó giảm chiều bằng PCA hoặc LDA.
HoG (Histogram of Gradients): Dựa trên phân bố cường độ và hướng cạnh trong ảnh, HoG chia ảnh thành các ô và khối, tính gradient theo hai hướng Ox và Oy, sau đó chuẩn hóa véc tơ đặc trưng. HoG có các biến thể như R-HoG và C-HoG, phù hợp cho nhận dạng đối tượng.
LBP (Local Binary Pattern): Mẫu nhị phân địa phương đo độ tương phản cục bộ của ảnh, bất biến với thay đổi độ sáng, tính toán nhanh và hiệu quả. LBP đồng dạng được sử dụng để giảm số lượng mẫu đặc trưng, tăng tính ổn định.

Ngoài ra, các thuật toán học máy được áp dụng gồm:

Học không giám sát: Phân cụm K-Means, DBSCAN, Fuzzy C-Means.
Học bán giám sát: Thuật toán Seed K-Means, SSDBSCAN, MCSSDBS, sử dụng một lượng nhỏ dữ liệu gán nhãn hoặc ràng buộc must-link, cannot-link để cải thiện chất lượng phân cụm.
Học có giám sát: SVM, mạng nơ ron, cây quyết định, học sâu (deep learning).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ ảnh khuôn mặt: CK+ (khoảng 593 ảnh với 7 trạng thái cảm xúc) và ITI (thu thập từ người Việt Nam, khoảng 400 ảnh). Dữ liệu được tiền xử lý bao gồm chuẩn hóa kích thước, loại bỏ nhiễu và ảnh lỗi.

Phương pháp phân tích gồm:

Trích chọn đặc trưng ảnh bằng các thuật toán Gabor, HoG, LBP trên Matlab.
Giảm chiều dữ liệu bằng PCA hoặc LDA để giảm độ phức tạp tính toán.
Áp dụng các thuật toán phân cụm bán giám sát (MCSSDBS, SSDBSCAN), học không giám sát (K-Means) và học bán giám sát (Seed K-Means) trên Java.
Đánh giá kết quả bằng chỉ số Rand Index (RI), với RI dao động từ 0 đến 1, giá trị càng cao thể hiện độ chính xác phân cụm càng tốt.

Quá trình nghiên cứu kéo dài trong khoảng thời gian từ năm 2017 đến 2018, với các bước thực hiện tuần tự từ thu thập dữ liệu, trích chọn đặc trưng, xây dựng mô hình đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp trích chọn đặc trưng Gabor: Ứng dụng bộ lọc Gabor với 5 tần số và 8 hướng, sau khi giảm chiều bằng PCA, tạo ra véc tơ đặc trưng có kích thước phù hợp cho phân cụm. Kết quả phân cụm trên bộ dữ liệu CK+ đạt chỉ số Rand Index lên đến 97% khi sử dụng thuật toán MCSSDBS với 25 nhãn lớp và 400 ràng buộc must-link. Trên bộ dữ liệu ITI, kết quả đạt khoảng 87%, cho thấy tính khả thi của phương pháp trong môi trường thực tế.
So sánh các thuật toán phân cụm: Thuật toán MCSSDBS cho kết quả phân cụm tốt nhất, đặc biệt khi chỉ sử dụng ràng buộc must-link. Thuật toán SSDBSCAN cũng đạt kết quả cao, trong khi K-Means chỉ đạt trung bình 67.6% RI sau 50 lần chạy, do phụ thuộc vào việc chọn trọng tâm ban đầu và không phù hợp với dữ liệu có phân bố không hình cầu.
Ảnh hưởng của dữ liệu gán nhãn trong phân cụm bán giám sát: Thuật toán Seed K-Means sử dụng dữ liệu gán nhãn nhưng không cải thiện đáng kể chất lượng phân cụm do phân bố dữ liệu phức tạp. Điều này cho thấy việc lựa chọn thuật toán phù hợp với đặc điểm dữ liệu là rất quan trọng.
Tính ổn định và bất biến của các phương pháp trích chọn đặc trưng: LBP thể hiện ưu điểm về tính bất biến với độ sáng ảnh, HoG cung cấp đặc trưng hình dạng hiệu quả, trong khi Gabor phù hợp với đặc trưng kết cấu và biến đổi ảnh. Việc kết hợp các phương pháp này giúp tăng độ chính xác phân loại.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy phương pháp trích chọn đặc trưng Gabor kết hợp với thuật toán phân cụm bán giám sát MCSSDBS đạt hiệu quả cao nhất, phù hợp với bài toán phân loại cảm xúc khuôn mặt. Nguyên nhân là do Gabor có khả năng trích chọn đặc trưng kết cấu phong phú, đồng thời MCSSDBS tận dụng tốt các ràng buộc must-link để cải thiện chất lượng phân cụm.

So sánh với các nghiên cứu khác trong lĩnh vực, kết quả RI đạt 97% trên CK+ là mức cao, chứng tỏ tính ứng dụng thực tiễn của phương pháp. Kết quả thấp hơn trên bộ dữ liệu ITI phản ánh sự đa dạng và phức tạp của dữ liệu thực tế, đồng thời nhấn mạnh vai trò của tiền xử lý và lựa chọn đặc trưng phù hợp.

Việc sử dụng các thuật toán học bán giám sát giúp giảm thiểu nhu cầu dữ liệu gán nhãn lớn, tiết kiệm chi phí và thời gian trong thực tế. Các biểu đồ so sánh chỉ số Rand Index giữa các thuật toán phân cụm minh họa rõ sự khác biệt về hiệu quả, hỗ trợ việc lựa chọn thuật toán phù hợp cho từng ứng dụng cụ thể.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý dữ liệu: Áp dụng các kỹ thuật lọc nhiễu, chuẩn hóa ảnh nâng cao để cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu quả trích chọn đặc trưng và phân loại. Thời gian thực hiện: 3-6 tháng, chủ thể: nhóm nghiên cứu và kỹ sư xử lý ảnh.
Kết hợp đa phương pháp trích chọn đặc trưng: Phát triển mô hình kết hợp Gabor, HoG và LBP để tận dụng ưu điểm từng phương pháp, tăng độ chính xác phân loại cảm xúc. Thời gian: 6 tháng, chủ thể: nhà nghiên cứu và lập trình viên.
Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu khuôn mặt đa dạng về độ tuổi, giới tính và điều kiện ánh sáng nhằm tăng tính tổng quát của mô hình. Thời gian: 12 tháng, chủ thể: nhóm thu thập dữ liệu và cộng tác viên.
Ứng dụng thuật toán học sâu (deep learning): Nghiên cứu và triển khai các mô hình học sâu để tự động trích chọn đặc trưng và phân loại cảm xúc, đặc biệt với dữ liệu lớn. Thời gian: 9-12 tháng, chủ thể: chuyên gia AI và kỹ sư phần mềm.
Phát triển hệ thống tương tác người-máy thực tế: Áp dụng kết quả nghiên cứu vào xây dựng hệ thống nhận dạng cảm xúc khuôn mặt trong các ứng dụng như trợ lý ảo, giám sát an ninh, và chăm sóc sức khỏe. Thời gian: 12 tháng, chủ thể: doanh nghiệp công nghệ và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về trích chọn đặc trưng ảnh và ứng dụng học máy trong phân loại cảm xúc, hỗ trợ phát triển đề tài nghiên cứu mới.
Kỹ sư phát triển phần mềm xử lý ảnh và thị giác máy tính: Tham khảo các phương pháp trích chọn đặc trưng và thuật toán phân cụm để áp dụng vào các sản phẩm nhận dạng khuôn mặt, phân tích cảm xúc.
Chuyên gia phát triển hệ thống tương tác người-máy: Sử dụng kết quả nghiên cứu để cải thiện khả năng nhận diện cảm xúc trong các ứng dụng trợ lý ảo, robot, và thiết bị thông minh.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và xử lý ảnh: Áp dụng các giải pháp trích chọn đặc trưng và phân loại cảm xúc khuôn mặt để phát triển sản phẩm mới, nâng cao trải nghiệm người dùng.

Câu hỏi thường gặp

Phương pháp trích chọn đặc trưng nào phù hợp nhất cho bài toán phân loại cảm xúc khuôn mặt?
Phương pháp Gabor cho kết quả tốt nhất trong nghiên cứu này với chỉ số Rand Index lên đến 97% trên bộ dữ liệu CK+. Gabor đặc biệt hiệu quả trong việc trích chọn đặc trưng kết cấu và có tính bất biến với biến đổi ảnh, phù hợp cho nhận dạng cảm xúc.
Tại sao thuật toán MCSSDBS lại hiệu quả hơn K-Means trong phân cụm dữ liệu ảnh?
MCSSDBS sử dụng thông tin ràng buộc must-link và cannot-link giúp hướng dẫn quá trình phân cụm, phù hợp với dữ liệu có phân bố phức tạp không hình cầu. Trong khi đó, K-Means phụ thuộc vào trọng tâm ban đầu và giả định cụm hình cầu, dẫn đến kết quả kém hơn.
Làm thế nào để giảm kích thước véc tơ đặc trưng sau khi trích chọn?
Các phương pháp giảm chiều như PCA (Phân tích thành phần chính) và LDA (Phân tích phân biệt tuyến tính) được sử dụng để giảm số chiều véc tơ đặc trưng, giúp giảm độ phức tạp tính toán mà vẫn giữ được thông tin quan trọng.
Phân loại cảm xúc khuôn mặt có thể ứng dụng trong những lĩnh vực nào?
Ứng dụng bao gồm tương tác người-máy, phân tích cảm xúc trong marketing, giám sát an ninh, phát hiện trạng thái mệt mỏi trong giao thông, video tương tác, và đánh chỉ mục ảnh/video.
Có thể áp dụng các phương pháp này cho dữ liệu video không?
Có thể. Luận văn đã trình bày việc thu thập ảnh khuôn mặt từ video, sau đó trích chọn đặc trưng và phân loại cảm xúc từng khung hình, hỗ trợ các ứng dụng phân tích video tương tác và giám sát.

Kết luận

Nghiên cứu đã thành công trong việc áp dụng các phương pháp trích chọn đặc trưng Gabor, HoG và LBP cho bài toán phân loại trạng thái cảm xúc khuôn mặt.
Thuật toán phân cụm bán giám sát MCSSDBS kết hợp với đặc trưng Gabor đạt hiệu quả cao nhất với chỉ số Rand Index lên đến 97% trên bộ dữ liệu CK+.
Kết quả thực nghiệm trên bộ dữ liệu ITI cho thấy tính khả thi của phương pháp trong môi trường thực tế đa dạng.
Luận văn đề xuất các hướng phát triển tiếp theo như kết hợp đa phương pháp trích chọn đặc trưng, mở rộng dữ liệu và ứng dụng học sâu.
Khuyến nghị triển khai các giải pháp vào hệ thống tương tác người-máy và các ứng dụng trí tuệ nhân tạo trong thực tế.

Để tiếp tục phát triển, các nhà nghiên cứu và kỹ sư nên tập trung vào cải tiến tiền xử lý dữ liệu, mở rộng tập dữ liệu huấn luyện và ứng dụng các mô hình học sâu nhằm nâng cao độ chính xác và khả năng ứng dụng của hệ thống phân loại cảm xúc khuôn mặt.

Tài liệu "Nghiên cứu phương pháp trích chọn đặc trưng ảnh cho phân loại cảm xúc khuôn mặt" tập trung vào việc phát triển các phương pháp hiệu quả để trích xuất đặc trưng từ hình ảnh khuôn mặt, nhằm cải thiện độ chính xác trong phân loại cảm xúc. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện có mà còn đề xuất những cải tiến mới, giúp người đọc hiểu rõ hơn về cách mà công nghệ có thể được áp dụng trong lĩnh vực nhận diện cảm xúc.

Đối với những ai quan tâm đến việc áp dụng các phương pháp học máy trong phân loại dữ liệu, tài liệu này mở ra nhiều cơ hội để khám phá thêm. Bạn có thể tìm hiểu thêm về các phương pháp phân lớp không cân đối cho dữ liệu giáo dục trong tài liệu Luận văn thạc sĩ khoa học máy tính bài toán phân lớp không cân đối cho dữ liệu giáo dục. Ngoài ra, tài liệu Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô cũng sẽ giúp bạn nắm bắt các kỹ thuật phân loại và gom cụm dữ liệu hiệu quả. Cuối cùng, để hiểu rõ hơn về các phương pháp học nửa giám sát, bạn có thể tham khảo tài liệu Các phương pháp học nửa giám sát và ứng dụng. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và áp dụng vào thực tiễn một cách hiệu quả hơn.

#khai phá dữ liệu

#Phương pháp HOG

#ứng dụng nhận dạng khuôn mặt

#học máy trong phân loại

#Trích chọn đặc trưng ảnh

#phân loại cảm xúc khuôn mặt

Chủ đề

tổng quan về khai phá dữ liệu

Nghiên cứu trích chọn đặc trưng ảnh

Phân loại cảm xúc khuôn mặt

Ứng dụng học máy trong nhận dạng