Luận Văn Thạc Sĩ: Ứng Dụng LBP và CNN Cho Bài Toán Nhận Diện Cảm Xúc Khuôn Mặt Người

Trường đại học

Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Các hướng tiếp cận

1.2. Khó khăn và thách thức

1.3. Đề xuất hướng giải quyết

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Các phương pháp phát hiện khuôn mặt người

2.1.1. Hướng tiếp cận dựa trên tri thức

2.1.2. Hướng tiếp cận dựa trên so khớp mẫu

2.1.3. Hướng tiếp cận dựa trên diện mạo

2.2. Mạng nơ-ron tích chập

2.2.1. Tổng quan mạng nơ-ron nhân tạo

2.2.2. Mạng nơ-ron tích chập

3. CHƯƠNG 3: XÂY DỰNG THUẬT GIẢI

3.1. Xác định vị trí khuôn mặt

3.2. Trích đặc trưng LBP

3.3. Mô hình CNN với đặc trưng LBP

4. CHƯƠNG 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN

4.1. Cơ sở dữ liệu

4.1.1. Cơ sở dữ liệu CK+

4.1.2. Cơ sở dữ liệu FER2013

4.2. Môi trường thực nghiệm

4.3. Thiết kế thực nghiệm

4.3.1. Cơ sở dữ liệu CK+

4.3.2. Cơ sở dữ liệu FER2013

4.4. Hướng phát triển

Tài liệu tham khảo

Tóm tắt

I. Tổng quan

Nhận dạng cảm xúc khuôn mặt người (FER) là một lĩnh vực nghiên cứu quan trọng trong công nghệ nhận diện và tương tác giữa người và máy. Việc phát hiện và phân loại cảm xúc từ khuôn mặt có ứng dụng rộng rãi trong nhiều lĩnh vực như an ninh, tâm lý học, và chăm sóc khách hàng. Các phương pháp hiện có như LBP (Local Binary Patterns) và CNN (Convolutional Neural Networks) đã chứng minh hiệu quả trong việc nâng cao độ chính xác của bài toán này. LBP có ưu điểm vượt trội trong việc trích xuất đặc trưng khuôn mặt, ít bị ảnh hưởng bởi điều kiện ánh sáng và góc nhìn. Trong khi đó, CNN cho phép xử lý dữ liệu lớn và học được các đặc trưng phức tạp từ hình ảnh. Luận văn này tập trung vào việc kết hợp LBP và CNN để cải thiện hiệu suất nhận diện cảm xúc khuôn mặt.

1.1 Giới thiệu

Nhận dạng cảm xúc khuôn mặt (FER) đóng vai trò quan trọng trong việc hiểu và tương tác với con người. Các biểu hiện cảm xúc như buồn, hạnh phúc, tức giận được thể hiện qua khuôn mặt. Paul Ekman đã xác định sáu cảm xúc cơ bản, và việc phát hiện khuôn mặt là bước đầu tiên trong quy trình nhận diện cảm xúc. Các phương pháp như Gabor Wavelet, PCA, và LDA đã được nghiên cứu, nhưng LBP nổi bật nhờ vào tốc độ xử lý nhanh và độ chính xác cao. Kết hợp với CNN, luận văn này sẽ nghiên cứu cách mà LBP có thể được sử dụng như một đặc trưng đầu vào cho CNN nhằm nâng cao khả năng nhận diện cảm xúc.

1.2 Các hướng tiếp cận

Có hai hướng tiếp cận chính trong nhận dạng cảm xúc khuôn mặt: dựa trên diện mạo và dựa trên hình học. Hướng tiếp cận dựa trên diện mạo tập trung vào việc phân tích các đặc trưng từ hình ảnh, trong khi hướng dựa trên hình học xem xét các yếu tố như vị trí và hình dạng của các bộ phận trên khuôn mặt. Hệ thống FACS (Face Action Coding System) được phát triển để phân tích các cử động cơ mặt, giúp xác định cảm xúc từ các đơn vị hành động. Nghiên cứu cho thấy LBP kết hợp với các thuật toán phân loại như SVM có thể đạt được độ chính xác cao hơn so với các phương pháp khác, cho thấy tiềm năng của LBP trong việc cải thiện hiệu suất nhận diện cảm xúc.

II. Cơ sở lý thuyết

Chương này trình bày các phương pháp phát hiện khuôn mặt và các kỹ thuật liên quan đến LBP và CNN. Các phương pháp phát hiện khuôn mặt có thể chia thành bốn hướng tiếp cận chính: dựa trên tri thức, đặc trưng không thay đổi, so khớp mẫu, và diện mạo. Hướng tiếp cận dựa trên tri thức sử dụng các luật mô tả các đặc trưng khuôn mặt, trong khi hướng so khớp mẫu dựa vào các mẫu chuẩn để xác định khuôn mặt. Hướng tiếp cận dựa trên diện mạo sử dụng các mô hình học từ tập ảnh huấn luyện. Các nghiên cứu đã chỉ ra rằng CNN có khả năng học được các đặc trưng phức tạp từ dữ liệu lớn, giúp cải thiện độ chính xác trong nhận diện cảm xúc.

2.1 Các phương pháp phát hiện khuôn mặt người

Nhiều nghiên cứu đã tìm kiếm các phương pháp xác định khuôn mặt từ ảnh xám đến ảnh màu. Các phương pháp này có thể chia thành bốn hướng tiếp cận chính: dựa trên tri thức, đặc trưng không thay đổi, so khớp mẫu, và diện mạo. Hướng tiếp cận dựa trên tri thức sử dụng các luật mô tả các đặc trưng khuôn mặt, trong khi hướng so khớp mẫu dựa vào các mẫu chuẩn để xác định khuôn mặt. Hướng tiếp cận dựa trên diện mạo sử dụng các mô hình học từ tập ảnh huấn luyện. Các nghiên cứu đã chỉ ra rằng CNN có khả năng học được các đặc trưng phức tạp từ dữ liệu lớn, giúp cải thiện độ chính xác trong nhận diện cảm xúc.

2.2 Hướng tiếp cận dựa trên tri thức

Hướng tiếp cận này dựa vào tri thức của con người để xây dựng các luật mô tả các đặc trưng khuôn mặt. Các luật này có thể mô tả các quan hệ giữa các đặc trưng như khoảng cách và vị trí. Tuy nhiên, việc chuyển đổi tri thức con người thành các luật có thể gặp khó khăn, đặc biệt khi cần mở rộng để xác định các khuôn mặt ở nhiều tư thế khác nhau. Các nghiên cứu đã chỉ ra rằng việc sử dụng các luật mô tả có thể giúp xác định khuôn mặt, nhưng độ chính xác vẫn chưa cao. Hệ thống đa độ phân giải đã được đề xuất để cải thiện khả năng xác định khuôn mặt.

III. Xây dựng thuật giải

Chương này tập trung vào việc xây dựng thuật toán nhận diện cảm xúc khuôn mặt dựa trên LBP và CNN. Đầu tiên, việc xác định vị trí khuôn mặt là rất quan trọng, và thuật toán Viola-Jones được sử dụng để phát hiện khuôn mặt trong ảnh. Sau khi xác định được khuôn mặt, đặc trưng LBP sẽ được trích xuất để sử dụng làm đầu vào cho CNN. Mô hình CNN sẽ được thiết kế để phân loại các cảm xúc từ các đặc trưng đã trích xuất. Việc tối ưu hóa mô hình cũng sẽ được thực hiện để đạt được hiệu suất cao nhất trong việc nhận diện cảm xúc.

3.1 Xác định vị trí khuôn mặt

Xác định vị trí khuôn mặt là bước đầu tiên trong quy trình nhận diện cảm xúc. Thuật toán Viola-Jones được sử dụng để phát hiện khuôn mặt trong ảnh với độ chính xác cao và thời gian xử lý nhanh. Phương pháp này cho phép xác định khuôn mặt được chụp thẳng, giúp giảm thiểu các yếu tố gây nhiễu từ môi trường xung quanh. Sau khi xác định được khuôn mặt, các bước tiếp theo sẽ tập trung vào việc trích xuất đặc trưng và phân loại cảm xúc.

3.2 Trích đặc trưng LBP

Trích đặc trưng LBP là một bước quan trọng trong quy trình nhận diện cảm xúc. LBP giúp tạo ra các đặc trưng mạnh mẽ từ hình ảnh khuôn mặt, ít bị ảnh hưởng bởi điều kiện ánh sáng và góc nhìn. Quá trình trích xuất này bao gồm việc chuyển đổi hình ảnh thành các mẫu nhị phân, từ đó tạo ra các đặc trưng có thể được sử dụng trong mô hình CNN. Việc sử dụng LBP không chỉ giúp cải thiện độ chính xác mà còn tăng tốc độ xử lý, cho phép hệ thống hoạt động hiệu quả hơn trong các tình huống thực tế.

01/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng lbp cnn cho bài toán nhận diện cảm xúc mặt người

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng cảm xúc mặt người (Facial Expression Recognition – FER) là lĩnh vực nghiên cứu quan trọng trong tương tác người-máy, an ninh, tâm lý học hành vi và chăm sóc khách hàng. Với sự phổ biến của camera an ninh tại sân bay, ngân hàng, trường học, việc nhận dạng chính xác cảm xúc trên khuôn mặt giúp nâng cao hiệu quả các hệ thống này. Theo Paul Ekman, sáu cảm xúc phổ biến gồm buồn, hạnh phúc, tức giận, sợ hãi, ghê tởm và ngạc nhiên. Bài toán FER gồm ba bước chính: phát hiện khuôn mặt, trích xuất đặc trưng và phân loại cảm xúc.

Nhiều phương pháp trích xuất đặc trưng đã được nghiên cứu như Gabor Wavelet, PCA, LDA, HOG, trong đó Local Binary Pattern (LBP) nổi bật với ưu điểm ít chịu ảnh hưởng bởi ánh sáng, góc quay, chi phí tính toán thấp và tốc độ xử lý nhanh. Ở giai đoạn phân loại, các thuật toán như Hidden Markov Model, SVM, KNN và đặc biệt là mạng nơ-ron tích chập (CNN) được ứng dụng rộng rãi. CNN thể hiện ưu thế vượt trội trong xử lý tập dữ liệu lớn và nhận dạng hình ảnh.

Luận văn tập trung nghiên cứu mô hình kết hợp đặc trưng LBP làm đầu vào cho CNN (LBP-CNN) nhằm nâng cao độ chính xác nhận dạng 7 loại cảm xúc trên khuôn mặt người. Nghiên cứu sử dụng hai cơ sở dữ liệu lớn là CK+ và FER2013, với phạm vi thời gian thực nghiệm đến năm 2019 tại Việt Nam. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống nhận dạng cảm xúc mặt người ứng dụng trong an ninh, chăm sóc khách hàng và tương tác người-máy.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Local Binary Pattern (LBP): Là phương pháp trích xuất đặc trưng dựa trên mô hình nhị phân cục bộ, đo độ tương phản cục bộ của ảnh. LBP có khả năng bất biến với thay đổi về độ sáng, góc quay và kích thước, giúp trích xuất đặc trưng hiệu quả từ ảnh khuôn mặt. Phiên bản cải tiến của LBP sử dụng các điểm ảnh láng giềng trên đường tròn với bán kính xác định, tạo ra các mẫu nhị phân đồng dạng (uniform LBP) giúp giảm số lượng nhãn đặc trưng.
Mạng nơ-ron tích chập (Convolutional Neural Network – CNN): Mạng CNN gồm các lớp tích chập, pooling và fully connected, có khả năng học đặc trưng tự động từ dữ liệu ảnh. CNN tận dụng các trường tiếp nhận cục bộ, trọng số chia sẻ và tổng hợp để giảm số lượng tham số và tăng hiệu quả học. Các lớp pooling như max-pooling giúp mạng có tính bất biến với dịch chuyển, xoay và co giãn ảnh.

Các khái niệm chính bao gồm: phát hiện khuôn mặt (Viola-Jones với đặc trưng Haar), trích xuất đặc trưng LBP, kiến trúc CNN với các lớp tích chập và pooling, kỹ thuật ReLU, dropout để giảm overfitting, và thuật toán tối ưu Adam.

Phương pháp nghiên cứu

Nghiên cứu sử dụng hai cơ sở dữ liệu chuẩn:

CK+ (The Extended Cohn-Kanade AU-Coded Expression Database): Gồm 617 ảnh khuôn mặt với 7 loại cảm xúc, ảnh chụp thẳng, độ phân giải chuẩn hóa 48x48 pixel.
FER2013: Gồm 35,887 ảnh xám kích thước 48x48 pixel, ảnh có nhiều điều kiện phức tạp như nền không thuần, khuôn mặt không luôn ở chính giữa, có ngoại vật che khuất.

Phương pháp nghiên cứu gồm các bước:

Phát hiện khuôn mặt: Sử dụng thuật toán Viola-Jones để xác định vùng khuôn mặt trong ảnh đầu vào, chuẩn hóa kích thước về 48x48 pixel.
Trích xuất đặc trưng LBP: Áp dụng thuật toán LBP trên vùng khuôn mặt để tạo ảnh đặc trưng đầu vào cho CNN.
Xây dựng mô hình CNN: Thiết kế mạng CNN gồm 2 tầng tích chập với kích thước bộ lọc 5x5, số lượng bộ lọc lần lượt 64 và 128, kết hợp max-pooling 2x2, sử dụng ReLU và dropout giữa các tầng để giảm overfitting. Lớp đầu ra gồm 7 nơ-ron tương ứng 7 loại cảm xúc, sử dụng softmax để phân loại.

Phân tích kết quả thực nghiệm trên hai tập dữ liệu với hai mô hình: TN1 (CNN với ảnh gốc) và TN2 (CNN với đặc trưng LBP). Cỡ mẫu lớn, phương pháp chọn mẫu ngẫu nhiên, sử dụng thuật toán Adam với learning rate 0.0001 để tối ưu mạng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất trên cơ sở dữ liệu CK+:
- TN2 (CNN với đặc trưng LBP) đạt độ chính xác trung bình 52%, cao hơn TN1 (CNN với ảnh gốc) là 45%.
- Cảm xúc khó phân biệt như tức giận và ghê tởm được TN2 nhận dạng chính xác hơn đáng kể (tức giận 77% so với 55%, ghê tởm 75% so với 58%).
- Cảm xúc hạnh phúc TN1 cho kết quả tốt hơn (100% so với 71%).
- Các cảm xúc sợ hãi và bình thường có độ chính xác tương đương giữa hai mô hình.
Hiệu suất trên cơ sở dữ liệu FER2013:
- TN2 đạt độ chính xác trung bình 50%, vượt TN1 39% (tăng 11%).
- TN2 cải thiện rõ rệt ở các cảm xúc tức giận (64% so với 43%), ghê tởm (28% so với 0%), sợ hãi (38% so với 19%), hạnh phúc (80% so với 75%), buồn (22% so với 14%) và ngạc nhiên (68% so với 64%).
- Cảm xúc bình thường TN1 cho kết quả tốt hơn TN2 (62% so với 51%).
- Với tập dữ liệu lớn và phức tạp, mô hình kết hợp LBP và CNN thể hiện ưu thế vượt trội.
Khó khăn và thách thức:
- Nhận dạng cảm xúc bị ảnh hưởng bởi các yếu tố như ánh sáng, góc nghiêng, che khuất khuôn mặt, và sự tương đồng giữa các cảm xúc (ví dụ tức giận và ghê tởm).
- Các tập dữ liệu thực tế có nền phức tạp, ngoại vật xen kẽ gây khó khăn cho việc phát hiện và phân loại.
So sánh với các nghiên cứu khác:
- LBP kết hợp SVM trước đây đạt 88.9% trên CK+, trong khi CNN kết hợp LBP trong nghiên cứu này đạt hiệu quả cao hơn trong môi trường phức tạp và dữ liệu lớn.
- Các mô hình học sâu như CNN có ưu thế khi dữ liệu lớn, phù hợp với xu hướng phát triển hiện nay.

Thảo luận kết quả

Kết quả cho thấy việc trích xuất đặc trưng LBP trước khi đưa vào CNN giúp mô hình tập trung vào các đặc điểm cục bộ quan trọng của khuôn mặt, giảm ảnh hưởng của nhiễu và biến đổi ánh sáng. Điều này làm tăng độ chính xác nhận dạng cảm xúc, đặc biệt với các cảm xúc khó phân biệt. Mô hình TN2 đạt hiệu quả cao hơn TN1 ngay từ các bước huấn luyện đầu tiên, thể hiện qua biểu đồ so sánh hiệu suất trên cả hai cơ sở dữ liệu.

Việc sử dụng hai cơ sở dữ liệu với đặc điểm khác nhau (CK+ kiểm soát tốt, FER2013 đa dạng và phức tạp) giúp đánh giá toàn diện khả năng tổng quát của mô hình. Kết quả cho thấy mô hình LBP-CNN có tính ổn định và khả năng ứng dụng thực tế cao hơn.

Các biểu đồ phân bố cảm xúc và hiệu suất phân loại minh họa rõ sự cải thiện của mô hình TN2, đặc biệt ở các cảm xúc tức giận và ghê tởm. Bảng kết quả chi tiết cũng cho thấy sự khác biệt rõ ràng về độ chính xác giữa hai mô hình.

Tuy nhiên, một số cảm xúc như hạnh phúc và bình thường có kết quả không đồng nhất, cho thấy cần tiếp tục nghiên cứu để cải thiện khả năng phân biệt các cảm xúc này trong các điều kiện thực tế đa dạng.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện:
- Thu thập thêm dữ liệu đa dạng về độ tuổi, giới tính, điều kiện ánh sáng và tư thế khuôn mặt để cải thiện khả năng tổng quát của mô hình.
- Thời gian thực hiện: 6-12 tháng.
- Chủ thể thực hiện: Các trung tâm nghiên cứu và doanh nghiệp công nghệ.
Phát triển mô hình học sâu đa tầng:
- Nâng cấp kiến trúc CNN với nhiều tầng tích chập hơn, kết hợp các kỹ thuật học sâu mới như Residual Networks (ResNet) hoặc Attention Mechanisms để tăng khả năng trích xuất đặc trưng.
- Thời gian thực hiện: 12 tháng.
- Chủ thể thực hiện: Nhóm nghiên cứu chuyên sâu về AI.
Tích hợp đa cảm biến và dữ liệu đa phương thức:
- Kết hợp dữ liệu video, âm thanh và cảm biến sinh trắc để tăng độ chính xác nhận dạng cảm xúc trong môi trường thực tế.
- Thời gian thực hiện: 18 tháng.
- Chủ thể thực hiện: Các tổ chức phát triển hệ thống tương tác người-máy.
Ứng dụng trong các hệ thống thực tế:
- Triển khai mô hình vào các hệ thống an ninh, chăm sóc khách hàng, giáo dục để đánh giá hiệu quả và thu thập phản hồi cải tiến.
- Thời gian thực hiện: 6-9 tháng.
- Chủ thể thực hiện: Doanh nghiệp công nghệ, tổ chức giáo dục, an ninh.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo:
- Lợi ích: Hiểu sâu về ứng dụng LBP và CNN trong nhận dạng cảm xúc, phương pháp trích xuất đặc trưng và thiết kế mô hình học sâu.
- Use case: Phát triển các đề tài nghiên cứu, luận văn thạc sĩ, tiến sĩ.
Chuyên gia phát triển hệ thống nhận dạng khuôn mặt và cảm xúc:
- Lợi ích: Áp dụng kiến thức về thuật toán phát hiện khuôn mặt, trích xuất đặc trưng và phân loại cảm xúc vào sản phẩm thực tế.
- Use case: Xây dựng hệ thống an ninh, chăm sóc khách hàng tự động.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và thị giác máy tính:
- Lợi ích: Nắm bắt xu hướng công nghệ, cải tiến sản phẩm nhận dạng cảm xúc, nâng cao trải nghiệm người dùng.
- Use case: Phát triển ứng dụng tương tác người-máy, phân tích hành vi khách hàng.
Người làm trong lĩnh vực tâm lý học và nghiên cứu hành vi:
- Lợi ích: Sử dụng công nghệ nhận dạng cảm xúc để phân tích tâm trạng, hành vi trong nghiên cứu và ứng dụng thực tế.
- Use case: Nghiên cứu tâm lý, phát triển công cụ hỗ trợ chăm sóc sức khỏe tâm thần.

Câu hỏi thường gặp

LBP là gì và tại sao được chọn làm đặc trưng?
LBP (Local Binary Pattern) là phương pháp trích xuất đặc trưng dựa trên mô hình nhị phân cục bộ, giúp đo độ tương phản cục bộ của ảnh. LBP được chọn vì ít bị ảnh hưởng bởi ánh sáng, góc quay và có tốc độ xử lý nhanh, phù hợp cho nhận dạng cảm xúc mặt người.
Mạng nơ-ron tích chập (CNN) có ưu điểm gì trong bài toán này?
CNN có khả năng học đặc trưng tự động từ dữ liệu ảnh, tận dụng các trường tiếp nhận cục bộ và trọng số chia sẻ để giảm số lượng tham số, giúp mô hình học hiệu quả và chính xác hơn trong nhận dạng cảm xúc.
Tại sao kết hợp LBP với CNN lại hiệu quả hơn dùng CNN trực tiếp?
LBP giúp trích xuất các đặc trưng cục bộ quan trọng, giảm nhiễu và biến đổi ánh sáng, làm đầu vào cho CNN giúp mạng tập trung vào các đặc điểm quan trọng, từ đó nâng cao độ chính xác nhận dạng, đặc biệt với các cảm xúc khó phân biệt.
Cơ sở dữ liệu CK+ và FER2013 có điểm khác biệt gì?
CK+ là tập dữ liệu kiểm soát tốt, ảnh chụp thẳng, ít nhiễu, trong khi FER2013 đa dạng hơn với nhiều điều kiện phức tạp như nền không thuần, khuôn mặt không luôn ở chính giữa, có ngoại vật che khuất, làm bài toán nhận dạng khó khăn hơn.
Mô hình có thể áp dụng trong thực tế như thế nào?
Mô hình LBP-CNN có thể tích hợp vào các hệ thống an ninh, chăm sóc khách hàng, giáo dục để nhận dạng cảm xúc người dùng, từ đó cải thiện tương tác và dịch vụ. Ví dụ, camera an ninh có thể phát hiện hành vi bất thường dựa trên cảm xúc tức giận hoặc sợ hãi.

Kết luận

Luận văn đã xây dựng thành công mô hình LBP-CNN nhận dạng 7 loại cảm xúc trên khuôn mặt người với độ chính xác cải thiện rõ rệt so với CNN truyền thống.
Kết quả thực nghiệm trên hai cơ sở dữ liệu CK+ và FER2013 cho thấy mô hình kết hợp LBP và CNN có hiệu suất cao hơn, đặc biệt với dữ liệu lớn và phức tạp.
Nghiên cứu góp phần nâng cao hiệu quả nhận dạng cảm xúc trong các ứng dụng an ninh, chăm sóc khách hàng và tương tác người-máy.
Đề xuất phát triển thêm dữ liệu, nâng cấp mô hình học sâu và tích hợp đa phương thức để tăng cường khả năng nhận dạng trong môi trường thực tế.
Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình vào các hệ thống thực tế nhằm nâng cao trải nghiệm người dùng và hiệu quả công việc.

Khởi động dự án mở rộng dữ liệu và phát triển mô hình CNN đa tầng, đồng thời triển khai thử nghiệm thực tế tại các đơn vị an ninh và chăm sóc khách hàng.

Luận văn "Ứng Dụng LBP và CNN Trong Nhận Diện Cảm Xúc Khuôn Mặt Người" tập trung vào việc kết hợp hai kỹ thuật mạnh mẽ là Local Binary Patterns (LBP) và Convolutional Neural Networks (CNN) để cải thiện độ chính xác trong nhận diện cảm xúc khuôn mặt. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách các thuật toán xử lý hình ảnh hoạt động mà còn mở ra hướng ứng dụng rộng rãi trong các lĩnh vực như an ninh, y tế và tương tác người-máy. Độc giả sẽ hiểu rõ hơn về quy trình xử lý dữ liệu hình ảnh, cách trích xuất đặc trưng và tối ưu hóa mô hình học sâu.

Nếu bạn quan tâm đến các ứng dụng khác của học sâu trong xử lý hình ảnh, hãy khám phá Đồ án HCMUTE ứng dụng kit Raspberry nhận dạng mặt người. Để mở rộng kiến thức về các kỹ thuật trích xuất đặc trưng, HCMUTE ứng dụng giải thuật FastICA trong tách nguồn mù và trích đặc trưng là tài liệu đáng đọc. Ngoài ra, nếu bạn muốn tìm hiểu sâu hơn về các phương pháp học sâu, Luận văn thạc sĩ nghiên cứu phương pháp học sâu cho lọc cộng tác sẽ mang lại những góc nhìn bổ ích. Mỗi liên kết là cơ hội để bạn khám phá thêm các chủ đề liên quan và nâng cao hiểu biết của mình.

#công nghệ nhận diện cảm xúc

#Luận văn thạc sĩ AI

#LBP trong nhận diện cảm xúc

#CNN nhận diện khuôn mặt

#Nhận diện cảm xúc khuôn mặt

#Ứng dụng LBP và CNN

Chủ đề