Luận Văn Thạc Sĩ: Ứng Dụng Mạng CNN Giải Quyết Bài Toán Nhận Dạng Cảm Xúc Khuôn Mặt

Luận văn thạc sĩ nghiên cứu ứng dụng mô hình CNN trong bài toán nhận dạng cảm xúc khuôn mặt, mang lại hiệu quả cao trong lĩnh vực AI.

Trường đại học

Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu về ứng dụng CNN trong nhận dạng cảm xúc khuôn mặt người

Nhận dạng cảm xúc khuôn mặt người (FER) là một lĩnh vực quan trọng trong trí tuệ nhân tạo (AI) và computer vision. FER đóng vai trò thiết yếu trong các hệ thống tương tác giữa người và máy, an ninh, và nghiên cứu tâm lý học. CNN (Mạng nơ-ron tích chập) đã chứng minh hiệu quả vượt trội trong việc xử lý dữ liệu hình ảnh, đặc biệt là trong bài toán FER. Luận văn này tập trung vào việc ứng dụng LBP-CNN (Local Binary Pattern Convolutional Neural Networks) để nâng cao độ chính xác trong nhận dạng cảm xúc khuôn mặt người. LBP là phương pháp trích xuất đặc trưng hiệu quả, ít bị ảnh hưởng bởi ánh sáng và góc quay, kết hợp với CNN tạo thành một mô hình mạnh mẽ cho bài toán này.

1.1. Tầm quan trọng của FER trong AI

FER không chỉ giúp nhận biết cảm xúc mà còn ứng dụng trong nhiều lĩnh vực như an ninh, chăm sóc khách hàng, và hệ thống khuyến nghị. Paul Ekman đã xác định sáu cảm xúc cơ bản: buồn, hạnh phúc, tức giận, sợ hãi, ghê tởm, và ngạc nhiên. Việc nhận dạng chính xác các cảm xúc này đòi hỏi sự kết hợp giữa xử lý ảnh và học sâu (deep learning). CNN đã trở thành công cụ chính trong việc xử lý dữ liệu hình ảnh lớn, giúp cải thiện độ chính xác của FER.

1.2. Ưu điểm của LBP CNN

LBP là phương pháp trích xuất đặc trưng hiệu quả với chi phí tính toán thấp và tốc độ xử lý nhanh. Khi kết hợp với CNN, mô hình LBP-CNN tận dụng được ưu điểm của cả hai phương pháp: LBP giúp giảm thiểu ảnh hưởng của môi trường, trong khi CNN xử lý hiệu quả dữ liệu lớn và phức tạp. Điều này làm cho LBP-CNN trở thành một giải pháp mạnh mẽ cho bài toán FER.

II. Các phương pháp tiếp cận trong FER

Có hai hướng tiếp cận chính trong nhận dạng cảm xúc khuôn mặt người (FER): dựa trên diện mạo (appearance) và dựa trên hình học (geometric). Phương pháp dựa trên diện mạo tập trung vào giá trị cường độ điểm ảnh, trong khi phương pháp dựa trên hình học xem xét các đặc điểm hình học như khoảng cách và vị trí của các thành phần khuôn mặt. FACS (Face Action Coding System) là một hệ thống mã hóa hành động khuôn mặt dựa trên tâm lý học, giúp phân tích các biểu hiện cảm xúc thông qua các đơn vị hành động (AU).

2.1. Phương pháp dựa trên diện mạo

Phương pháp này sử dụng các phép biến đổi và bộ lọc để trích xuất thông tin từ giá trị cường độ điểm ảnh. LBP và Gabor Wavelet là hai phương pháp phổ biến. LBP được ưa chuộng do tốc độ xử lý nhanh và khả năng chống nhiễu tốt. Kết hợp LBP với các thuật toán phân lớp như SVM đã cho kết quả ấn tượng trong các thử nghiệm.

2.2. Phương pháp dựa trên hình học

Phương pháp này tập trung vào các đặc điểm hình học như khoảng cách giữa các điểm trên khuôn mặt. FACS là một ví dụ điển hình, sử dụng các đơn vị hành động (AU) để mô tả sự thay đổi biểu hiện khuôn mặt. Mặc dù có tính mô tả cao, phương pháp này đòi hỏi dữ liệu đầu vào chính xác và thường gặp khó khăn trong môi trường thực tế.

III. Khó khăn và thách thức trong FER

Mặc dù đạt được nhiều tiến bộ, nhận dạng cảm xúc khuôn mặt người (FER) vẫn đối mặt với nhiều thách thức. Việc phát hiện khuôn mặt trong ảnh có nhiều vật cản, góc nghiêng, hoặc độ phân giải thấp là một vấn đề lớn. Ngoài ra, sự tương đồng giữa các cảm xúc như ghê tởm và tức giận cũng gây khó khăn trong việc phân loại. Môi trường ánh sáng không ổn định cũng ảnh hưởng đến độ chính xác của hệ thống.

3.1. Thách thức trong phát hiện khuôn mặt

Việc phát hiện khuôn mặt trong ảnh có nhiều vật cản hoặc góc nghiêng là một thách thức lớn. Các thuật toán như Viola-Jones được sử dụng để xác định khuôn mặt, nhưng vẫn gặp khó khăn trong các tình huống phức tạp. Độ phân giải thấp của ảnh cũng làm giảm hiệu quả của các bước trích xuất đặc trưng.

3.2. Khó khăn trong phân loại cảm xúc

Sự tương đồng giữa các cảm xúc như ghê tởm và tức giận gây khó khăn trong việc phân loại. Các mô hình CNN cần được huấn luyện trên dữ liệu đa dạng để cải thiện độ chính xác. Ngoài ra, môi trường ánh sáng không ổn định cũng ảnh hưởng đến kết quả nhận dạng.

IV. Đề xuất giải pháp và hướng phát triển

Để giải quyết các thách thức trong FER, luận văn đề xuất sử dụng LBP-CNN kết hợp với thuật toán Viola-Jones để phát hiện khuôn mặt. LBP được sử dụng để trích xuất đặc trưng, trong khi CNN được dùng để phân loại cảm xúc. Hướng phát triển tương lai bao gồm cải thiện độ chính xác của mô hình và ứng dụng trong các môi trường thực tế phức tạp.

4.1. Giải pháp sử dụng LBP CNN

Luận văn đề xuất sử dụng LBP-CNN để nâng cao độ chính xác trong FER. LBP giúp trích xuất đặc trưng hiệu quả, trong khi CNN xử lý dữ liệu lớn và phức tạp. Kết hợp với thuật toán Viola-Jones, mô hình này có thể phát hiện khuôn mặt với độ chính xác cao và tốc độ nhanh.

4.2. Hướng phát triển tương lai

Hướng phát triển tương lai bao gồm cải thiện độ chính xác của mô hình LBP-CNN và ứng dụng trong các môi trường thực tế phức tạp. Ngoài ra, việc tích hợp thêm các phương pháp trích xuất đặc trưng và phân loại tiên tiến cũng là một hướng nghiên cứu tiềm năng.

01/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng lb cnn cho bài toán nhận dạng cảm xúc mặt người

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan 1.1 Giới thiệu Nhận dạng cảm xúc mặt người (Facial Expression Recognition – FER) giữ vai trò quan trọng trong tương tác giữa người và máy, trong các hệ thống an ninh với sự phổ biến của các camera an ninh ở các sân bay, văn phòng, trường đại học, máy ATM, ngân hàng… FER còn có thể được sử dụng trong nghiên cứu tâm lý học hành vi, chăm sóc khách hàng hay trong các hệ thống khuyến nghị dựa trên hình ảnh. Biểu hiện trên khuôn mặt thể hiện tâm trạng hoặc trạng thái cảm xúc của một cá nhân ở một thời điểm cụ thể như buồn, hạnh phúc, tức giận… Paul Ekman [1] cho thấy sáu cảm xúc phổ biến là buồn (sad), hạnh phúc (happy), tức giận (angry), sợ hãi (fear), ghê tởm (disgust) và ngạc nhiên (surprise). Phát hiện khuôn mặt là bước đầu tiên của nhận dạng cảm xúc khuôn mặt, trong đó khuôn mặt được xác định từ ảnh đầu vào và loại bỏ các đối tượng khác (nếu có). Sau khi đã xác định được khuôn mặt người, bước tiếp theo thực hiện trích xuất đặc trưng và biểu diễn các đặc trưng đó.

Với đặc trưng thu được, công việc cuối cùng là phân loại các đặc trưng vào một trong 6 loại cảm xúc phổ biến ở trên, sơ đồ 1. Nhiều công trình nghiên cứu đã được thực hiện nhằm nâng cao độ chính xác cho bài toán FER. Tiếp cận ở giai đoạn trích xuất và biểu diễn đặc trưng có các phương pháp như Gabor Wavelet, LBP (Local Binary Pattern), PCA (Principal Component Analysis), LDA (Linear Discriminant Analysis), LDP (Local Directional Pattern), HOG (Histogram of Oriented Gradients). Mỗi phương pháp đều có ưu khuyết điểm riêng, LBP với ưu điểm chính là ít chịu ảnh hưởng của những thay đổi về độ sáng, góc quay, độ co giãn, chi phí tính toán thấp, tốc độ xử lý nhanh nên được ứng dụng nhiều trong bài toán phát hiện và nhận diện khuôn mặt.

Ở giai đoạn phân loại, rất nhiều thuật toán cũng đã được nghiên cứu và công bố như Mô hình Markov ẩn (Hidden Markov Model), Naïve Bayesian, KNN (K-nearset Neighbours), SVM (Suport Vector Machine), Mạng nơ ron tích chập (Convolutaion Neural Networks – CNN)… [1][2][3]. Trong đó, CNN thể hiện ưu thế vượt trội với khả năng xử lý tập dữ liệu lớn cũng như rất nhiều kiến trúc mạng được nghiên cứu và công bố… Với những ưu điểm đó của LBP và CNN, luận văn tập trung tìm hiểu, nghiên cứu kiến trúc mà dữ liệu đầu vào của CNN là đặc trưng LBP hay còn gọi là mạng nơ ron tích chập mẫu nhị phân cục bộ (LBP-CNN – Local Trang 6/51 Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Binary Pattern Convolutional Neural Networks) cho bài toán nhận dạng cảm xúc mặt người. Sơ đồ 1 - Các bước căn bản trong FER 1.2 Các hướng tiếp cận Nhận dạng cảm xúc mặt người (FER) là quá trình giúp nhận biết tâm trạng và cảm xúc của mỗi cá nhân. Rất nhiều công trình đã được thực hiện.

FER có hai hướng tiếp cận chính [2][3] đó là: • Dựa theo diện mạo (appearance); cách tiếp cận dựa theo diện mạo sẽ xem xét các thông tin có được từ giá trị cường độ của các điểm ảnh hay toàn bộ ảnh bằng cách áp dụng các phép biến đổi, bộ lọc hoặc phương pháp máy học, thống kê… • Dựa theo hình học (geometric); trong cách tiếp cận dựa theo hình học, hình dạng, khoảng cách, vị trí của sự thay đổi của các thành phần mặt như: cơ mặt, mắt, miệng, trán… sẽ được xem xét. Năm 1978, Ekman giới thiệu một hệ thống để đo biểu hiện khuôn mặt được gọi là FACS (Face Action Coding System - Hệ thống mã hoá hành động mặt) dựa trên tâm lý học [4]. FACS được phát triển bằng cách phân tích các mối quan hệ giữa sự co giãn cơ và sự thay đổi diện mạo khuôn mặt do chúng gây ra. Sự co giãn của các cơ chịu trách nhiệm cho cùng một hành động được đánh dấu như là một đơn vị hành động (Action Unit - AU).

Mặt có thể được chia thành các đơn vị hành động mặt trên (Upper Face AU) và các đơn Trang 7/51 Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN vị hành động mặt dưới (Lower Face AU). Có 46 AU đại diện cho sự thay đổi biểu hiện trên khuôn mặt và 12 AU liên quan đến hướng nhìn mắt và hướng đầu. AU có tính mô tả cao về cử động khuôn mặt, tuy nhiên chúng không cung cấp bất kỳ thông tin đại diện nào. Các AU được gán nhãn với sự mô tả của các hành động.

Nhiệm vụ phân tích cảm xúc bằng cách sử dụng FACS là dựa trên sự phân rã các biểu hiện quan sát được vào tập các AU, sau đó cảm xúc được xác định. Caifeng Shan, Shaogang Gong, Peter W. McOwan [5] đã thực hiện kiểm tra, so sánh đặc trưng LBP với đặc trưng Gabor Wavelet kết hợp với các thuật toán phân lớp như LDA, KNN, SVM trên một số cơ sở dữ liệu như JAFFE, CK+. Cụ thể, LBP kết hợp với SVM đạt 88.9% trong khi Gabor và SVM chỉ đạt 86.

LBP và SVM đạt 80.2% chiếm ưu thế hơn hẵn với 73.4% của LBP và LDA+NN (Table 8). Ưu điểm tốc độ của LBP cũng được nhóm tác giả kiểm chứng trên Matlab, 0.03s là thời gian xử lý của LBP trong khi Gabor cần 30s để hoàn thành công việc trích xuất đặc trưng. Điều này dễ hiểu bởi Gabor xử lý số chiều đặc trưng là 42,650 trong khi đó LBP chỉ phải xử lý 2478. Hầu hết các tiếp cận FER đều hoạt động tốt với các cơ sở dữ liệu được kiểm soát nhưng lại thất bại trong môi trường thực tế.

Lý do là vì các tập dữ liệu này có các ảnh nền khác nhau, đôi khi phức tạp với nhiều ngoại vật xen kẻ với ảnh người… vì thế không thể đưa ra được các cảm xúc chung. Shan và cộng sự thực nghiệm với các tập dữ liệu khác nhau. Nhóm thực thiện huấn luyện phân loại với thuật toán SVM bằng việc trích xuất đặc trưng LBP (Local Binary Pattern) trên tập dữ liệu Cohn-Kanade. Sau đó kiểm tra bộ phân lớp đã được huấn luyện trên tập dữ liệu MMI và JAFFE.

Họ quan sát thấy, hiệu suất tổng quát trên các tập dữ liệu là thấp hơn nhiều, chẳng hạn như khoảng 50% trên cơ sở dữ liệu MMI và khoảng 40% trên cơ sở dữ liệu JAFFE (Table 18). Nhóm của Littlewort và cộng sự huấn luyện các đặc trưng Gabor Wavelet theo SVM trên tập dữ liệu Cohn-Kanade và kiểm tra chúng trên cơ sở dữ liệu khác, tỷ lệ công nhận đạt được cũng chỉ là 56% -60%. [6] Gần đây, một số thuật toán học sâu đã được đề xuất trong học máy và áp dụng cho phát hiện và nhận dạng các đối tượng thị giác, phân loại hình ảnh, xác minh khuôn mặt và nhiều vấn đề nghiên cứu khác. Các nền tảng học sâu như CNN, Stacked AutoEncoders (SAE) và Deep Belief Network (DBN) đã được trình bày, nhiều phương Trang 8/51 Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN pháp tiếp cận theo hướng học sâu cũng được phát triển dựa trên các nền tảng này.

Những tiếp cận học sâu sử dụng một số lượng lớn các hình ảnh để học và đạt được hiệu suất cao. Shiam và Aza [7] đã ứng dụng CNN để thực hiện nhận diện cảm xúc mặt người. Họ thực hiện huấn luyện CNN với nhiều mức sâu khác nhau và sử dụng tập ảnh xám từ trang web Kaggle với kết quả đạt được là 65%. Nhóm tác giả cũng thực nghiệm kết hợp đặc trưng HOG với CNN và kết quả đạt được không thay đổi nhiều so với CNN thuần túy.

Mundher Al-Shabi, Wooi Ping Cheah, Tee Connie [8] đã nghiên cứu đặc trưng SIFT kết hợp với CNN và đạt 73.4% trên FER2013 và 99.3 Khó khăn và thách thức Tuy đạt được những kết quả tương đối khả quan do sự phát triển của nhiều phương pháp như trí tuệ nhân tạo, mạng nơ ron… nhưng bài toán nhận dạng cảm xúc mặt người vẫn còn tồn tại nhiều khó khăn và thách thức. Khó khăn trong việc phát hiện mặt người khi ảnh đầu vào có nhiều ngoại vật khác, hướng nghiêng của mặt hay mặt bị che khuất một phần cũng là một thách thức lớn. Ngoài ra khi xác định được khuôn mặt người, kích thước ảnh mặt được cắt ra thường nhỏ nên độ phân giải tương đối thấp, chưa kể một số ảnh đầu vào có độ phân giải thấp gây khó khăn cho bước tiếp theo là trích xuất và biểu diễn đặc trưng. Nhầm lẫn giữa các cảm xúc như ghê tởm (disgust), tức giận (angry) khi phân loại cũng là thách thức cho bài toán FER vì mức độ tương đồng.

Hay môi trường sẽ tác động đến việc nhận biết các cảm xúc, như ánh sáng quá chói làm hệ thống không phân biệt sự khác biệt này.4 Đề xuất hướng giải quyết Với những khó khăn và thách thức trên, luận văn giới hạn với tập ảnh đầu vào có mặt người nhìn thẳng, ít hoặc không có các vật cản che khuất như kính râm, nón… Chúng tôi tập trung vào bài toán nhận dạng cảm xúc nên áp dụng thuật toán phát hiện khuôn mặt người trong ảnh do Viola & John công bố để xác định vùng khuôn mặt trong ảnh, phương pháp này cho phép xác định khuôn mặt được chụp thẳng với độ chính xác rất cao và xử lý với thời gian nhanh [3][6]. Đặc trưng LBP có những ưu điểm giúp hệ thống ít bị tác động từ môi trường trường xung quanh như ánh sáng, kích thước, góc quay, và tốc độ Trang 9/51 Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN xử lý nhanh [5] nên chúng tôi sẽ trích đặc trưng trên khuôn mặt bằng phương pháp LBP. Với sức mạnh của phương pháp học sâu (Deep Learning) hiện nay mà cụ thể là mạng neural tích chập (Convolution Neural Network – CNN) cho nhận dạng xử lý ảnh cũng như nhận dạng cảm xúc mặt người [7], chúng tôi đề xuất dùng CNN để nhận dạng từ đặc trưng LBP đã được trích trước đó. Trang 10/51 Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Chương 2: Cơ sở lý thuyết 2.1 Các phương pháp phát hiện khuôn mặt người Đã có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến ngày nay là ảnh màu [11][12].

Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh, chúng ta có thể chia các phương pháp này thành bốn hướng tiếp cận chính sau: - Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các loại khuôn mặt người thành các luật. Thông thường các luật mô tả quan hệ của các đặc trưng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ với tiêu đề "Ứng dụng CNN trong nhận dạng cảm xúc khuôn mặt người" khám phá cách mà mạng nơ ron tích chập (CNN) có thể được áp dụng để nhận diện và phân tích cảm xúc từ khuôn mặt con người. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp kỹ thuật hiện đại trong lĩnh vực nhận diện khuôn mặt mà còn nhấn mạnh tầm quan trọng của việc hiểu và phân tích cảm xúc trong nhiều ứng dụng thực tiễn, từ an ninh đến tương tác người-máy.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Đồ án hcmute nhận dạng cảm xúc trên khuôn mặt người, nơi cung cấp cái nhìn chi tiết về các kỹ thuật nhận diện cảm xúc. Bên cạnh đó, tài liệu Đồ án hcmute xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập sẽ giúp bạn hiểu rõ hơn về hệ thống tích hợp nhận diện khuôn mặt và cảm xúc. Cuối cùng, bạn cũng có thể tìm hiểu về Luận văn thạc sĩ khoa học máy tính nhận diện khuôn mặt người sử dụng wavelet và principle component analysis pca, để so sánh các phương pháp khác nhau trong nhận diện khuôn mặt. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực đang phát triển này.

#công nghệ nhận diện khuôn mặt

#nhận dạng cảm xúc khuôn mặt

#mạng nơ-ron tích chập CNN

#học sâu trong nhận diện khuôn mặt

#ứng dụng AI trong cảm xúc

#phân tích cảm xúc bằng CNN

Chủ đề

Công nghệ nhận diện khuôn mặt

Nghiên cứu và phát triển trong AI

Ứng dụng AI trong đời sống

Học sâu và mạng nơ-ron

Luận Văn Thạc Sĩ: Ứng Dụng Mạng CNN Giải Quyết Bài Toán Nhận Dạng Cảm Xúc Khuôn Mặt

I. Giới thiệu về ứng dụng CNN trong nhận dạng cảm xúc khuôn mặt người

1.1. Tầm quan trọng của FER trong AI

1.2. Ưu điểm của LBP CNN

II. Các phương pháp tiếp cận trong FER

2.1. Phương pháp dựa trên diện mạo

2.2. Phương pháp dựa trên hình học

III. Khó khăn và thách thức trong FER

3.1. Thách thức trong phát hiện khuôn mặt

3.2. Khó khăn trong phân loại cảm xúc

IV. Đề xuất giải pháp và hướng phát triển

4.1. Giải pháp sử dụng LBP CNN

4.2. Hướng phát triển tương lai

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Sơn Hóa

Người hướng dẫn: PGS.TS Phạm Thế Bảo

Trường học: Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Ứng Dụng CNN Trong Nhận Dạng Cảm Xúc Khuôn Mặt Người

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: TP.Hồ Chí Minh

Luận Văn Thạc Sĩ: Ứng Dụng Mạng CNN Giải Quyết Bài Toán Nhận Dạng Cảm Xúc Khuôn Mặt

I. Giới thiệu về ứng dụng CNN trong nhận dạng cảm xúc khuôn mặt người

1.1. Tầm quan trọng của FER trong AI

1.2. Ưu điểm của LBP CNN

II. Các phương pháp tiếp cận trong FER

2.1. Phương pháp dựa trên diện mạo

2.2. Phương pháp dựa trên hình học

III. Khó khăn và thách thức trong FER

3.1. Thách thức trong phát hiện khuôn mặt

3.2. Khó khăn trong phân loại cảm xúc

IV. Đề xuất giải pháp và hướng phát triển

4.1. Giải pháp sử dụng LBP CNN

4.2. Hướng phát triển tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Sơn Hóa

Người hướng dẫn: PGS.TS Phạm Thế Bảo

Trường học: Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Ứng Dụng CNN Trong Nhận Dạng Cảm Xúc Khuôn Mặt Người

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: TP.Hồ Chí Minh

Có thể bạn quan tâm