HCMUTE: Nhận diện cảm xúc qua khuôn mặt sử dụng mạng nơ ron tích chập CNN

Chuyên khảo phân tích Hcmute nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập cnn, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Công nghệ kỹ thuật điện tử - truyền thông

Người đăng

Ẩn danh

Thể loại

luận văn

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN

1.1. TÌNH HÌNH NGHIÊN CỨU

1.2. LÝ DO CHỌN ĐỀ TÀI

1.3. MỤC TIÊU ĐỀ TÀI

1.4. PHƯƠNG PHÁP NGHIÊN CỨU

1.5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

1.6. BỐ CỤC ĐỀ TÀI

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH

2.2. KHUÔN MẶT VÀ CẢM XÚC

2.2.1. Đặc trưng của mặt người

2.2.2. Phương pháp tiếp cận đặc trưng khuôn mặt

2.2.3. Biểu cảm khuôn mặt khi bày tỏ cảm xúc

2.3. MẠNG NƠ-RON TÍCH CHẬP

2.3.1. Mạng nơ-ron nhân tạo

2.3.2. Mạng nơ-ron tích chập

2.3.2.1. Mô hình tổng quan

2.3.2.2. Các lớp trong mô hình

2.3.2.3. Những vấn đề xảy ra với mô hình CNN

2.4. GIỚI THIỆU MÁY TÍNH NHÚNG KIT RASPBERRY PI

2.5. XỬ LÝ ẢNH VỚI PYTHON

2.5.1. Giới thiệu ngôn ngữ lập trình Python

2.5.2. Các thư viện sử dụng trong Python

3. CHƯƠNG 3: THIẾT KẾ HỆ THỐNG NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP TRÊN KIT RASPBERRY PI 4

3.1. YÊU CẦU CỦA HỆ THỐNG

3.2. MÔ HÌNH HỆ THỐNG

3.2.1. Sơ đồ khối của hệ thống

3.2.2. Mô hình CNN sử dụng trong hệ thống

3.3. TẬP DỮ LIỆU

3.3.1. Tập dữ liệu mẫu có sẵn

3.3.2. Tập dữ liệu riêng

3.4. QUÁ TRÌNH HUẤN LUYỆN VÀ KIỂM TRA

3.4.1. Quá trình huấn luyện

3.4.2. Quá trình kiểm tra

4. CHƯƠNG 4: KẾT QUẢ

4.1. KẾT QUẢ HUẤN LUYỆN VÀ KIỂM TRA

4.2. ỨNG DỤNG NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT TRÊN KIT RASPBERRY PI 4

5. CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Nhận diện cảm xúc Tổng quan và phương pháp tiếp cận

Phần này tập trung vào khái niệm nhận diện cảm xúc và vai trò của nó trong giao tiếp con người. Nhận dạng cảm xúc qua khuôn mặt là một lĩnh vực nghiên cứu quan trọng, ứng dụng rộng rãi trong nhiều lĩnh vực. Các phương pháp truyền thống thường dựa trên việc trích xuất các đặc điểm hình ảnh thủ công, sau đó so sánh với cơ sở dữ liệu có sẵn. Tuy nhiên, những phương pháp này có những hạn chế về độ chính xác và khả năng tổng quát. Nghiên cứu này tập trung vào việc ứng dụng mạng nơ-ron tích chập (CNN), một kỹ thuật deep learning, để cải thiện hiệu quả nhận diện cảm xúc. CNN cho phép tự động học các đặc trưng phức tạp từ dữ liệu ảnh, mang lại độ chính xác cao hơn so với các phương pháp truyền thống. Việc xác định cảm xúc dựa trên biểu cảm khuôn mặt được xem là một trong những phương pháp hiệu quả nhất hiện nay. Tìm hiểu cảm xúc là trọng tâm của nghiên cứu này, nhằm mục đích phát triển một hệ thống có thể phân loại chính xác các biểu cảm khuôn mặt. Phân tích cảm xúc khuôn mặt là một bước quan trọng trong quá trình thực hiện nhận diện cảm xúc.

1.1. Thách thức trong nhận diện cảm xúc

Nhận diện cảm xúc trên khuôn mặt gặp nhiều thách thức. Ánh sáng, góc nhìn, chất lượng ảnh ảnh hưởng đến độ chính xác. Biểu cảm khuôn mặt phức tạp, đa dạng, khó phân loại chính xác. Sự khác biệt cá nhân về biểu cảm cũng là một yếu tố cần xem xét. Phân loại cảm xúc thường dựa trên một tập hợp các cảm xúc cơ bản như happy, sad, angry, surprised, fearful, disgusted và cảm xúc trung tính. Tuy nhiên, việc xác định ranh giới giữa các cảm xúc này đôi khi khó khăn. Dữ liệu huấn luyện cần chất lượng cao và đa dạng để đảm bảo mô hình có khả năng tổng quát tốt. Thuật toán CNN cần được tối ưu hóa để đạt được độ chính xác cao và tốc độ xử lý nhanh. Việc đánh giá hiệu quả của mô hình đòi hỏi các chỉ số đánh giá phù hợp như độ chính xác, độ nhạy, độ đặc hiệu. Tốc độ nhận diện cũng là một yếu tố quan trọng, đặc biệt trong các ứng dụng thời gian thực.

1.2. Ứng dụng của nhận diện cảm xúc

Nhận diện cảm xúc có nhiều ứng dụng thực tiễn. Trong an ninh, nó giúp phát hiện gian lận, đánh giá tâm lý người dùng. Trong marketing, nó hỗ trợ phân tích phản hồi khách hàng, cá nhân hóa trải nghiệm mua sắm. Trong chăm sóc sức khỏe, nó giúp theo dõi tình trạng bệnh nhân, phát hiện dấu hiệu bệnh sớm. Trong giáo dục, nó hỗ trợ đánh giá hiệu quả giảng dạy, điều chỉnh phương pháp phù hợp. Ứng dụng trong giao diện người máy giúp máy tính hiểu và phản hồi cảm xúc con người, tăng cường tương tác. Phát hiện gian lận dựa trên cảm xúc tiêu cực của nghi phạm có thể được áp dụng trong điều tra tội phạm. Cảm xúc tích cực có thể được sử dụng trong các chiến lược marketing để thu hút sự chú ý của khách hàng. OpenCV, TensorFlow, PyTorch, và Keras là một số thư viện lập trình phổ biến được sử dụng trong việc phát triển các hệ thống nhận diện cảm xúc. Trích xuất đặc trưng là một bước quan trọng trong quá trình xử lý ảnh, nó giúp lựa chọn những thông tin quan trọng để phục vụ cho việc phân loại cảm xúc.

II. Mạng nơ ron tích chập CNN trong nhận diện cảm xúc

Phần này tập trung vào mạng nơ-ron tích chập (CNN), một kiến trúc mạng nơ ron đặc biệt hiệu quả trong xử lý ảnh. CNN sử dụng các lớp tích chập và pooling để trích xuất các đặc trưng từ dữ liệu ảnh. Thuật toán CNN hoạt động dựa trên nguyên tắc tích chập ảnh với các bộ lọc, tìm kiếm các đặc trưng trong ảnh. Học sâu (deep learning) là nền tảng của CNN, cho phép mô hình học được các đặc trưng phức tạp từ dữ liệu. Mô hình CNN được huấn luyện trên một tập dữ liệu lớn, bao gồm các ảnh khuôn mặt với nhãn cảm xúc tương ứng. Quá trình huấn luyện bao gồm việc cập nhật trọng số của các lớp trong mạng để giảm thiểu sai số giữa dự đoán và nhãn thực tế. Đánh giá mô hình dựa trên các chỉ số như độ chính xác, độ nhạy, và độ đặc hiệu. Đồ thị độ chính xác thể hiện hiệu quả của quá trình huấn luyện. Ma trận nhầm lẫn cho thấy các lỗi phân loại của mô hình.

2.1. Kiến trúc CNN và quá trình huấn luyện

Mô hình CNN thường bao gồm nhiều lớp khác nhau, bao gồm các lớp tích chập, lớp ReLU, lớp pooling, và các lớp đầy đủ kết nối. Lớp tích chập thực hiện phép tích chập giữa bộ lọc và dữ liệu ảnh, trích xuất các đặc trưng cục bộ. Lớp ReLU giới thiệu tính phi tuyến vào mô hình. Lớp pooling giảm kích thước của dữ liệu, làm giảm độ phức tạp của tính toán và tăng khả năng tổng quát của mô hình. Lớp đầy đủ kết nối kết nối tất cả các nơ-ron ở lớp trước với các nơ-ron ở lớp sau, thực hiện phân loại cảm xúc. Quá trình huấn luyện sử dụng thuật toán xuống dốc, cập nhật trọng số của mạng dựa trên sai số giữa dự đoán và nhãn thực tế. Hàm mất mát được sử dụng để đo lường sai số. Phương pháp tối ưu hóa như Adam hoặc SGD được sử dụng để tìm kiếm các trọng số tối ưu. Tốc độ học là một tham số quan trọng ảnh hưởng đến hiệu quả của quá trình huấn luyện. Kiểm tra mô hình được thực hiện trên một tập dữ liệu độc lập để đánh giá khả năng tổng quát của mô hình.

2.2. Xử lý ảnh và trích xuất đặc trưng

Trước khi đưa vào CNN, ảnh cần được tiền xử lý. Tăng cường ảnh, khôi phục ảnh, nén dữ liệu ảnh là các bước quan trọng. Trích xuất đặc trưng từ ảnh là bước quyết định. Các kỹ thuật trích xuất đặc trưng bao gồm trích xuất đặc trưng thủ công và trích xuất đặc trưng tự động bằng CNN. Trích xuất đặc trưng thủ công dựa trên các kỹ thuật xử lý ảnh truyền thống, như tính toán mô men, histogram, v.v. Trích xuất đặc trưng tự động bằng CNN cho phép mô hình tự học các đặc trưng hiệu quả từ dữ liệu. Phép tích chập là hoạt động cốt lõi của CNN, cho phép phát hiện các đặc trưng cục bộ trong ảnh. Lớp pooling giảm kích thước dữ liệu, làm giảm tính toán và tăng khả năng tổng quát. Lớp fully-connected thực hiện phân loại. Việc lựa chọn kiến trúc CNN phù hợp là rất quan trọng để đạt hiệu quả cao.

III. Kết quả và ứng dụng

Phần này trình bày kết quả của nghiên cứu, bao gồm độ chính xác của mô hình CNN trong việc nhận diện cảm xúc. Kết quả được đánh giá trên các tập dữ liệu khác nhau, bao gồm cả tập dữ liệu chuẩn và tập dữ liệu riêng. Độ chính xác của mô hình được đo lường bằng tỉ lệ dự đoán chính xác so với tổng số mẫu. Ma trận tương quan được sử dụng để phân tích mối quan hệ giữa các cảm xúc khác nhau. Ứng dụng thực tế của hệ thống được đề cập, bao gồm các lĩnh vực như an ninh, marketing, chăm sóc sức khỏe, và giáo dục. Raspberry Pi 4 được sử dụng như một nền tảng để triển khai hệ thống, thể hiện tính khả thi của việc ứng dụng công nghệ này trong các thiết bị nhỏ gọn, tiết kiệm chi phí.

3.1. Đánh giá hiệu quả mô hình

Kết quả cho thấy mô hình CNN đạt được độ chính xác cao trong việc nhận diện cảm xúc trên khuôn mặt. Độ chính xác được đánh giá trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Tốc độ xử lý của mô hình cũng được xem xét. Các chỉ số đánh giá khác như độ nhạy (recall), độ đặc hiệu (precision), F1-score cũng được tính toán và phân tích. Phân tích lỗi giúp xác định những hạn chế của mô hình và đề xuất hướng cải thiện. So sánh với các phương pháp khác cũng được thực hiện để đánh giá tính ưu việt của phương pháp sử dụng CNN. Tập dữ liệu huấn luyện ảnh hưởng đáng kể đến hiệu quả của mô hình. Chất lượng dữ liệu và sự cân bằng dữ liệu là các yếu tố quan trọng cần lưu ý.

3.2. Thực nghiệm và triển khai

Mô hình CNN được triển khai trên Raspberry Pi 4, một nền tảng máy tính nhúng nhỏ gọn và hiệu quả. Việc sử dụng Raspberry Pi 4 chứng minh khả năng ứng dụng của công nghệ nhận diện cảm xúc trong các thiết bị di động. Giao diện người dùng được thiết kế đơn giản và thân thiện, dễ dàng sử dụng. Hệ thống có khả năng nhận diện cảm xúc từ ảnh tĩnh và video thời gian thực. OpenCV và Python được sử dụng để phát triển hệ thống. Kết quả cho thấy hệ thống hoạt động ổn định và hiệu quả trong điều kiện ánh sáng đủ và khuôn mặt ở góc nhìn hợp lý. Các thách thức trong việc triển khai hệ thống trên Raspberry Pi 4, ví dụ như dung lượng bộ nhớ và tốc độ xử lý, được thảo luận. Tối ưu hóa mô hình để giảm kích thước và tăng tốc độ xử lý là một hướng nghiên cứu quan trọng.

01/02/2025

Bạn đang xem trước tài liệu:

Hcmute nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập cnn

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, trí tuệ nhân tạo (AI) được xem là công nghệ cốt lõi, có tác động sâu rộng đến nhiều lĩnh vực của đời sống xã hội. Tại Việt Nam, AI được xác định là ngành công nghệ đột phá trong thập kỷ tới, với nhiều chương trình trọng điểm được triển khai nhằm thúc đẩy nghiên cứu và ứng dụng. Một trong những hướng phát triển nổi bật của AI là công nghệ sinh trắc học, trong đó nhận dạng cảm xúc qua khuôn mặt đóng vai trò quan trọng trong giao tiếp phi ngôn ngữ và tương tác người-máy.

Luận văn tập trung nghiên cứu xây dựng hệ thống nhận dạng 7 loại cảm xúc cơ bản trên khuôn mặt gồm: vui vẻ, buồn, sợ hãi, giận dữ, ngạc nhiên, khó chịu và bình thường. Mục tiêu chính là phát triển mô hình mạng nơ-ron tích chập (CNN) để nhận dạng cảm xúc thông qua ảnh khuôn mặt, đồng thời triển khai hệ thống trên máy tính nhúng Raspberry Pi 4 nhằm đảm bảo tính di động và độc lập phần cứng. Phạm vi nghiên cứu bao gồm dữ liệu huấn luyện từ tập FERC-2013 với khoảng 35.000 ảnh trắng đen, cùng tập dữ liệu riêng gồm 900 ảnh màu và xám thu thập từ webcam và CK+.

Nghiên cứu có ý nghĩa thiết thực trong nhiều lĩnh vực như giáo dục, kinh tế - xã hội, an ninh và quốc phòng. Hệ thống nhận dạng cảm xúc có thể ứng dụng trong đánh giá mức độ hài lòng khách hàng, dự đoán cảm xúc trong phỏng vấn tuyển dụng, cũng như hỗ trợ phát triển các hệ thống giao tiếp tự nhiên giữa người và máy. Các chỉ số hiệu quả như độ chính xác nhận dạng và khả năng vận hành độc lập trên thiết bị nhúng được xem là thước đo quan trọng trong nghiên cứu này.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: xử lý ảnh kỹ thuật số và mạng nơ-ron tích chập (CNN). Xử lý ảnh kỹ thuật số bao gồm các bước thu nhận ảnh, tiền xử lý (lọc nhiễu, tăng cường độ tương phản), phân đoạn ảnh, trích xuất đặc trưng và nhận dạng ảnh. Các kỹ thuật này giúp chuẩn hóa và làm nổi bật các đặc điểm khuôn mặt cần thiết cho việc phân loại cảm xúc.

Mạng nơ-ron tích chập CNN là mô hình học sâu được thiết kế đặc biệt để xử lý dữ liệu hình ảnh với cấu trúc gồm các lớp chập (Convolutional), lớp kích hoạt phi tuyến ReLU, lớp gộp (Pooling) và lớp phân loại cuối cùng. CNN tận dụng các bộ lọc nhỏ để trích xuất đặc trưng cục bộ, giảm số lượng tham số so với mạng nơ-ron truyền thống, từ đó tăng hiệu quả và độ chính xác nhận dạng. Các khái niệm chính bao gồm:

Lớp chập (Convolutional Layer): Tích chập ảnh đầu vào với các bộ lọc để phát hiện đặc trưng.
Lớp ReLU: Hàm kích hoạt phi tuyến giúp mô hình học được các biểu diễn phức tạp.
Lớp gộp (Pooling Layer): Giảm kích thước dữ liệu, giữ lại đặc trưng quan trọng.
Lớp kết nối đầy đủ (Fully Connected Layer): Phân loại dựa trên đặc trưng đã trích xuất.
Kỹ thuật Dropout: Giảm hiện tượng quá khớp bằng cách ngẫu nhiên loại bỏ một số nơ-ron trong quá trình huấn luyện.

Ngoài ra, nghiên cứu còn ứng dụng các thuật toán phát hiện khuôn mặt Haar-Cascade trong thư viện OpenCV để tăng tốc xử lý và cải thiện độ chính xác nhận dạng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập FERC-2013 với khoảng 35.000 ảnh trắng đen kích thước 48x48 pixel, chứa 7 loại cảm xúc cơ bản. Ngoài ra, tập dữ liệu riêng gồm 900 ảnh màu và xám được thu thập từ webcam và tập CK+ được sử dụng để kiểm tra độ chính xác mô hình.

Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ tập dữ liệu chuẩn và tập dữ liệu riêng nhằm đảm bảo tính đại diện cho các loại cảm xúc. Cỡ mẫu kiểm tra gồm 280 ảnh từ tập A (webcam) và 620 ảnh từ tập B (CK+).

Quá trình nghiên cứu gồm các bước: tiền xử lý ảnh (chuyển sang ảnh xám, cắt khuôn mặt, chuẩn hóa kích thước), xây dựng kiến trúc CNN với các lớp chập, chuẩn hóa, ReLU, pooling và softmax, huấn luyện mô hình trên tập FERC-2013 với thuật toán tối ưu Adam, kiểm tra mô hình trên tập dữ liệu riêng. Toàn bộ quá trình được thực hiện trong khoảng thời gian nghiên cứu từ đầu năm đến tháng 7/2020.

Phân tích kết quả sử dụng các chỉ số như độ chính xác, ma trận nhầm lẫn (confusion matrix) để đánh giá hiệu quả nhận dạng cảm xúc. Kết quả được trình bày qua biểu đồ độ chính xác huấn luyện và ma trận tương quan giữa dự đoán và nhãn thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả nhận dạng cảm xúc: Mô hình CNN đạt độ chính xác trung bình trên 85% khi nhận dạng 7 loại cảm xúc trên tập dữ liệu riêng, trong đó cảm xúc "vui vẻ" và "bình thường" có tỷ lệ nhận dạng cao nhất, lần lượt khoảng 90% và 88%. Cảm xúc "khó chịu" và "sợ hãi" có độ chính xác thấp hơn, khoảng 75-78%, do đặc trưng biểu cảm phức tạp và dễ nhầm lẫn.
Tác động của điều kiện ánh sáng và góc nghiêng: Hệ thống nhận dạng chính xác khi khuôn mặt ở vị trí chính diện, khoảng cách khoảng 1m và điều kiện ánh sáng đầy đủ. Các trường hợp sai lệch nhận dạng thường xảy ra khi ánh sáng quá mạnh hoặc yếu, hoặc khuôn mặt bị nghiêng, làm mất đặc trưng quan trọng. Ví dụ, cảm xúc "bình thường" bị nhận dạng nhầm thành "buồn" hoặc "sợ hãi" do ánh sáng yếu hoặc góc nghiêng.
Hiệu quả triển khai trên Raspberry Pi 4: Hệ thống chạy độc lập trên máy tính nhúng Raspberry Pi 4 với thời gian xử lý trung bình mỗi ảnh khoảng 0.5 giây, đảm bảo tính di động và khả năng ứng dụng thực tế. Việc loại bỏ lớp kết nối đầy đủ trong mô hình CNN giúp giảm số lượng tham số, tăng tốc độ xử lý mà vẫn giữ được độ chính xác cao.
So sánh với các mô hình khác: Mô hình CNN được thiết kế có độ chính xác cao hơn khoảng 10% so với các phương pháp truyền thống như Haar-Cascade kết hợp phân loại SVM, đặc biệt trong việc nhận dạng cảm xúc phức tạp như "giận dữ" và "ngạc nhiên".

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao là do kiến trúc CNN tận dụng được đặc trưng cục bộ của ảnh khuôn mặt, đồng thời kỹ thuật chuẩn hóa và dropout giúp giảm hiện tượng quá khớp, tăng khả năng tổng quát hóa của mô hình. Việc sử dụng tập dữ liệu lớn và đa dạng như FERC-2013 cũng góp phần nâng cao chất lượng huấn luyện.

Các sai số nhận dạng chủ yếu do điều kiện môi trường như ánh sáng không đồng đều, góc nghiêng khuôn mặt và cường độ biểu cảm không rõ ràng. Điều này phù hợp với các nghiên cứu trước đây cho thấy nhận dạng cảm xúc qua khuôn mặt vẫn còn thách thức trong môi trường thực tế đa dạng.

Việc triển khai trên Raspberry Pi 4 chứng minh tính khả thi của hệ thống trong các ứng dụng di động và nhúng, mở ra hướng phát triển các thiết bị thông minh có khả năng tương tác cảm xúc với con người. Kết quả có thể được trình bày qua biểu đồ độ chính xác từng loại cảm xúc và ma trận nhầm lẫn minh họa các trường hợp nhận dạng sai.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng tập dữ liệu huấn luyện với các ảnh khuôn mặt trong nhiều điều kiện ánh sáng, góc nghiêng và biểu cảm khác nhau để nâng cao khả năng nhận dạng trong môi trường thực tế.
Cải tiến thuật toán tiền xử lý: Áp dụng các kỹ thuật tiền xử lý ảnh nâng cao như cân bằng sáng tự động, lọc nhiễu và điều chỉnh góc nghiêng khuôn mặt để giảm thiểu sai số do điều kiện môi trường.
Tối ưu hóa mô hình CNN: Nghiên cứu thêm các kiến trúc mạng sâu hơn hoặc kết hợp mạng CNN với mạng hồi tiếp (RNN) để nhận dạng cảm xúc theo chuỗi video, nâng cao độ chính xác và khả năng dự đoán cảm xúc liên tục.
Phát triển ứng dụng thực tế: Triển khai hệ thống nhận dạng cảm xúc trên các thiết bị di động, robot giao tiếp hoặc hệ thống đánh giá khách hàng nhằm tận dụng khả năng nhận dạng cảm xúc trong các lĩnh vực giáo dục, marketing và an ninh.
Đào tạo và phổ biến công nghệ: Tổ chức các khóa đào tạo, hội thảo về ứng dụng mạng nơ-ron tích chập và nhận dạng cảm xúc cho sinh viên, nhà nghiên cứu và doanh nghiệp để thúc đẩy phát triển công nghệ AI tại Việt Nam.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Công nghệ Thông tin, Kỹ thuật Điện tử - Truyền thông: Luận văn cung cấp kiến thức chuyên sâu về mạng nơ-ron tích chập, xử lý ảnh và ứng dụng thực tế trên thiết bị nhúng, hỗ trợ nghiên cứu và phát triển đề tài liên quan.
Giảng viên và nhà nghiên cứu trong lĩnh vực Trí tuệ nhân tạo và Thị giác máy tính: Tài liệu trình bày chi tiết về kiến trúc CNN, kỹ thuật huấn luyện và đánh giá mô hình, giúp mở rộng hiểu biết và ứng dụng trong các dự án nghiên cứu.
Doanh nghiệp phát triển sản phẩm công nghệ AI và thiết bị nhúng: Hướng dẫn triển khai hệ thống nhận dạng cảm xúc trên Raspberry Pi 4 giúp doanh nghiệp phát triển các sản phẩm thông minh, tương tác người-máy hiệu quả.
Chuyên gia trong lĩnh vực Marketing và Phân tích hành vi khách hàng: Hệ thống nhận dạng cảm xúc có thể ứng dụng để đánh giá phản hồi khách hàng, từ đó tối ưu hóa chiến dịch quảng cáo và nâng cao trải nghiệm người dùng.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao được chọn cho nhận dạng cảm xúc?
CNN là mô hình học sâu chuyên xử lý dữ liệu hình ảnh bằng cách trích xuất đặc trưng cục bộ qua các lớp chập. CNN được chọn vì khả năng nhận dạng chính xác các biểu cảm khuôn mặt phức tạp, vượt trội hơn các phương pháp truyền thống.
Tập dữ liệu FERC-2013 có đặc điểm gì nổi bật?
FERC-2013 gồm khoảng 35.000 ảnh trắng đen kích thước 48x48 pixel, chứa 7 loại cảm xúc cơ bản. Đây là tập dữ liệu chuẩn được sử dụng rộng rãi trong nghiên cứu nhận dạng cảm xúc khuôn mặt.
Làm thế nào để giảm hiện tượng quá khớp trong mô hình CNN?
Kỹ thuật Dropout được áp dụng bằng cách ngẫu nhiên loại bỏ một số nơ-ron trong quá trình huấn luyện, giúp mô hình không học quá chi tiết dữ liệu huấn luyện và tăng khả năng tổng quát hóa trên dữ liệu mới.
Tại sao chọn Raspberry Pi 4 để triển khai hệ thống?
Raspberry Pi 4 là máy tính nhúng nhỏ gọn, có cấu hình đủ mạnh để chạy mô hình CNN, dễ dàng di chuyển và lắp đặt, phù hợp cho các ứng dụng nhận dạng cảm xúc di động và độc lập phần cứng.
Hệ thống có thể nhận dạng cảm xúc trong điều kiện ánh sáng yếu hoặc góc nghiêng không?
Hiện tại hệ thống hoạt động tốt nhất trong điều kiện ánh sáng đầy đủ và khuôn mặt chính diện. Ánh sáng yếu hoặc góc nghiêng làm giảm độ chính xác do mất đặc trưng quan trọng, cần cải tiến thêm trong các nghiên cứu tiếp theo.

Kết luận

Đã xây dựng thành công mô hình mạng nơ-ron tích chập CNN nhận dạng 7 loại cảm xúc cơ bản trên khuôn mặt với độ chính xác trung bình trên 85%.
Hệ thống được triển khai độc lập trên máy tính nhúng Raspberry Pi 4, đảm bảo tính di động và khả năng ứng dụng thực tế.
Nghiên cứu góp phần nâng cao hiểu biết về ứng dụng AI trong nhận dạng cảm xúc, mở rộng khả năng tương tác người-máy tự nhiên.
Các hạn chế về điều kiện ánh sáng và góc nghiêng khuôn mặt được xác định là thách thức cần khắc phục trong tương lai.
Đề xuất phát triển thêm dữ liệu đa dạng, cải tiến thuật toán tiền xử lý và mở rộng ứng dụng trong các lĩnh vực giáo dục, kinh tế và an ninh.

Tiếp theo, nghiên cứu sẽ tập trung vào tối ưu hóa mô hình CNN, mở rộng nhận dạng cảm xúc theo chuỗi video và phát triển ứng dụng trên các nền tảng di động. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm từ kết quả này để thúc đẩy công nghệ trí tuệ nhân tạo tại Việt Nam.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan: Trong chương này, em sẽ trình bày khái quát về xu hướng phát triển cũng như tình hình nghiên cứu hiện nay, lý do chọn đề tài, xác định mục tiêu cần thực hiện trong đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu của đề tài. Chương 2: Cơ sở lý thuyết: Nội dung chương này là giới thiệu về quá trình xử lý ảnh, mạng nơ ron nhân tạo, tìm hiểu cấu trúc, hoạt động từng lớp của mạng nơ-ron tích chập. Trình bày các đặc trưng của mặt người, phương pháp tiếp cận đặc trưng khuôn mặt và biểu cảm của khuôn mặt khi bày tỏ cảm xúc. Chương 3: Thiết kế hệ thống Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ- ron tích chập trên kit raspberry Pi 4: Trong chương này, em sẽ lên kế hoạch sử dụng tập mẫu, diễn giải các thông số của mô hình, quá trình huấn luyện, quá trình kiểm tra và thiết kế một hệ thống nhận dạng cảm xúc thông qua khuôn mặt dùng mô hình mạng nơ-ron tích chập.

Chương 4: Kết quả: Chương này sẽ trình bày các kết quả đạt được của quá trình huấn luyện, quá trình kiểm tra mô hình và ứng dụng nhận dạng cảm xúc thông qua khuôn mặt. Chương 5: Kết luận và hướng phát triển: Trong chương này sẽ trình bày những kết quả của đề tài nghiên cứu đã đạt được, nêu ra một số hướng nghiên cứu tiếp theo và phát triển đề tài. 4 Luan van CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH 2.1 Xử lý ảnh Xử lý ảnh là một hình thức xử lý tín hiệu mà ảnh đầu vào là một hình ảnh và đầu ra của xử lý hình ảnh có thể là một hình ảnh hoặc một tập hợp các đặc tính hoặc tham số liên quan đến hình ảnh [11]. Đây là một phân ngành khoa học mới, rất phát triển trong những năm gần đây.

Các chủ đề chính trong trong lĩnh vực xử lý ảnh gồm: Phục hồi hình ảnh, nâng cao chất lượng hình ảnh, nén hình ảnh…Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống con người. Ngày nay xử lý ảnh được áp dụng rất rộng rãi trong đời sống như: Viễn thám, hình ảnh y tế, nghiên cứu pháp y, dệt may, khoa học vật liệu, quân sự, công nghiệp điện ảnh, xử lý tài liệu, công nghệ đồ họa, công nghiệp in ấn. Có hai phương pháp có sẵn trong xử lý ảnh đó là xử lý ảnh tương tự và xử lý ảnh kỹ thuật số. - Xử lý ảnh tương tự: Được thực hiện trên các tín hiệu tương tự, nó bao gồm xử lý trên tín hiệu tương tự 2 chiều.

Trong loại xử lý này những hình ảnh được thao tác, xử lý sử dụng phương thức điện bằng cách thay đổi các tín hiệu điện. - Xử lý ảnh kỹ thuật số: Sử dụng thuật toán máy tính để thực hiện xử lý hình ảnh trong môi trường ảnh số. Có 3 lợi ích chính của xử lý ảnh kỹ thuật số đó là chất lượng hình ảnh luôn cao, chi phí xử lý thấp và có khả năng điều khiển tất cả các phương diện của quá trình.1: Quy trình xử lý ảnh  Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình xử lý ảnh. Ảnh đầu vào sẽ được thu nhận qua các thiết bị như máy ảnh, cảm biến, máy quét ảnh.

và sau đó các tín hiệu này sẽ được số hóa. Việc lựa chọn các thiết bị 5 Luan van thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị.  Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch.

với mục đích làm cho chất lượng ảnh trở nên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh. Quá trình này thường được thực hiện bởi các bộ lọc.  Phân đoạn ảnh: Phân đoạn ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông.

Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám. Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô. Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó. Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu.

 Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó. Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết. Để chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó. Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn.

Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của nó. Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau. Chúng ta còn phải đưa ra một phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng. 6 Luan van  Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình xử lý ảnh.

Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chữ, người nghiên cứu cần tách riêng các mẫu chữ đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh. Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết.2 Điểm ảnh Để có thể xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh. Quá trình số hóa được gọi là quá trình biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí và độ sáng.

Khoảng các giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng [16]. Mỗi một điểm như vậy gọi là điểm ảnh PEL: Picture Element hay gọi tắt là Pixel, trong khuôn khổ ảnh hai chiều mỗi Pixel tương ứng với cặp tọa độ (x, y). Điểm ảnh là một phần tử của ảnh số tại toạ độ với độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám của ảnh số gần như ảnh thật.

Mỗi phần tử trong ma trận được gọi là một phần tử ảnh. Để dễ hiểu hơn về Pixel thì ta có thể quan sát Hình 2.2: Ví dụ về pixel ảnh 2.3 Độ phân giải Độ phân giải [17] của ảnh là mật độ điểm ảnh trên một ảnh số được hiển thị. Theo định nghĩa trên, khoảng cách giữa các điểm ảnh phải được chọn sao cho lúc quan sát bằng mắt 7 Luan van thường vẫn cảm nhận được sự liên tục của bức ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều.

Ví dụ: Độ phân giải của ảnh trên màn hình CGA là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200, nguyên nhân là cùng một độ phân giải nhưng diện tích màn hình rộng hơn thì sự liên tục của hình ảnh kém hơn, có thể quan sát Hình 2.3 dưới đây để thấy rõ hơn sự thay đổi độ mịn của hình ảnh theo kích thước.3: Sự thay đổi độ mịn của hình ảnh theo kích thước 2.4 Tăng cường ảnh Mục đích: Tăng cường các thuộc tính cảm nhận, làm cho ảnh tốt lên theo một ý nghĩa nào đó, tiện phục vụ cho các xử lý tiếp theo. Các thao tác: Thay đổi độ tương phản, lọc nhiễu, thay đổi màu sắc, cường độ sáng, lọc nhiễu, nội suy, làm trơn ảnh. Các phương pháp chính: - Các phương pháp thao tác trên điểm - Các thao tác không gian 2.5 Khôi phục ảnh 8 Luan van Mục đích: Khôi phục lại ảnh ban đầu, loại bỏ các biến dạng ra khỏi ảnh tùy theo nguyên nhân gây ra biến dạng.

∞ ∞ g(x,y) = ∫−∞ ∫−∞ ℎ(𝑥, 𝑦; 𝛼, 𝛽) 𝑓(𝛼, 𝛽) 𝑑𝛼𝑑(𝛽 + 𝜂(𝑥, 𝑦)) 𝜂 (x, y) là hàm biểu diễn nhiễu cộng. f(a,ß) là hàm biểu diễn đối tượng. g(x,y) là ảnh thu nhận. h(x,y;a,ß) là đáp ứng xung của hệ thống, còn gọi là hàm tán xạ điểm.6 Phân tích ảnh Mục đích: Tìm ra các đặc trưng của ảnh, xây dựng quan hệ giữa chúng dựa vào các đặc trưng cục bộ.

Các thao tác: Tìm biên, tách biên, làm mảnh đường biên, phân vùng ảnh, phân loại đối tượng. Các phương pháp: Phương pháp phát hiện biên cục bộ, dò biên theo quy hoạch động, phân vùng theo miền đồng nhất, phân vùng dựa theo đường biên.7 Nén dữ liệu ảnh Mục đích: Giảm không gian lưu trữ, thuận tiện cho việc truyền thông. Phương pháp: Nén không mất thông tin, nén mất thông tin. - Nén không mất thông tin nén chính xác: Khai thác các thông tin dư thừa - Nén mất thông tin: Khai thác các thông tin dư thừa và các thông tin không liên quan.

Hiện nay có một số chuẩn nén hay dùng: JPEG, MPEG (JPEG-2000, MPEG-4).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Nhận diện cảm xúc qua khuôn mặt bằng mạng nơ ron tích chập CNN" khám phá công nghệ tiên tiến trong việc nhận diện cảm xúc thông qua hình ảnh khuôn mặt, sử dụng mạng nơ ron tích chập (CNN). Tác giả trình bày cách mà CNN có thể phân tích và nhận diện các biểu cảm khác nhau, từ đó giúp cải thiện trải nghiệm người dùng trong nhiều lĩnh vực như chăm sóc sức khỏe, giáo dục và dịch vụ khách hàng. Bài viết không chỉ cung cấp cái nhìn sâu sắc về công nghệ mà còn nêu bật những ứng dụng thực tiễn, giúp độc giả hiểu rõ hơn về tiềm năng của nhận diện cảm xúc trong cuộc sống hàng ngày.

Nếu bạn muốn mở rộng kiến thức về lĩnh vực này, hãy tham khảo thêm bài viết "Luận văn tốt nghiệp khoa học máy tính phát triển hệ thống nhận diện cảm xúc qua giọng nói", nơi bạn sẽ tìm thấy thông tin về cách nhận diện cảm xúc qua giọng nói. Ngoài ra, bài viết "Hcmute thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập" cũng sẽ cung cấp cho bạn cái nhìn về việc áp dụng mạng nơ ron trong nhận diện cử chỉ, mở rộng thêm khía cạnh công nghệ trong giao tiếp phi ngôn ngữ. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của công nghệ nhận diện cảm xúc.

#nhận diện cảm xúc

#phân tích hình ảnh

#mạng nơ ron tích chập

Chủ đề

Công nghệ nhận diện cảm xúc

Mạng nơ ron và ứng dụng

Trí tuệ nhân tạo trong nhận diện hình ảnh

Phát triển phần mềm và ứng dụng AI