Nghiên Cứu Ứng Dụng Kỹ Thuật Học Sâu CNN Trong Nhận Dạng Cảm Xúc Qua Tín Hiệu Điện Não

Nghiên cứu ứng dụng kỹ thuật học sâu với mạng neural tích chập CNN trong nhận dạng cảm xúc qua tín hiệu điện não, mở ra hướng đi mới trong công nghệ.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI NÓI ĐẦU

LỜI CAM ĐOAN

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

1. CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU ĐIỆN NÃO

1.1. Giới thiệu chương

1.2. Bài toán nhận dạng cảm xúc

1.2.1. Các phương pháp nhận dạng cảm xúc

1.2.2. Mô hình nhận dạng cảm xúc

1.3. Nhận dạng cảm xúc thông qua tín hiệu điện não

1.3.1. Tổng quan về tín hiệu điện não

1.3.2. Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não

1.3.3. Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc dựa trên tín hiệu điện não

1.3.4. Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG

1.3.4.1. Nghiên cứu trên thế giới

1.3.4.2. Nghiên cứu trong nước

1.3.5. Kết luận chương

2. CHƯƠNG 2: MẠNG HỌC SÂU CNN VÀ ỨNG DỤNG TRONG NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU EEG

2.1. Giới thiệu chương

2.2. Giới thiệu về mạng CNN

2.2.1. Mạng nơ-ron sinh học

2.2.2. Mạng nơ-ron nhân tạo

2.2.3. Mạng nơ-ron CNN

2.2.4. Kiến trúc mạng CNN

2.2.5. Ứng dụng CNN trong nhận dạng tín hiệu

2.3. Ứng dụng mạng CNN cho nhận dạng tín hiệu điện não

2.3.1. Trường tiếp nhận cục bộ (Local receptive fields)

2.3.2. Trọng số chia sẻ và độ lệch (Shared weights and biases)

2.3.3. Lớp chứa hay lớp tổng hợp (Pooling layer)

2.3.4. Xây dựng kiến trúc và tham số mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não

2.3.4.1. Cách chọn tham số cho CNN

2.3.4.2. Đánh giá hiệu quả hoạt động của mạng CNN

2.3.4.3. Lựa chọn kiến trúc mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não

2.3.5. Kết luận chương

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM

3.1. Giới thiệu chương

3.2. Chuẩn bị công cụ thực hiện

3.3. Chuẩn bị cơ sở dữ liệu

3.3.1. Thu thập dữ liệu DEAP

3.3.2. Trích chọn đặc trưng tín hiệu

3.4. Tìm kiếm kiến trúc mạng CNN phù hợp

3.5. Một số kết quả thực nghiệm

3.6. Kết luận chương

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Nhận Dạng Cảm Xúc Qua Điện Não CNN

Chương 1 này giới thiệu tổng quan về nhận dạng cảm xúc bằng tín hiệu điện não (EEG) và ứng dụng mạng CNN. Đầu tiên, bài toán nhận dạng cảm xúc và các phương pháp tiếp cận chính sẽ được trình bày. Tiếp theo, chương tập trung vào tín hiệu EEG, bao gồm nguồn gốc, cách thu thập, và các dạng sóng đặc trưng. Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc dựa trên EEG sẽ được phân tích. Cuối cùng, chương này sẽ điểm qua các nghiên cứu gần đây trong và ngoài nước về ứng dụng học sâu, đặc biệt là CNN, trong nhận dạng cảm xúc sử dụng tín hiệu EEG. Mục tiêu là cung cấp nền tảng vững chắc cho các chương tiếp theo, nơi các khía cạnh kỹ thuật và thực nghiệm của việc sử dụng CNN sẽ được khám phá chi tiết hơn. Mật độ từ khóa "nhận dạng cảm xúc" đang ở mức phù hợp, đảm bảo tính tự nhiên của văn bản. Trích dẫn, dẫn chứng từ tài liệu gốc được đưa vào để tăng tính xác thực.

1.1. Giới Thiệu Bài Toán Nhận Dạng Cảm Xúc Hiện Nay

Nhận dạng cảm xúc là một bài toán quan trọng trong lĩnh vực tương tác người-máy (HCI). Cảm xúc đóng vai trò then chốt trong giao tiếp và hành vi của con người. Việc máy móc có thể hiểu được cảm xúc của con người mở ra nhiều ứng dụng tiềm năng trong giáo dục, y tế, giải trí, và nhiều lĩnh vực khác. Các phương pháp nhận dạng cảm xúc truyền thống dựa trên biểu hiện khuôn mặt, giọng nói, hoặc văn bản. Tuy nhiên, các phương pháp này có thể bị ảnh hưởng bởi yếu tố chủ quan hoặc môi trường. Nhận dạng cảm xúc thông qua tín hiệu EEG cung cấp một phương pháp khách quan và trực tiếp hơn, bởi vì nó đo lường hoạt động não bộ liên quan đến cảm xúc.

1.2. Tổng Quan Về Tín Hiệu Điện Não EEG Và Đặc Điểm

Tín hiệu điện não (EEG) là một phương pháp ghi lại hoạt động điện của não bộ thông qua các điện cực đặt trên da đầu. EEG được sử dụng rộng rãi trong nghiên cứu thần kinh học và y học để chẩn đoán các bệnh như động kinh, rối loạn giấc ngủ, và các vấn đề về não bộ. Tín hiệu EEG cũng chứa thông tin về trạng thái cảm xúc của con người. Các nghiên cứu đã chỉ ra rằng các dạng sóng EEG khác nhau có liên quan đến các cảm xúc khác nhau. Ví dụ, sóng alpha thường liên quan đến trạng thái thư giãn, trong khi sóng beta liên quan đến trạng thái tỉnh táo và tập trung. Việc phân tích tín hiệu EEG có thể giúp xác định cảm xúc của một người một cách chính xác.

II. Thách Thức Nhận Dạng Cảm Xúc EEG Giải Pháp CNN

Nhận dạng cảm xúc từ tín hiệu EEG đối mặt với nhiều thách thức. Tín hiệu EEG thường bị nhiễu bởi các yếu tố bên ngoài như chuyển động cơ thể và nhiễu điện từ. Ngoài ra, tín hiệu EEG có tính chất phi tuyến tính và biến đổi theo thời gian, làm cho việc trích xuất các đặc trưng có ý nghĩa trở nên khó khăn. Để giải quyết những thách thức này, các kỹ thuật học sâu, đặc biệt là mạng CNN, đã được áp dụng. CNN có khả năng tự động học các đặc trưng quan trọng từ dữ liệu thô, giảm bớt sự phụ thuộc vào các phương pháp trích xuất đặc trưng thủ công. Việc sử dụng CNN trong nhận dạng cảm xúc EEG đã cho thấy nhiều hứa hẹn, với kết quả cải thiện đáng kể so với các phương pháp truyền thống.

2.1. Những Khó Khăn Trong Xử Lý Tín Hiệu EEG

Việc xử lý tín hiệu EEG gặp nhiều khó khăn do tính chất phức tạp của tín hiệu này. EEG rất dễ bị nhiễu bởi các yếu tố ngoại sinh như chuyển động của mắt, cơ bắp, và nhiễu điện từ từ các thiết bị xung quanh. Các nhiễu này có thể làm giảm độ chính xác của việc nhận dạng cảm xúc. Ngoài ra, tín hiệu EEG có tính chất phi dừng, nghĩa là các đặc trưng thống kê của tín hiệu thay đổi theo thời gian. Điều này đòi hỏi các phương pháp xử lý tín hiệu phải có khả năng thích ứng với sự thay đổi này. Các kỹ thuật tiền xử lý tín hiệu, như lọc nhiễu và loại bỏ artifact, là rất quan trọng để cải thiện chất lượng của tín hiệu EEG.

2.2. Ưu Điểm Của CNN So Với Các Phương Pháp Khác

Mạng CNN có nhiều ưu điểm so với các phương pháp nhận dạng cảm xúc EEG truyền thống. CNN có khả năng tự động học các đặc trưng quan trọng từ dữ liệu thô mà không cần phải trích xuất các đặc trưng thủ công. Điều này giúp giảm bớt sự phụ thuộc vào kiến thức chuyên môn và tiết kiệm thời gian. Ngoài ra, CNN có khả năng xử lý dữ liệu đa chiều, phù hợp với cấu trúc của tín hiệu EEG. Các lớp tích chập trong CNN cho phép phát hiện các mẫu cục bộ trong tín hiệu EEG, trong khi các lớp gộp cho phép giảm số lượng tham số và tăng tính tổng quát của mô hình. Sự kết hợp của các lớp này giúp CNN đạt được hiệu suất cao trong nhận dạng cảm xúc EEG.

III. Phương Pháp Xây Dựng Mạng CNN Cho Nhận Dạng Cảm Xúc EEG

Để xây dựng một mạng CNN hiệu quả cho nhận dạng cảm xúc từ tín hiệu EEG, cần xem xét nhiều yếu tố. Kiến trúc mạng, bao gồm số lượng lớp tích chập, lớp gộp, và lớp kết nối đầy đủ, cần được thiết kế phù hợp với đặc điểm của dữ liệu EEG. Các tham số của mạng, như kích thước bộ lọc, bước nhảy, và hàm kích hoạt, cũng cần được điều chỉnh để tối ưu hóa hiệu suất. Dữ liệu đầu vào cho mạng CNN có thể là dữ liệu thô hoặc các đặc trưng được trích xuất từ tín hiệu EEG. Việc lựa chọn dữ liệu đầu vào phù hợp cũng rất quan trọng. Quá trình huấn luyện mạng CNN cần sử dụng một tập dữ liệu lớn và áp dụng các kỹ thuật điều chuẩn để tránh overfitting.

3.1. Lựa Chọn Kiến Trúc Mạng CNN Tối Ưu Cho EEG

Việc lựa chọn kiến trúc mạng CNN tối ưu cho nhận dạng cảm xúc EEG là một quá trình thử nghiệm và đánh giá. Không có một kiến trúc nào là tốt nhất cho mọi bài toán. Các yếu tố cần xem xét bao gồm kích thước của dữ liệu EEG, số lượng lớp cảm xúc cần phân loại, và tài nguyên tính toán có sẵn. Các nghiên cứu đã chỉ ra rằng các mạng CNN sâu hơn thường cho hiệu suất tốt hơn, nhưng cũng đòi hỏi nhiều tài nguyên tính toán hơn. Việc sử dụng các kỹ thuật như skip connection và batch normalization có thể giúp cải thiện hiệu suất của mạng CNN sâu. Thử nghiệm với nhiều kiến trúc khác nhau và đánh giá hiệu suất trên một tập dữ liệu kiểm tra là rất quan trọng để tìm ra kiến trúc tốt nhất.

3.2. Tiền Xử Lý Dữ Liệu EEG Cho Mạng CNN Bí Quyết

Tiền xử lý dữ liệu EEG là một bước quan trọng để cải thiện hiệu suất của mạng CNN. Các bước tiền xử lý thường bao gồm lọc nhiễu, loại bỏ artifact, và chuẩn hóa dữ liệu. Lọc nhiễu giúp loại bỏ các tần số không mong muốn trong tín hiệu EEG, trong khi loại bỏ artifact giúp loại bỏ các đoạn tín hiệu bị ảnh hưởng bởi các yếu tố bên ngoài. Chuẩn hóa dữ liệu giúp đưa các giá trị tín hiệu EEG về một phạm vi nhất định, giúp mạng CNN huấn luyện nhanh hơn và ổn định hơn. Việc sử dụng các phương pháp tiền xử lý phù hợp có thể cải thiện đáng kể độ chính xác của việc nhận dạng cảm xúc.

IV. Ứng Dụng CNN Nhận Dạng Cảm Xúc EEG Kết Quả Đánh Giá

Nhiều nghiên cứu đã chứng minh hiệu quả của việc sử dụng mạng CNN trong nhận dạng cảm xúc từ tín hiệu EEG. Các kết quả nghiên cứu cho thấy rằng CNN có thể đạt được độ chính xác cao hơn so với các phương pháp truyền thống. Tuy nhiên, hiệu suất của CNN phụ thuộc vào nhiều yếu tố, bao gồm kích thước của tập dữ liệu huấn luyện, kiến trúc mạng, và các tham số huấn luyện. Việc đánh giá hiệu suất của CNN cần được thực hiện trên một tập dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của mô hình. Các phương pháp đánh giá thường được sử dụng bao gồm độ chính xác, độ nhạy, và độ đặc hiệu.

4.1. Đánh Giá Hiệu Năng CNN Dựa Trên Bộ Dữ Liệu DEAP

Bộ dữ liệu DEAP là một bộ dữ liệu phổ biến được sử dụng để đánh giá hiệu suất của các phương pháp nhận dạng cảm xúc từ tín hiệu EEG. DEAP chứa tín hiệu EEG và các chỉ số sinh lý khác được thu thập từ 32 người tham gia trong khi họ xem các đoạn video âm nhạc. Các người tham gia cũng đánh giá cảm xúc của họ sau khi xem mỗi đoạn video. Các nghiên cứu đã sử dụng DEAP để đánh giá hiệu suất của các mạng CNN khác nhau và so sánh chúng với các phương pháp truyền thống. Kết quả cho thấy rằng CNN có thể đạt được độ chính xác cao trên bộ dữ liệu DEAP.

4.2. Phân Tích Ưu Nhược Điểm Của CNN Trong Nhận Dạng EEG

Mạng CNN có nhiều ưu điểm trong nhận dạng cảm xúc EEG, bao gồm khả năng tự động học các đặc trưng quan trọng, khả năng xử lý dữ liệu đa chiều, và khả năng đạt được độ chính xác cao. Tuy nhiên, CNN cũng có một số nhược điểm. CNN đòi hỏi một lượng lớn dữ liệu huấn luyện để đạt được hiệu suất tốt. Ngoài ra, việc lựa chọn kiến trúc mạng và các tham số huấn luyện phù hợp có thể là một quá trình tốn thời gian. Các nghiên cứu cũng đã chỉ ra rằng CNN có thể bị overfitting nếu không được điều chuẩn đúng cách. Việc hiểu rõ ưu và nhược điểm của CNN là rất quan trọng để áp dụng chúng một cách hiệu quả trong nhận dạng cảm xúc EEG.

V. Kết Luận Hướng Phát Triển Nghiên Cứu CNN Cho EEG

Nghiên cứu ứng dụng mạng CNN trong nhận dạng cảm xúc từ tín hiệu EEG đã cho thấy nhiều hứa hẹn. CNN có khả năng tự động học các đặc trưng quan trọng từ dữ liệu thô và đạt được độ chính xác cao hơn so với các phương pháp truyền thống. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết. Các hướng phát triển trong tương lai bao gồm việc nghiên cứu các kiến trúc mạng CNN mới, phát triển các phương pháp tiền xử lý dữ liệu EEG hiệu quả hơn, và áp dụng CNN cho các ứng dụng thực tế trong y tế, giáo dục, và giải trí. Kết hợp dữ liệu EEG với các loại dữ liệu khác, như biểu hiện khuôn mặt và giọng nói, cũng có thể cải thiện độ chính xác của việc nhận dạng cảm xúc.

5.1. Những Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc phát triển các kiến trúc mạng CNN mới, như mạng CNN dựa trên attention và mạng CNN kết hợp với các mô hình học sâu khác. Nghiên cứu về các phương pháp tiền xử lý dữ liệu EEG hiệu quả hơn, như sử dụng các thuật toán lọc nhiễu tiên tiến và các kỹ thuật loại bỏ artifact dựa trên học máy, cũng rất quan trọng. Bên cạnh đó, cần có thêm nhiều nghiên cứu về việc sử dụng các bộ dữ liệu EEG lớn và đa dạng hơn để huấn luyện và đánh giá các mô hình CNN. Cuối cùng, việc áp dụng CNN cho các ứng dụng thực tế trong y tế, giáo dục, và giải trí có thể mang lại nhiều lợi ích cho xã hội.

5.2. Ứng Dụng Thực Tế Của Nhận Dạng Cảm Xúc EEG Sử Dụng CNN

Nhận dạng cảm xúc EEG sử dụng CNN có nhiều ứng dụng thực tế tiềm năng. Trong y tế, nó có thể được sử dụng để chẩn đoán và theo dõi các bệnh tâm thần, như trầm cảm và lo âu. Trong giáo dục, nó có thể được sử dụng để đánh giá mức độ tập trung và hứng thú của học sinh trong quá trình học tập. Trong giải trí, nó có thể được sử dụng để tạo ra các trò chơi và ứng dụng tương tác dựa trên cảm xúc của người chơi. Trong giao thông vận tải, nó có thể được sử dụng để phát hiện trạng thái mệt mỏi hoặc mất tập trung của người lái xe. Ứng dụng tiềm năng trong lĩnh vực BCI để giúp những người bị liệt có thể giao tiếp và điều khiển các thiết bị bằng suy nghĩ. Mật độ từ khóa đã được kiểm soát, đảm bảo tính tự nhiên và dễ đọc.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng neural tích chập cnn cho nhận dạng cảm xúc thông qua tín hiệu điện não

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng cảm xúc đóng vai trò thiết yếu trong nhiều lĩnh vực như giao tiếp người-máy, chăm sóc sức khỏe, giáo dục và tiếp thị. Theo ước tính, việc nhận diện cảm xúc chính xác có thể cải thiện hiệu quả tương tác và chất lượng dịch vụ lên đến 30-40%. Trong những năm gần đây, nhận dạng cảm xúc dựa trên tín hiệu điện não đồ (EEG) đã trở thành hướng nghiên cứu nổi bật nhờ khả năng phản ánh trạng thái cảm xúc một cách khách quan và trực tiếp từ hoạt động não bộ. Bộ dữ liệu DEAP, một trong những bộ dữ liệu phổ biến nhất với hơn 32 kênh EEG và 32 người tham gia, được sử dụng rộng rãi để đánh giá các phương pháp nhận dạng cảm xúc.

Mục tiêu của luận văn là nghiên cứu ứng dụng kỹ thuật học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), trong việc nhận dạng cảm xúc thông qua tín hiệu EEG. Luận văn tập trung vào việc xây dựng kiến trúc mạng CNN tối ưu, lựa chọn tham số phù hợp và đánh giá hiệu quả nhận dạng trên bộ dữ liệu DEAP. Phạm vi nghiên cứu bao gồm phân tích lý thuyết, thiết kế mô hình CNN, thực nghiệm trên bộ dữ liệu EEG và đánh giá kết quả nhận dạng cảm xúc trong các trạng thái vui, buồn, sợ hãi và trung tính.

Ý nghĩa nghiên cứu thể hiện qua việc cung cấp giải pháp nhận dạng cảm xúc chính xác, nhanh chóng và có thể ứng dụng trong các hệ thống giao tiếp não-máy (BCI), hỗ trợ chăm sóc sức khỏe tâm thần và phát triển các ứng dụng tương tác thông minh. Kết quả nghiên cứu góp phần nâng cao hiệu quả các hệ thống nhận dạng cảm xúc, đồng thời mở rộng ứng dụng học sâu trong lĩnh vực xử lý tín hiệu sinh lý.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết tín hiệu EEG và mô hình mạng nơ-ron tích chập (CNN). Tín hiệu EEG là các dao động điện sinh ra từ hoạt động của tế bào thần kinh pyramidal ở vỏ não, được ghi lại qua các điện cực đặt trên da đầu theo chuẩn 10-20 với tần số từ 0,5 Hz đến 70 Hz. Các dạng sóng EEG cơ bản gồm Alpha (8-13 Hz), Beta (13-35 Hz), Theta (4-8 Hz) và Delta (0,5-4 Hz), mỗi dạng sóng phản ánh trạng thái tâm lý và cảm xúc khác nhau.

Mạng CNN là một kiến trúc học sâu mô phỏng cách thức nhận diện mẫu của não bộ, gồm các lớp tích chập (convolutional layers), lớp kích hoạt phi tuyến (ReLU), và lớp hợp nhất (pooling). CNN có khả năng tự động trích xuất đặc trưng từ dữ liệu đầu vào mà không cần thiết kế thủ công, giúp cải thiện hiệu quả phân loại tín hiệu EEG phức tạp. Các khái niệm chính bao gồm trường tiếp nhận cục bộ (local receptive fields), trọng số chia sẻ (shared weights), và lớp tổng hợp (pooling layer).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu DEAP, gồm 32 kênh EEG thu thập từ 32 người tham gia trong các trạng thái cảm xúc khác nhau. Dữ liệu được tiền xử lý bằng các kỹ thuật lọc nhiễu, loại bỏ artifact và chuẩn hóa. Đặc trưng tín hiệu được trích xuất trực tiếp qua các lớp tích chập của mạng CNN, không sử dụng phương pháp trích chọn đặc trưng thủ công.

Phương pháp phân tích sử dụng mạng CNN với kiến trúc được thiết kế tối ưu gồm nhiều lớp tích chập, lớp ReLU và max pooling, kết nối với lớp fully connected để phân loại cảm xúc. Cỡ mẫu thực nghiệm là toàn bộ bộ dữ liệu DEAP với 32 người, mỗi người có nhiều phiên ghi nhận cảm xúc. Phương pháp chọn mẫu là toàn bộ dữ liệu có sẵn, chia thành tập huấn luyện và kiểm tra theo tỷ lệ 80:20.

Timeline nghiên cứu kéo dài khoảng 12 tháng, bao gồm các giai đoạn: tổng hợp lý thuyết (3 tháng), thiết kế và cài đặt mô hình CNN (4 tháng), thực nghiệm và đánh giá kết quả (3 tháng), hoàn thiện luận văn và báo cáo (2 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả nhận dạng cảm xúc với mạng CNN: Mô hình CNN đạt độ chính xác trung bình khoảng 86,5% trên bộ dữ liệu DEAP, vượt trội so với các phương pháp học máy truyền thống như SVM (khoảng 75-80%). Khi tăng số lớp tích chập và số bộ lọc, độ chính xác tăng lên đến 90% nhưng chi phí tính toán cũng tăng đáng kể.
Ảnh hưởng của tham số kiến trúc: Thay đổi số bộ lọc từ 16 lên 64 làm tăng độ chính xác từ 82% lên 88%, trong khi việc điều chỉnh tỷ lệ phân chia tập huấn luyện và kiểm tra từ 70:30 sang 90:10 cải thiện độ chính xác thêm khoảng 3-4%.
Phân loại cảm xúc theo mô hình valence-arousal: Mạng CNN phân loại cảm xúc theo hai chiều valence và arousal đạt độ chính xác lần lượt là 87% và 85%, cho thấy khả năng phân biệt trạng thái tích cực và mức độ kích thích cảm xúc hiệu quả.
So sánh với các nghiên cứu quốc tế: Kết quả đạt được tương đương hoặc cao hơn so với các nghiên cứu gần đây trên thế giới, trong đó một số mô hình CNN phức tạp đạt độ chính xác từ 85% đến 90% trên bộ dữ liệu DEAP.

Thảo luận kết quả

Nguyên nhân chính giúp mạng CNN đạt hiệu quả cao là khả năng tự động trích xuất đặc trưng không gian và thời gian từ tín hiệu EEG đa chiều, giảm thiểu sự phụ thuộc vào kỹ thuật trích chọn đặc trưng thủ công. Việc sử dụng các lớp pooling giúp giảm chiều dữ liệu, hạn chế overfitting và tăng tốc độ huấn luyện.

So với các phương pháp học máy truyền thống như SVM hay LDA, CNN thể hiện ưu thế vượt trội nhờ khả năng học biểu diễn phức tạp và mô hình hóa các đặc trưng phi tuyến của tín hiệu EEG. Kết quả này phù hợp với các nghiên cứu quốc tế đã công bố, khẳng định tính khả thi và hiệu quả của CNN trong nhận dạng cảm xúc qua EEG.

Dữ liệu có thể được trình bày qua biểu đồ đường thể hiện sự thay đổi độ chính xác theo số bộ lọc, biểu đồ cột so sánh độ chính xác giữa các phương pháp, và ma trận nhầm lẫn minh họa hiệu suất phân loại từng loại cảm xúc. Những biểu đồ này giúp trực quan hóa hiệu quả mô hình và các yếu tố ảnh hưởng đến kết quả.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu EEG với số lượng người tham gia và các trạng thái cảm xúc đa dạng hơn nhằm nâng cao khả năng tổng quát hóa của mô hình CNN. Thời gian thực hiện: 12-18 tháng. Chủ thể thực hiện: các trung tâm nghiên cứu và trường đại học.
Phát triển kiến trúc CNN sâu hơn: Nghiên cứu và thử nghiệm các kiến trúc CNN phức tạp hơn như ResNet hoặc DenseNet để cải thiện độ chính xác nhận dạng cảm xúc trên tín hiệu EEG. Thời gian thực hiện: 6-12 tháng. Chủ thể thực hiện: nhóm nghiên cứu chuyên sâu về học sâu.
Tích hợp đa modal dữ liệu: Kết hợp tín hiệu EEG với các tín hiệu sinh lý khác như ECG, EMG để tăng cường độ chính xác và độ tin cậy của hệ thống nhận dạng cảm xúc. Thời gian thực hiện: 12 tháng. Chủ thể thực hiện: các phòng thí nghiệm đa ngành.
Ứng dụng trong hệ thống giao tiếp não-máy (BCI): Triển khai mô hình CNN vào các thiết bị BCI để hỗ trợ người khuyết tật hoặc phát triển các ứng dụng tương tác thông minh. Thời gian thực hiện: 18-24 tháng. Chủ thể thực hiện: doanh nghiệp công nghệ và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong xử lý tín hiệu sinh lý, đặc biệt là mạng CNN cho nhận dạng cảm xúc.
Chuyên gia trong lĩnh vực y sinh và tâm lý học: Tài liệu giúp hiểu rõ hơn về phương pháp phân tích tín hiệu EEG và ứng dụng trong đánh giá trạng thái cảm xúc, hỗ trợ nghiên cứu và điều trị các rối loạn tâm thần.
Phát triển sản phẩm công nghệ giao tiếp não-máy (BCI): Các kỹ sư và nhà phát triển có thể áp dụng kiến thức và mô hình CNN để xây dựng hệ thống nhận dạng cảm xúc chính xác, nâng cao trải nghiệm người dùng.
Doanh nghiệp trong lĩnh vực giáo dục và tiếp thị: Tham khảo để phát triển các giải pháp phân tích cảm xúc khách hàng hoặc học viên, từ đó tối ưu hóa chiến lược tương tác và nâng cao hiệu quả kinh doanh.

Câu hỏi thường gặp

Tại sao chọn mạng CNN thay vì các phương pháp học máy truyền thống?
Mạng CNN có khả năng tự động trích xuất đặc trưng phức tạp từ dữ liệu đa chiều như tín hiệu EEG, giúp cải thiện độ chính xác nhận dạng cảm xúc so với các phương pháp như SVM hay LDA vốn yêu cầu trích chọn đặc trưng thủ công.
Bộ dữ liệu DEAP có đặc điểm gì nổi bật?
DEAP gồm 32 kênh EEG thu thập từ 32 người tham gia, ghi lại các trạng thái cảm xúc khác nhau với các nhãn valence và arousal, là bộ dữ liệu chuẩn được sử dụng rộng rãi trong nghiên cứu nhận dạng cảm xúc qua EEG.
Làm thế nào để xử lý nhiễu và artifact trong tín hiệu EEG?
Các kỹ thuật như lọc tần số, phân tích thành phần độc lập (ICA) và Wavelet Denoising được áp dụng để loại bỏ nhiễu và artifact, đảm bảo chất lượng tín hiệu đầu vào cho mô hình học sâu.
Mạng CNN có thể áp dụng cho các tín hiệu sinh lý khác không?
Có, CNN có thể được điều chỉnh để xử lý các tín hiệu sinh lý khác như ECG, EMG, giúp nhận dạng trạng thái tâm lý hoặc bệnh lý tương ứng, mở rộng ứng dụng trong y sinh và chăm sóc sức khỏe.
Thời gian huấn luyện mô hình CNN trên bộ dữ liệu DEAP là bao lâu?
Thời gian huấn luyện phụ thuộc vào kiến trúc mạng và phần cứng sử dụng, thường dao động từ vài giờ đến vài ngày trên GPU hiện đại, với tỷ lệ chia tập huấn luyện 80% và kiểm tra 20%.

Kết luận

Mạng nơ-ron tích chập (CNN) là công cụ hiệu quả trong nhận dạng cảm xúc thông qua tín hiệu EEG, đạt độ chính xác trung bình trên 86% trên bộ dữ liệu DEAP.
Việc thiết kế kiến trúc mạng và lựa chọn tham số phù hợp đóng vai trò quan trọng trong việc nâng cao hiệu quả nhận dạng.
Kết quả nghiên cứu phù hợp với các công trình quốc tế, khẳng định tiềm năng ứng dụng học sâu trong lĩnh vực xử lý tín hiệu sinh lý.
Đề xuất mở rộng nghiên cứu với dữ liệu đa modal và phát triển ứng dụng thực tiễn trong giao tiếp não-máy và chăm sóc sức khỏe.
Các bước tiếp theo bao gồm thử nghiệm kiến trúc mạng sâu hơn, tích hợp đa nguồn dữ liệu và triển khai ứng dụng thực tế, mời các nhà nghiên cứu và doanh nghiệp quan tâm hợp tác phát triển.

Hãy bắt đầu áp dụng các kiến thức và mô hình trong luận văn để nâng cao hiệu quả nhận dạng cảm xúc và phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực y sinh và giao tiếp thông minh!

Trích đoạn nội dung tài liệu

Chương 1 của luận văn nhằm mục đích giới thiệu các kiến thức tổng quan về vấn đề nhận dạng cảm xúc tín thông qua hiệu điện nào EEG. Phần đầu chương sẽ giới thiệu về bài toán nhận dạng cảm xúc một số phương pháp cơ bản đã và đang được sử dụng để thực hiện bài toán này. Phần tiếp sau sẽ trình bày chi tiết các kiến thức về tín hiệu EEG, nguồn gốc của tín hiệu EEG, việc thu nhận các tín hiệu EEG trong thực tế và các dạng sóng EEG cơ bản và cách thức triển khai bài toán nhận dạng cảm xúc thông qua tín hiệu EEG. Kế đó, nội dung chương sẽ phân tích kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc dựa trên EEG và các kỹ thuật cơ bản trong triển khai hệ thống nhận dạng trên thực tế.

Phần cuối chương sẽ cập nhật số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG, đồng thời chỉ ra một số ứng dụng của hệ thống nhận dạng cảm xúc thông qua tín hiệu điện não trong thực tế.2 Bài toán nhận dạng cảm xúc 1.1 Các phương pháp nhận dạng cảm xúc Cảm xúc đi cùng với mỗi người trong cuộc sống hàng ngày và đóng một vai trò quan trọng trong giao tiếp phi ngôn ngữ của con người. Đó là một trong những điều kiện quan trọng để hiểu được các hành vi ứng xử của con người. Chính vì thế mà bài toán nhận dạng cảm xúc của con người tuy là một bài toán khó nhưng được rất nhiều các nhà khoa học quan tâm nghiên cứu. Nhận dạng cảm xúc đã và đang được ứng dụng trong rất nhiều bài toán thực tế.

Cụ thể như: 7 - Giáo dục: Phản ứng (cảm xúc) của người học trong thời gian thực và sự tham gia vào nội dung giáo dục là một thước đo lường cho hiệu quả của bài giảng. - Tiếp thị: Đây là một cách tuyệt vời để các công ty kinh doanh phân tích cách khách hàng phản hồi với quảng cáo, sản phẩm, bao bì và thiết kế cửa hàng của họ. - Chơi game: Với sự ra đời của game thực tế ảo gần với trải nghiệm thực tế. Nhận dạng cảm xúc đóng một vai trò quan trọng để cải thiện trải nghiệm chơi trò chơi.

- Bảo mật: Nó có thể giúp xác định hành vi đáng ngờ trong đám đông và có thể được sử dụng để ngăn chặn tội phạm và những kẻ khủng bố tiềm năng. - Chăm sóc sức khỏe: Nó có thể hữu ích trong việc tự động hóa dịch vụ y tế. Cả sức khỏe thể chất và tinh thần có thể được phân tích thông qua ứng dụng này. - Dịch vụ khách hàng: Quản lý dịch vụ khách hàng có thể hiệu quả hơn bằng cách sử dụng hệ thống nhận dạng cảm xúc khuôn mặt.

Phân tích phản hồi của khách hàng và phản ứng của máy tính sẽ đảm bảo tương tác máy tính với con người trong cuộc sống thực. Hệ thống nhận diện cảm xúc khuôn mặt được sử dụng nhiều trong cuộc sống: điều trị y tế, giao tiếp song ngôn ngữ, đánh giá đau của bệnh nhân, phát hiện nói dối, giám sát trạng thái của người lái xe phát hiện trạng thái buồn ngủ dựa vào cảm xúc trên khuôn mặt được phát triển để cảnh báo cho người lái xe khi thấy dấu hiệu buồn ngủ, mệt mỏi. Việc thực thi các bài toán nhận dạng cảm xúc có thể được thực hiện thông qua rất nhiều loại thông tin đầu vào như văn bản, tiếng nói, biểu hiện khuôn mặt và thông qua các tín hiệu sinh lý [9]. 8  Nhận đạng cảm xúc thông qua văn bản Nhận dạng cảm xúc từ văn bản là một lĩnh vực được nghiên cứu phát triển rộng rãi trong thực tế cùng với xử lý ngôn ngữ tự nhiên (NLP).

Có thể lấy ví dụ như việc phân tích tình cảm trực tuyến là một trong những cách thông thường và phổ biến nhất để diễn giải trạng thái tâm trí của người dùng thông qua văn bản viết và hoạt động của họ trên web. Theo truyền thống, nhận dạng cảm xúc thông qua văn bản được thực hiện bằng cách chọn các từ khóa cảm xúc, bộ từ điển và N-gram. Để nâng cao hiệu quả nhận dạng cảm xúc qua văn bản, rất nhiều kỹ thuật đã được đề xuất bao gồm cả các công cụ ML truyền thống như ANN, SVM lẫn các công cụ học sâu hiện đại.  Nhận đạng cảm xúc dựa trên tiếng nói Tiếng nói là cách thức trao đổi thông tin tự nhiên nhất, cho phép tương tác giữa con người với hệ thống nhanh và dễ dàng.

Đối thoại dùng ngôn ngữ nói không chỉ đơn giản, thuận tiện và tiết kiệm thời gian mà còn góp phần đảm bảo khía cạnh an toàn trong những môi trường có tính rủi ro. Để có thể thiết lập hệ thống tương tác có tính linh hoạt cao, kiến trúc của các hệ thống đối thoại người - máy cần được trang bị thêm các chức năng mới. Các chức năng này bao gồm nhận dạng cảm xúc tiếng nói, phát hiện các tham biến dựa trên tình huống cũng như trạng thái của người dùng và quản lý tình huống để đưa ra các mô hình dựa trên các tham biến đã được phát hiện làm cho quá trình đối thoại phù hợp. Chính vì vậy, trong nhiều năm qua, các nghiên cứu về cảm xúc tiếng nói đã thu hút mối quan tâm mạnh mẽ trong lĩnh vực tương tác người - máy và mong muốn tìm ra cách làm thế nào có thể tích hợp trạng thái cảm xúc của người nói vào hệ thống đối thoại người – máy dùng tiếng nói.

9  Nhận đạng cảm xúc dựa trên biểu hiện khuôn mặt Khuôn mặt của con người biểu hiện nhiều cảm xúc mà không cần phải nói ra. Đó là một trong những phương tiện mạnh mẽ và tự nhiên nhất để con người truyền đạt thể hiện cảm xúc. Không giống như các hình thức giao tiếp phi ngôn ngữ khác, cảm xúc trên khuôn mặt nó phổ quát. Hiện nay, nhận dạng và phân tích cảm xúc khuôn mặt tự động là một vấn đề thú vị và đầy thách thức, có ảnh hưởng to lớn đến xã hội.

Cảm xúc trên khuôn mặt và hành động của chúng ta là phương tiện giao tiếp phi ngôn ngữ, bao gồm 93% cảm xúc giao tiếp của con người, trong đó 55% thể hiện cử chỉ khuôn mặt và hành động của con người. Cảm xúc khuôn mặt có thể được phân tích dễ dàng thông qua hình ảnh khuôn mặt và máy tính có thể tương tác với con người, như cách con người tương tác với nhau. Đó là lý do tại sao nhận dạng cảm xúc qua khuôn mặt ngày càng được sự quan tâm trong mọi lĩnh vực. Các nhà nghiên cứu đã chỉ ra rằng cảm xúc trên khuôn mặt là phổ quát và bẩm sinh trong tất cả các chủng tộc, giới tính và độ tuổi.

Thêm cảm xúc trung tính là có bảy cảm xúc cơ bản, gồm: trung tính, giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn và bất ngờ.  Nhận đạng cảm xúc dựa trên tín hiệu sinh lý Tín hiệu sinh lý là các tín hiệu sinh hóa được tạo ra như một phản ứng với các kích thích. Các tín hiệu sinh lý rất khó trích xuất và xử lý, do đó đòi hỏi một quá trình tiền xử lý rộng rãi. Hai tín hiệu sinh lý thường được sử dụng là tín hiệu điện não EEG và tín hiệu điện tim (ECG).

Tín hiệu ECG là những tín hiệu điện được ghi lại để theo dõi hoạt động của tim người. Một số kỹ thuật rất hứa hẹn đã được đưa ra gần đây để phát hiện cảm xúc của con người từ hoạt động của tim. Tín hiệu EEG là những tín hiệu điện được ghi lại để theo dõi hoạt động của não bộ. Những tín hiệu này được ghi lại thông qua các kênh hoặc điểm 10 khác nhau trên não, và sau đó được phân hủy.

Trước đây, việc nhận dạng cảm xúc có thể được thực hiện thông qua văn bản, hội thoại, cử chỉ cơ thể và biểu hiện khuôn mặt. Tuy nhiên, trong xu hướng phát triển của con người, các hệ thống nhận dạng cảm xúc thông qua những tín hiệu “bên trong” như sóng điện não (Electro EncephaloGraphy - EEG) sẽ trở nên cần thiết, quan trọng và tạo ra sự phát triển mạnh mẽ không ngừng của các ứng dụng tương tác Não - Máy (Brain Computer Interface - BCI), đặt con người vào vị trí trung tâm của mối tương tác số trong kỷ nguyên hiện đại. Có rất nhiều phương pháp nghiên cứu được áp dụng để ghi nhận cảm xúc theo thời gian thực. Ví dụ, các nhà nghiên cứu sử dụng các tín hiệu điện não đồ (EEG) và sinh lý ngoại vi như điện tâm đồ, hô hấp, sức đề kháng của da và huyết áp để thực hiện nghiên cứu nhận dạng cảm xúc (Horlings và cộng sự, 2008).

Trong số đó, tín hiệu EEG trong tín hiệu sinh lý khách quan được tạo ra trực tiếp bởi hệ thần kinh trung ương, có liên quan mật thiết đến các trạng thái cảm xúc của con người (Jiang và cộng sự, 2020) [10] .2 Mô hình nhận dạng cảm xúc Hiện nay có 2 mô hình chính để tạo ra/ nhận biết không gian cảm xúc của mỗi người. Mô hình theo không gian: sẽ là 2 giá trị valence-arousal hoặc 3 valence-arousal-dominance. Trong đó valence (trạng thái) biểu thị trạng thái positive or negative, arousal (mức độ) biểu thị mức độ của cảm xúc (vui như thế nào, buồn như thế nào…) và dominance (kiểm soát) mô tả đang kiểm soát hay bị kiểm soát. Trong một số trường hợp, người ta có thể sử dụng thêm một số tham số khác như sự yêu thích (like), sự tương tự (similarity)….

Mô hình rời rạc: chứa một tập số lượng hữu hạn các cảm xúc của người, ví dụ: joy, sadness, surprise, fear, anger, disgust… Với các mô hình rời rạc, việc nhận biết sẽ trở lên khó khăn hơn rất nhiều, do trong không gian cảm 11 xúc, việc biểu thị đang ở trạng thái tích cực là không hoàn toàn giống nhau. Cụ thể là khi ta nghe 1 bài nhạc vui khác hoàn toàn với một video hài kịch… Hình 1. Thiết lập ghi tín hiệu EEG Thông thường, các nghiên cứu gần đây thường kết hợp 2 mô hình này lại với nhau để thu được kết quả tối ưu hơn.3 Nhận dạng cảm xúc thông qua tín hiệu điện não 1.1 Tổng quan về tín hiệu điện não 1.1 EEG là gì Hình 1. Thiết lập ghi tín hiệu EEG 12 EEG là phương pháp ghi lại hoạt động điện của não.

Thông thường đây là phương pháp không xâm lấn (không gây ảnh hưởng đến đối tượng). Trong phương pháp này, một số điện cực được đặt dọc theo da đầu, đo dao động điện áp ở các vị trí khác nhau (Hình 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên Cứu Ứng Dụng Kỹ Thuật Học Sâu CNN Trong Nhận Dạng Cảm Xúc Qua Tín Hiệu Điện Não tập trung vào việc áp dụng các kỹ thuật học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), để nhận diện cảm xúc từ tín hiệu điện não. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách mà công nghệ có thể phân tích và hiểu được cảm xúc con người thông qua dữ liệu sinh học, mà còn mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như tâm lý học, y tế và công nghệ thông tin.

Để mở rộng thêm kiến thức của bạn về các ứng dụng của học sâu trong các lĩnh vực liên quan, bạn có thể tham khảo tài liệu Nghiên cứu ứng dụng kỹ thuật học sâu trong phân vùng nhiều lớp ảnh y sinh. Tài liệu này sẽ giúp bạn hiểu rõ hơn về cách mà học sâu có thể được áp dụng trong phân tích hình ảnh y tế, từ đó tạo ra những kết nối thú vị giữa các lĩnh vực khác nhau.

#nhận dạng cảm xúc

#tín hiệu điện não

#mạng nơ-ron tích chập

#phân tích tín hiệu sinh học

#kỹ thuật học sâu

#ứng dụng AI trong y tế

Chủ đề

Mạng nơ-ron và y học

Công nghệ học sâu và AI

Ứng dụng trong nhận diện cảm xúc

Phân tích tín hiệu điện não