Tổng quan nghiên cứu

Cảm xúc đóng vai trò thiết yếu trong cuộc sống con người, ảnh hưởng đến hành vi, quyết định và nhận thức. Theo Tổ chức Y tế Thế giới, trầm cảm – một trong những rối loạn cảm xúc phổ biến – đang ảnh hưởng đến khoảng 264 triệu người trên toàn cầu. Việc nhận biết và phân loại trạng thái cảm xúc không chỉ có ý nghĩa trong y học mà còn ứng dụng rộng rãi trong tương tác người-máy, cải thiện dịch vụ khách hàng và tối ưu hóa quảng cáo. Trong bối cảnh đó, điện não đồ (EEG) được xem là phương pháp đo lường cảm xúc khách quan, chi phí thấp và có tính di động cao.

Luận văn tập trung nghiên cứu hệ thống phân loại các trạng thái cảm xúc dựa trên tín hiệu EEG, nhằm cải thiện độ chính xác phân loại so với các nghiên cứu trước đây. Mục tiêu cụ thể là xây dựng mô hình học sâu Convolutional Neural Network (CNN) sử dụng đặc trưng hệ số tương quan từ tín hiệu EEG đã được xử lý bằng biến đổi wavelet. Nghiên cứu áp dụng trên bộ dữ liệu DEAP, thu thập từ 32 người tham gia với 40 video kích thích cảm xúc, nhằm phân biệt bốn trạng thái cảm xúc dựa trên hai chỉ số Valence và Arousal. Kết quả đạt được độ chính xác lần lượt 82% cho Arousal và 81% cho Valence, cho thấy tiềm năng ứng dụng EEG trong nhận diện cảm xúc.

Phạm vi nghiên cứu tập trung vào dữ liệu EEG thu thập trong môi trường phòng thí nghiệm, sử dụng bộ dữ liệu DEAP với tần số lấy mẫu 128 Hz và 32 kênh điện cực. Ý nghĩa nghiên cứu góp phần phát triển các công cụ hỗ trợ chẩn đoán rối loạn cảm xúc, ứng dụng trong y sinh và tương tác người-máy, đồng thời mở rộng hiểu biết về mối liên hệ giữa hoạt động não bộ và trạng thái cảm xúc.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết cảm xúc cơ bản và mô hình phân loại cảm xúc hai chiều Valence-Arousal của Russell. Valence biểu thị mức độ dễ chịu hoặc khó chịu, trong khi Arousal thể hiện mức độ kích thích hoặc yên tĩnh của cảm xúc. Bốn trạng thái cảm xúc được phân biệt dựa trên sự kết hợp của hai chỉ số này: Valence-Arousal, Valence-Not Arousal, Not Valence-Arousal và Not Valence-Not Arousal.

Về mặt kỹ thuật, tín hiệu EEG được phân tích dựa trên các dải tần số chính gồm delta (0.5-4 Hz), theta (4-8 Hz), alpha (8-13 Hz), beta (14-30 Hz) và gamma (>30 Hz). Các dải tần alpha, beta và gamma được chứng minh có liên quan mật thiết đến các trạng thái cảm xúc khác nhau. Đặc biệt, sự bất đối xứng hoạt động điện não ở vùng trán và thái dương phản ánh các giá trị Valence và Arousal.

Phương pháp biến đổi wavelet rời rạc (DWT) được sử dụng để tách tín hiệu EEG thành các dải tần con, giúp trích xuất đặc trưng trên cả miền thời gian và tần số. Hệ số tương quan Pearson giữa các kênh EEG được chọn làm đặc trưng đầu vào cho mô hình CNN, nhằm khai thác mối quan hệ đồng bộ giữa các vùng não trong quá trình cảm xúc.

Mạng neural tích chập (CNN) được áp dụng để phân loại trạng thái cảm xúc dựa trên ma trận tương quan EEG được biểu diễn như hình ảnh. CNN gồm các lớp convolution, ReLU, pooling và fully connected, giúp tự động trích xuất đặc trưng và phân loại hiệu quả. Mô hình CNN được thiết kế với kích thước filter 3x3, pooling 2x2 và số lớp convolution từ 3 đến 4, tối ưu hóa qua quá trình train-test.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu DEAP, gồm tín hiệu EEG và các tín hiệu sinh lý ngoại vi của 32 người tham gia khi xem 40 video âm nhạc kích thích cảm xúc, mỗi video dài 1 phút. Dữ liệu EEG được thu thập với 32 kênh điện cực, tần số lấy mẫu 128 Hz, lưu trữ dưới dạng số hóa.

Quy trình nghiên cứu gồm các bước: tiền xử lý dữ liệu (lọc nhiễu, loại bỏ tín hiệu không cần thiết, tách băng tần alpha, beta, gamma), phân đoạn tín hiệu thành các đoạn nhỏ để bắt chính xác vùng chứa cảm xúc, trích xuất đặc trưng hệ số tương quan Pearson giữa các kênh EEG trên từng dải tần.

Mô hình CNN được huấn luyện trên tập dữ liệu đã gán nhãn theo bốn trạng thái cảm xúc dựa trên Valence và Arousal. Cỡ mẫu huấn luyện và kiểm thử được chia theo tỷ lệ 80-20, sử dụng phương pháp chọn mẫu ngẫu nhiên. Quá trình huấn luyện thực hiện nhiều epoch để tối ưu tham số, đánh giá bằng các chỉ số độ chính xác và đường cong mất mát (loss curve).

Thời gian nghiên cứu kéo dài trong năm 2023, với các giai đoạn thu thập dữ liệu, xử lý, xây dựng mô hình và thử nghiệm thực nghiệm trên bộ dữ liệu DEAP.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác phân loại cảm xúc: Mô hình CNN đạt độ chính xác 82% cho nhãn Arousal và 81% cho nhãn Valence trên bộ dữ liệu DEAP, vượt trội hơn so với nhiều nghiên cứu trước đó có độ chính xác trung bình khoảng 75-78%. Kết quả này cho thấy hiệu quả của việc sử dụng đặc trưng hệ số tương quan và biến đổi wavelet trong phân loại cảm xúc.

  2. Hiệu quả trích xuất đặc trưng: Hệ số tương quan Pearson giữa các kênh EEG trên các dải tần alpha, beta và gamma cung cấp đặc trưng phân biệt rõ ràng giữa các trạng thái cảm xúc. Ví dụ, ma trận tương quan ở trạng thái Arousal cao có giá trị tương quan trung bình cao hơn 15% so với trạng thái Arousal thấp.

  3. Ảnh hưởng của dải tần EEG: Dải tần beta và gamma đóng vai trò quan trọng trong việc nhận diện Valence, trong khi dải alpha có ảnh hưởng lớn đến phân loại Arousal. Sự bất đối xứng hoạt động điện não ở vùng trán và thái dương được thể hiện rõ qua các hệ số tương quan, hỗ trợ phân biệt các trạng thái cảm xúc.

  4. Mô hình CNN tối ưu: Số lượng lớp convolution từ 3 đến 4, kích thước filter 3x3 và pooling 2x2 được xác định là cấu hình tối ưu, giúp cân bằng giữa độ phức tạp mô hình và hiệu quả phân loại. Đường cong mất mát cho thấy mô hình hội tụ ổn định sau khoảng 50 epoch.

Thảo luận kết quả

Kết quả nghiên cứu khẳng định tính khả thi của việc sử dụng tín hiệu EEG kết hợp biến đổi wavelet và hệ số tương quan làm đặc trưng cho phân loại cảm xúc. So với các nghiên cứu trước đây chủ yếu sử dụng đặc trưng phổ hoặc thời gian riêng lẻ, việc khai thác mối quan hệ tương quan giữa các kênh EEG giúp mô hình học sâu CNN nhận diện trạng thái cảm xúc chính xác hơn.

Sự phân bố đặc trưng trên các dải tần alpha, beta và gamma phù hợp với các nghiên cứu thần kinh học về vai trò của các sóng EEG trong cảm xúc. Ví dụ, sóng beta liên quan đến sự chú ý và cảm xúc tích cực, trong khi sóng alpha phản ánh trạng thái thư giãn và kích thích.

Việc áp dụng CNN cho phép tự động trích xuất đặc trưng phức tạp từ ma trận tương quan, giảm thiểu sự phụ thuộc vào kỹ thuật trích xuất thủ công và tăng khả năng tổng quát hóa của mô hình. Kết quả đạt được độ chính xác trên 80% cho cả hai nhãn Valence và Arousal là bước tiến đáng kể so với các mô hình truyền thống.

Dữ liệu có thể được trình bày qua biểu đồ đường cong độ chính xác và mất mát theo epoch, cũng như bảng so sánh kết quả với các nghiên cứu trước đó để minh họa sự cải thiện về hiệu suất. Biểu đồ nhiệt ma trận tương quan EEG cũng giúp trực quan hóa sự khác biệt giữa các trạng thái cảm xúc.

Đề xuất và khuyến nghị

  1. Phát triển hệ thống nhận diện cảm xúc thời gian thực: Áp dụng mô hình CNN đã xây dựng vào các thiết bị EEG không dây để phát hiện trạng thái cảm xúc trong thời gian thực, hướng tới ứng dụng trong y tế và tương tác người-máy. Thời gian triển khai dự kiến trong 1-2 năm, do các nhóm nghiên cứu và doanh nghiệp công nghệ thực hiện.

  2. Mở rộng bộ dữ liệu và đa dạng hóa đối tượng: Thu thập thêm dữ liệu EEG từ các nhóm đối tượng đa dạng về độ tuổi, giới tính và văn hóa để nâng cao khả năng tổng quát hóa của mô hình. Khuyến nghị thực hiện trong vòng 3 năm với sự phối hợp của các trung tâm nghiên cứu y sinh.

  3. Tích hợp đa phương thức cảm xúc: Kết hợp tín hiệu EEG với các dữ liệu sinh lý khác như ECG, EMG, GSR để xây dựng hệ thống nhận diện cảm xúc đa kênh, tăng độ chính xác và độ tin cậy. Thời gian nghiên cứu và phát triển khoảng 2-3 năm, do các nhóm chuyên gia đa ngành thực hiện.

  4. Ứng dụng trong hỗ trợ điều trị rối loạn cảm xúc: Phát triển công cụ hỗ trợ chẩn đoán và theo dõi điều trị các bệnh lý liên quan đến cảm xúc như trầm cảm, rối loạn lo âu dựa trên phân tích EEG. Khuyến nghị phối hợp với các bệnh viện và trung tâm tâm lý trong 2 năm tới.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành kỹ thuật y sinh: Nghiên cứu về xử lý tín hiệu sinh học, học máy và ứng dụng trong nhận diện cảm xúc có thể áp dụng phương pháp và kết quả luận văn để phát triển các đề tài mới.

  2. Chuyên gia tâm lý học và y học thần kinh: Hiểu rõ hơn về mối liên hệ giữa hoạt động não bộ và cảm xúc, hỗ trợ trong chẩn đoán và điều trị các rối loạn cảm xúc dựa trên dữ liệu EEG.

  3. Phát triển công nghệ tương tác người-máy: Các kỹ sư và nhà phát triển phần mềm có thể ứng dụng mô hình phân loại cảm xúc để cải thiện trải nghiệm người dùng trong các thiết bị thông minh, trò chơi điện tử và hệ thống hỗ trợ khách hàng.

  4. Doanh nghiệp công nghệ y tế và thiết bị đo sinh lý: Tham khảo để phát triển các sản phẩm EEG di động, hệ thống phân tích cảm xúc tự động, góp phần nâng cao giá trị sản phẩm và mở rộng thị trường.

Câu hỏi thường gặp

  1. Tại sao chọn EEG làm phương pháp đo cảm xúc?
    EEG cung cấp tín hiệu điện não trực tiếp, khách quan, có độ phân giải thời gian cao và chi phí thấp so với các phương pháp khác như fMRI. EEG cũng dễ dàng thu thập trong môi trường thực tế và ít bị ảnh hưởng bởi các yếu tố ngoại cảnh.

  2. Mô hình CNN có ưu điểm gì trong phân loại cảm xúc?
    CNN tự động trích xuất đặc trưng phức tạp từ dữ liệu dạng ảnh (ở đây là ma trận tương quan EEG), giảm thiểu sự phụ thuộc vào kỹ thuật trích xuất thủ công, đồng thời có khả năng học các mẫu phi tuyến tính, giúp tăng độ chính xác phân loại.

  3. Đặc trưng hệ số tương quan Pearson có ý nghĩa thế nào?
    Hệ số tương quan đo lường mức độ liên kết tuyến tính giữa các kênh EEG, phản ánh sự đồng bộ hoạt động của các vùng não liên quan đến cảm xúc. Đặc trưng này giúp phân biệt các trạng thái cảm xúc dựa trên sự khác biệt trong mối quan hệ giữa các vùng não.

  4. Bộ dữ liệu DEAP có đặc điểm gì nổi bật?
    DEAP là bộ dữ liệu đa phương thức, thu thập EEG và các tín hiệu sinh lý ngoại vi từ 32 người tham gia khi xem 40 video âm nhạc kích thích cảm xúc. Dữ liệu được gán nhãn theo thang điểm Valence, Arousal và Dominance, phù hợp cho nghiên cứu nhận diện cảm xúc.

  5. Ứng dụng thực tiễn của nghiên cứu này là gì?
    Nghiên cứu có thể ứng dụng trong phát triển thiết bị theo dõi cảm xúc thời gian thực, hỗ trợ chẩn đoán rối loạn cảm xúc, cải thiện tương tác người-máy, và tối ưu hóa trải nghiệm người dùng trong các lĩnh vực y tế, giáo dục và giải trí.

Kết luận

  • Nghiên cứu đã xây dựng thành công hệ thống phân loại bốn trạng thái cảm xúc dựa trên tín hiệu EEG sử dụng mô hình CNN và đặc trưng hệ số tương quan, đạt độ chính xác trên 80%.
  • Việc áp dụng biến đổi wavelet giúp tách các dải tần EEG liên quan mật thiết đến cảm xúc, nâng cao hiệu quả trích xuất đặc trưng.
  • Kết quả khẳng định tiềm năng của EEG như một công cụ an toàn, chi phí thấp và khách quan trong nhận diện cảm xúc.
  • Nghiên cứu mở ra hướng phát triển các ứng dụng thực tiễn trong y sinh, tương tác người-máy và hỗ trợ điều trị rối loạn cảm xúc.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tích hợp đa phương thức và phát triển hệ thống nhận diện cảm xúc thời gian thực, kêu gọi sự hợp tác từ các nhà nghiên cứu và doanh nghiệp công nghệ.