Tổng quan nghiên cứu

Trong lĩnh vực học máy và xử lý tín hiệu điện não (EEG), nhiễu nhãn (label noise) là một vấn đề phổ biến nhưng chưa được quan tâm đúng mức, đặc biệt trong các nghiên cứu phân tích trạng thái thần kinh. Nhiễu nhãn gây ảnh hưởng tiêu cực đến chất lượng dữ liệu và hiệu suất của các mô hình phân loại, làm giảm độ chính xác và độ tin cậy của kết quả nghiên cứu. Luận văn này tập trung nghiên cứu xác thực nhãn cho tín hiệu EEG nhằm giảm thiểu tác động của nhiễu nhãn trên dữ liệu phổ mật độ công suất (PSD) của EEG, từ đó nâng cao hiệu quả phân tích trạng thái thần kinh.

Mục tiêu cụ thể của nghiên cứu là phát triển phương pháp xử lý nhiễu nhãn dựa trên phân tích cụm (cluster analysis) trong lĩnh vực trí tuệ nhân tạo, áp dụng trên dữ liệu EEG thực nghiệm và dữ liệu giả lập. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ sinh viên trong độ tuổi 18-30 tại phòng thí nghiệm đo điện não 204B4, Trường Đại học Bách Khoa – Đại học Quốc Gia TP. Hồ Chí Minh, với khoảng 63 mẫu cho trạng thái tập trung và 92 mẫu cho trạng thái nghỉ ngơi mỗi đối tượng.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện chất lượng dữ liệu EEG, tăng độ chính xác phân loại trạng thái thần kinh, đồng thời đề xuất chỉ số định lượng mới cho đánh giá hiệu quả phân cụm. Kết quả nghiên cứu có thể ứng dụng trong các lĩnh vực y sinh, chẩn đoán thần kinh và phát triển các hệ thống giao diện não-máy tính (BCI), góp phần nâng cao hiệu quả và độ tin cậy của các ứng dụng dựa trên tín hiệu EEG.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: lý thuyết về nhiễu nhãn trong học máy và lý thuyết phân tích cụm trong trí tuệ nhân tạo.

  • Nhiễu nhãn (Label Noise): Là sự sai lệch hoặc không chính xác trong việc gán nhãn cho dữ liệu, ảnh hưởng đến quá trình huấn luyện và hiệu suất mô hình phân loại. Nhiễu nhãn được phân loại thành ba loại chính: nhiễu hoàn toàn ngẫu nhiên (NCAR), nhiễu ngẫu nhiên phụ thuộc nhãn (NAR), và nhiễu không ngẫu nhiên phụ thuộc đặc trưng (NNAR). Nghiên cứu tập trung xử lý nhiễu nhãn trong tín hiệu EEG, vốn có đặc thù phức tạp và khó xác định nhãn chính xác.

  • Phân tích cụm (Cluster Analysis): Là phương pháp phân nhóm dữ liệu dựa trên sự tương đồng giữa các điểm dữ liệu mà không cần nhãn trước. Phân tích cụm giúp phát hiện các mẫu dữ liệu có nhãn bất đồng nhất trong cùng một cụm, từ đó xác định các điểm nhiễu nhãn. Các khái niệm chính bao gồm nhúng dữ liệu (embedding), phân cụm, và các chỉ số đánh giá hiệu quả phân cụm như Silhouette, Purity và chỉ số FPS (FPS score) mới được đề xuất trong nghiên cứu.

Ba phương pháp nhúng dữ liệu được sử dụng là t-SNE, UMAP và nlPCA, giúp giảm chiều dữ liệu và bảo toàn cấu trúc phân bố. Ba thuật toán phân cụm chính gồm KNN (k-Nearest Neighbors), GMM (Gaussian Mixture Model) và DBSCAN (Density-Based Spatial Clustering of Applications with Noise), được lựa chọn vì khả năng xử lý linh hoạt, phù hợp với cấu trúc phức tạp của dữ liệu EEG và khả năng phát hiện nhiễu nhãn hiệu quả.

Phương pháp nghiên cứu

Nguồn dữ liệu gồm hai bộ: dữ liệu giả lập dựa trên đặc điểm của dữ liệu EEG thực nghiệm và dữ liệu thực nghiệm thu thập từ sinh viên tình nguyện tại phòng thí nghiệm đo điện não 204B4, Trường Đại học Bách Khoa – ĐHQG TP. Hồ Chí Minh. Dữ liệu thực nghiệm bao gồm khoảng 63 mẫu cho trạng thái tập trung và 92 mẫu cho trạng thái nghỉ ngơi mỗi đối tượng, thu thập từ đối tượng trong độ tuổi 18-30, không có tiền sử bệnh thần kinh.

Phương pháp phân tích gồm ba bước chính:

  1. Nhúng dữ liệu: Sử dụng t-SNE, UMAP và nlPCA để giảm chiều dữ liệu PSD EEG, bảo toàn cấu trúc phân bố và tạo điều kiện thuận lợi cho phân cụm.

  2. Phân cụm: Áp dụng đồng thời ba thuật toán KNN, GMM và DBSCAN trên dữ liệu đã nhúng để phát hiện các điểm có nhãn bất đồng nhất với cụm của chúng, được xem là nhiễu nhãn.

  3. Đánh giá và xử lý nhiễu nhãn: Sử dụng chỉ số FPS kết hợp với các chỉ số Silhouette và Purity để đánh giá hiệu quả phân cụm. Các điểm nhiễu nhãn được xử lý bằng cách sửa nhãn hoặc loại bỏ. Hiệu quả được đánh giá qua mô hình phân loại SVM với kernel RBF, so sánh độ chính xác và AUC trước và sau xử lý nhiễu nhãn.

Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023, với việc thu thập dữ liệu, xử lý, phân tích và đánh giá kết quả theo từng giai đoạn cụ thể.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất phát hiện nhiễu nhãn: Phương pháp phân tích cụm kết hợp nhúng dữ liệu và ba thuật toán phân cụm đạt tỷ lệ phát hiện nhiễu nhãn lên đến 86,6%, trong khi tỷ lệ nhận nhầm nhãn sạch chỉ khoảng 4%. Điều này chứng tỏ khả năng phân biệt chính xác các điểm dữ liệu bị nhiễu nhãn.

  2. Cải thiện hiệu suất phân loại: Sau khi xử lý nhiễu nhãn, mô hình SVM với kernel RBF đạt độ chính xác trung bình tăng từ 73,9% lên 86,9%, và AUC tăng từ 0,79 lên 0,93 so với dữ liệu gốc chưa xử lý. Kết quả này được xác nhận qua xác thực chéo 10-folds, cho thấy sự ổn định và giảm thiểu hiện tượng overfitting hoặc underfitting.

  3. So sánh các phương pháp phân cụm: KNN đạt chỉ số FPS cao nhất khoảng 0,812, GMM đạt 0,770 và DBSCAN đạt 0,752. Việc sử dụng đồng thời ba phương pháp cho phép bỏ phiếu đa số để xác định điểm nhiễu nhãn, tăng độ tin cậy của kết quả.

  4. Phương pháp giả lập dữ liệu và chỉ số FPS: Nghiên cứu đề xuất phương pháp giả lập dữ liệu mới dựa trên dữ liệu tham chiếu EEG và chỉ số FPS để đánh giá hiệu quả phân cụm, giúp định lượng và tự động hóa quy trình xử lý nhiễu nhãn.

Thảo luận kết quả

Nguyên nhân chính giúp phương pháp phân tích cụm đạt hiệu quả cao là do việc nhúng dữ liệu bằng t-SNE, UMAP và nlPCA đã bảo toàn cấu trúc phân bố dữ liệu, giúp các điểm dữ liệu cùng nhãn tập trung thành cụm rõ ràng. Các điểm nhiễu nhãn có đặc tính khác biệt nên dễ dàng được phát hiện qua phân cụm. Kết quả cải thiện hiệu suất phân loại sau xử lý nhiễu nhãn phù hợp với các nghiên cứu trước đây trong lĩnh vực y sinh và học máy, đồng thời khẳng định tầm quan trọng của việc xử lý nhiễu nhãn trong nghiên cứu EEG.

So sánh với các phương pháp lọc outliers truyền thống, quy trình phân tích cụm được đề xuất cho thấy ưu điểm vượt trội trong việc giữ lại dữ liệu sạch và giảm thiểu mất mát dữ liệu, từ đó duy trì cân bằng giữa các lớp và nâng cao hiệu quả mô hình. Việc áp dụng đồng thời ba thuật toán phân cụm cũng giúp tăng tính khách quan và độ tin cậy của kết quả.

Dữ liệu có thể được trình bày qua biểu đồ ROC, biểu đồ hộp so sánh hiệu suất mô hình trước và sau xử lý, bảng ma trận nhầm lẫn và biểu đồ phân bố dữ liệu sau nhúng, giúp minh họa rõ ràng sự cải thiện và hiệu quả của phương pháp.

Đề xuất và khuyến nghị

  1. Triển khai quy trình xử lý nhiễu nhãn tự động: Áp dụng quy trình phân tích cụm kết hợp nhúng dữ liệu và ba thuật toán phân cụm để tự động phát hiện và xử lý nhiễu nhãn trên dữ liệu EEG, nhằm nâng cao chất lượng dữ liệu đầu vào cho các nghiên cứu và ứng dụng. Thời gian thực hiện: 6-12 tháng; Chủ thể: các nhóm nghiên cứu và phòng thí nghiệm EEG.

  2. Phát triển phần mềm hỗ trợ phân tích và đánh giá: Xây dựng công cụ phần mềm tích hợp các phương pháp nhúng và phân cụm, cùng chỉ số FPS để đánh giá hiệu quả, giúp tự động hóa và chuẩn hóa quy trình xử lý nhiễu nhãn. Thời gian: 12 tháng; Chủ thể: các đơn vị phát triển phần mềm khoa học và công nghệ.

  3. Mở rộng nghiên cứu trên các bộ dữ liệu đa dạng: Áp dụng phương pháp trên các bộ dữ liệu EEG với các trạng thái thần kinh khác nhau và các nhóm đối tượng đa dạng để đánh giá tính tổng quát và hiệu quả của phương pháp. Thời gian: 12-18 tháng; Chủ thể: các trung tâm nghiên cứu y sinh và thần kinh học.

  4. Kết hợp với các mô hình học sâu: Nghiên cứu tích hợp phương pháp xử lý nhiễu nhãn với các mô hình học sâu như CNN, RNN để nâng cao hiệu suất phân loại và dự đoán trạng thái thần kinh. Thời gian: 12 tháng; Chủ thể: các nhóm nghiên cứu AI và y sinh.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Vật lý kỹ thuật, y sinh: Nghiên cứu cung cấp phương pháp xử lý nhiễu nhãn hiệu quả trên dữ liệu EEG, giúp nâng cao chất lượng nghiên cứu và ứng dụng trong lĩnh vực y sinh.

  2. Chuyên gia phân tích dữ liệu và học máy: Luận văn trình bày quy trình kết hợp nhúng dữ liệu và phân cụm để xử lý nhiễu nhãn, có thể áp dụng cho các loại dữ liệu phức tạp khác ngoài EEG.

  3. Bác sĩ và chuyên gia thần kinh học: Kết quả nghiên cứu hỗ trợ cải thiện độ chính xác trong phân tích và chẩn đoán dựa trên tín hiệu EEG, góp phần nâng cao hiệu quả điều trị.

  4. Nhà phát triển công nghệ giao diện não-máy tính (BCI): Phương pháp xử lý nhiễu nhãn giúp tăng độ tin cậy và hiệu suất của các hệ thống BCI, hỗ trợ phát triển các ứng dụng tương tác người-máy.

Câu hỏi thường gặp

  1. Nhiễu nhãn là gì và tại sao nó quan trọng trong nghiên cứu EEG?
    Nhiễu nhãn là sai lệch trong việc gán nhãn dữ liệu, gây ảnh hưởng tiêu cực đến hiệu suất mô hình phân loại. Trong EEG, do tính phức tạp và khó xác định trạng thái thần kinh chính xác, nhiễu nhãn làm giảm độ tin cậy của kết quả phân tích.

  2. Phân tích cụm giúp xử lý nhiễu nhãn như thế nào?
    Phân tích cụm nhóm các điểm dữ liệu tương tự lại với nhau. Các điểm có nhãn không phù hợp với cụm của chúng được xem là nhiễu nhãn và có thể được phát hiện, sửa hoặc loại bỏ để cải thiện chất lượng dữ liệu.

  3. Tại sao sử dụng đồng thời ba thuật toán phân cụm KNN, GMM và DBSCAN?
    Mỗi thuật toán có ưu điểm riêng trong việc xử lý cấu trúc dữ liệu khác nhau. Sử dụng đồng thời giúp tăng độ chính xác và độ tin cậy trong phát hiện nhiễu nhãn thông qua cơ chế bỏ phiếu đa số.

  4. Chỉ số FPS là gì và vai trò của nó trong nghiên cứu?
    FPS là chỉ số mới được đề xuất để đánh giá hiệu quả phân cụm, giúp định lượng mức độ chính xác và ổn định của các thuật toán phân cụm, từ đó hỗ trợ tự động hóa quy trình xử lý nhiễu nhãn.

  5. Phương pháp này có thể áp dụng cho các loại dữ liệu khác ngoài EEG không?
    Có, quy trình kết hợp nhúng dữ liệu và phân cụm có thể áp dụng cho nhiều loại dữ liệu phức tạp khác, đặc biệt là những dữ liệu có nhãn bị nhiễu hoặc không chính xác, nhằm cải thiện chất lượng và hiệu suất mô hình phân loại.

Kết luận

  • Phương pháp phân tích cụm kết hợp nhúng dữ liệu hiệu quả trong phát hiện và xử lý nhiễu nhãn trên tín hiệu EEG, đạt tỷ lệ phát hiện 86,6% với tỷ lệ nhầm thấp 4%.
  • Xử lý nhiễu nhãn giúp cải thiện đáng kể hiệu suất phân loại trạng thái thần kinh, với độ chính xác tăng từ 73,9% lên 86,9% và AUC từ 0,79 lên 0,93.
  • Việc sử dụng đồng thời ba thuật toán phân cụm KNN, GMM và DBSCAN cùng chỉ số FPS giúp tăng độ tin cậy và tự động hóa quy trình xử lý.
  • Phương pháp giả lập dữ liệu mới và chỉ số FPS mở ra hướng nghiên cứu mới cho các dữ liệu khó thu thập và đánh giá định lượng hiệu quả phân tích.
  • Các bước tiếp theo bao gồm phát triển phần mềm hỗ trợ, mở rộng ứng dụng trên dữ liệu đa dạng và tích hợp với mô hình học sâu để nâng cao hiệu quả phân loại.

Luận văn khuyến khích các nhà nghiên cứu và chuyên gia trong lĩnh vực y sinh, học máy và thần kinh học áp dụng và phát triển thêm các phương pháp xử lý nhiễu nhãn nhằm nâng cao chất lượng nghiên cứu và ứng dụng thực tiễn.