Tổng quan nghiên cứu

Bệnh tim mạch là nguyên nhân hàng đầu gây tử vong trên toàn cầu, với khoảng 17,7 triệu người chết mỗi năm, chiếm 31% tổng số ca tử vong. Tại Việt Nam, cứ ba người trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch, với khoảng 200.000 ca tử vong mỗi năm do các bệnh lý tim mạch. Việc phát hiện sớm và phân loại chính xác tín hiệu điện tim (ECG) đóng vai trò quan trọng trong chẩn đoán và điều trị các bệnh tim mạch. Tuy nhiên, phân loại tín hiệu ECG là một thách thức lớn do sự biến đổi đa dạng của tín hiệu giữa các bệnh nhân và thiếu chuẩn hóa đặc trưng.

Luận văn thạc sĩ này tập trung vào thiết kế và đánh giá bộ phân loại tín hiệu ECG sử dụng phương pháp mạng nơ-ron nhân tạo (Neural Network). Mục tiêu chính là đánh giá tỷ lệ lỗi của bộ phân loại dựa trên ma trận nhầm lẫn (confusion matrix) và đường cong ROC, đồng thời khẳng định rằng việc sử dụng nhịp tim của cùng một bệnh nhân cho cả huấn luyện và kiểm tra có thể làm tăng độ chính xác giả tạo, không phản ánh đúng điều kiện thực tế. Nghiên cứu sử dụng dữ liệu ECG từ bộ cơ sở MIT-BIH, với phạm vi thu thập dữ liệu từ năm 1975 đến 1979, bao gồm 48 tín hiệu của 46 bệnh nhân. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống chẩn đoán tự động, hỗ trợ bác sĩ trong việc phát hiện và phân loại các rối loạn nhịp tim một cách chính xác và kịp thời.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Tín hiệu điện tim (ECG): Ghi lại hoạt động điện của tim, bao gồm các sóng P, QRS, T và các khoảng thời gian đặc trưng như RR, PR, QT. Các đặc trưng này phản ánh tình trạng hoạt động của tim và được sử dụng để chẩn đoán bệnh tim mạch.
  • Phân tích Wavelet rời rạc (DWT): Phương pháp chuyển đổi tín hiệu từ miền thời gian sang miền tần số, giúp trích xuất các đặc trưng nhỏ và biến đổi của tín hiệu ECG mà khó nhận biết trong miền thời gian.
  • Phân tích thành phần chính (PCA): Kỹ thuật giảm chiều dữ liệu, chiếu dữ liệu đa chiều vào không gian có số chiều thấp hơn nhằm giữ lại thông tin quan trọng nhất, giảm thiểu sự phức tạp trong xử lý và phân loại.
  • Mạng nơ-ron nhân tạo (Neural Network): Mô hình học máy có khả năng xấp xỉ các hàm phi tuyến, thích hợp cho việc phân loại tín hiệu ECG phức tạp với nhiều biến đổi.
  • Đánh giá hiệu suất phân loại: Sử dụng ma trận nhầm lẫn (confusion matrix) để phân tích chi tiết các loại lỗi phân loại và đường cong ROC (Receiver Operating Characteristic) để đánh giá tổng thể độ chính xác và khả năng phân biệt của bộ phân loại.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Sử dụng bộ dữ liệu ECG MIT-BIH Arrhythmia Database, gồm 48 tín hiệu của 46 bệnh nhân, thu thập từ năm 1975 đến 1979. Dữ liệu đã được gán nhãn chi tiết, thuận tiện cho việc huấn luyện và kiểm tra mô hình.
  • Tiền xử lý: Tách từng nhịp tim từ tín hiệu ECG tổng thể, lọc nhiễu bằng phương pháp DWT để chuyển đổi tín hiệu sang miền tần số, giúp nhận diện đặc trưng rõ ràng hơn.
  • Trích đặc trưng và giảm chiều: Áp dụng PCA để giảm số lượng đặc trưng đầu vào, giữ lại các thành phần chính có ý nghĩa nhất cho việc phân loại.
  • Phân loại: Xây dựng bộ phân loại sử dụng mạng nơ-ron nhân tạo, huấn luyện trên tập dữ liệu đã được xử lý.
  • Đánh giá: Sử dụng ma trận nhầm lẫn để tính các chỉ số như độ chính xác, tỷ lệ lỗi, độ nhạy, độ đặc hiệu; đồng thời phân tích đường cong ROC và diện tích dưới đường cong (AUC) để đánh giá khả năng phân biệt của bộ phân loại.
  • Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong khoảng thời gian học tập tại trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh, với các bước thu thập dữ liệu, xử lý, phân loại và đánh giá lần lượt triển khai trong các giai đoạn từ tháng 1 đến tháng 10 năm 2017.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác phân loại khi trộn lẫn nhịp tim của cùng một bệnh nhân trong tập huấn luyện và kiểm tra đạt 93,1%. Tuy nhiên, kết quả này không phản ánh đúng điều kiện thực tế, vì dữ liệu huấn luyện thường không phải của bệnh nhân cần kiểm tra.
  2. Khi tách riêng nhịp tim của bệnh nhân huấn luyện và bệnh nhân kiểm tra, độ chính xác giảm xuống còn 84,0%. Điều này cho thấy bộ phân loại gặp khó khăn khi áp dụng cho bệnh nhân mới, chưa từng xuất hiện trong dữ liệu huấn luyện.
  3. Ma trận nhầm lẫn cho thấy tỷ lệ phân loại sai tập trung chủ yếu ở các loại rối loạn nhịp tim có đặc trưng tương tự nhau, gây nhầm lẫn cho bộ phân loại. Ví dụ, các nhịp tim loại 2 và loại 3 có tỷ lệ nhầm lẫn cao hơn so với các loại khác.
  4. Đường cong ROC và giá trị AUC cho thấy bộ phân loại có khả năng phân biệt tốt khi dữ liệu huấn luyện và kiểm tra trộn lẫn, nhưng giảm hiệu quả khi tách riêng bệnh nhân. Điều này nhấn mạnh nhu cầu cải tiến thuật toán để tăng tính tổng quát và khả năng áp dụng thực tế.

Thảo luận kết quả

Nguyên nhân chính của sự giảm độ chính xác khi tách riêng bệnh nhân là do đặc tính biến đổi lớn của tín hiệu ECG giữa các cá thể khác nhau. Mỗi bệnh nhân có dạng sóng ECG riêng biệt, do đó việc huấn luyện trên dữ liệu của một nhóm bệnh nhân không đảm bảo mô hình có thể tổng quát hóa tốt cho bệnh nhân mới. Kết quả này phù hợp với các nghiên cứu quốc tế cho thấy sự đa dạng sinh học và tâm lý ảnh hưởng đến nhịp tim và đặc trưng ECG.

So sánh với các nghiên cứu trước, độ chính xác 84,0% khi tách riêng bệnh nhân vẫn còn thấp hơn nhiều so với các mô hình sử dụng kết hợp các kỹ thuật giảm chiều và phân loại phức tạp hơn như ICA kết hợp PNN đạt trên 99%. Điều này cho thấy phương pháp Neural Network đơn thuần cần được cải tiến hoặc kết hợp thêm các kỹ thuật khác để nâng cao hiệu quả.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa hai trường hợp (trộn lẫn và tách riêng bệnh nhân) hoặc bảng ma trận nhầm lẫn chi tiết cho từng loại rối loạn nhịp tim, giúp minh họa rõ ràng các điểm mạnh và hạn chế của bộ phân loại.

Đề xuất và khuyến nghị

  1. Cải tiến thuật toán phân loại: Áp dụng các kỹ thuật kết hợp như ICA, LDA hoặc các mô hình mạng nơ-ron sâu (Deep Neural Network) để tăng khả năng trích xuất đặc trưng và phân loại chính xác hơn, nhằm nâng cao độ chính xác trên 90% khi tách riêng bệnh nhân. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm nghiên cứu và sinh viên ngành kỹ thuật điện tử.
  2. Mở rộng và đa dạng hóa dữ liệu huấn luyện: Thu thập thêm dữ liệu ECG từ nhiều bệnh nhân với các đặc điểm khác nhau để tăng tính tổng quát của mô hình, giảm thiểu hiện tượng overfitting. Thời gian: 12 tháng, chủ thể: các bệnh viện và trung tâm nghiên cứu y sinh.
  3. Phát triển hệ thống chẩn đoán hỗ trợ thời gian thực: Tích hợp bộ phân loại vào thiết bị di động hoặc phần mềm hỗ trợ bác sĩ, giúp phát hiện sớm các rối loạn nhịp tim trong môi trường lâm sàng. Thời gian: 12-18 tháng, chủ thể: doanh nghiệp công nghệ y tế và nhóm nghiên cứu.
  4. Đào tạo và nâng cao nhận thức cho nhân viên y tế: Tổ chức các khóa đào tạo về sử dụng công nghệ phân loại tín hiệu ECG và hiểu rõ các giới hạn của bộ phân loại để áp dụng hiệu quả trong thực tế. Thời gian: liên tục, chủ thể: bệnh viện và cơ sở đào tạo y tế.

Đối tượng nên tham khảo luận văn

  1. Sinh viên và nghiên cứu sinh ngành kỹ thuật điện tử, y sinh: Nghiên cứu phương pháp xử lý tín hiệu và ứng dụng mạng nơ-ron trong phân loại tín hiệu ECG, phục vụ cho các đề tài nghiên cứu và luận văn.
  2. Bác sĩ chuyên khoa tim mạch và kỹ thuật viên y tế: Hiểu rõ các phương pháp phân loại tín hiệu ECG tự động, hỗ trợ chẩn đoán và điều trị bệnh tim mạch hiệu quả hơn.
  3. Nhà phát triển phần mềm và thiết bị y tế: Áp dụng các thuật toán phân loại tín hiệu ECG vào thiết bị di động hoặc hệ thống chẩn đoán tự động, nâng cao chất lượng sản phẩm.
  4. Các nhà nghiên cứu trong lĩnh vực machine learning và trí tuệ nhân tạo: Tham khảo các kỹ thuật xử lý tín hiệu, giảm chiều dữ liệu và đánh giá hiệu suất mô hình trong bài toán phân loại tín hiệu sinh học phức tạp.

Câu hỏi thường gặp

  1. Tại sao không nên sử dụng nhịp tim của cùng một bệnh nhân cho cả huấn luyện và kiểm tra?
    Việc này làm tăng độ chính xác giả tạo do mô hình học được đặc trưng riêng của bệnh nhân đó, không phản ánh khả năng tổng quát khi áp dụng cho bệnh nhân mới. Ví dụ, độ chính xác giảm từ 93,1% xuống 84,0% khi tách riêng bệnh nhân.

  2. Phương pháp DWT có vai trò gì trong xử lý tín hiệu ECG?
    DWT giúp chuyển tín hiệu từ miền thời gian sang miền tần số, làm nổi bật các đặc trưng nhỏ và biến đổi của tín hiệu ECG, từ đó hỗ trợ trích xuất đặc trưng hiệu quả hơn so với phân tích trực tiếp trên miền thời gian.

  3. PCA giúp ích gì trong việc phân loại tín hiệu ECG?
    PCA giảm số chiều dữ liệu bằng cách giữ lại các thành phần chính có phương sai lớn nhất, giúp giảm độ phức tạp tính toán và loại bỏ nhiễu, từ đó cải thiện hiệu suất và tốc độ của bộ phân loại.

  4. Ma trận nhầm lẫn và đường cong ROC khác nhau như thế nào trong đánh giá mô hình?
    Ma trận nhầm lẫn cung cấp thông tin chi tiết về các loại lỗi phân loại, trong khi đường cong ROC và AUC đánh giá tổng thể khả năng phân biệt của mô hình trên nhiều ngưỡng phân loại khác nhau, giúp so sánh hiệu quả các mô hình.

  5. Làm thế nào để nâng cao độ chính xác của bộ phân loại khi áp dụng cho bệnh nhân mới?
    Cần mở rộng dữ liệu huấn luyện đa dạng, cải tiến thuật toán phân loại kết hợp nhiều kỹ thuật trích đặc trưng và giảm chiều, đồng thời áp dụng các mô hình học sâu để tăng khả năng tổng quát hóa.

Kết luận

  • Đề tài đã thiết kế thành công bộ phân loại tín hiệu ECG sử dụng mạng nơ-ron nhân tạo, áp dụng các kỹ thuật DWT và PCA để trích đặc trưng và giảm chiều dữ liệu.
  • Kết quả cho thấy độ chính xác phân loại đạt 93,1% khi trộn lẫn nhịp tim cùng bệnh nhân trong huấn luyện và kiểm tra, nhưng giảm còn 84,0% khi tách riêng bệnh nhân, phản ánh thách thức trong ứng dụng thực tế.
  • Phương pháp đánh giá sử dụng ma trận nhầm lẫn và đường cong ROC giúp phân tích chi tiết hiệu suất và các loại lỗi của bộ phân loại.
  • Nghiên cứu nhấn mạnh cần cải tiến thuật toán và mở rộng dữ liệu để nâng cao độ chính xác và tính tổng quát của bộ phân loại.
  • Các bước tiếp theo bao gồm phát triển mô hình nâng cao, thu thập dữ liệu đa dạng hơn và ứng dụng bộ phân loại trong hệ thống chẩn đoán hỗ trợ thời gian thực.

Hành động khuyến nghị: Các nhà nghiên cứu và chuyên gia y tế nên phối hợp để phát triển và ứng dụng các công nghệ phân loại tín hiệu ECG nhằm cải thiện chẩn đoán và điều trị bệnh tim mạch hiệu quả hơn.