Tổng quan nghiên cứu
Bệnh tim mạch là nguyên nhân hàng đầu gây tử vong tại Việt Nam và trên thế giới. Theo thống kê năm 2015, có khoảng 25% số người chết ở Việt Nam do bệnh tim mạch, với 20% dân số mắc bệnh này. Trên toàn cầu, bệnh tim mạch gây ra 17,3 triệu ca tử vong mỗi năm và dự kiến tăng lên 23,6 triệu vào năm 2030. Việc chẩn đoán sớm và phân loại chính xác các loại bệnh tim từ tín hiệu điện tâm đồ (ECG) là nhiệm vụ cấp thiết nhằm hỗ trợ bác sĩ trong chẩn đoán và giúp bệnh nhân theo dõi bệnh tại nhà. Tín hiệu ECG có biên độ nhỏ, chứa nhiều thành phần nhiễu và đặc trưng bệnh tim không khác biệt rõ ràng giữa các loại bệnh, gây khó khăn trong phân loại chính xác.
Mục tiêu nghiên cứu là xây dựng một bộ phân loại bệnh tim tối ưu dựa trên cơ sở dữ liệu tín hiệu ECG, sử dụng các phương pháp trích đặc trưng và thuật toán máy học để nâng cao độ chính xác phân loại. Nghiên cứu tập trung vào dữ liệu thu thập từ tập cơ sở dữ liệu MIT-BIH gồm hơn 50.000 nhịp tim với nhiều loại bệnh khác nhau, thu thập trong khoảng thời gian từ 1975 đến 1979. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển công cụ hỗ trợ chẩn đoán bệnh tim, góp phần nâng cao hiệu quả điều trị và giảm thiểu rủi ro tử vong do bệnh tim mạch.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên ba lý thuyết và mô hình chính:
Tín hiệu điện tâm đồ (ECG): ECG ghi lại biến thiên điện lực do tim phát ra trong hoạt động co bóp, gồm các thành phần sóng P, phức bộ QRS, sóng T và sóng U. Mỗi thành phần phản ánh các giai đoạn khử cực và tái cực của tim, có ý nghĩa quan trọng trong chẩn đoán bệnh tim.
Phép biến đổi Fourier thời gian ngắn (STFT): Phương pháp phân tích tín hiệu không tĩnh bằng cách chia tín hiệu thành các đoạn nhỏ, áp dụng biến đổi Fourier trên từng đoạn để trích xuất đặc trưng tần số theo thời gian. STFT giúp phân tích các biến đổi tần số trong tín hiệu ECG, hỗ trợ trích đặc trưng hiệu quả.
Máy vector hỗ trợ (SVM): Thuật toán học máy mạnh mẽ trong phân loại dữ liệu phi tuyến, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc. SVM sử dụng hàm kernel (đặc biệt là kernel RBF) để biến đổi dữ liệu sang không gian đặc trưng mới, giúp phân loại nhiều lớp dữ liệu ECG khác nhau. Phương pháp phân loại đa lớp (multi-class SVM) được áp dụng để phân biệt các loại nhịp tim.
Các khái niệm chính bao gồm: đặc trưng tín hiệu ECG, biến đổi Fourier, kernel RBF, ma trận nhầm lẫn (confusion matrix), độ chính xác (accuracy), precision, recall và F1-score.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là tập cơ sở dữ liệu MIT-BIH gồm 48 tín hiệu ECG dài trên 30 phút, thu thập từ năm 1975-1979, với tổng số khoảng 100.000 nhịp tim được phân loại thành 4 nhóm chính: nhịp bình thường (N), lệch trên tâm thất (S), lệch tâm thất (V) và nhịp phức hợp (F). Ngoài ra, tác giả còn thu thập thêm dữ liệu ECG thực tế để bổ sung.
Phương pháp phân tích gồm các bước:
Tiền xử lý tín hiệu: Sử dụng bộ lọc trung vị để loại bỏ nhiễu baseline wander và các nhiễu tần số cao, chuẩn hóa dữ liệu.
Phân đoạn nhịp tim: Xác định đỉnh sóng R và cắt tín hiệu thành từng nhịp tim có độ dài 180 mẫu.
Trích đặc trưng: Áp dụng biến đổi Fourier thời gian ngắn (STFT) với cửa sổ kích thước 25 mẫu để trích xuất đặc trưng tần số của từng nhịp tim, tạo vector đặc trưng đầu vào cho bộ phân loại.
Phân loại: Sử dụng thuật toán multi-class SVM với kernel RBF, hằng số điều chỉnh C=100, kết hợp chuẩn hóa dữ liệu z-score. Mô hình được huấn luyện trên tập DS1 và đánh giá trên tập DS2.
Đánh giá hiệu suất: Sử dụng ma trận nhầm lẫn, tính toán các chỉ số accuracy, precision, recall và F1-score để đánh giá độ chính xác phân loại.
Thời gian nghiên cứu kéo dài 12 tháng, từ tháng 01/2020 đến 12/2020.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả tiền xử lý và phân đoạn: Bộ lọc trung vị hai cấp giúp loại bỏ hiệu quả nhiễu baseline wander, cải thiện chất lượng tín hiệu ECG. Việc phân đoạn nhịp tim dựa trên đỉnh sóng R chính xác, đảm bảo độ dài nhịp 180 mẫu phù hợp cho trích đặc trưng.
Ảnh hưởng kích thước cửa sổ STFT đến độ chính xác: Kích thước cửa sổ 25 mẫu được lựa chọn tối ưu, đạt độ chính xác phân loại khoảng 89,94%, thời gian huấn luyện ngắn hơn so với cửa sổ lớn hơn. Kích thước cửa sổ nhỏ hơn giúp trích đặc trưng chi tiết hơn, tăng hiệu suất phân loại.
Hiệu suất phân loại SVM đa lớp: Mô hình SVM với kernel RBF và hằng số C=100 đạt độ chính xác tổng thể trên 89% khi phân loại 4 nhóm nhịp tim. Ma trận nhầm lẫn cho thấy nhóm nhịp bình thường (N) và lệch tâm thất (V) được phân loại chính xác cao nhất, trên 90%. Nhóm lệch trên tâm thất (S) và nhịp phức hợp (F) có tỷ lệ nhầm lẫn cao hơn do đặc trưng tín hiệu tương đồng.
So sánh với các nghiên cứu khác: Kết quả tương đương hoặc vượt trội so với các nghiên cứu sử dụng mạng neural 1D CNN hoặc kết hợp PCA-SVM, thể hiện tính hiệu quả của phương pháp trích đặc trưng STFT kết hợp SVM trong phân loại bệnh tim từ tín hiệu ECG.
Thảo luận kết quả
Nguyên nhân chính giúp mô hình đạt hiệu quả cao là nhờ quá trình tiền xử lý kỹ lưỡng, loại bỏ nhiễu và chuẩn hóa dữ liệu, giúp trích đặc trưng chính xác hơn. Việc lựa chọn kích thước cửa sổ STFT phù hợp cân bằng giữa độ phân giải thời gian và tần số, tạo ra vector đặc trưng có khả năng phân biệt các loại nhịp tim.
Mặc dù SVM là phương pháp phân loại truyền thống, nhưng khi kết hợp với trích đặc trưng STFT và chuẩn hóa dữ liệu, nó vẫn cho kết quả rất khả quan, đặc biệt trong các trường hợp dữ liệu có sự chênh lệch lớn về biên độ và đặc trưng. Kết quả có thể được trình bày qua biểu đồ ma trận nhầm lẫn và biểu đồ so sánh độ chính xác theo từng kích thước cửa sổ, giúp minh họa rõ ràng hiệu suất mô hình.
So với các phương pháp học sâu, SVM có ưu điểm về tính đơn giản, dễ huấn luyện và ít yêu cầu tài nguyên tính toán, phù hợp với các ứng dụng thực tế trong y tế. Tuy nhiên, để nâng cao hơn nữa độ chính xác, có thể kết hợp thêm các kỹ thuật trích đặc trưng nâng cao hoặc áp dụng mạng học sâu trong các nghiên cứu tiếp theo.
Đề xuất và khuyến nghị
Phát triển phần mềm hỗ trợ chẩn đoán bệnh tim dựa trên bộ phân loại ECG: Xây dựng ứng dụng tích hợp thuật toán STFT và SVM để hỗ trợ bác sĩ chẩn đoán nhanh, chính xác. Mục tiêu đạt độ chính xác trên 90% trong vòng 12 tháng, do nhóm nghiên cứu và đơn vị y tế phối hợp thực hiện.
Mở rộng tập dữ liệu và đa dạng hóa loại bệnh tim: Thu thập thêm dữ liệu ECG từ nhiều bệnh viện với các loại bệnh tim khác nhau để nâng cao khả năng phân loại đa dạng. Thời gian thực hiện 18 tháng, do các trung tâm y tế và viện nghiên cứu phối hợp.
Nâng cao hiệu suất phân loại bằng học sâu: Nghiên cứu áp dụng mạng neural 1D CNN hoặc các kiến trúc học sâu khác để tự động trích đặc trưng và phân loại, hướng tới cải thiện độ chính xác và khả năng nhận dạng các dạng bệnh phức tạp. Thời gian 24 tháng, do nhóm nghiên cứu công nghệ thông tin và y sinh thực hiện.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo cho sinh viên ngành Công nghệ kỹ thuật Y sinh và cán bộ y tế về ứng dụng máy học trong phân loại bệnh tim, đồng thời chuyển giao công nghệ cho các bệnh viện. Thời gian 12 tháng, do trường đại học và bệnh viện phối hợp.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Công nghệ kỹ thuật Y sinh: Nghiên cứu phương pháp trích đặc trưng tín hiệu ECG và ứng dụng máy học trong y tế, phục vụ học tập và phát triển đề tài nghiên cứu.
Bác sĩ chuyên khoa tim mạch và kỹ thuật viên y tế: Áp dụng công cụ phân loại bệnh tim hỗ trợ chẩn đoán, nâng cao hiệu quả điều trị và theo dõi bệnh nhân.
Các nhà phát triển phần mềm y tế và thiết bị y tế: Tham khảo thuật toán và quy trình xây dựng bộ phân loại để phát triển sản phẩm hỗ trợ chẩn đoán bệnh tim dựa trên tín hiệu ECG.
Các cơ quan quản lý và hoạch định chính sách y tế: Đánh giá tiềm năng ứng dụng công nghệ máy học trong chăm sóc sức khỏe, từ đó xây dựng chính sách hỗ trợ nghiên cứu và ứng dụng công nghệ mới.
Câu hỏi thường gặp
Bộ phân loại bệnh tim dựa trên tín hiệu ECG hoạt động như thế nào?
Bộ phân loại sử dụng tín hiệu ECG đã được tiền xử lý để loại bỏ nhiễu, sau đó phân đoạn thành từng nhịp tim. Đặc trưng tần số của mỗi nhịp được trích xuất bằng biến đổi Fourier thời gian ngắn (STFT) và đưa vào mô hình máy vector hỗ trợ (SVM) để phân loại thành các nhóm bệnh tim khác nhau.Tại sao chọn phương pháp SVM thay vì mạng học sâu?
SVM có ưu điểm về tính đơn giản, dễ huấn luyện, ít yêu cầu tài nguyên tính toán và cho kết quả chính xác cao trong bài toán phân loại nhiều lớp với dữ liệu có đặc trưng rõ ràng. Mặc dù mạng học sâu có thể tự động trích đặc trưng, nhưng SVM vẫn là lựa chọn hiệu quả trong nhiều trường hợp thực tế.Kích thước cửa sổ STFT ảnh hưởng thế nào đến kết quả phân loại?
Kích thước cửa sổ quyết định độ phân giải thời gian và tần số khi trích đặc trưng. Cửa sổ quá lớn làm mất thông tin thời gian chi tiết, cửa sổ quá nhỏ làm mất thông tin tần số. Kích thước 25 mẫu được chọn là tối ưu, cân bằng giữa độ chính xác và thời gian huấn luyện.Dữ liệu ECG được sử dụng có đại diện cho đa dạng bệnh nhân không?
Dữ liệu chính lấy từ tập MIT-BIH gồm 48 tín hiệu dài trên 30 phút, với bệnh nhân nam và nữ từ 23 đến 89 tuổi, bao gồm nhiều loại bệnh tim phổ biến. Ngoài ra, tác giả còn thu thập thêm dữ liệu thực tế để tăng tính đại diện.Bộ phân loại này có thể ứng dụng trong thực tế như thế nào?
Bộ phân loại có thể tích hợp vào phần mềm hỗ trợ chẩn đoán tại bệnh viện hoặc thiết bị theo dõi tại nhà, giúp bác sĩ và bệnh nhân phát hiện sớm các loại bệnh tim, theo dõi tiến triển và điều chỉnh điều trị kịp thời.
Kết luận
- Đã xây dựng thành công bộ phân loại bệnh tim dựa trên tín hiệu ECG sử dụng biến đổi Fourier thời gian ngắn kết hợp máy vector hỗ trợ (SVM), đạt độ chính xác trên 89%.
- Phương pháp tiền xử lý và phân đoạn nhịp tim hiệu quả giúp nâng cao chất lượng dữ liệu đầu vào cho bộ phân loại.
- Kích thước cửa sổ STFT 25 mẫu được xác định là tối ưu cho trích đặc trưng và phân loại.
- Kết quả nghiên cứu có thể ứng dụng trong phát triển công cụ hỗ trợ chẩn đoán bệnh tim và đào tạo sinh viên ngành Công nghệ kỹ thuật Y sinh.
- Đề xuất mở rộng nghiên cứu áp dụng học sâu, thu thập dữ liệu đa dạng hơn và phát triển phần mềm ứng dụng trong thực tế.
Tiếp theo, nghiên cứu sẽ tập trung vào phát triển phần mềm ứng dụng, mở rộng tập dữ liệu và thử nghiệm các mô hình học sâu nhằm nâng cao độ chính xác và khả năng ứng dụng thực tiễn. Độc giả và các nhà nghiên cứu được khuyến khích tiếp cận và phát triển thêm dựa trên nền tảng này để góp phần cải thiện chăm sóc sức khỏe tim mạch.