Tổng quan nghiên cứu
Bệnh lý tim mạch là một trong những nguyên nhân hàng đầu gây tử vong trên toàn cầu, với khoảng 17.5 triệu người chết mỗi năm theo thống kê của Tổ chức Y tế Thế giới. Tại Việt Nam, tỷ lệ mắc bệnh tim mạch ở người trên 25 tuổi lên đến 47,3%, với khoảng 200.000 ca tử vong hàng năm, chiếm gần 1/4 tổng số ca tử vong. Sự gia tăng nhanh chóng của các bệnh liên quan như tăng huyết áp, thiếu máu cục bộ, đột quỵ và các bệnh van tim đặt ra yêu cầu cấp thiết về việc phát hiện sớm và phân loại chính xác các tín hiệu điện tim (ECG) để hỗ trợ chẩn đoán và điều trị hiệu quả.
Luận văn tập trung khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim sử dụng mạng Neural Network, đặc biệt đánh giá ảnh hưởng của việc loại bỏ nhịp tim bình thường chiếm khoảng 83.6% trong bộ dữ liệu MIT-BIH ARHYTHMIA DATABASE. Mục tiêu chính là thiết kế bộ phân loại tín hiệu ECG bằng phương pháp Neural Network và đánh giá sự ảnh hưởng của phân cực dữ liệu đến độ chính xác phân loại thông qua ma trận nhầm lẫn và đường cong ROC. Nghiên cứu thực hiện hai thí nghiệm: một với dữ liệu chứa nhịp tim bình thường và một loại bỏ nhịp tim bình thường để so sánh hiệu năng bộ phân loại.
Phạm vi nghiên cứu sử dụng dữ liệu ECG từ 47 bệnh nhân, thu thập trong giai đoạn 1975-1979, xử lý trên môi trường Matlab phiên bản R2016a. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nhận diện hạn chế của bộ dữ liệu MIT-BIH hiện tại và đề xuất hướng phát triển các bộ dữ liệu đầy đủ hơn nhằm nâng cao độ chính xác phân loại bệnh tim.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Tín hiệu điện tim (ECG): Ghi lại hoạt động điện của tim qua các sóng P, phức hợp QRS, sóng T và sóng U, mỗi thành phần mang ý nghĩa đặc trưng cho các trạng thái tim khác nhau. Thời gian và biên độ các sóng này được sử dụng để phân loại các loại rối loạn nhịp tim.
Biến đổi Wavelet rời rạc (DWT): Phương pháp phân tích tín hiệu trong cả miền thời gian và tần số, giúp trích xuất các đặc trưng tần số thấp (xấp xỉ) và tần số cao (chi tiết) của tín hiệu ECG. DWT được áp dụng để chuyển đổi tín hiệu ECG từ miền thời gian sang miền tần số, phân rã thành 4 cấp độ với bộ lọc thông thấp và thông cao.
Phân tích thành phần chính (PCA): Kỹ thuật giảm chiều dữ liệu bằng cách tìm các thành phần đặc trưng chính, giữ lại khoảng 99.46% thông tin gốc với 9 thành phần chính cho mỗi hệ số xấp xỉ và chi tiết, tổng cộng 18 đặc trưng được sử dụng cho phân loại.
Mạng Neural Network (ANN): Mạng nơ-ron nhân tạo ba lớp gồm 18 nút đầu vào (đặc trưng PCA), 10 nút lớp ẩn và 5 hoặc 6 nút đầu ra tương ứng với số loại nhịp tim cần phân loại. Mạng được huấn luyện bằng thuật toán lan truyền ngược (backpropagation) với mục tiêu giảm thiểu sai số bình phương trung bình (MSE) dưới 0.
Đánh giá mô hình: Sử dụng ma trận nhầm lẫn (confusion matrix) để tính các chỉ số TP, FP, TN, FN và độ chính xác (Accuracy), đồng thời phân tích đường cong ROC để đánh giá khả năng phân biệt của bộ phân loại.
Phương pháp nghiên cứu
Nguồn dữ liệu: Sử dụng bộ dữ liệu MIT-BIH ARHYTHMIA DATABASE gồm 48 tín hiệu ECG từ 47 bệnh nhân, thu thập từ năm 1975 đến 1979 tại bệnh viện Beth Israel. Dữ liệu được mã hóa dưới dạng file Matlab và có nhãn phân loại từng nhịp tim.
Chuẩn bị dữ liệu: Tách từng nhịp tim từ tín hiệu ECG, mỗi nhịp gồm 200 mẫu (100 mẫu trước và 99 mẫu sau đỉnh R) với tần số lấy mẫu 360Hz. Thực hiện hai bộ dữ liệu: một giữ nguyên nhịp tim bình thường (chiếm 83.6%), một loại bỏ nhịp tim bình thường để giảm phân cực dữ liệu.
Trích đặc trưng: Áp dụng biến đổi DWT Meyer 4 cấp độ để phân rã tín hiệu thành các hệ số xấp xỉ và chi tiết. Tiếp theo, sử dụng PCA để giảm chiều dữ liệu, chọn 9 thành phần chính cho mỗi loại hệ số, tổng cộng 18 đặc trưng.
Phân loại: Mạng Neural Network ba lớp được huấn luyện với 18 đặc trưng đầu vào, 10 nút lớp ẩn và 5 hoặc 6 nút đầu ra tùy theo số loại nhịp tim phân loại. Thuật toán lan truyền ngược được sử dụng để cập nhật trọng số, dừng huấn luyện khi MSE đạt dưới 0.
Timeline nghiên cứu: Quá trình thu thập, xử lý và phân tích dữ liệu thực hiện trong khoảng thời gian từ tháng 10/2017 đến tháng 05/2018 trên môi trường Matlab R2016a.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Ảnh hưởng của nhịp tim bình thường đến phân cực dữ liệu: Khi sử dụng bộ dữ liệu chứa nhịp tim bình thường (chiếm 83.6%), bộ phân loại Neural Network cho thấy hiện tượng phân cực dữ liệu rõ rệt, làm sai lệch kết quả phân loại. Độ chính xác đạt khoảng 95%, tuy nhiên các chỉ số TP và FP bị ảnh hưởng do sự mất cân bằng dữ liệu.
Hiệu quả khi loại bỏ nhịp tim bình thường: Sau khi loại bỏ nhịp tim bình thường, bộ phân loại Neural Network với 5 lớp đầu ra đạt độ chính xác giảm nhẹ còn khoảng 90%, nhưng phân bố dữ liệu cân bằng hơn, giảm thiểu hiện tượng phân cực và cải thiện khả năng phát hiện các nhịp tim bệnh.
Ảnh hưởng của số lượng mẫu huấn luyện: Kết quả thí nghiệm cho thấy khi tăng số lượng mẫu huấn luyện, độ chính xác của bộ phân loại tăng lên đáng kể, từ khoảng 85% với số mẫu thấp đến trên 90% với số mẫu lớn hơn, chứng tỏ tầm quan trọng của dữ liệu huấn luyện đa dạng và đầy đủ.
Đường cong ROC và ma trận nhầm lẫn: Đường cong ROC của bộ phân loại khi loại bỏ nhịp tim bình thường có diện tích dưới đường cong (AUC) cao hơn, thể hiện khả năng phân biệt tốt hơn giữa các loại nhịp tim bệnh. Ma trận nhầm lẫn cũng cho thấy tỷ lệ phân loại đúng (TPR) tăng lên khoảng 5-7% so với trường hợp có nhịp tim bình thường.
Thảo luận kết quả
Hiện tượng phân cực dữ liệu do tỷ lệ nhịp tim bình thường chiếm ưu thế trong bộ dữ liệu MIT-BIH gây ra sự mất cân bằng lớp, làm cho bộ phân loại Neural Network có xu hướng ưu tiên dự đoán nhịp tim bình thường, dẫn đến giảm khả năng phát hiện các nhịp tim bệnh. Việc loại bỏ nhịp tim bình thường giúp cân bằng dữ liệu, tuy làm giảm tổng số mẫu, nhưng cải thiện đáng kể hiệu năng phân loại các nhịp tim bệnh.
So sánh với các nghiên cứu trước đây, nhiều bài báo đạt độ chính xác rất cao (lên đến 99.97%) nhưng không đánh giá kỹ ảnh hưởng của phân cực dữ liệu. Nghiên cứu này nhấn mạnh rằng độ chính xác cao có thể bị ảnh hưởng bởi sự mất cân bằng dữ liệu và không phản ánh đúng hiệu năng thực tế khi áp dụng trên dữ liệu đa dạng.
Kết quả cũng cho thấy việc tăng số lượng mẫu huấn luyện là cần thiết để nâng cao độ chính xác và khả năng tổng quát của bộ phân loại. Tuy nhiên, dữ liệu hiện tại của MIT-BIH chưa đủ đa dạng và đầy đủ để xây dựng bộ phân loại tin cậy cho các bệnh tim phức tạp.
Dữ liệu và kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác giữa hai trường hợp có và không có nhịp tim bình thường, cùng các đường cong ROC minh họa sự cải thiện hiệu năng phân loại.
Đề xuất và khuyến nghị
Xây dựng bộ dữ liệu ECG cân bằng hơn: Cần thu thập và xây dựng bộ dữ liệu ECG đa dạng, giảm tỷ lệ nhịp tim bình thường chiếm ưu thế để tránh hiện tượng phân cực dữ liệu, từ đó nâng cao độ chính xác và khả năng phát hiện bệnh của bộ phân loại. Thời gian thực hiện: 1-2 năm; Chủ thể: các viện nghiên cứu y sinh và bệnh viện.
Phát triển các thuật toán xử lý dữ liệu mất cân bằng: Áp dụng các kỹ thuật như oversampling, undersampling hoặc thuật toán học sâu có khả năng xử lý dữ liệu mất cân bằng để cải thiện hiệu năng phân loại trên dữ liệu thực tế. Thời gian: 6-12 tháng; Chủ thể: nhóm nghiên cứu kỹ thuật điện tử và khoa học máy tính.
Tăng cường số lượng mẫu huấn luyện: Mở rộng tập dữ liệu huấn luyện với các nhịp tim bệnh đa dạng để nâng cao khả năng tổng quát của mô hình Neural Network. Thời gian: liên tục; Chủ thể: các trung tâm nghiên cứu và bệnh viện.
Phát triển hệ thống phân loại tín hiệu ECG thời gian thực: Ứng dụng mô hình Neural Network đã được cải tiến vào các thiết bị y tế để hỗ trợ bác sĩ chẩn đoán nhanh và chính xác hơn. Thời gian: 1-2 năm; Chủ thể: doanh nghiệp công nghệ y tế và bệnh viện.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành kỹ thuật điện tử, y sinh: Luận văn cung cấp kiến thức chuyên sâu về xử lý tín hiệu ECG, ứng dụng DWT, PCA và Neural Network trong phân loại tín hiệu y sinh.
Bác sĩ và chuyên gia y tế chuyên về tim mạch: Hiểu rõ hơn về các phương pháp phân tích và phân loại tín hiệu ECG tự động, hỗ trợ chẩn đoán bệnh tim chính xác hơn.
Nhà phát triển phần mềm và thiết bị y tế: Tham khảo các thuật toán và mô hình phân loại tín hiệu ECG để phát triển các sản phẩm hỗ trợ chẩn đoán và theo dõi bệnh tim.
Các tổ chức nghiên cứu và quản lý y tế: Đánh giá hiệu quả của bộ dữ liệu hiện có và đề xuất các chính sách phát triển dữ liệu y sinh chuẩn hóa, phục vụ nghiên cứu và ứng dụng thực tiễn.
Câu hỏi thường gặp
Tại sao cần loại bỏ nhịp tim bình thường trong bộ dữ liệu?
Nhịp tim bình thường chiếm tỷ lệ lớn (83.6%) gây phân cực dữ liệu, làm bộ phân loại thiên về dự đoán nhịp bình thường, giảm khả năng phát hiện nhịp tim bệnh. Loại bỏ giúp cân bằng dữ liệu, cải thiện hiệu năng phân loại.Phương pháp DWT có ưu điểm gì trong xử lý tín hiệu ECG?
DWT cho phép phân tích tín hiệu trong cả miền thời gian và tần số, giúp trích xuất đặc trưng tần số thấp và cao hiệu quả, phù hợp với tín hiệu ECG không ổn định và có nhiễu.PCA giúp gì trong quá trình phân loại tín hiệu?
PCA giảm chiều dữ liệu, giữ lại các thành phần đặc trưng chính, giảm thiểu thông tin dư thừa và giảm tải tính toán cho mạng Neural Network, đồng thời giữ lại gần 99.46% thông tin gốc.Mạng Neural Network được cấu trúc như thế nào trong nghiên cứu này?
Mạng gồm 3 lớp: 18 nút đầu vào (đặc trưng PCA), 10 nút lớp ẩn và 5 hoặc 6 nút đầu ra tương ứng với số loại nhịp tim phân loại, được huấn luyện bằng thuật toán lan truyền ngược để tối ưu trọng số.Đường cong ROC thể hiện điều gì trong đánh giá mô hình?
Đường cong ROC biểu diễn khả năng phân biệt giữa các lớp của bộ phân loại. Diện tích dưới đường cong (AUC) càng gần 1 thì mô hình càng chính xác và hiệu quả trong phân loại.
Kết luận
- Bộ dữ liệu MIT-BIH chứa tỷ lệ nhịp tim bình thường cao gây phân cực dữ liệu, ảnh hưởng đến độ chính xác phân loại tín hiệu ECG.
- Loại bỏ nhịp tim bình thường giúp cân bằng dữ liệu, cải thiện khả năng phát hiện các nhịp tim bệnh của bộ phân loại Neural Network.
- Số lượng mẫu huấn luyện ảnh hưởng tích cực đến hiệu năng phân loại, cần mở rộng dữ liệu đa dạng hơn.
- Kết quả nghiên cứu nhấn mạnh hạn chế của bộ dữ liệu hiện tại và đề xuất phát triển bộ dữ liệu mới, cân bằng hơn.
- Hướng phát triển tiếp theo là ứng dụng mô hình phân loại cải tiến vào hệ thống chẩn đoán thời gian thực và phát triển các thuật toán xử lý dữ liệu mất cân bằng.
Để nâng cao hiệu quả chẩn đoán bệnh tim, các nhà nghiên cứu và chuyên gia y tế nên tiếp tục phát triển và hoàn thiện các bộ dữ liệu cũng như thuật toán phân loại tín hiệu ECG. Hành động ngay hôm nay để cải thiện chất lượng chăm sóc sức khỏe tim mạch là cần thiết.