## Tổng quan nghiên cứu

Bệnh tim mạch là nguyên nhân hàng đầu gây tử vong, chiếm khoảng 31% tổng số ca tử vong toàn cầu và khoảng một phần tư số ca tử vong tại Việt Nam mỗi năm. Việc phát hiện sớm và phân loại chính xác tín hiệu điện tim (ECG) đóng vai trò quan trọng trong chẩn đoán và điều trị các bệnh lý tim mạch. Tuy nhiên, phân loại tín hiệu ECG gặp nhiều khó khăn do sự biến đổi đa dạng của tín hiệu giữa các bệnh nhân và thiếu chuẩn hóa đặc trưng. Mục tiêu của luận văn là thiết kế và đánh giá bộ phân loại tín hiệu ECG sử dụng phương pháp mạng thần kinh nhân tạo (Neural Network), tập trung vào việc đánh giá tỷ lệ lỗi của bộ phân loại qua ma trận nhầm lẫn (confusion matrix) và đường cong ROC. Nghiên cứu sử dụng dữ liệu từ cơ sở dữ liệu MIT-BIH Arrhythmia, gồm 48 tín hiệu ECG của 46 bệnh nhân, thu thập trong khoảng thời gian từ 1975 đến 1979. Ý nghĩa của nghiên cứu là cung cấp một phương pháp phân loại tín hiệu ECG hiệu quả, phù hợp với điều kiện thực tế, góp phần nâng cao độ chính xác trong chẩn đoán bệnh tim mạch.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Tín hiệu điện tim (ECG):** Ghi lại hoạt động điện của tim, bao gồm các sóng P, QRS, T và các khoảng thời gian đặc trưng như PR, QT, RR. Các đặc trưng này phản ánh tình trạng hoạt động của tim và được sử dụng để chẩn đoán bệnh lý.
- **Phân tích biến đổi wavelet rời rạc (DWT):** Chuyển đổi tín hiệu từ miền thời gian sang miền tần số, giúp phát hiện các đặc trưng nhỏ và biến đổi nhanh trong tín hiệu ECG mà phương pháp biến đổi Fourier không thể hiện rõ.
- **Phân tích thành phần chính (PCA):** Phương pháp giảm chiều dữ liệu, chiếu dữ liệu đa chiều vào không gian có số chiều thấp hơn mà vẫn giữ được phần lớn thông tin, giúp giảm tải tính toán và tăng hiệu quả phân loại.
- **Mạng thần kinh nhân tạo (Neural Network):** Mô hình học máy có khả năng xấp xỉ các hàm phi tuyến, được sử dụng để phân loại tín hiệu ECG dựa trên các đặc trưng đã trích xuất.
- **Đánh giá hiệu suất phân loại:** Sử dụng ma trận nhầm lẫn (confusion matrix) và đường cong ROC để đánh giá độ chính xác, độ nhạy, độ đặc hiệu và tỷ lệ lỗi của bộ phân loại.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng bộ dữ liệu MIT-BIH Arrhythmia Database gồm 48 tín hiệu ECG của 46 bệnh nhân, mỗi tín hiệu dài 30 phút, được thu thập từ năm 1975 đến 1979.
- **Tiền xử lý dữ liệu:** Tách từng nhịp tim từ tín hiệu ECG, mỗi nhịp gồm 200 mẫu, sau đó chuyển đổi tín hiệu sang miền tần số bằng DWT Meyer 4.
- **Trích đặc trưng và giảm chiều:** Áp dụng PCA để giảm số lượng đặc trưng từ các hệ số DWT, giữ lại 12 đặc trưng chính (6 đặc trưng xấp xỉ và 6 đặc trưng chi tiết).
- **Phân loại:** Sử dụng mạng Neural Network với cấu trúc 12 nút đầu vào, 10 neuron lớp ẩn và 6 neuron lớp đầu ra, huấn luyện bằng thuật toán lan truyền ngược với ngưỡng lỗi MSE dưới 0.0001.
- **Đánh giá:** Thực hiện đánh giá độ chính xác phân loại bằng ma trận nhầm lẫn và đường cong ROC trong hai tình huống: (1) trộn lẫn nhịp tim của cùng một bệnh nhân trong tập huấn luyện và kiểm tra; (2) tách riêng bệnh nhân trong tập huấn luyện và kiểm tra.
- **Timeline nghiên cứu:** Thu thập và xử lý dữ liệu, xây dựng mô hình phân loại, đánh giá kết quả và hoàn thiện luận văn trong khoảng thời gian học tập tại Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Phân loại tín hiệu ECG:** Bộ phân loại đạt độ chính xác 93,1% khi trộn lẫn nhịp tim của cùng một bệnh nhân trong tập huấn luyện và kiểm tra.
- **Ảnh hưởng của tách riêng bệnh nhân:** Khi tách riêng bệnh nhân trong tập huấn luyện và kiểm tra, độ chính xác giảm xuống còn 84,0%, phản ánh thực tế rằng dữ liệu huấn luyện thường không phải của bệnh nhân cần kiểm tra.
- **Phân bố nhịp tim:** Tổng số 112.646 nhịp tim được phân loại, trong đó nhịp tim bình thường chiếm 80%, các loại nhịp tim bệnh chiếm tỷ lệ thấp hơn, ảnh hưởng đến độ chính xác phân loại do sự mất cân bằng dữ liệu.
- **Ma trận nhầm lẫn:** Các loại nhịp tim bệnh thường bị phân loại nhầm thành nhịp tim bình thường, đặc biệt là các loại nhịp tim loại 2, 3, 4, 5 và nhiễu (loại 6).
- **Đường cong ROC:** Bộ phân loại trong tình huống trộn lẫn nhịp tim có đường cong ROC sát cạnh trái và trên, chứng tỏ độ chính xác cao; trong khi đó, bộ phân loại tách riêng bệnh nhân có đường cong ROC gần đường chéo 45 độ, thể hiện độ chính xác giảm rõ rệt.

### Thảo luận kết quả

Nguyên nhân chính của sự giảm độ chính xác khi tách riêng bệnh nhân là do sự khác biệt đặc trưng tín hiệu ECG giữa các bệnh nhân, làm cho bộ phân loại khó tổng quát hóa. Kết quả này phù hợp với các nghiên cứu quốc tế về phân loại ECG, nhấn mạnh tầm quan trọng của việc xây dựng bộ phân loại có khả năng thích ứng với đa dạng dữ liệu thực tế. Việc sử dụng DWT kết hợp PCA giúp trích xuất đặc trưng hiệu quả, tuy nhiên sự mất cân bằng dữ liệu và sự biến đổi đặc trưng giữa các bệnh nhân vẫn là thách thức lớn. Các biểu đồ ma trận nhầm lẫn và đường cong ROC minh họa rõ ràng sự khác biệt hiệu suất giữa hai tình huống, cho thấy cần cải tiến phương pháp phân loại để phù hợp hơn với điều kiện thực tế.

## Đề xuất và khuyến nghị

- **Cải tiến thuật toán phân loại:** Áp dụng các phương pháp học sâu (deep learning) hoặc học khoảng cách (Metric Learning) để nâng cao khả năng phân loại và tổng quát hóa trên dữ liệu đa dạng.
- **Tăng cường dữ liệu huấn luyện:** Thu thập thêm dữ liệu ECG từ nhiều bệnh nhân và thiết bị khác nhau để giảm thiểu sự mất cân bằng và tăng tính đại diện cho bộ phân loại.
- **Phát triển hệ thống phân loại đa lớp:** Nâng cao khả năng phân biệt các loại nhịp tim bệnh gần giống nhau bằng cách kết hợp nhiều kỹ thuật trích đặc trưng và phân loại.
- **Triển khai ứng dụng thực tế:** Xây dựng phần mềm hỗ trợ chẩn đoán dựa trên bộ phân loại đã phát triển, tích hợp với thiết bị đo ECG di động để ứng dụng trong y tế cộng đồng.
- **Thời gian thực hiện:** Các giải pháp trên nên được triển khai và đánh giá trong vòng 1-2 năm tiếp theo, phối hợp giữa các nhóm nghiên cứu và cơ sở y tế.

## Đối tượng nên tham khảo luận văn

- **Sinh viên và nghiên cứu sinh ngành Kỹ thuật Điện tử, Y sinh:** Nắm bắt kiến thức về xử lý tín hiệu sinh học, học máy và ứng dụng trong y tế.
- **Chuyên gia phát triển phần mềm y tế:** Áp dụng các thuật toán phân loại tín hiệu ECG vào phát triển hệ thống chẩn đoán tự động.
- **Bác sĩ và kỹ thuật viên y tế:** Hiểu rõ về công nghệ phân loại tín hiệu ECG để hỗ trợ chẩn đoán và điều trị bệnh tim mạch.
- **Nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo và xử lý tín hiệu:** Tham khảo phương pháp kết hợp DWT, PCA và Neural Network trong bài toán phân loại dữ liệu phức tạp.

## Câu hỏi thường gặp

1. **Tại sao phải tách riêng bệnh nhân trong tập huấn luyện và kiểm tra?**  
Việc này giúp đánh giá chính xác khả năng tổng quát của bộ phân loại khi áp dụng cho bệnh nhân mới, tránh hiện tượng "rò rỉ dữ liệu" làm tăng giả tạo độ chính xác.

2. **Phương pháp DWT có ưu điểm gì so với biến đổi Fourier?**  
DWT cung cấp thông tin thời gian và tần số chi tiết, giúp phát hiện các biến đổi nhanh và nhỏ trong tín hiệu ECG mà biến đổi Fourier không thể hiện rõ.

3. **Tại sao cần giảm chiều dữ liệu bằng PCA?**  
Giảm chiều giúp loại bỏ các đặc trưng dư thừa, giảm tải tính toán và tránh hiện tượng quá khớp trong quá trình huấn luyện mạng Neural Network.

4. **Độ chính xác 84% có đủ để ứng dụng thực tế không?**  
Độ chính xác này phản ánh điều kiện thực tế nhưng vẫn cần cải tiến thêm để đạt độ tin cậy cao hơn, đặc biệt trong các ứng dụng y tế quan trọng.

5. **Có thể áp dụng phương pháp này cho các loại tín hiệu sinh học khác không?**  
Có, phương pháp kết hợp DWT, PCA và Neural Network có thể được điều chỉnh để phân loại các tín hiệu sinh học khác như EEG, EMG với đặc trưng tương tự.

## Kết luận

- Đã xây dựng thành công bộ phân loại tín hiệu ECG sử dụng Neural Network kết hợp DWT và PCA với dữ liệu từ MIT-BIH.  
- Đánh giá cho thấy việc tách riêng bệnh nhân trong tập huấn luyện và kiểm tra làm giảm độ chính xác từ 93,1% xuống 84,0%, phản ánh thực tế ứng dụng.  
- Phân tích ma trận nhầm lẫn và đường cong ROC minh chứng rõ ràng hiệu suất của bộ phân loại trong các tình huống khác nhau.  
- Cần tiếp tục cải tiến thuật toán và mở rộng dữ liệu để nâng cao độ chính xác và khả năng tổng quát của bộ phân loại.  
- Khuyến nghị triển khai nghiên cứu sâu hơn về học máy nâng cao và ứng dụng thực tế trong y tế cộng đồng.  

**Hành động tiếp theo:** Triển khai các phương pháp học sâu, thu thập dữ liệu đa dạng hơn và phát triển phần mềm hỗ trợ chẩn đoán dựa trên kết quả nghiên cứu.