Tổng quan nghiên cứu

Trong bối cảnh y tế hiện đại, đặc biệt là trong giai đoạn đại dịch Covid-19, việc chẩn đoán và phân loại bệnh nhanh chóng, chính xác đóng vai trò then chốt trong quá trình điều trị và chăm sóc bệnh nhân. Theo ước tính, hơn 3.800 bệnh nhân thuộc 6 nhóm bệnh lý phổ biến đã được thu thập dữ liệu xét nghiệm hóa nghiệm tại Bệnh viện Trung ương Quân đội 108, Việt Nam. Bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm là một dạng bài toán phân lớp dữ liệu, trong đó các kỹ thuật học máy được ứng dụng để xây dựng mô hình phân loại hiệu quả. Mục tiêu nghiên cứu của luận văn là khảo sát và ứng dụng hai thuật toán học máy là Cây quyết định và Máy vector hỗ trợ (SVM) trong phân loại bệnh dựa trên dữ liệu xét nghiệm hóa nghiệm thu thập từ năm 2018 đến 2021 tại bệnh viện này. Nghiên cứu nhằm nâng cao độ chính xác phân loại bệnh, góp phần hỗ trợ các bác sĩ trong việc chẩn đoán và điều trị, đồng thời giảm tải cho hệ thống y tế trong bối cảnh dịch bệnh diễn biến phức tạp. Các chỉ số đánh giá mô hình như độ chính xác (accuracy), độ nhạy (sensitivity) và độ đặc hiệu (specificity) được sử dụng để đo lường hiệu quả của các thuật toán trên các nhóm mẫu dữ liệu với kích thước khác nhau.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

  1. Lý thuyết phân lớp dữ liệu (Classification Theory): Phân lớp dữ liệu là quá trình gán nhãn cho các đối tượng dựa trên các thuộc tính đặc trưng. Bài toán phân loại bệnh được xem là một trường hợp đặc biệt của phân lớp dữ liệu, trong đó các mẫu bệnh nhân được phân vào các nhóm bệnh dựa trên kết quả xét nghiệm hóa nghiệm.

  2. Mô hình học máy (Machine Learning Models): Hai thuật toán học máy được nghiên cứu là:

    • Cây quyết định (Decision Tree): Mô hình cây phân tách dữ liệu dựa trên các thuộc tính, tạo ra các quy tắc phân loại dễ hiểu. Ưu điểm là khả năng xử lý dữ liệu thiếu và dữ liệu hỗn hợp, nhược điểm là dễ bị quá khớp (overfitting).
    • Máy vector hỗ trợ (Support Vector Machine - SVM): Thuật toán tìm siêu phẳng tối ưu phân tách các lớp dữ liệu với biên lớn nhất. Bao gồm các kỹ thuật SVM tuyến tính, SVM với lề mềm, SVM phi tuyến và các chiến lược phân lớp đa lớp như One-against-All (OAA) và One-against-One (OAO). SVM có ưu điểm về tối ưu toàn cục và khả năng chịu nhiễu, nhưng độ phức tạp tính toán cao và khó giải thích kết quả.

Các khái niệm chính bao gồm: độ chính xác (accuracy), độ nhạy (sensitivity), độ đặc hiệu (specificity), ma trận hỗn loạn (confusion matrix), vector hỗ trợ (support vectors), hàm nhân (kernel function), và các chiến lược phân lớp đa lớp.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu thu thập từ 3.863 bệnh nhân tại Bệnh viện Trung ương Quân đội 108, thuộc 6 nhóm bệnh lý chính: tim, thận, khớp, tuyến giáp, tiêu hóa, và máu. Mỗi bệnh nhân có kết quả xét nghiệm hóa nghiệm với 98 thuộc tính được lựa chọn dựa trên kinh nghiệm chuyên gia y tế.

  • Tiền xử lý dữ liệu: Bao gồm làm sạch dữ liệu (loại bỏ nhiễu, xử lý giá trị thiếu), chuẩn hóa dữ liệu theo phương pháp min-max về miền giá trị [0,1], và lựa chọn thuộc tính dựa trên chuyên môn y tế.

  • Phương pháp phân tích: Sử dụng phần mềm Weka 3 để xây dựng và đánh giá mô hình phân loại bệnh. Dữ liệu được chia thành 3 nhóm mẫu với kích thước lần lượt là 600, 1.200 và toàn bộ 3.863 mẫu. Mỗi nhóm được phân chia ngẫu nhiên thành 70% dữ liệu huấn luyện và 30% dữ liệu kiểm chứng.

  • Timeline nghiên cứu: Thu thập và xử lý dữ liệu trong năm 2020-2021; xây dựng mô hình và thực nghiệm trong 6 tháng cuối năm 2021; đánh giá và hoàn thiện luận văn trong quý đầu năm 2022.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân loại của thuật toán SVM và Cây quyết định: Trên nhóm mẫu 1 (600 mẫu), SVM với chiến lược One-against-One đạt độ chính xác trung bình khoảng 85%, cao hơn so với cây quyết định đạt khoảng 78%. Trên nhóm mẫu 3 (toàn bộ 3.863 mẫu), độ chính xác của SVM đạt khoảng 88%, trong khi cây quyết định đạt 81%.

  2. Ảnh hưởng của kích thước mẫu đến hiệu quả mô hình: Khi kích thước mẫu tăng từ 600 lên 3.863, độ chính xác của cả hai thuật toán đều tăng khoảng 7-8%, cho thấy việc sử dụng dữ liệu lớn giúp cải thiện khả năng phân loại.

  3. Độ nhạy và độ đặc hiệu: SVM thể hiện độ nhạy trung bình 83% và độ đặc hiệu 86%, trong khi cây quyết định có độ nhạy 75% và độ đặc hiệu 79%. Điều này cho thấy SVM có khả năng phát hiện chính xác các bệnh nhân mắc bệnh cao hơn.

  4. Thời gian xử lý: Cây quyết định có thời gian huấn luyện và phân loại nhanh hơn SVM khoảng 30%, tuy nhiên sự chênh lệch này giảm dần khi kích thước dữ liệu tăng.

Thảo luận kết quả

Nguyên nhân chính của sự vượt trội về độ chính xác và độ nhạy của SVM là do khả năng tối ưu toàn cục và biên phân tách lớn giúp mô hình chịu được nhiễu và dữ liệu phức tạp trong xét nghiệm hóa nghiệm. Cây quyết định tuy dễ hiểu và nhanh nhưng dễ bị quá khớp, đặc biệt với dữ liệu đa chiều và có nhiều thuộc tính như trong nghiên cứu này.

So sánh với các nghiên cứu trong ngành, kết quả này phù hợp với báo cáo của ngành y tế về ứng dụng học máy trong phân loại bệnh, trong đó SVM thường được ưu tiên cho các bài toán phân loại phức tạp. Biểu đồ so sánh độ chính xác và thời gian xử lý giữa hai thuật toán trên các nhóm mẫu có thể minh họa rõ nét sự khác biệt về hiệu quả và hiệu suất.

Ý nghĩa của kết quả là việc áp dụng SVM trong phân loại bệnh dựa trên xét nghiệm hóa nghiệm có thể hỗ trợ các bác sĩ đưa ra quyết định chính xác hơn, giảm thiểu sai sót trong chẩn đoán và nâng cao chất lượng điều trị.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống phân loại bệnh dựa trên SVM tại các bệnh viện lớn: Tập trung vào các nhóm bệnh phổ biến như tim, thận, khớp với mục tiêu nâng cao độ chính xác phân loại lên trên 85% trong vòng 12 tháng. Chủ thể thực hiện là các trung tâm công nghệ y tế và phòng công nghệ thông tin bệnh viện.

  2. Đào tạo nhân viên y tế về ứng dụng học máy trong chẩn đoán: Tổ chức các khóa đào tạo chuyên sâu về phân tích dữ liệu và sử dụng phần mềm Weka, nhằm nâng cao năng lực sử dụng công nghệ trong 6 tháng tới. Đối tượng là bác sĩ, kỹ thuật viên xét nghiệm và cán bộ công nghệ thông tin y tế.

  3. Mở rộng nghiên cứu với dữ liệu đa dạng và cập nhật liên tục: Thu thập thêm dữ liệu xét nghiệm từ các bệnh viện khác và cập nhật mô hình định kỳ để cải thiện độ chính xác và khả năng thích ứng với biến đổi dịch bệnh. Thời gian thực hiện dự kiến 18 tháng, do các viện nghiên cứu và bệnh viện phối hợp thực hiện.

  4. Phát triển giao diện người dùng thân thiện cho hệ thống phân loại: Thiết kế phần mềm hỗ trợ trực quan, dễ sử dụng cho bác sĩ và nhân viên y tế, giúp họ dễ dàng nhập dữ liệu và nhận kết quả phân loại nhanh chóng. Thời gian hoàn thành dự kiến 9 tháng, do các công ty phần mềm y tế đảm nhiệm.

Đối tượng nên tham khảo luận văn

  1. Bác sĩ và chuyên gia y tế: Nghiên cứu giúp hiểu rõ hơn về ứng dụng học máy trong chẩn đoán bệnh, hỗ trợ ra quyết định dựa trên dữ liệu xét nghiệm hóa nghiệm, từ đó nâng cao hiệu quả điều trị.

  2. Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, y sinh: Cung cấp kiến thức chuyên sâu về thuật toán học máy, phương pháp tiền xử lý dữ liệu và thực nghiệm ứng dụng trong y học, làm cơ sở cho các nghiên cứu tiếp theo.

  3. Quản lý bệnh viện và nhà hoạch định chính sách y tế: Tham khảo để xây dựng chiến lược ứng dụng công nghệ thông tin trong y tế, nâng cao chất lượng dịch vụ khám chữa bệnh và quản lý dữ liệu y tế hiệu quả.

  4. Công ty phát triển phần mềm y tế: Tài liệu tham khảo để phát triển các sản phẩm phần mềm hỗ trợ chẩn đoán và phân loại bệnh dựa trên học máy, đáp ứng nhu cầu thực tế của các cơ sở y tế.

Câu hỏi thường gặp

  1. Học máy có thể thay thế hoàn toàn bác sĩ trong chẩn đoán bệnh không?
    Không, học máy là công cụ hỗ trợ giúp tăng độ chính xác và tốc độ chẩn đoán, nhưng quyết định cuối cùng vẫn cần sự đánh giá và kinh nghiệm của bác sĩ. Ví dụ, mô hình SVM giúp phân loại bệnh dựa trên xét nghiệm nhưng cần bác sĩ xác nhận và kết hợp với các yếu tố lâm sàng khác.

  2. Tại sao chọn hai thuật toán Cây quyết định và SVM để nghiên cứu?
    Hai thuật toán này đại diện cho các phương pháp học máy phổ biến với ưu điểm và nhược điểm khác nhau, giúp so sánh hiệu quả trong phân loại bệnh. Cây quyết định dễ hiểu, nhanh; SVM có độ chính xác cao và khả năng xử lý dữ liệu phức tạp.

  3. Dữ liệu xét nghiệm hóa nghiệm có đặc điểm gì khó khăn khi áp dụng học máy?
    Dữ liệu có nhiều thuộc tính đa dạng, giá trị thiếu hoặc nhiễu, và có mối quan hệ phức tạp giữa các chỉ số. Việc tiền xử lý và lựa chọn thuộc tính phù hợp là rất quan trọng để xây dựng mô hình hiệu quả.

  4. Chiến lược phân lớp đa lớp nào hiệu quả hơn trong SVM?
    Chiến lược One-against-One (OAO) thường cho kết quả chính xác hơn so với One-against-All (OAA) do xử lý từng cặp lớp riêng biệt, giảm thiểu nhầm lẫn giữa các lớp. Nghiên cứu cho thấy OAO đạt độ chính xác cao hơn khoảng 3-5%.

  5. Làm thế nào để cải thiện độ chính xác của mô hình phân loại bệnh?
    Có thể mở rộng dữ liệu huấn luyện, cải tiến tiền xử lý dữ liệu, lựa chọn thuộc tính tốt hơn, và kết hợp nhiều thuật toán (ensemble) để tăng độ chính xác. Ngoài ra, cập nhật mô hình định kỳ với dữ liệu mới cũng giúp duy trì hiệu quả.

Kết luận

  • Luận văn đã nghiên cứu và ứng dụng thành công hai thuật toán học máy là Cây quyết định và Máy vector hỗ trợ trong phân loại bệnh dựa trên dữ liệu xét nghiệm hóa nghiệm của 3.863 bệnh nhân.
  • Kết quả thực nghiệm cho thấy SVM vượt trội hơn về độ chính xác, độ nhạy và độ đặc hiệu so với Cây quyết định, đặc biệt khi kích thước dữ liệu lớn.
  • Nghiên cứu đã đề xuất các giải pháp triển khai ứng dụng học máy trong y tế, bao gồm đào tạo nhân lực, phát triển phần mềm và mở rộng dữ liệu.
  • Các kết quả và phương pháp nghiên cứu có thể áp dụng rộng rãi trong các cơ sở y tế nhằm nâng cao chất lượng chẩn đoán và điều trị bệnh.
  • Bước tiếp theo là triển khai thử nghiệm thực tế tại các bệnh viện, đồng thời phát triển giao diện người dùng thân thiện và tích hợp hệ thống vào quy trình khám chữa bệnh hiện hành.

Hành động khuyến nghị: Các cơ sở y tế và nhà nghiên cứu nên phối hợp để ứng dụng và hoàn thiện các mô hình học máy trong thực tiễn nhằm nâng cao hiệu quả chăm sóc sức khỏe cộng đồng.