Tổng quan nghiên cứu

Bệnh đái tháo đường típ 2 (ĐTĐ T2) là một trong những bệnh lý chuyển hóa phổ biến trên thế giới, với dự báo hơn 600 triệu người mắc vào năm 2045. Tại Việt Nam, tỷ lệ người mắc ĐTĐ T2 cũng đang gia tăng nhanh chóng, gây áp lực lớn lên hệ thống y tế. Biến chứng tim mạch là nguyên nhân hàng đầu dẫn đến tử vong ở bệnh nhân ĐTĐ T2, do đó việc phân tầng nguy cơ tim mạch (NCTM) đóng vai trò quan trọng trong quản lý và điều trị bệnh nhân. Tại Bệnh viện Đại học Y Dược TP.HCM (BV ĐHYD HCM), trung bình mỗi ngày có khoảng 4.5 lượt khám bệnh nhân ĐTĐ T2 trong tổng số 300 lượt khám nội tiết, cho thấy nhu cầu cấp thiết về công cụ hỗ trợ phân tích và dự báo nguy cơ tim mạch.

Mục tiêu nghiên cứu là ứng dụng phân tích dữ liệu lâm sàng thu thập từ gần 10 nghìn bệnh nhân ĐTĐ T2 trong vòng 5 năm (2017-2022) tại BV ĐHYD HCM để xây dựng mô hình dự báo phân tầng nguy cơ tim mạch. Nghiên cứu tập trung vào việc phân tích các yếu tố ảnh hưởng đến kết quả phân tầng NCTM, đồng thời đề xuất mô hình học máy phù hợp nhằm hỗ trợ bác sĩ trong việc ra quyết định điều trị nhanh chóng và chính xác hơn. Ý nghĩa của nghiên cứu không chỉ giúp nâng cao hiệu quả khám chữa bệnh mà còn góp phần thúc đẩy chuyển đổi số trong y tế, phù hợp với định hướng phát triển y tế thông minh giai đoạn 2021-2025 của Bộ Y tế và UBND TP.HCM.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình phân tích dữ liệu y khoa kết hợp với thuật toán học máy, bao gồm:

  • Phân tích hồi quy tuyến tính đơn giản: Giúp xác định mối quan hệ tuyến tính giữa biến độc lập (ví dụ: tuổi, thời gian mắc bệnh) và biến phụ thuộc (kết quả phân tầng NCTM).
  • Hệ số tương quan Pearson: Đánh giá mức độ tương quan giữa các biến định lượng và biến phân loại nguy cơ tim mạch.
  • Thuật toán Perceptron Learning Algorithm (PLA): Mô hình học máy cơ bản dùng để phân loại nhị phân, áp dụng trong việc phân loại nguy cơ tim mạch.
  • Thuật toán Support Vector Machine (SVM): Thuật toán phân loại mạnh mẽ, tìm siêu phẳng tối ưu để phân tách các lớp nguy cơ tim mạch.
  • Thuật toán Random Forest (RF): Mô hình rừng cây ngẫu nhiên, sử dụng nhiều cây quyết định để tăng độ chính xác và giảm quá khớp trong phân loại nguy cơ.

Các khái niệm chính bao gồm: biến độc lập (tuổi, chỉ số xét nghiệm, tiền sử bệnh), biến phụ thuộc (kết quả phân tầng nguy cơ tim mạch), và các thuật toán học máy phục vụ phân loại.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Bộ dữ liệu gồm 7011 bản ghi bệnh án ĐTĐ T2 được thu thập tại khoa Nội tiết, BV ĐHYD HCM trong giai đoạn 2017-2022, với 43 biến số liên quan đến thông tin bệnh nhân, chỉ số xét nghiệm và tiền sử bệnh.
  • Phương pháp chọn mẫu: Toàn bộ dữ liệu bệnh án được sử dụng sau khi làm sạch và chuẩn hóa, loại bỏ các bản ghi thiếu dữ liệu quan trọng.
  • Phương pháp phân tích: Sử dụng phần mềm R và Python để thực hiện phân tích thống kê mô tả, kiểm định tương quan Pearson, hồi quy tuyến tính, kiểm định chi bình phương và Fisher’s exact test cho các biến phân loại.
  • Phương pháp xây dựng mô hình: Thực nghiệm ba mô hình học máy PLA, SVM và Random Forest trên tập dữ liệu đã chuẩn bị, đánh giá hiệu suất dựa trên các chỉ số chính xác, độ nhạy và độ đặc hiệu.
  • Timeline nghiên cứu: Thu thập và làm sạch dữ liệu (3 tháng), phân tích dữ liệu và xây dựng mô hình (4 tháng), đánh giá và hoàn thiện báo cáo (2 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Ảnh hưởng của tuổi và thời gian mắc ĐTĐ đến nguy cơ tim mạch:

    • Hệ số tương quan Pearson giữa tuổi và kết quả phân tầng NCTM là $r = 0.32$ (p < 0.05), cho thấy tuổi có ảnh hưởng trung bình đến nguy cơ tim mạch.
    • Thời gian mắc ĐTĐ cũng có tương quan trung bình với nguy cơ tim mạch với $r = 0.32$ (p < 0.05). Nhóm nguy cơ rất cao có thời gian mắc bệnh trung bình 11 năm, trong khi nhóm nguy cơ trung bình là 2 năm.
  2. Chỉ số xét nghiệm liên quan đến nguy cơ tim mạch:

    • Đường huyết đói có tương quan thấp với nguy cơ tim mạch ($r = 0.117$, p < 0.05).
    • Chỉ số HbA1C có tương quan thấp đến trung bình với nguy cơ tim mạch ($r = 0.272$, p < 0.05).
    • Nồng độ Creatinin thể hiện chức năng thận có tương quan trung bình với nguy cơ tim mạch ($r = 0.301$, p < 0.05).
  3. Phân tích các biến phân loại:

    • Các biến như tiền sử tăng huyết áp, rối loạn lipid, bệnh võng mạc, viêm đa dây thần kinh, và tiền sử nhồi máu cơ tim có ảnh hưởng đáng kể đến kết quả phân tầng nguy cơ tim mạch.
    • Các biến điều trị thuốc như thuốc huyết áp, thuốc Statin, thuốc chống kết tập tiểu cầu cũng có mối liên hệ với phân tầng nguy cơ.
  4. Hiệu quả mô hình học máy:

    • Mô hình Random Forest cho độ chính xác cao nhất trong phân loại nguy cơ tim mạch, vượt trội hơn so với PLA và SVM.
    • Việc trích chọn đặc trưng giúp cải thiện hiệu suất mô hình, giảm số lượng biến đầu vào mà vẫn giữ được độ chính xác.

Thảo luận kết quả

Kết quả cho thấy tuổi và thời gian mắc ĐTĐ là những yếu tố quan trọng ảnh hưởng đến nguy cơ tim mạch, phù hợp với các nghiên cứu y học trước đây. Chỉ số HbA1C và Creatinin cũng đóng vai trò quan trọng trong đánh giá chức năng chuyển hóa và thận, từ đó ảnh hưởng đến nguy cơ tim mạch. Việc áp dụng mô hình Random Forest giúp xử lý tốt dữ liệu phức tạp, đa chiều và có khả năng dự báo chính xác hơn so với các mô hình truyền thống.

Dữ liệu có thể được trình bày qua biểu đồ boxplot thể hiện phân bố tuổi và thời gian mắc bệnh theo nhóm nguy cơ, biểu đồ tương quan Pearson giữa các chỉ số xét nghiệm và kết quả phân tầng, cũng như bảng so sánh hiệu suất các mô hình học máy. Những phát hiện này góp phần nâng cao hiệu quả phân tầng nguy cơ tim mạch, giúp bác sĩ có cơ sở khoa học để đưa ra quyết định điều trị phù hợp, đồng thời giảm thiểu sai sót và thời gian xử lý dữ liệu thủ công hiện nay.

Đề xuất và khuyến nghị

  1. Triển khai ứng dụng mô hình Random Forest trong hệ thống quản lý bệnh án điện tử tại BV ĐHYD HCM để tự động phân tầng nguy cơ tim mạch cho bệnh nhân ĐTĐ T2, giúp rút ngắn thời gian chẩn đoán và nâng cao độ chính xác. Thời gian thực hiện: 6 tháng; chủ thể: phòng CNTT phối hợp khoa Nội tiết.

  2. Đào tạo và nâng cao năng lực cho đội ngũ y bác sĩ về ứng dụng công nghệ phân tích dữ liệu và học máy trong y tế, nhằm tăng cường khả năng sử dụng công cụ hỗ trợ ra quyết định. Thời gian: 3 tháng; chủ thể: Ban giám đốc BV và phòng đào tạo.

  3. Mở rộng thu thập và chuẩn hóa dữ liệu lâm sàng tại các cơ sở y tế khác để xây dựng bộ dữ liệu chuẩn, phục vụ nghiên cứu và ứng dụng mô hình dự báo nguy cơ tim mạch trên diện rộng. Thời gian: 12 tháng; chủ thể: Sở Y tế và các BV tuyến tỉnh.

  4. Phát triển hệ thống cảnh báo sớm dựa trên mô hình phân tầng nguy cơ tim mạch tích hợp vào phần mềm quản lý bệnh nhân, giúp theo dõi và can thiệp kịp thời các trường hợp nguy cơ cao. Thời gian: 9 tháng; chủ thể: phòng CNTT và khoa Nội tiết.

Đối tượng nên tham khảo luận văn

  1. Bác sĩ chuyên khoa Nội tiết và Tim mạch: Nghiên cứu cung cấp công cụ hỗ trợ phân tầng nguy cơ tim mạch, giúp cải thiện hiệu quả chẩn đoán và điều trị bệnh nhân ĐTĐ T2.

  2. Chuyên viên công nghệ thông tin y tế: Tham khảo phương pháp xử lý dữ liệu lâm sàng, xây dựng và đánh giá mô hình học máy trong lĩnh vực y tế, phục vụ phát triển các ứng dụng y tế thông minh.

  3. Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Y học: Tài liệu chi tiết về ứng dụng thuật toán học máy trong phân tích dữ liệu y khoa thực tế, từ thu thập, xử lý đến xây dựng mô hình dự báo.

  4. Quản lý bệnh viện và cơ quan y tế: Hiểu rõ về lợi ích của chuyển đổi số và ứng dụng trí tuệ nhân tạo trong quản lý bệnh nhân, từ đó hoạch định chính sách và đầu tư phù hợp.

Câu hỏi thường gặp

  1. Tại sao cần phân tầng nguy cơ tim mạch cho bệnh nhân ĐTĐ T2?
    Phân tầng giúp xác định mức độ nguy cơ biến chứng tim mạch, từ đó bác sĩ có thể lựa chọn phương pháp điều trị phù hợp, giảm thiểu tử vong và biến chứng nghiêm trọng.

  2. Mô hình Random Forest có ưu điểm gì so với các mô hình khác?
    Random Forest xử lý tốt dữ liệu đa chiều, giảm hiện tượng quá khớp, cho kết quả dự báo chính xác và ổn định hơn so với các mô hình như PLA hay SVM.

  3. Dữ liệu lâm sàng được chuẩn hóa như thế nào trước khi phân tích?
    Dữ liệu được làm sạch, loại bỏ các giá trị thiếu hoặc không hợp lệ, chuyển đổi các biến phân loại thành dạng nhị phân, chuẩn hóa định dạng số liệu để đảm bảo tính nhất quán.

  4. Các chỉ số xét nghiệm nào ảnh hưởng nhiều nhất đến nguy cơ tim mạch?
    Tuổi, thời gian mắc bệnh, chỉ số HbA1C, Creatinin và các biến liên quan đến chức năng thận, rối loạn lipid, tiền sử tăng huyết áp đều có ảnh hưởng đáng kể.

  5. Làm thế nào để ứng dụng mô hình này vào thực tế tại bệnh viện?
    Cần tích hợp mô hình vào hệ thống quản lý bệnh án điện tử, đào tạo nhân viên y tế sử dụng, đồng thời cập nhật và bảo trì dữ liệu thường xuyên để đảm bảo hiệu quả.

Kết luận

  • Ứng dụng phân tích dữ liệu lâm sàng giúp phân tầng nguy cơ tim mạch trên bệnh nhân ĐTĐ T2 một cách chính xác và nhanh chóng.
  • Tuổi, thời gian mắc bệnh và các chỉ số xét nghiệm như HbA1C, Creatinin là những yếu tố ảnh hưởng trung bình đến nguy cơ tim mạch.
  • Mô hình Random Forest thể hiện hiệu suất phân loại tốt nhất trong ba mô hình được thử nghiệm.
  • Nghiên cứu góp phần thúc đẩy chuyển đổi số trong y tế, hỗ trợ bác sĩ ra quyết định điều trị hiệu quả hơn.
  • Các bước tiếp theo bao gồm triển khai mô hình vào thực tế, đào tạo nhân viên và mở rộng nghiên cứu trên các cơ sở y tế khác.

Hãy áp dụng kết quả nghiên cứu này để nâng cao chất lượng chăm sóc bệnh nhân ĐTĐ T2 và giảm thiểu biến chứng tim mạch nguy hiểm.