Xây Dựng Mô Hình Dự Báo Khả Năng Bị Đột Quỵ Sử Dụng Thuật Toán LightGBM

Luận văn thạc sĩ kỹ thuật nghiên cứu dữ liệu xây dựng mô hình dự báo khả năng bị đột quỵ sử dụng thuật toán lightgbm, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp

Trường đại học

Trường Đại Học Quy Nhơn

Chuyên ngành

Khoa Học Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Đề Án Thạc Sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG I: TỔNG QUAN

1.1. Tổng quan về học máy, trí tuệ nhân tạo

1.2. Ứng dụng học máy trí tuệ nhân tạo trong y khoa

1.3. Cây quyết định (Decision tree) và thuật toán cây quyết định tăng cường độ dốc (Gradient boosting decision tree - GBDT)

1.3.1. Khái niệm cây quyết định

1.3.2. Thuật toán cây quyết định

1.3.3. Một số thuật toán cây quyết định. Thuật toán cây quyết định tăng cường độ dốc

1.4. Thuật toán Light Gradient Boosting Machine (LightGBM)

1.4.1. Giới thiệu thuật toán LightGBM

1.4.2. Các đặc trưng của LightGBM. Thuật toán LightGBM

1.4.3. Ưu điểm và nhược điểm của thuật toán LightGBM

1.4.4. Ứng dụng điển hình sử dụng thuật toán LightGBM

1.5. Tổng quan về đột quỵ và ứng dụng của AI trong chuẩn đoán đột quỵ

1.5.1. Đột quỵ là gì?

1.5.2. Ứng dụng AI trong chẩn đoán đột quỵ

2. CHƯƠNG II: BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH ĐỘT QUỴ

2.1. Phát biểu bài toán. Các bước phân tích dữ liệu và ứng dụng

2.1.1. Hiểu bài toán (Business Understanding)

2.1.2. Giải pháp thực hiện

2.2. Hiểu dữ liệu (Data understanding)

2.2.1. Mô tả dữ liệu

2.2.2. Các đặc điểm quan trọng trong dữ liệu. Chuẩn bị dữ liệu (Data Preparation)

2.2.3. Lựa chọn thuộc tính phù hợp cho mô hình

2.2.4. Kiểm tra giá trị bị thiếu. Thống kê mô tả dữ liệu

2.2.5. Xử lý ngoại lệ

2.2.6. Trực quan hóa dữ liệu

3. CHƯƠNG III: XÂY DỰNG MÔ HÌNH HỌC MÁY DỰ BÁO CHO BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH ĐỘT QUỴ

3.1. Cài đặt môi trường và chia dữ liệu

3.2. Huấn luyện mô hình LightGBM

3.3. Các phương pháp đánh giá mô hình LightGBM

3.3.1. Đánh giá mô hình bằng sử dụng train và test dataset

3.3.2. Phương pháp k-fold cross-validation. Đánh giá hiệu năng của mô hình

3.4. Lựa chọn đặc tính của mô hình LightGBM

3.5. Điều chỉnh tham số của thuật toán LightGBM

3.5.1. Điều chỉnh các tham số cho Leaf-wise (Best-first) Tree

3.5.2. Để có độ chính xác tốt hơn

3.5.3. Giải pháp với Over-fitting

3.5.4. Điều chỉnh tham số cho mô hình với bộ dữ liệu

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Dự Báo Đột Quỵ Với Thuật Toán LightGBM

Đột quỵ là một vấn đề sức khỏe toàn cầu nghiêm trọng, gây tử vong và tàn tật hàng đầu. Việc dự đoán đột quỵ sớm là vô cùng quan trọng để có thể can thiệp kịp thời, giảm thiểu hậu quả. Các phương pháp học máy đang ngày càng được ứng dụng rộng rãi trong lĩnh vực y tế, đặc biệt là trong việc dự đoán và chẩn đoán bệnh. Trong số đó, thuật toán LightGBM nổi lên như một công cụ mạnh mẽ, mang lại độ chính xác cao và hiệu quả tính toán vượt trội. Trí tuệ nhân tạo và khoa học dữ liệu đang mở ra những hướng đi mới trong việc phòng ngừa đột quỵ. Bài viết này sẽ cung cấp một cái nhìn tổng quan về tiềm năng của LightGBM trong việc dự báo nguy cơ đột quỵ, từ đó giúp cải thiện sức khỏe cộng đồng.

1.1. Tầm Quan Trọng Của Dự Đoán Đột Quỵ Sớm

Phát hiện đột quỵ sớm có ý nghĩa sống còn. Thời gian là yếu tố then chốt trong điều trị đột quỵ. Nếu phát hiện sớm và can thiệp kịp thời, có thể giảm thiểu tổn thương não và cải thiện khả năng phục hồi của bệnh nhân. Các mô hình dự đoán đột quỵ dựa trên học máy như LightGBM có thể giúp các bác sĩ xác định những bệnh nhân có nguy cơ cao và đưa ra các biện pháp phòng ngừa phù hợp, thậm chí cứu sống người bệnh.

1.2. Ứng Dụng AI Trong Chẩn Đoán Bệnh Liên Quan Đến Đột Quỵ

Ứng dụng AI trong y tế đang ngày càng phát triển. Không chỉ dự đoán đột quỵ, AI còn được sử dụng trong chẩn đoán hình ảnh, phân tích dữ liệu bệnh nhân và hỗ trợ ra quyết định lâm sàng. Các thuật toán học máy có thể xử lý lượng lớn dữ liệu và tìm ra các mô hình mà con người khó nhận biết, từ đó cải thiện độ chính xác và hiệu quả của quá trình chẩn đoán. Việc kết hợp AI với các phương pháp y học truyền thống hứa hẹn mang lại những đột phá trong chăm sóc sức khỏe.

1.3. Tổng Quan Về Thuật Toán LightGBM

LightGBM (Light Gradient Boosting Machine) là một thuật toán học máy dựa trên cây quyết định tăng cường độ dốc. Nó nổi tiếng với tốc độ huấn luyện nhanh, hiệu quả sử dụng bộ nhớ và độ chính xác cao. LightGBM đặc biệt phù hợp với các bộ dữ liệu lớn và phức tạp, làm cho nó trở thành một lựa chọn lý tưởng cho việc phân tích dữ liệu y tế và dự báo nguy cơ đột quỵ. Thuật toán này có khả năng xử lý các yếu tố nguy cơ đột quỵ một cách hiệu quả. Tác giả đã thu thập, đọc hiểu và phân tích các thông tin về thuật toán này, xem thêm thông tin trong chương 1.

II. Thách Thức Trong Dự Báo Nguy Cơ Đột Quỵ Hiện Nay

Mặc dù có nhiều tiến bộ trong y học, việc dự đoán nguy cơ đột quỵ vẫn còn nhiều thách thức. Các yếu tố nguy cơ đột quỵ rất phức tạp và đa dạng, bao gồm cả yếu tố di truyền, lối sống và các bệnh lý khác. Dữ liệu y tế thường không đầy đủ, nhiễu và phân tán, gây khó khăn cho việc xây dựng các mô hình dự đoán chính xác. Hơn nữa, việc giải thích mô hình và đảm bảo tính minh bạch cũng là một vấn đề quan trọng, đặc biệt trong lĩnh vực y tế. Cần có những phương pháp tiếp cận toàn diện và sáng tạo để vượt qua những thách thức này và nâng cao khả năng phòng ngừa đột quỵ.

2.1. Sự Phức Tạp Của Các Yếu Tố Nguy Cơ Đột Quỵ

Các yếu tố nguy cơ đột quỵ rất đa dạng và tương tác lẫn nhau. Việc xác định chính xác vai trò của từng yếu tố và mối quan hệ giữa chúng là một thách thức lớn. Các yếu tố này bao gồm tuổi tác, giới tính, tiền sử gia đình, huyết áp cao, cholesterol cao, hút thuốc, tiểu đường, bệnh tim mạch, béo phì, lối sống ít vận động và nhiều yếu tố khác. Các nghiên cứu cần xem xét toàn diện các yếu tố này để xây dựng mô hình dự đoán chính xác.

2.2. Chất Lượng Dữ Liệu Y Tế Và Khả Năng Tiếp Cận

Dữ liệu y tế thường không đầy đủ, không chính xác và phân tán. Việc thu thập và chuẩn hóa dữ liệu từ nhiều nguồn khác nhau là một thách thức lớn. Bên cạnh đó, vấn đề bảo mật và quyền riêng tư của dữ liệu bệnh nhân cũng cần được xem xét cẩn thận. Các giải pháp cần đảm bảo tính bảo mật và tuân thủ các quy định pháp luật liên quan đến xử lý dữ liệu y tế.

2.3. Vấn Đề Về Giải Thích Mô Hình Và Tính Minh Bạch

Trong lĩnh vực y tế, việc giải thích mô hình và đảm bảo tính minh bạch là vô cùng quan trọng. Các bác sĩ và bệnh nhân cần hiểu rõ cách thức mô hình đưa ra dự đoán và những yếu tố nào ảnh hưởng đến kết quả. Điều này giúp tăng cường sự tin tưởng vào mô hình và cho phép các bác sĩ đưa ra quyết định lâm sàng sáng suốt hơn. Các phương pháp explainable AI (XAI) có thể giúp giải quyết vấn đề này.

III. Phương Pháp Dự Báo Đột Quỵ Bằng Thuật Toán LightGBM

Nghiên cứu này tập trung vào việc xây dựng mô hình dự báo nguy cơ đột quỵ bằng thuật toán LightGBM. Quá trình này bao gồm thu thập và tiền xử lý dữ liệu bệnh nhân, lựa chọn các feature importance phù hợp, huấn luyện mô hình và đánh giá hiệu suất. LightGBM được lựa chọn vì khả năng xử lý dữ liệu lớn, tốc độ huấn luyện nhanh và độ chính xác cao. Mô hình được đánh giá bằng các chỉ số như độ chính xác dự đoán, ROC AUC, precision, recall và F1-score. Kết quả nghiên cứu cho thấy LightGBM có tiềm năng lớn trong việc dự đoán đột quỵ.

3.1. Thu Thập Và Tiền Xử Lý Dữ Liệu Bệnh Nhân

Việc thu thập và tiền xử lý dữ liệu bệnh nhân là bước quan trọng đầu tiên trong quá trình xây dựng mô hình dự đoán đột quỵ. Dữ liệu được thu thập từ Bệnh viện Quân Y 175. Dữ liệu này bao gồm thông tin về tiền sử bệnh tật, các chỉ số sinh tồn, kết quả xét nghiệm và các yếu tố nguy cơ khác. Dữ liệu sau đó được làm sạch, chuẩn hóa và chuyển đổi sang định dạng phù hợp cho việc huấn luyện mô hình.

3.2. Lựa Chọn Đặc Tính Và Huấn Luyện Mô Hình LightGBM

Việc lựa chọn các feature importance phù hợp là yếu tố then chốt để xây dựng một mô hình dự đoán chính xác. Các feature này có thể bao gồm tuổi, giới tính, huyết áp, cholesterol, tiền sử bệnh tim mạch, hút thuốc và các yếu tố khác. Thuật toán LightGBM được sử dụng để huấn luyện mô hình trên dữ liệu bệnh nhân đã được tiền xử lý. Các tham số của mô hình được điều chỉnh để đạt được hiệu suất tốt nhất.

3.3. Đánh Giá Hiệu Suất Mô Hình Và Tối Ưu Tham Số

Hiệu suất của mô hình được đánh giá bằng các chỉ số như độ chính xác dự đoán, ROC AUC, precision, recall và F1-score. Các chỉ số này cho phép đánh giá khả năng của mô hình trong việc phân loại đúng các trường hợp đột quỵ và không đột quỵ. Quá trình tối ưu tham số được thực hiện để cải thiện hiệu suất của mô hình. Đề án đã sử dụng nhiều phương pháp khác nhau để đánh giá kết quả từ mô hình. Xem thêm thông tin trong chương 3.

IV. Kết Quả Nghiên Cứu Và Ứng Dụng Thực Tế LightGBM

Kết quả nghiên cứu cho thấy mô hình LightGBM có độ chính xác cao trong việc dự đoán nguy cơ đột quỵ. Mô hình này có thể được ứng dụng trong thực tế để giúp các bác sĩ xác định những bệnh nhân có nguy cơ cao và đưa ra các biện pháp phòng ngừa phù hợp. Ví dụ, mô hình có thể được tích hợp vào hệ thống hồ sơ sức khỏe điện tử để tự động đánh giá nguy cơ đột quỵ của bệnh nhân. Ngoài ra, mô hình cũng có thể được sử dụng để phát triển các ứng dụng di động giúp người dùng tự đánh giá nguy cơ đột quỵ của mình.

4.1. Đánh Giá Độ Chính Xác Dự Đoán Của Mô Hình

Độ chính xác của mô hình LightGBM được đánh giá bằng nhiều chỉ số khác nhau. Các chỉ số này cho thấy mô hình có khả năng phân loại đúng các trường hợp đột quỵ và không đột quỵ với độ chính xác cao. Các kết quả này chứng minh tiềm năng của LightGBM trong việc dự đoán đột quỵ.

4.2. Ứng Dụng Mô Hình Trong Chăm Sóc Sức Khỏe

Mô hình LightGBM có thể được ứng dụng trong nhiều lĩnh vực khác nhau của chăm sóc sức khỏe. Ví dụ, mô hình có thể được tích hợp vào hệ thống hồ sơ sức khỏe điện tử để tự động đánh giá nguy cơ đột quỵ của bệnh nhân. Ngoài ra, mô hình cũng có thể được sử dụng để phát triển các ứng dụng di động giúp người dùng tự đánh giá nguy cơ đột quỵ của mình. Đề án này đưa ra cách triển khai mô hình học máy được sử dụng vào một ứng dụng web giúp người dùng tự dự đoán. Xem thêm thông tin trong chương 3.

4.3. So Sánh Với Các Phương Pháp Dự Đoán Khác

Trong quá trình nghiên cứu, mô hình LightGBM được so sánh với các phương pháp dự đoán đột quỵ khác. Kết quả cho thấy LightGBM có hiệu suất tốt hơn so với các phương pháp truyền thống như hồi quy logistic và cây quyết định. Điều này chứng minh ưu thế của LightGBM trong việc dự đoán đột quỵ.

V. Kết Luận Và Hướng Nghiên Cứu Tương Lai Về LightGBM

Nghiên cứu này đã chứng minh tiềm năng của thuật toán LightGBM trong việc dự báo nguy cơ đột quỵ. Mô hình LightGBM có độ chính xác cao, tốc độ huấn luyện nhanh và khả năng xử lý dữ liệu lớn. Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện độ chính xác của mô hình, tích hợp thêm các nguồn dữ liệu khác và phát triển các ứng dụng thực tế để giúp giảm thiểu tỷ lệ đột quỵ và cải thiện sức khỏe cộng đồng. Việc kết hợp LightGBM với các phương pháp deep learning và neural networks cũng là một hướng đi đầy hứa hẹn.

5.1. Tóm Tắt Kết Quả Và Đóng Góp Của Nghiên Cứu

Nghiên cứu này đã đạt được những kết quả quan trọng trong việc xây dựng mô hình dự báo nguy cơ đột quỵ bằng thuật toán LightGBM. Mô hình này có độ chính xác cao và có thể được ứng dụng trong thực tế để giúp các bác sĩ xác định những bệnh nhân có nguy cơ cao và đưa ra các biện pháp phòng ngừa phù hợp. Nghiên cứu cũng đóng góp vào việc nâng cao nhận thức về tiềm năng của học máy trong lĩnh vực y tế.

5.2. Hướng Nghiên Cứu Và Phát Triển Trong Tương Lai

Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện độ chính xác của mô hình, tích hợp thêm các nguồn dữ liệu khác (ví dụ: dữ liệu di truyền, dữ liệu hình ảnh não) và phát triển các ứng dụng thực tế để giúp giảm thiểu tỷ lệ đột quỵ và cải thiện sức khỏe cộng đồng. Bên cạnh đó, việc khám phá các thuật toán học máy khác và so sánh hiệu suất của chúng với LightGBM cũng là một hướng đi quan trọng.

5.3. Những Cân Nhắc Về Đạo Đức Và Xã Hội

Việc sử dụng AI trong y tế cần được cân nhắc kỹ lưỡng về các vấn đề đạo đức và xã hội. Cần đảm bảo tính công bằng, minh bạch và trách nhiệm trong việc phát triển và triển khai các mô hình dự đoán. Quyền riêng tư của dữ liệu bệnh nhân cần được bảo vệ. Các giải pháp cần được thiết kế để giảm thiểu các thành kiến và đảm bảo rằng tất cả các bệnh nhân đều được hưởng lợi từ những tiến bộ của trí tuệ nhân tạo.

20/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học dữ liệu xây dựng mô hình dự báo khả năng bị đột quỵ sử dụng thuật toán lightgbm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Đột quỵ là một trong những nguyên nhân hàng đầu gây tử vong và tàn tật trên toàn cầu, chiếm khoảng 11% tổng số ca tử vong theo Tổ chức Y tế Thế giới (WHO). Mỗi năm, có khoảng 15 triệu người bị đột quỵ, trong đó hơn 6 triệu người tử vong và 5 triệu người bị tàn tật vĩnh viễn. Đặc biệt, tỷ lệ đột quỵ ở nhóm tuổi trẻ ngày càng tăng, gây ra gánh nặng y tế và kinh tế lớn. Việc dự đoán sớm nguy cơ đột quỵ giúp giảm thiểu tác động nghiêm trọng của bệnh, hỗ trợ bác sĩ trong chẩn đoán và điều trị kịp thời.

Nghiên cứu này nhằm xây dựng mô hình dự báo khả năng bị đột quỵ sử dụng thuật toán LightGBM, một trong những thuật toán học máy tiên tiến thuộc họ Gradient Boosting Decision Tree (GBDT). Dữ liệu nghiên cứu được thu thập từ Bệnh viện Quân y 175, Thành phố Hồ Chí Minh, với hơn 240,000 quan sát bệnh nhân cùng 27 đặc trưng liên quan đến nhân khẩu học, tiền sử bệnh lý, thói quen sinh hoạt và các chỉ số sinh học như huyết áp, hàm lượng glucose, BMI. Mục tiêu chính là phát triển mô hình dự báo chính xác, hỗ trợ tư vấn phòng ngừa và điều trị đột quỵ, góp phần nâng cao chất lượng chăm sóc sức khỏe cộng đồng.

Phạm vi nghiên cứu tập trung vào dữ liệu bệnh nhân tại Bệnh viện Quân y 175 trong năm 2024, áp dụng thuật toán LightGBM để xử lý và phân tích dữ liệu lớn, phức tạp. Kết quả mô hình dự báo sẽ được đánh giá qua các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và F1-score, nhằm đảm bảo tính ứng dụng thực tiễn trong y khoa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên nền tảng của trí tuệ nhân tạo (AI) và học máy (Machine Learning - ML), trong đó LightGBM là một thuật toán học máy thuộc họ Gradient Boosting Decision Tree (GBDT). Các khái niệm chính bao gồm:

Trí tuệ nhân tạo (AI): Lĩnh vực khoa học máy tính tạo ra các hệ thống có khả năng suy nghĩ, học tập và ra quyết định như con người.
Học máy (ML): Phương pháp cho phép máy tính học từ dữ liệu để dự đoán hoặc phân loại mà không cần lập trình rõ ràng.
Cây quyết định (Decision Tree): Mô hình phân loại dựa trên cấu trúc cây, phân chia dữ liệu theo các thuộc tính.
Gradient Boosting Decision Tree (GBDT): Phương pháp ensemble xây dựng mô hình dựa trên việc kết hợp nhiều cây quyết định, mỗi cây sửa lỗi của cây trước.
LightGBM: Phiên bản tối ưu của GBDT, sử dụng kỹ thuật xây dựng cây theo lá (leaf-wise) và các kỹ thuật lấy mẫu thông minh như Gradient-Based One-Side Sampling (GOSS) và Exclusive Feature Bundling (EFB) để tăng tốc độ huấn luyện và giảm bộ nhớ sử dụng.

LightGBM có ưu điểm vượt trội về tốc độ, khả năng xử lý dữ liệu lớn, độ chính xác cao và hỗ trợ song song hóa, phù hợp với bài toán dự báo nguy cơ đột quỵ dựa trên dữ liệu bệnh nhân đa dạng và phức tạp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu bệnh nhân thu thập từ Bệnh viện Quân y 175, gồm 242,701 quan sát với 27 đặc trưng liên quan đến nhân khẩu học, tiền sử bệnh lý, thói quen sinh hoạt và các chỉ số sinh học. Dữ liệu được xử lý và chuẩn hóa để loại bỏ giá trị thiếu và ngoại lệ, giữ lại 240,126 mẫu với 9 biến đặc trưng chính: Giới tính, Tuổi, Nghề nghiệp, Bệnh tim, Cao huyết áp, Hàm lượng glucose, BMI, Hút thuốc và biến mục tiêu Đột quỵ.

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Xử lý giá trị thiếu bằng cách loại bỏ hoặc thay thế bằng giá trị trung bình, mã hóa biến phân loại, chuẩn hóa biến số.
Chia dữ liệu: Tách dữ liệu thành tập huấn luyện và kiểm thử để đánh giá mô hình khách quan.
Xây dựng mô hình: Áp dụng thuật toán LightGBM với điều chỉnh siêu tham số để tối ưu hiệu suất.
Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (specificity), F1-score, và biểu đồ ROC-AUC. Phương pháp k-fold cross-validation được sử dụng để kiểm tra tính ổn định của mô hình.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong 2 năm, bao gồm thu thập dữ liệu, tiền xử lý, xây dựng và đánh giá mô hình, hoàn thiện báo cáo và đề xuất ứng dụng thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Đặc điểm lâm sàng bệnh nhân đột quỵ: Trong tổng số 240,126 bệnh nhân, có khoảng 17,198 người bị đột quỵ, chiếm gần 7.16%. Tuổi trung bình của nhóm bệnh nhân đột quỵ là khoảng 60 tuổi, cao hơn đáng kể so với nhóm không bị đột quỵ. Tỷ lệ bệnh nhân cao huyết áp trong nhóm đột quỵ chiếm trên 70%, cho thấy đây là yếu tố nguy cơ quan trọng.
Hiệu suất mô hình LightGBM: Mô hình đạt độ chính xác trên 85%, độ nhạy khoảng 82%, độ đặc hiệu 87%, và F1-score đạt 0.84 trên tập kiểm thử. Biểu đồ ROC-AUC cho thấy giá trị khoảng 0.90, minh chứng cho khả năng phân biệt tốt giữa bệnh nhân có và không có nguy cơ đột quỵ.
Ảnh hưởng của các đặc trưng: Các biến như tuổi, huyết áp cao, bệnh tim, hàm lượng glucose và BMI có mức độ ảnh hưởng lớn nhất đến dự báo nguy cơ đột quỵ, với trọng số quan trọng trong mô hình lần lượt chiếm trên 60% tổng ảnh hưởng.
So sánh với các mô hình khác: LightGBM vượt trội hơn so với các mô hình truyền thống như Logistic Regression và Random Forest về cả tốc độ huấn luyện và độ chính xác dự báo, với tốc độ nhanh hơn khoảng 10 lần và độ chính xác cao hơn từ 5-7%.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy mô hình LightGBM có khả năng dự báo nguy cơ đột quỵ hiệu quả trên bộ dữ liệu lớn và đa dạng. Việc sử dụng kỹ thuật leaf-wise giúp mô hình phát hiện các mẫu phức tạp trong dữ liệu, đồng thời các kỹ thuật lấy mẫu thông minh giảm thiểu thời gian huấn luyện mà không làm giảm độ chính xác. So với các nghiên cứu trước đây, mô hình này thể hiện sự cải tiến rõ rệt về hiệu suất và khả năng ứng dụng thực tế.

Nguyên nhân chính của hiệu quả này là do LightGBM tận dụng tốt các đặc trưng quan trọng như tuổi tác, huyết áp, và các chỉ số sinh học, vốn là các yếu tố nguy cơ đã được y học xác nhận. Việc xử lý dữ liệu kỹ lưỡng, loại bỏ giá trị thiếu và chuẩn hóa biến số cũng góp phần nâng cao chất lượng mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ phân phối tuổi, huyết áp và BMI giữa nhóm đột quỵ và không đột quỵ, biểu đồ ROC-AUC thể hiện hiệu suất mô hình, và ma trận nhầm lẫn minh họa khả năng phân loại chính xác. Những biểu đồ này giúp trực quan hóa và làm rõ các phát hiện chính.

Tuy nhiên, mô hình vẫn có thể gặp hiện tượng quá khớp nếu không điều chỉnh tham số phù hợp, đặc biệt khi dữ liệu có nhiễu hoặc không đồng nhất. Do đó, việc kiểm soát siêu tham số và đánh giá chéo là cần thiết để đảm bảo tính tổng quát của mô hình.

Đề xuất và khuyến nghị

Triển khai hệ thống dự báo đột quỵ dựa trên LightGBM: Xây dựng ứng dụng web hoặc phần mềm tích hợp mô hình dự báo để hỗ trợ bác sĩ và bệnh nhân tự đánh giá nguy cơ đột quỵ. Mục tiêu nâng cao khả năng phát hiện sớm, giảm tỷ lệ tử vong và tàn tật. Thời gian thực hiện dự kiến 6-12 tháng, do các đơn vị y tế và công nghệ phối hợp.
Tăng cường thu thập và chuẩn hóa dữ liệu y tế: Đề xuất bệnh viện và cơ sở y tế mở rộng thu thập dữ liệu đa dạng, chuẩn hóa quy trình nhập liệu để nâng cao chất lượng dữ liệu đầu vào, từ đó cải thiện độ chính xác mô hình. Thời gian thực hiện liên tục, ưu tiên trong 1-2 năm tới.
Đào tạo nhân viên y tế về ứng dụng AI: Tổ chức các khóa đào tạo, hội thảo cho bác sĩ và nhân viên y tế về cách sử dụng mô hình dự báo và hiểu các kết quả phân tích AI để áp dụng hiệu quả trong chẩn đoán và điều trị. Thời gian triển khai 3-6 tháng, do các trường đại học và bệnh viện phối hợp.
Nghiên cứu mở rộng mô hình: Phát triển thêm các mô hình dự báo kết hợp dữ liệu hình ảnh y tế (CT, MRI) và dữ liệu lâm sàng để nâng cao độ chính xác và khả năng dự báo đa chiều. Thời gian nghiên cứu 1-2 năm, do các nhóm nghiên cứu khoa học dữ liệu và y học phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Bác sĩ và chuyên gia y tế: Giúp hiểu rõ về ứng dụng AI trong dự báo nguy cơ đột quỵ, hỗ trợ chẩn đoán và tư vấn điều trị dựa trên dữ liệu bệnh nhân thực tế.
Nhà nghiên cứu khoa học dữ liệu và AI: Cung cấp kiến thức chuyên sâu về thuật toán LightGBM, quy trình xây dựng và đánh giá mô hình dự báo trong lĩnh vực y tế.
Quản lý bệnh viện và cơ sở y tế: Tham khảo để triển khai các hệ thống hỗ trợ quyết định dựa trên AI, nâng cao hiệu quả quản lý và chăm sóc bệnh nhân.
Sinh viên và học viên cao học ngành Khoa học dữ liệu, Y học: Là tài liệu tham khảo thực tiễn về ứng dụng học máy trong y tế, từ khâu thu thập dữ liệu đến xây dựng và triển khai mô hình.

Câu hỏi thường gặp

LightGBM là gì và tại sao chọn thuật toán này?
LightGBM là thuật toán học máy thuộc họ Gradient Boosting Decision Tree, nổi bật với tốc độ huấn luyện nhanh, khả năng xử lý dữ liệu lớn và độ chính xác cao. Thuật toán này phù hợp với bài toán dự báo đột quỵ do khả năng xử lý các đặc trưng phức tạp và dữ liệu đa dạng.
Dữ liệu nghiên cứu có đảm bảo chất lượng không?
Dữ liệu được thu thập từ Bệnh viện Quân y 175 với hơn 240,000 mẫu, đã qua xử lý loại bỏ giá trị thiếu và chuẩn hóa biến số, đảm bảo độ tin cậy và tính đại diện cho mô hình.
Mô hình dự báo có thể áp dụng trong thực tế như thế nào?
Mô hình có thể được tích hợp vào hệ thống phần mềm hoặc ứng dụng web để hỗ trợ bác sĩ và bệnh nhân đánh giá nguy cơ đột quỵ, từ đó đưa ra các biện pháp phòng ngừa và điều trị kịp thời.
Các yếu tố nguy cơ nào ảnh hưởng nhiều nhất đến dự báo?
Tuổi tác, huyết áp cao, bệnh tim, hàm lượng glucose và BMI là những yếu tố có ảnh hưởng lớn nhất, được mô hình đánh giá là các đặc trưng quan trọng trong dự báo nguy cơ đột quỵ.
Mô hình có thể bị sai lệch do dữ liệu không?
Đúng, mô hình phụ thuộc vào chất lượng và sự đa dạng của dữ liệu. Dữ liệu không đầy đủ hoặc sai lệch có thể làm giảm độ chính xác, do đó cần thu thập và chuẩn hóa dữ liệu kỹ lưỡng.

Kết luận

Đột quỵ là vấn đề sức khỏe nghiêm trọng với tỷ lệ tử vong và tàn tật cao, cần dự báo sớm để giảm thiểu tác động.
Thuật toán LightGBM được áp dụng thành công trong xây dựng mô hình dự báo nguy cơ đột quỵ với độ chính xác và hiệu suất vượt trội.
Dữ liệu lớn và đa dạng từ Bệnh viện Quân y 175 cung cấp nền tảng vững chắc cho mô hình học máy.
Mô hình có thể hỗ trợ tư vấn phòng ngừa và điều trị đột quỵ, góp phần nâng cao chất lượng chăm sóc sức khỏe.
Các bước tiếp theo bao gồm triển khai ứng dụng thực tế, mở rộng nghiên cứu và đào tạo nhân viên y tế về AI.

Hãy áp dụng kết quả nghiên cứu để phát triển các giải pháp y tế thông minh, góp phần bảo vệ sức khỏe cộng đồng hiệu quả hơn.

Trích đoạn nội dung tài liệu

CHƯƠNG I: TỔNG QUAN 1. Tổng quan về học máy, trí tuệ nhân tạo Thuật ngữ trí tuệ nhân tạo đã được sử dụng cho nhiều thập kỷ và đã mang những ý nghĩa và hàm ý khác nhau. Thuật ngữ “Trí tuệ nhân tạo” (Artificial Intelligence- AI) lần đầu tiên được John McCarthy đặt ra cho một hội nghị về chủ đề này được tổ chức tại Dartmouth vào năm 1956 với tên gọi “khoa học và kỹ thuật chế tạo máy tính thông minh”. Nói cách khác, AI có thể được định nghĩa là “một nhánh của khoa học máy tính mà nhờ đó chúng ta tạo ra những cỗ máy thông minh có thể suy nghĩ giống con người, hành động giống con người và có thể đưa ra quyết định giống con người”.10 Trí tuệ nhân tạo đã trở thành chủ đề rất được quan tâm trong những năm gần đây trong nhiều lĩnh vực khác nhau như khoa học máy tính, tâm lý học, toán học, khoa học thông tin, ngôn ngữ học và các lĩnh vực chuyên ngành khác.

AI có khả năng suy nghĩ và hành động như con người mà không cần bất kỳ sự can thiệp nào của con người, nó có thể giúp phát triển một thư viện thông minh với các vai trò thông minh tiềm ẩn để thực hiện mà không cần sự can thiệp của con người. Khả năng tự học của AI có thể chứng minh tầm quan trọng rất lớn đối với các thư viện về mặt xử lý người dùng, kết nối mạng và giao tiếp. Công nghệ AI cũng có thể được sử dụng để cung cấp các dịch vụ tham khảo ảo độc đáo thông qua các môi trường di động và mạng xã hội, bằng cách kết hợp tài nguyên thư viện hiện có và nội dung từ bên thứ ba.11 Học máy (Machine Learning - ML) là một lĩnh vực của trí tuệ nhân tạo và khoa học máy tính. Machine Learning liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể.

Nó tập trung vào việc sử dụng dữ liệu và thuật toán để bắt chước cách con người học, sau đó dần dần cải thiện độ chính xác của nó. Tuy nhiên, điều làm cho máy học trở nên khả thi là các thuật toán học tập, tạo điều kiện thuận lợi cho một 7 trong hai cách tiếp cận mô hình học tập chính, đó là học tập có giám sát và học không giám sát. Các thuật toán này có thể được mô tả đơn giản là, từng bước một hướng dẫn cho phép một máy tính để giải quyết một loại vấn đề học tập cụ thể. Hiện nay, học máy được coi là công cụ thay đổi cuộc chơi thông qua việc tiếp cận các giải pháp cho các vấn đề phức tạp trong thế giới thực theo cách có thể mở rộng, hữu ích với nhiều tác vụ điện toán.

Học máy đôi khi được kết hợp với khai thác dữ liệu trong đó học máy tập trung vào dự đoán trên cơ sở các thuộc tính đã biết được học từ dữ liệu huấn luyện, mặt khác, khai thác dữ liệu tập trung vào việc khám phá các thuộc tính chưa biết trong dữ liệu.11 Học sâu (Deep Learning) là các loại học máy cụ thể. Nó được liên kết với mạng neural, trong đó các lớp xử lý được thực hiện qua nhiều bước, hoặc sâu hơn, thay vì chỉ sử dụng một số bước xử lý hạn chế. Học sâu khác biệt với các loại học máy khác trong khi học máy chỉ dự đoán, thì học sâu không chỉ dự đoán mà còn tạo ra dữ liệu, có khả năng tổ chức dữ liệu không cấu trúc. Học sâu cho phép các mô hình tính toán được tạo thành từ nhiều lớp xử lý để học các biểu diễn của dữ liệu với nhiều mức trừu tượng khác nhau.

Những phương pháp này đã cải thiện đáng kể trạng thái hiện tại trong nhận dạng giọng nói, nhận dạng đối tượng hình ảnh, phát hiện đối tượng và nhiều lĩnh vực khác như khám phá thuốc và di truyền học. Học sâu khám phá cấu trúc phức tạp trong các tập dữ liệu lớn bằng cách sử dụng thuật toán lan truyền ngược (backpropagation) để chỉ ra cách máy tính nên thay đổi các tham số nội bộ mà được sử dụng để tính toán biểu diễn trong mỗi lớp từ biểu diễn trong lớp trước đó.12 8 Hình 1: Mối quan hệ của Trí tuệ nhân tạo (AI) và Học máy (ML) và Học sâu (DL).13 Machine Learning được phân làm 3 loại chính: Học có giám sát (Supervised learning): Một tập dữ liệu huấn luyện chứa các ví dụ với các phản hồi chính xác (targets) được cung cấp và dựa trên tập dữ liệu này, thuật toán tổng quát hóa để đưa ra các phản ứng chính xác cho tất cả các đầu vào có thể có. Đây cũng được gọi là học từ ví dụ. Học không có giám sát (Unsupervised learning): Không có phản hồi chính xác được cung cấp, thay vào đó thuật toán cố gắng xác định các điểm tương đồng giữa các đầu vào để phân loại các đầu vào có điểm chung.

Tiếp cận thống kê trong học không có giám sát được gọi là ước lượng mật độ. 9 Học tăng cường (Reinforcement learning): Đây là hình thức học nằm giữa học có giám sát và học không có giám sát. Thuật toán được thông báo khi câu trả lời sai, nhưng không được chỉ dẫn cách sửa nó. Nó phải khám phá và thử nghiệm các khả năng khác nhau cho đến khi tìm ra cách đưa ra câu trả lời đúng.

Học tăng cường đôi khi được gọi là học với người đánh giá vì sự theo dõi này đánh điểm câu trả lời mà không đề xuất cải tiến.14 Hình 2: Hình ảnh các loại học máy.15 Loại hình học máy phổ biến nhất là học có giám sát và chúng tôi sẽ sử dụng nó để tiến hành xây dụng mô hình học máy dự đoán đột quỵ cho tập dữ liệu của mình. Ứng dụng học máy trí tuệ nhân tạo trong y khoa Trí tuệ nhân tạo (AI) là một lĩnh vực đang phát triển nhanh chóng có tiềm năng biến đổi ngành chăm sóc sức khỏe. AI bao gồm nhiều công nghệ cho phép máy tính thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người, chẳng hạn như học tập, lý luận và giải quyết vấn đề. Việc sử dụng AI trong chăm sóc sức khỏe đã cho thấy triển vọng trong việc cải thiện kết quả điều trị cho bệnh nhân, giảm chi phí và nâng cao hiệu quả.

Các công nghệ AI, chẳng hạn như học máy, xử lý ngôn 10 ngữ tự nhiên và thị giác máy tính, đã cách mạng hóa nhiều khía cạnh của việc cung cấp dịch vụ chăm sóc sức khỏe. Những tiến bộ này có tiềm năng cải thiện đáng kể việc chăm sóc bệnh nhân, nâng cao chẩn đoán, hợp lý hóa các quy trình hành chính và thúc đẩy nghiên cứu và đổi mới y tế. Các nghiên cứu về AI đang ngày càng phổ biến. Năm 2016, đầu tư vào các dự án y tế liên quan đến AI đứng đầu trong bất kỳ lĩnh vực nào khác trong nền kinh tế toàn cầu.

Sự quan tâm đến trí tuệ nhân tạo trong chăm sóc sức khỏe tăng vọt vào năm 2019 khi các nhà đầu tư rót 4 tỷ đô la Mỹ vào lĩnh vực này, tăng từ gần 2,7 tỷ đô la Mỹ đầu tư vào AI chăm sóc sức khỏe vào năm 2018. Việc đưa ra quyết định lâm sàng dựa trên dữ liệu hiện có là nền tảng của y học dựa trên bằng chứng. Thông thường, nhiệm vụ này được giải quyết bằng các phương pháp thống kê, giúp xác định các mô hình trong dữ liệu và diễn đạt chúng dưới dạng các phương trình toán học (ví dụ, hồi quy tuyến tính). Tuy nhiên, thông qua học máy, trí tuệ nhân tạo có thể thiết lập các mối quan hệ phức tạp mà khó có thể biểu diễn qua các phương trình đơn giản.

Ví dụ, mạng nơ-ron nhân tạo thể hiện dữ liệu thông qua một số lượng lớn các nơ-ron kết nối với nhau, mô phỏng cách hoạt động của não người. Điều này cho phép các hệ thống học máy tiếp cận vấn đề theo cách tương tự như một bác sĩ đưa ra kết luận có cơ sở bằng cách phân tích kỹ lưỡng các bằng chứng. Tuy nhiên, khác với con người, các hệ thống này có thể đồng thời giám sát và xử lý lượng dữ liệu đầu vào gần như không giới hạn. Hơn nữa, chúng có thể học từ mỗi trường hợp mới và xử lý số lượng trường hợp nhiều hơn trong vài phút so với một bác sĩ có thể gặp trong suốt sự nghiệp của mình.

Điểm yếu của phương pháp này là phụ thuộc vào chất lượng dữ liệu, bao gồm độ tin cậy và sự đa dạng của dữ liệu.16 Một trong những ứng dụng đáng chú ý nhất của AI trong chăm sóc sức khỏe là trong chẩn đoán và hình ảnh y tế. Các thuật toán AI có thể phân tích hình ảnh y tế, chẳng hạn như chụp X-quang, chụp CT và chụp MRI, để phát hiện các bất thường, 11 khối u và các tình trạng khác với độ chính xác cao. Điều này có tiềm năng cải thiện khả năng phát hiện và chẩn đoán sớm, dẫn đến kết quả điều trị tốt hơn. Trợ lý ảo và chatbot hỗ trợ AI cũng đã được ứng dụng vào trong ngành chăm sóc sức khỏe, cung cấp cho bệnh nhân sự hỗ trợ và thông tin được cá nhân hóa.

Các hệ thống thông minh này có thể trả lời các câu hỏi y tế, cung cấp hướng dẫn về cách tự chăm sóc và phân loại bệnh nhân dựa trên các triệu chứng của họ. Điều này không chỉ cải thiện khả năng tiếp cận dịch vụ chăm sóc sức khỏe mà còn giảm gánh nặng cho các nhà cung cấp dịch vụ chăm sóc sức khỏe. AI đã cho thấy triển vọng trong phân tích dự đoán và theo dõi bệnh nhân. Bằng cách phân tích lượng lớn dữ liệu bệnh nhân, các thuật toán AI có thể xác định các mô hình và yếu tố rủi ro đối với các bệnh, cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe can thiệp sớm hơn và ngăn ngừa các sự kiện bất lợi.

Các thiết bị đeo được hỗ trợ AI và hệ thống theo dõi từ xa cho phép theo dõi liên tục các dấu hiệu sinh tồn, cung cấp cảnh báo theo thời gian thực về những thay đổi quan trọng trong tình trạng sức khỏe của bệnh nhân.17 Đã có một số công trình nghiên cứu và bài báo khoa học liên quan được công bố về việc sử dụng AI trong chăm sóc sức khỏe, giải quyết cả những lợi ích và thách thức tiềm ẩn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Dự Báo Nguy Cơ Đột Quỵ Bằng Thuật Toán LightGBM" cung cấp cái nhìn sâu sắc về việc sử dụng thuật toán LightGBM để dự đoán nguy cơ đột quỵ, một vấn đề sức khỏe nghiêm trọng hiện nay. Bằng cách áp dụng công nghệ học máy, tài liệu này không chỉ giúp nâng cao độ chính xác trong việc phát hiện sớm nguy cơ đột quỵ mà còn mở ra cơ hội cho các phương pháp điều trị kịp thời và hiệu quả hơn. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc hiểu rõ hơn về cách thức hoạt động của thuật toán này, cũng như cách nó có thể được áp dụng trong thực tiễn y tế.

Nếu bạn muốn mở rộng kiến thức của mình về các ứng dụng công nghệ trong y tế, hãy tham khảo thêm tài liệu Digital signal processing combined with machine learning in diabetes diagnosis, nơi trình bày cách kết hợp xử lý tín hiệu kỹ thuật số và học máy trong chẩn đoán bệnh tiểu đường. Ngoài ra, tài liệu Luận văn thạc sĩ nhận biết gai động kinh tự động từ tín hiệu eeg cũng sẽ giúp bạn hiểu rõ hơn về việc nhận diện các vấn đề liên quan đến sóng não. Cuối cùng, tài liệu Hcmute xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ecg sẽ cung cấp thêm thông tin về việc phân loại bệnh tim từ dữ liệu ECG, một lĩnh vực liên quan mật thiết đến dự đoán nguy cơ đột quỵ. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về ứng dụng của công nghệ trong y tế.

#phân tích dữ liệu y tế

#machine learning trong y tế

#dự đoán bệnh lý

#dự báo đột quỵ

#thuật toán LightGBM

#mô hình dự báo sức khỏe

Chủ đề

Ứng dụng machine learning trong y tế

Phân tích dữ liệu sức khỏe

Mô hình dự đoán bệnh lý

Công nghệ và sức khỏe cộng đồng