Đồ án môn học dự đoán bệnh tim mạch sử dụng học máy tại Đại học Nguyễn Tất Thành

Đồ án môn học dự đoán bệnh tim mạch: Nghiên cứu và xây dựng mô hình dự đoán bệnh tim mạch hiệu quả. Xem chi tiết đồ án và kết quả đạt được.

Trường đại học

Trường Đại học Nguyễn Tất Thành

Chuyên ngành

Trí tuệ nhân tạo

Người đăng

Ẩn danh

Thể loại

Đồ án môn học

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Hướng Dẫn Đồ Án Môn Học Dự Đoán Bệnh Tim Mạch Toàn Diện

Đồ án môn học dự đoán bệnh tim mạch là một chủ đề nghiên cứu ứng dụng sâu sắc, kết hợp giữa khoa học dữ liệu và y học. Trọng tâm của đề tài này là sử dụng các kỹ thuật học máy trong y tế để xây dựng một mô hình dự báo sức khỏe có khả năng xác định nguy cơ mắc bệnh tim mạch (CVD) ở một cá nhân. Bệnh tim mạch hiện là nguyên nhân gây tử vong hàng đầu toàn cầu, chiếm tới 31% tổng số ca tử vong. Tài liệu gốc của Trường Đại học Nguyễn Tất Thành chỉ ra rằng tại Việt Nam, con số này cũng ở mức tương tự, nhấn mạnh tính cấp thiết của các giải pháp chẩn đoán sớm. Mục tiêu chính của một báo cáo đồ án machine learning về lĩnh vực này không chỉ dừng lại ở việc áp dụng thuật toán, mà còn bao gồm toàn bộ quy trình từ thu thập, làm sạch dữ liệu đến đánh giá mô hình và triển khai. Đồ án này cung cấp một cơ hội tuyệt vời để sinh viên áp dụng lý thuyết vào thực tiễn, giải quyết một bài toán có ý nghĩa lớn đối với cộng đồng. Thành công của dự án phụ thuộc vào việc lựa chọn đúng bộ dữ liệu, phương pháp tiền xử lý dữ liệu hiệu quả và so sánh khách quan các thuật toán phân loại khác nhau để tìm ra mô hình tối ưu nhất.

1.1. Tầm quan trọng của việc chẩn đoán bệnh bằng AI

Việc chẩn đoán bệnh bằng AI đang tạo ra một cuộc cách mạng trong lĩnh vực y tế. Các hệ thống truyền thống thường dựa vào kinh nghiệm của bác sĩ và các chỉ số riêng lẻ, có thể bỏ sót những mối liên hệ phức tạp giữa các yếu tố nguy cơ. Ngược lại, trí tuệ nhân tạo, đặc biệt là học máy, có khả năng phân tích đồng thời hàng chục biến số từ dữ liệu bệnh nhân. Theo tài liệu tham khảo, các yếu tố như tuổi, huyết áp, cholesterol, và cả tiền sử gia đình đều là các yếu tố nguy cơ tim mạch quan trọng. Một mô hình AI được huấn luyện tốt có thể phát hiện các mẫu tiềm ẩn trong dữ liệu mà con người khó nhận ra, từ đó đưa ra dự đoán sớm với độ chính xác cao. Điều này giúp các cơ sở y tế sàng lọc bệnh nhân hiệu quả, cho phép can thiệp kịp thời và giảm thiểu rủi ro biến chứng nguy hiểm như nhồi máu cơ tim hay đột quỵ.

1.2. Mục tiêu cốt lõi của đồ án dự đoán bệnh tim mạch

Mục tiêu chính của đồ án không chỉ là xây dựng một sản phẩm công nghệ, mà là áp dụng quy trình khai phá dữ liệu y tế một cách khoa học. Cụ thể, đề tài hướng đến việc: (1) Nghiên cứu và lựa chọn các thuật toán phân loại phù hợp như Logistic Regression, K-Nearest Neighbors (KNN), hay Naive Bayes. (2) Thực hiện tiền xử lý dữ liệu trên bộ dataset bệnh tim UCI nổi tiếng, bao gồm làm sạch, chuẩn hóa và xử lý các giá trị thiếu. (3) Xây dựng và huấn luyện các mô hình dự đoán. (4) Đánh giá mô hình dựa trên các chỉ số như độ chính xác (accuracy), precision, recall để so sánh hiệu suất và chọn ra thuật toán tốt nhất. Cuối cùng, đồ án hướng tới việc cung cấp một công cụ hỗ trợ ra quyết định lâm sàng, giúp các chuyên gia y tế có thêm cơ sở để chẩn đoán và tư vấn cho bệnh nhân.

II. Thách Thức Trong Phân Tích Dữ Liệu Dự Đoán Bệnh Tim Mạch

Việc thực hiện một đồ án môn học dự đoán bệnh tim mạch phải đối mặt với nhiều thách thức, đặc biệt trong giai đoạn phân tích dữ liệu y khoa. Dữ liệu y tế vốn phức tạp và không đồng nhất. Nó thường chứa nhiễu, các giá trị bị thiếu hoặc không chính xác do sai sót trong quá trình nhập liệu. Bộ dataset bệnh tim UCI, mặc dù đã được xử lý sơ bộ, vẫn đòi hỏi một quy trình làm sạch và chuẩn hóa cẩn thận để đảm bảo chất lượng đầu vào cho mô hình. Một thách thức khác là tính mất cân bằng của dữ liệu. Trong thực tế, số lượng bệnh nhân mắc bệnh tim thường ít hơn số người khỏe mạnh, điều này có thể làm cho mô hình học máy bị thiên vị, dự đoán tốt trên nhóm đa số nhưng kém hiệu quả trên nhóm thiểu số (bệnh nhân). Việc lựa chọn các thuộc tính (features) phù hợp cũng là một bài toán khó. Cần xác định được đâu là các yếu tố nguy cơ tim mạch thực sự có ảnh hưởng lớn đến kết quả dự đoán. Cuối cùng, việc diễn giải kết quả từ các mô hình phức tạp (đôi khi được coi là "hộp đen") để giải thích cho các chuyên gia y tế là một rào cản cần vượt qua, nhằm tăng cường sự tin cậy và khả năng ứng dụng của học máy trong y tế.

2.1. Vấn đề về chất lượng và tính đầy đủ của dữ liệu y tế

Chất lượng dữ liệu là yếu tố quyết định đến sự thành công của bất kỳ dự án khai phá dữ liệu y tế nào. Dữ liệu từ các bệnh viện thường không được thu thập cho mục đích nghiên cứu, dẫn đến việc thiếu các thuộc tính quan trọng hoặc chứa các giá trị ngoại lai (outliers). Trong đồ án được phân tích, nhóm sinh viên đã sử dụng bộ heart disease dataset từ UCI, một bộ dữ liệu chuẩn. Tuy nhiên, họ vẫn phải thực hiện các bước kiểm tra dữ liệu rỗng và đảm bảo tính nhất quán giữa các cột. Quy trình này, hay còn gọi là tiền xử lý dữ liệu, là bước nền tảng không thể bỏ qua. Nếu không được xử lý đúng cách, dữ liệu kém chất lượng sẽ dẫn đến một mô hình "rác vào, rác ra" (garbage in, garbage out), làm giảm đáng kể độ tin cậy của kết quả dự đoán.

2.2. Lựa chọn các yếu tố nguy cơ tim mạch có ảnh hưởng

Bộ dữ liệu gốc chứa tới 76 thuộc tính, nhưng các nghiên cứu thường chỉ tập trung vào 14 thuộc tính quan trọng nhất. Việc lựa chọn này không phải là ngẫu nhiên. Nó dựa trên kiến thức y khoa và các kỹ thuật lựa chọn đặc trưng trong học máy. Các yếu tố nguy cơ tim mạch chính bao gồm tuổi (age), giới tính (sex), loại đau ngực (cp), huyết áp lúc nghỉ (trestbps), cholesterol (chol), đường huyết lúc đói (fbs), và nhịp tim tối đa đạt được (thalach). Việc hiểu rõ ý nghĩa của từng thuộc tính giúp xây dựng mô hình có khả năng diễn giải tốt hơn. Một mô hình không chỉ đưa ra dự đoán "có" hoặc "không" mà còn có thể chỉ ra được những yếu tố nào đang đóng góp nhiều nhất vào nguy cơ của bệnh nhân, hỗ trợ đắc lực cho việc chẩn đoán và tư vấn phòng ngừa.

III. Phương Pháp Tiền Xử Lý Dữ Liệu Từ Dataset Bệnh Tim UCI

Quy trình tiền xử lý dữ liệu là bước bản lề trong mọi scikit-learn project, đặc biệt với dữ liệu y khoa. Đối với dataset bệnh tim UCI, bước đầu tiên là thăm dò và phân tích dữ liệu (Exploratory Data Analysis - EDA). Giai đoạn này giúp hiểu rõ hơn về cấu trúc, phân phối và mối tương quan giữa các biến. Bằng cách sử dụng các công cụ trực quan hóa dữ liệu như biểu đồ cột, biểu đồ phân tán, các nhà nghiên cứu có thể phát hiện ra các mẫu, các giá trị ngoại lai và mối quan hệ tiềm ẩn. Ví dụ, biểu đồ phân phối tuổi có thể cho thấy nhóm tuổi nào có nguy cơ mắc bệnh cao nhất. Sau giai đoạn EDA, các bước xử lý chính được tiến hành. Dữ liệu được kiểm tra để đảm bảo không có giá trị rỗng. Các biến phân loại (categorical variables) được chuyển đổi thành dạng số học thông qua các kỹ thuật như One-Hot Encoding để mô hình có thể xử lý. Cuối cùng, dữ liệu được chia thành hai tập: tập huấn luyện (training set) và tập kiểm tra (testing set). Tài liệu gốc đề cập đến việc chia dữ liệu theo tỷ lệ 67% cho huấn luyện và 33% cho kiểm tra, một phương pháp phổ biến để đánh giá mô hình một cách khách quan.

3.1. Kỹ thuật thăm dò và trực quan hóa dữ liệu y khoa

Thăm dò dữ liệu là bước không thể thiếu để có cái nhìn sâu sắc về heart disease dataset. Các kỹ thuật trực quan hóa dữ liệu đóng vai trò trung tâm. Bằng cách vẽ biểu đồ histogram cho từng thuộc tính, ta có thể quan sát được sự phân bố của chúng. Ví dụ, phân bố của thuộc tính 'chol' (cholesterol) có thể cho thấy phần lớn bệnh nhân có mức cholesterol tập trung ở khoảng nào. Biểu đồ tương quan (correlation matrix) giúp xác định mối liên hệ tuyến tính giữa các biến số. Một ma trận nhiệt (heatmap) có thể chỉ ra rằng huyết áp và tuổi có tương quan dương, nghĩa là tuổi càng cao thì huyết áp có xu hướng càng tăng. Những hiểu biết này không chỉ giúp trong việc lựa chọn mô hình mà còn hỗ trợ quá trình diễn giải kết quả cuối cùng.

3.2. Quy trình chia và chuẩn hóa dữ liệu cho mô hình học máy

Sau khi dữ liệu đã được làm sạch, bước tiếp theo là chuẩn bị cho việc huấn luyện. Chia dữ liệu thành tập huấn luyện và tập kiểm tra là một kỹ thuật tiêu chuẩn. Tập huấn luyện (ví dụ 67-80% dữ liệu) được dùng để "dạy" cho mô hình học các mẫu. Tập kiểm tra (phần còn lại) được dùng để đánh giá mô hình trên những dữ liệu mà nó chưa từng thấy, đảm bảo tính tổng quát hóa. Ngoài ra, việc chuẩn hóa (scaling) dữ liệu cũng rất quan trọng, đặc biệt với các thuật toán phân loại nhạy cảm với thang đo như KNN hay SVM. Các kỹ thuật như StandardScaler hoặc MinMaxScaler trong thư viện scikit-learn sẽ đưa tất cả các thuộc tính về cùng một thang đo (ví dụ từ 0 đến 1), ngăn chặn các thuộc tính có giá trị lớn lấn át các thuộc tính có giá trị nhỏ, từ đó cải thiện hiệu suất của mô hình dự báo sức khỏe.

IV. Top Các Thuật Toán Phân Loại Cho Đồ Án Dự Đoán Bệnh Tim

Việc lựa chọn thuật toán phân loại phù hợp là yếu tố quyết định đến độ chính xác của mô hình dự báo sức khỏe. Trong đồ án môn học dự đoán bệnh tim mạch này, nhiều thuật toán kinh điển đã được áp dụng và so sánh. Logistic Regression là một thuật toán thống kê mạnh mẽ, hoạt động tốt trên các bài toán phân loại nhị phân và cho kết quả dễ diễn giải. K-Nearest Neighbors (KNN) là một thuật toán dựa trên thể hiện (instance-based), phân loại một điểm dữ liệu mới dựa trên "phiếu bầu" của K điểm láng giềng gần nhất trong không gian đặc trưng. Naive Bayes, dựa trên định lý Bayes, là một thuật toán đơn giản nhưng hiệu quả, đặc biệt khi các giả định về tính độc lập của các thuộc tính được thỏa mãn. Ngoài ra, các thuật toán dựa trên cây quyết định như Decision Tree và Random Forest cũng rất phổ biến. Decision Tree tạo ra một mô hình dạng cây với các quy tắc "nếu-thì", trong khi Random Forest là một tập hợp của nhiều cây quyết định, giúp giảm thiểu hiện tượng quá khớp (overfitting) và cải thiện độ chính xác. Quá trình này là một phần cốt lõi của học máy trong y tế.

4.1. Ứng dụng Logistic Regression và K Nearest Neighbors KNN

Logistic Regression là một trong những thuật toán được ưu tiên hàng đầu cho các bài toán phân tích dữ liệu y khoa nhờ tính đơn giản và hiệu quả. Nó mô hình hóa xác suất một bệnh nhân thuộc về một lớp (mắc bệnh hoặc không) dựa trên một tổ hợp tuyến tính của các thuộc tính đầu vào. Kết quả của nó rất dễ diễn giải, giúp bác sĩ hiểu được yếu tố nào làm tăng hoặc giảm nguy cơ mắc bệnh. Trong khi đó, K-Nearest Neighbors (KNN) hoạt động theo một nguyên tắc khác. Nó không "học" một mô hình tường minh mà lưu trữ toàn bộ tập dữ liệu huấn luyện. Khi có một bệnh nhân mới, nó sẽ tìm K bệnh nhân có đặc điểm gần giống nhất trong cơ sở dữ liệu và dự đoán dựa trên đa số của nhóm K này. Việc chọn giá trị K tối ưu là rất quan trọng để cân bằng giữa độ phức tạp và độ chính xác của mô hình.

4.2. So sánh hiệu quả giữa Naive Bayes và Decision Tree

Naive Bayes là một thuật toán phân loại xác suất. Nó tính toán xác suất một bệnh nhân mắc bệnh tim dựa trên các đặc điểm của họ, với giả định "ngây thơ" (naive) rằng các đặc điểm này độc lập với nhau. Mặc dù giả định này hiếm khi đúng trong thực tế, Naive Bayes vẫn hoạt động tốt đáng ngạc nhiên trong nhiều ứng dụng, bao gồm cả chẩn đoán bệnh bằng AI. Decision Tree (Cây quyết định) xây dựng một mô hình dự đoán dưới dạng cấu trúc cây. Mỗi nút trong cây đại diện cho một thuộc tính (ví dụ: 'tuổi > 50?'), và mỗi nhánh đại diện cho một quyết định. Mô hình này rất trực quan và dễ hiểu. Tuy nhiên, một cây quyết định đơn lẻ có thể dễ bị quá khớp. Để khắc phục, các phương pháp tổng hợp như Random Forest (Rừng ngẫu nhiên) được sử dụng, kết hợp nhiều cây quyết định để đưa ra dự đoán ổn định và chính xác hơn.

V. Cách Đánh Giá Mô Hình Và Triển Khai Source Code Dự Đoán

Sau khi huấn luyện các mô hình, bước quan trọng tiếp theo là đánh giá mô hình để xác định mô hình nào hoạt động tốt nhất. Độ chính xác (Accuracy) là chỉ số phổ biến nhất, đo lường tỷ lệ các dự đoán đúng trên tổng số dự đoán. Tuy nhiên, trong y tế, các chỉ số khác như Precision (Độ chuẩn xác), Recall (Độ bao phủ) và F1-score cũng rất quan trọng. Precision cho biết trong số những người được dự đoán mắc bệnh, bao nhiêu người thực sự mắc bệnh. Recall cho biết trong số những người thực sự mắc bệnh, mô hình đã phát hiện được bao nhiêu người. Trong đồ án tham khảo, thuật toán Logistic Regression đã đạt được độ chính xác cao nhất là 84% so với Naive Bayes (80%) và Decision Tree (71%). Kết quả này cho thấy Logistic Regression là lựa chọn tối ưu cho bộ dữ liệu cụ thể này. Sau khi chọn được mô hình tốt nhất, bước tiếp theo là triển khai source code dự đoán bệnh tim. Mã nguồn này thường được viết bằng Python, sử dụng các thư viện như scikit-learn, pandas và numpy, và có thể được tích hợp vào một ứng dụng web hoặc phần mềm để các bác sĩ sử dụng trong thực tế.

5.1. Các chỉ số đo lường hiệu suất mô hình dự báo sức khỏe

Việc đánh giá mô hình không thể chỉ dựa vào một chỉ số duy nhất. Accuracy có thể gây hiểu lầm khi dữ liệu mất cân bằng. Ví dụ, nếu 95% mẫu là "không mắc bệnh", một mô hình luôn dự đoán "không mắc bệnh" sẽ có accuracy là 95% nhưng hoàn toàn vô dụng. Do đó, cần sử dụng ma trận nhầm lẫn (Confusion Matrix) để tính toán các chỉ số khác. True Positives (TP), True Negatives (TN), False Positives (FP - báo động giả), và False Negatives (FN - bỏ sót bệnh) là các thành phần của ma trận này. Từ đó, Precision = TP / (TP + FP) và Recall = TP / (TP + FN) được tính toán. Trong chẩn đoán bệnh bằng AI, việc bỏ sót một bệnh nhân (FN cao) thường nguy hiểm hơn là báo động giả (FP cao), do đó Recall thường được ưu tiên.

5.2. Triển khai source code dự đoán bệnh tim từ đồ án

Việc triển khai source code dự đoán bệnh tim biến một dự án nghiên cứu thành một công cụ hữu ích. Một báo cáo đồ án machine learning hoàn chỉnh thường bao gồm cả mã nguồn có thể tái sử dụng. Mã nguồn này, thường được phát triển trong môi trường như Google Colab hoặc Jupyter Notebook, sẽ chứa toàn bộ quy trình: từ tải và xử lý dữ liệu, huấn luyện mô hình đã chọn (ví dụ: Logistic Regression), đến việc xây dựng một hàm dự đoán. Hàm này sẽ nhận đầu vào là thông tin của một bệnh nhân mới (tuổi, giới tính, huyết áp, v.v.) và trả về kết quả dự đoán (có nguy cơ mắc bệnh hay không) cùng với xác suất tương ứng. Mã nguồn cần được viết rõ ràng, có chú thích đầy đủ để người khác có thể hiểu và phát triển tiếp.

VI. Tương Lai Của Dự Đoán Bệnh Tim Mạch Và Hướng Phát Triển

Lĩnh vực dự đoán bệnh tim mạch bằng học máy đang phát triển không ngừng và hứa hẹn nhiều đột phá trong tương lai. Các mô hình dự báo sức khỏe ngày càng trở nên phức tạp và chính xác hơn nhờ vào sự tiến bộ của các kỹ thuật học sâu (Deep Learning) và khả năng xử lý các bộ dữ liệu lớn hơn. Hướng phát triển trong tương lai không chỉ tập trung vào việc cải thiện độ chính xác của các thuật toán phân loại mà còn hướng đến việc xây dựng các hệ thống y tế thông minh toàn diện. Các mô hình có thể được mở rộng để phân loại đa lớp, không chỉ dự đoán có hay không mắc bệnh mà còn xác định mức độ nghiêm trọng hoặc loại bệnh tim cụ thể. Một hướng đi tiềm năng khác là kết hợp nhiều loại dữ liệu khác nhau, như dữ liệu hình ảnh y tế (siêu âm tim, X-quang), dữ liệu gen, và dữ liệu từ các thiết bị đeo thông minh để tạo ra một cái nhìn toàn cảnh về sức khỏe của bệnh nhân. Việc này đòi hỏi các phương pháp khai phá dữ liệu y tế tiên tiến hơn và sự hợp tác chặt chẽ giữa các nhà khoa học dữ liệu và chuyên gia y tế.

6.1. Tiềm năng của học sâu trong phân tích dữ liệu y khoa

Trong khi các thuật toán học máy truyền thống như Logistic Regression đã cho thấy hiệu quả cao, học sâu (Deep Learning) mở ra những khả năng mới. Các mạng nơ-ron nhân tạo có thể tự động học các đặc trưng phức tạp từ dữ liệu thô mà không cần sự can thiệp của con người. Ví dụ, một mạng nơ-ron tích chập (CNN) có thể phân tích hình ảnh điện tâm đồ (ECG) để phát hiện các dấu hiệu bất thường mà mắt người có thể bỏ qua. Mặc dù đòi hỏi lượng dữ liệu lớn và năng lực tính toán cao, học sâu có tiềm năng tạo ra các mô hình dự báo sức khỏe với độ chính xác vượt trội, đóng góp lớn vào tương lai của học máy trong y tế.

6.2. Hướng nghiên cứu mở rộng cho đồ án dự đoán bệnh

Một đồ án môn học dự đoán bệnh tim mạch có thể được phát triển theo nhiều hướng. Thay vì chỉ phân loại nhị phân, mô hình có thể được xây dựng để dự đoán nhiều bệnh cùng lúc (multi-label classification). Hơn nữa, việc tích hợp các kỹ thuật diễn giải mô hình (Model Interpretability) như LIME hoặc SHAP sẽ giúp giải thích tại sao mô hình đưa ra một dự đoán cụ thể, tăng cường sự tin tưởng từ phía bác sĩ. Một hướng khác là xây dựng một hệ thống hoàn chỉnh từ giao diện nhập liệu đến hiển thị kết quả, biến đồ án thành một sản phẩm có thể thử nghiệm trong môi trường thực tế. Những hướng đi này không chỉ nâng cao giá trị học thuật của đề tài mà còn mở ra con đường ứng dụng chẩn đoán bệnh bằng AI vào thực tiễn.

11/09/2025

Bạn đang xem trước tài liệu:

Đồ án môn học dự đoán bệnh tim mạch

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG I: GIỚI THIỆU 1.1 Giới thiệu đề tài Bệnh tim mạch (CVD) là do các rối loạn của tim và mạch máu. Bệnh tim mạch bao gom bệnh mạch vành (nhồi máu cơ tim), tai biến mạch máu não (đột quy), tăng huyết áp tăng (cao huyết áp), bệnh động mạch ngoại biên, bệnh thấp tim, bệnh tim bẩm sinh và suy tim. Các nguyên nhân chính của bệnh tim mạch là sử dụng thuốc lá, thiếu hoạt động thể lực, chế độ ăn uống không lành mạnh và sử dụng rượu-bia ở mức độ nguy hại. Vì vậy, hầu hết các bệnh tim mạch có thể phòng ngừa được bằng cách giải quyết các yêu tô nguy cơ hành vi này.

Tuy nhiên, hiện tại bệnh tim mạch là nguyên nhân hàng đầu gây tử vong trên toàn cầu, chiếm tới 31% tông số ca tử vong. Tại Việt Nam, bệnh tim mạch chịu trách nhiệm cho 31% tổng số ca tử vong trong năm 2016 tương đương với hơn 170. - Tỷ lệ tử vong toàn cầu CVD Bệnh tim mạch là nguyên nhân hàng đầu gây tử vong trên toàn cầu: số người chết hàng năm do bệnh tim mạch cao hơn bất kỳ nguyên nhân nào khác. Ước tinh co 17,9 triệu người chết vì bệnh tìm mạch trong năm 2016, chiếm 31% tổng số ca tử vong trên toàn cầu.

Trong số này, 85% là do nhồi máu cơ tim và đột quy. - Ty lệ tử vong CVD và bệnh tật Việt Nam Tại Việt Nam, các bệnh tim mạch là nguyên nhân gây ra 31% tổng số ca tử vong trong năm 2016. Tỷ lệ tăng huyết áp ở người trưởng thành từ 18-69 tuổi là 18,9%, theo điều tra quốc gia yêu tố nguy cơ bệnh không lây nhiễm STEPS năm 2015: tuy nhiên chỉ có 13,6% bệnh nhân tăng huyết áp được báo cáo là được quản lý tại một cơ sở y tế. - Phát hiện và quản lý CVD Những người mắc bệnh tim mạch hoặc có nguy CƠ cao mắc bệnh tim mach (Do có một hoặc nhiều yếu tố nguy cơ như tăng huyết áp, đái tháo đường, tăng lipid máu) cần được phát hiện và quản lý sớm thông qua tư vấn và dùng thuốc.

Sự hỗ trợ của WHO cho phòng chống bệnh tim mạch chủ yếu tập trung vào kiểm soát thuốc lá, giảm tiêu thụ muối và quản lý tăng huyết áp và đái tháo đường tại các trạm y tế xã.2 Lý do chọn đề tai. Hiện nay kỹ thuật học máy đã ngày càng phát triển và có được ứng dụng vô cùng lớn vào các lĩnh vực khác nhau như lĩnh vực Y Tá-Điều dưỡng, lĩnh vực phân tích đữ liệu,lĩnh vực báo chí và y học,. Mà trong y hoc thi ky thuật học máy dựa trên bộ dữ liệu được thu thập từ nhiều bệnh nhân trước đó có thê được sử dụng để huấn luyện và đưa ra dự đoán bệnh đối với các bệnh nhân có thê biết được bản thân có mắc bệnh hay không, nhằm phục vụ cho việc phát hiện kịp thời để chữa trị và phòng tránh các nguy cơ rủi ro có thê xảy đến vì vậy em quyết định chọn đề tai này để áp dụng học máy vào y học sử dụng Thuật Toán KNN Đề Dự Doan Bệnh Tim mach 1.3 Mục tiêu của đề tai. Bệnh Tìm mạch gây trở ngại cho sinh hoạt và công việc hằng ngày của người bệnh.

Bệnh tăng lên từ từ không ngừng và mục đích của nghiên cứu này nhằm áp dụng kỹ thuật học máy vào y học để chuẩn đoán được những người sẽ có nguy cơ mắc căn bệnh về Tim mach. Giúp các cá nhân có thé dự đoán duoc kha nang co thé có mắc bệnh Tim, dé có thê chữa bệnh kỊp thời đưa ra các chính sách chăm sóc sức khỏe vừa chữa trị, vừa phòng ngừa bệnh tiêu đường phát tác, dự đoán nguy cơ mắc bệnh tiêu đường. Dựa vào việc chân đoán, phát hiện kịp thời có thể ngăn ngừa các nguy cơ, nguy hiểm đến tính mạng xảy ra.4 Công nghệ áp dụng. Người bệnh tim mạch trong tương lai sẽ hưởng nhiều lợi ích hơn khi họ được chân đoán và điều trị bệnh với các thiết bị tiên tiễn, công nghệ mới nhất.

Sau đây là ứng dụng công nghệ trong điều trị bệnh tìm mạch được nghiên cứu và áp dụng trong điều trị ở một số quốc gia trên thé giới. ® Kính thông minh Google Glass trong phẫu thuật tim mạch @ Stent phi thuéc co khung ty tiéu (Bioresorbable Vascular Scaffold ) @ May tao nhip tim Leadless ® Miếng vá chứa protein tự nhiên giúp tái sinh tế bao co tim đã chết CHUONG II: CO SO LY THUYET 2.1 Giới thiệu về bệnh tìm mạch. Trai tim của chúng ta hoạt động như một cai bom dé bom mau đưa máu ổi tới khắp các mô cơ quan trong cơ thể. Đề đảm bảo được chức năng bơm máu một cách đều đặn khoảng 70-80 lần/phút, từ ngày này sang ngày khác, bản thân trái tim cũng được nuôi dưỡng bởi một hệ thống mạch máu riêng.

Hệ thong mach mau nay goi la hé mach vành. Danh từ mạch vành để chỉ tình trạng bệnh lý làm cho lòng động mạch vành bị hẹp lại hoặc tắc nghẽn. Khi lòng động mạch vành bị hẹp đến một mức độ nào đó thì dòng máu đến nuôi tim sẽ không đủ và dẫn đến tinh trạng thiếu máu cơ tim. Bệnh mạch vành còn có nhiều tên gọi khác như: Thiêu năng vành, suy động mạch vành, thiếu máu cơ tim hay bệnh tim thiếu máu cục bộ Cục máu đông gây tắc mạch Động mạch vành Màng xơ vữa động mạch KT | Co tim bình thường Co tim bị hoại tử Hình 1: VỊ trí giải phẫu của Tìm Nguyên nhân Nguyên nhân thường gặp là do mảng xơ vữa bám vào lòng mạch, mảng xơ vữa gây phản ứng viêm, có thê lớn dần gây hẹp nặng lòng mạch và khi vỡ dễ dẫn đến nhồi máu cơ tìm.

Ngoài ra một số trường hợp mạch vành bị co thắt gây hẹp mạch vành từng lúc cũng gây ra triệu chứng đau thắt ngực do thiếu máu cơ tim. Nguyên nhân xơ vữa động mạch thì chưa được xác định rõ ràng tuy nhiên khi nói đến nguyên nhân của bệnh tim mạch người fa dùng đên khái niệm "yêu tô nguy cơ”. Yêu tô nguy cơ của bệnh tim mạch là những yêu tố mà khi hiển diện ở một cá thê nào đó thì làm cho cá thể đó có tỷ lệ mắc bệnh tim cao hơn cá thê khác. Những yếu tô nguy cơ của bệnh tim là: tăng huyết áp, rồi loạn lipid máu, hút thuốc lá, béo phì, đái tháo đường, cuộc sống công việc có nhiều căng thắng, ít vận động, gia đình có người bị bệnh tim sớm, nam giới, cao tuổi.

Triệu chứng « Đau ngực: triệu chứng của chứng thiếu máu cơ tim thường hay gặp nhất là đau ngực. Đau khởi phát khi gắng sức, ở ngay sau xương ức, đau nhói, thắt chặt và lan ra vai trái, cảnh tay trái, bàn tay trái. Đau giảm đi khi nghỉ ngơi hoặc dùng thuốc dãn mạch. Nếu cơn đau xuất hiện lúc nghỉ ngơi hoặc cơn đau quá trầm trọng, cơn đau quá 30 phút thì phải nghĩ đến là bệnh nhân bị nhồi máu cơ tim cấp.

« Một số người già, những người bị bệnh tiểu đường, bệnh phôi tắc nghẽn mãn tính khi mắc bệnh mạch vành có thể không có triệu chứng đau thắt ngực như trên mà thay vào đó là mệt hoặc khó thở khi gắng sức. Những trường hợp đó gọi là thiểu máu cơ tim yên lặng. Những thăm dò để chấn đoán bệnh Tim mạch « Điện tâm đồ lúc nghỉ: thiếu máu cơ tim làm thay đổi điện học của cơ tim và điện tâm đồ phát hiện ra các thay đôi đó. Tuy nhiên, chỉ khoảng 50% bệnh nhân bị bệnh tim có thay đổi tín hiệu điện tâm đồ.

« Siêu âm tim: Tình trạng thiểu máu cơ tim làm ảnh hưởng đến sự co bóp của tim. Những vùng giảm động do thiếu máu cơ tim gây ra sẽ được phát hiện qua siêu âm tim. « Điện tâm đồ và Siêu âm tim lúc gắng sức: Nếu lòng động mạch vành chỉ hẹp nhẹ thì triệu chứng thiếu máu cơ tim chỉ xảy ra khi gắng sức. « Xạ hình tưới máu cơ tim: Dùng chất đồng vị phóng xạ bơm vào mạch máu.

Những vùng nào của cơ tim bị thiếu máu nuôi sẽ giảm hoặc không bắt được đồng vị phóng xạ. Sau đó, dùng máy Scan đề phát hiện các vùng đó. « Chụp động mạch vành chọn lọc: là tiêu chuân vàng để chấn đoán bệnh tim mạch. Thông qua thăm dò này, bác sĩ sẽ biết được tình trạng tim mạch của bạn như thế nào.2 Các hệ thống chuẩn đoán bệnh Tim 2.1 Các hệ thống chuẩn đoán dựa vào chỉ số nguy cơ mắc bệnh tim.

Nghiên cửu Framingham là một nghiên cứu được tiễn hành trên một bộ phân dân cư của thị trần Framingham (hạt Middlesex, bang Massachusettes, Hoa kỳ). Dân số ban đầu gồm 5029 người đàn ông và phụ nữ khỏe mạnh độ tuổi từ 30 đến 62, được theo dõi từ năm 1948. Đến năm 1971, các nhà nghiên cứu tuyển thêm một thế hệ thứ hai là con của những người tham gia ban đầu cùng với vợ (hoặc chồng) của những người con này. Cỡ mẫu nghiên cứu gồm 3969 người đàn ông và 4522 phụ nữ.

Trong quá trình theo dõi, các nhà nghiên cứu ghi nhận các biên cô tim mạch nặng xảy ra cho những người tham gia. Cùng với một số nghiên cứu dịch tễ khác, nghiên cứu Framingham cho phép xác định các yếu tô nguy cơ chính của bệnh tim mạch do xơ vữa động mạch: hút thuốc lá, tăng huyết áp, tăng cholesterol, đái thảo đường, HDL thấp. Từ các dữ liệu thu thập được, các nhà nghiên cứu dùng một mô hình toán học dé ước tính xác suất bị các biến cô tim mạch trong 10 năm tới của một người dựa vào giới tính, tuổi, cholesterol toàn phần, HDL, huyét ap tam thu, tinh trạng hút thuốc lá, có đái tháo đường hay không, có điều trị tăng huyết áp hay không. Bước kế tiếp, các nhà nghiên cứu qui đôi từng khoảng trị số của các bién liên tục (tuổi, huyết áp.

Khi cộng tất cả các điểm lại ta có điểm tổng cộng cho từng người và ứng với mỗi điểm tông cộng là một xác suất ( bị các biến cô tim mạch trong 10 năm tới) tương ứng. Hệ thống Framingham xây dựng hai bảng điểm riêng biệt cho nam và nit. Trong hệ thông Framingham phiên bản năm 1998, biến có được dự báo là sự xuất hiện của bệnh tim ( đau thắt ngực, nhồi máu cơ tim được nhận biết hoặc không, suy động mạch vành và chết do bệnh động mạch vành). Các biến được đưa vào bao gồm giới tính, tuổi, cholesterol toàn phần, HDL, huyết áp tâm thu, có đái tháo đường hay không, có hút thuốc lá hay không.

Dạng trình bày là cac bảng điểm dành riêng cho nam và nữ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Đồ án môn học dự đoán bệnh tim mạch sử dụng học máy tại Đại học Nguyễn Tất Thành

I. Hướng Dẫn Đồ Án Môn Học Dự Đoán Bệnh Tim Mạch Toàn Diện

1.1. Tầm quan trọng của việc chẩn đoán bệnh bằng AI

1.2. Mục tiêu cốt lõi của đồ án dự đoán bệnh tim mạch

II. Thách Thức Trong Phân Tích Dữ Liệu Dự Đoán Bệnh Tim Mạch

2.1. Vấn đề về chất lượng và tính đầy đủ của dữ liệu y tế

2.2. Lựa chọn các yếu tố nguy cơ tim mạch có ảnh hưởng

III. Phương Pháp Tiền Xử Lý Dữ Liệu Từ Dataset Bệnh Tim UCI

3.1. Kỹ thuật thăm dò và trực quan hóa dữ liệu y khoa

3.2. Quy trình chia và chuẩn hóa dữ liệu cho mô hình học máy

IV. Top Các Thuật Toán Phân Loại Cho Đồ Án Dự Đoán Bệnh Tim

4.1. Ứng dụng Logistic Regression và K Nearest Neighbors KNN

4.2. So sánh hiệu quả giữa Naive Bayes và Decision Tree

V. Cách Đánh Giá Mô Hình Và Triển Khai Source Code Dự Đoán

5.1. Các chỉ số đo lường hiệu suất mô hình dự báo sức khỏe

5.2. Triển khai source code dự đoán bệnh tim từ đồ án

VI. Tương Lai Của Dự Đoán Bệnh Tim Mạch Và Hướng Phát Triển

6.1. Tiềm năng của học sâu trong phân tích dữ liệu y khoa

6.2. Hướng nghiên cứu mở rộng cho đồ án dự đoán bệnh

THÔNG TIN CHI TIẾT

Tác giả: Trần Anh Sơn

Người hướng dẫn: Th.S Võ Thị Hồng Thắm

Trường học: Trường Đại học Nguyễn Tất Thành

Chuyên ngành: Trí tuệ nhân tạo

Đề tài: Dự đoán bệnh tim mạch

Loại tài liệu: Đồ án môn học

Năm xuất bản: 2023

Địa điểm: Tp.HCM

Đồ án môn học dự đoán bệnh tim mạch sử dụng học máy tại Đại học Nguyễn Tất Thành

I. Hướng Dẫn Đồ Án Môn Học Dự Đoán Bệnh Tim Mạch Toàn Diện

1.1. Tầm quan trọng của việc chẩn đoán bệnh bằng AI

1.2. Mục tiêu cốt lõi của đồ án dự đoán bệnh tim mạch

II. Thách Thức Trong Phân Tích Dữ Liệu Dự Đoán Bệnh Tim Mạch

2.1. Vấn đề về chất lượng và tính đầy đủ của dữ liệu y tế

2.2. Lựa chọn các yếu tố nguy cơ tim mạch có ảnh hưởng

III. Phương Pháp Tiền Xử Lý Dữ Liệu Từ Dataset Bệnh Tim UCI

3.1. Kỹ thuật thăm dò và trực quan hóa dữ liệu y khoa

3.2. Quy trình chia và chuẩn hóa dữ liệu cho mô hình học máy

IV. Top Các Thuật Toán Phân Loại Cho Đồ Án Dự Đoán Bệnh Tim

4.1. Ứng dụng Logistic Regression và K Nearest Neighbors KNN

4.2. So sánh hiệu quả giữa Naive Bayes và Decision Tree

V. Cách Đánh Giá Mô Hình Và Triển Khai Source Code Dự Đoán

5.1. Các chỉ số đo lường hiệu suất mô hình dự báo sức khỏe

5.2. Triển khai source code dự đoán bệnh tim từ đồ án

VI. Tương Lai Của Dự Đoán Bệnh Tim Mạch Và Hướng Phát Triển

6.1. Tiềm năng của học sâu trong phân tích dữ liệu y khoa

6.2. Hướng nghiên cứu mở rộng cho đồ án dự đoán bệnh

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Trần Anh Sơn

Người hướng dẫn: Th.S Võ Thị Hồng Thắm

Trường học: Trường Đại học Nguyễn Tất Thành

Chuyên ngành: Trí tuệ nhân tạo

Đề tài: Dự đoán bệnh tim mạch

Loại tài liệu: Đồ án môn học

Năm xuất bản: 2023

Địa điểm: Tp.HCM

SINH VIÊN CŨNG XEM