Luận văn thạc sĩ: Ứng dụng PCA, KMeans và Hồi quy Logistic để tiên lượng bệnh tiểu đường

Luận văn thạc sĩ nghiên cứu kết hợp pca và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải

Trường đại học

Trường Đại Học Quy Nhơn

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

DANH MỤC HÌNH VẼ VÀ CÁC BẢNG

MỞ ĐẦU

0.1. Lý do chọn đề tài

0.2. Đối tượng và phạm vi nghiên cứu

0.3. Phương pháp nghiên cứu

0.4. Mục tiêu và nội dung của luận văn

0.5. Ý nghĩa khoa học và thực tiễn

0.6. Bố cục của luận văn

1. CHƯƠNG 1: MỘT SỐ KIẾN THỨC LÝ THUYẾT CƠ SỞ

1.1. Giới thiệu về Machine learning

1.1.1. Khái niệm Machine learning

1.1.2. Phân loại kỹ thuật học máy

1.1.3. Các ứng dụng của Machine learning

1.1.4. Các bước thực hiện cơ bản của học máy

1.2. Bài toán phân lớp dữ liệu

1.2.1. Phân lớp dữ liệu

1.2.2. Một số ứng dụng phân lớp tiêu biểu

1.2.3. Tiến trình phân lớp dữ liệu

1.3. Giới thiệu bài toán phân lớp cho bệnh tiểu đường

1.3.1. Giới thiệu về bệnh tiểu đường

1.3.2. Những kết quả nghiên cứu phân lớp cho dữ liệu bệnh tiểu đường

1.4. Phương pháp luận nghiên cứu

1.5. Công cụ hỗ trợ trong khai phá dữ liệu

1.6. Giới thiệu bộ dữ liệu tiểu đường

KẾT LUẬN CHƯƠNG 1

2. CHƯƠNG 2: THUẬT TOÁN HỒI QUY LOGISTIC, PCA, K-MEANS

2.1. Thuật toán hồi quy Logistic (Logistic Regression)

2.1.1. Thuật toán hồi quy Logistic

2.1.2. Ứng dụng thuật toán hồi quy Logistic

2.1.3. Hàm Sigmoid sử dụng trong hồi quy Logistic

2.1.4. Xây dựng thuật toán hồi quy Logistic nhị phân

2.1.5. Ví dụ ứng dụng thuật toán hồi quy Logistic

2.2. Thuật toán Principal Component Analysis (PCA)

2.2.1. Vai trò của thuật toán PCA trong bài toán phân lớp

2.2.2. Bài toán giảm chiều dữ liệu

2.2.3. Cơ sở toán học của PCA

2.2.4. Các bước thực hiện phương pháp PCA

2.2.5. Ví dụ áp dụng thuật toán và mô phỏng ứng dụng

2.3. Thuật toán phân cụm dữ liệu K-Means

2.3.1. Phân cụm dữ liệu

2.3.2. Ứng dụng phân cụm

2.3.3. Thuật toán phân cụm K-Means

2.3.4. Các bước thực hiện thuật toán K-Means

2.3.5. Ví dụ minh họa và triển khai thuật toán K-Means

KẾT LUẬN CHƯƠNG 2

3. CHƯƠNG 3: SỰ KẾT HỢP BA THUẬT TOÁN PCA, K-MEANS VÀ HỒI QUY LOGISTIC ỨNG DỤNG TIÊN LƯỢNG BỆNH TIỂU ĐƯỜNG

3.1. Chuẩn bị dữ liệu tiểu đường

3.2. Tiền xử lí dữ liệu

3.3. Ứng dụng thuật toán hồi quy Logistic Regression Classifier trên phần mềm python để dự đoán bệnh tiểu đường cho bệnh nhân

3.4. Kết hợp thuật toán PCA và hồi quy logistic vào ứng dụng tiên lượng bệnh tiểu đường

3.4.1. Thuật toán PCA

3.4.2. Kết hợp hai thuật toán PCA-Logistic

3.5. K_Means và hồi quy Logistic

3.5.1. Phát hiện và loại bỏ các dữ liệu ngoại lai (outliers) bởi thuật toán phân cụm K-Means

3.5.2. Thực hiện thuật toán hồi quy Logistic trên tập dữ liệu K-Means

3.6. Cải thiện thuật toán hồi quy Logistic bằng sự kết hợp PCA và K-Means

KẾT LUẬN CHƯƠNG 3

DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao)

Tóm tắt

I. Giới thiệu về PCA KMeans và Hồi quy Logistic

Trong nghiên cứu này, PCA (Principal Component Analysis), KMeans và Hồi quy Logistic được kết hợp để tiên lượng bệnh tiểu đường. PCA là một phương pháp giảm chiều dữ liệu, giúp tối ưu hóa thông tin và loại bỏ nhiễu. KMeans là thuật toán phân cụm, cho phép nhóm các dữ liệu tương tự nhau, từ đó phát hiện và loại bỏ các dữ liệu ngoại lai. Cuối cùng, Hồi quy Logistic được sử dụng để xây dựng mô hình phân loại, dự đoán khả năng mắc bệnh tiểu đường dựa trên các chỉ số sinh hóa. Sự kết hợp này không chỉ cải thiện độ chính xác của mô hình mà còn giúp các bác sĩ có cái nhìn tổng quan hơn về tình trạng sức khỏe của bệnh nhân.

1.1. Phân tích dữ liệu và tiền xử lý

Trước khi áp dụng các thuật toán, việc phân tích dữ liệu và tiền xử lý là rất quan trọng. Dữ liệu bệnh tiểu đường thường chứa nhiều thông tin không đầy đủ hoặc không chính xác. Do đó, việc làm sạch dữ liệu, loại bỏ các giá trị ngoại lai và chuẩn hóa dữ liệu là cần thiết. PCA giúp giảm số lượng biến trong khi vẫn giữ lại thông tin quan trọng, từ đó làm cho quá trình phân tích trở nên hiệu quả hơn. Sau khi dữ liệu được xử lý, KMeans sẽ được áp dụng để phân cụm các bệnh nhân dựa trên các chỉ số sinh hóa, giúp xác định các nhóm có nguy cơ cao mắc bệnh tiểu đường.

II. Ứng dụng thuật toán Hồi quy Logistic

Thuật toán Hồi quy Logistic là một trong những phương pháp phổ biến trong phân loại nhị phân. Trong nghiên cứu này, nó được sử dụng để dự đoán khả năng mắc bệnh tiểu đường dựa trên các chỉ số sinh hóa. Hàm Sigmoid được sử dụng để chuyển đổi đầu ra của mô hình thành xác suất, cho phép xác định ngưỡng phân loại. Việc áp dụng Hồi quy Logistic sau khi đã thực hiện PCA và KMeans giúp cải thiện độ chính xác của dự đoán. Kết quả cho thấy mô hình có thể phân loại chính xác các bệnh nhân có nguy cơ cao mắc bệnh tiểu đường, từ đó hỗ trợ các bác sĩ trong việc đưa ra quyết định điều trị kịp thời.

2.1. Kết quả và đánh giá mô hình

Kết quả từ mô hình Hồi quy Logistic cho thấy độ chính xác cao trong việc phân loại bệnh nhân. Các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu đều đạt yêu cầu. Việc kết hợp PCA và KMeans không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý dữ liệu. Mô hình này có thể được áp dụng rộng rãi trong các cơ sở y tế để hỗ trợ chẩn đoán và tiên lượng bệnh tiểu đường, từ đó nâng cao chất lượng chăm sóc sức khỏe.

III. Ý nghĩa và ứng dụng thực tiễn

Nghiên cứu này không chỉ có ý nghĩa khoa học mà còn mang lại giá trị thực tiễn cao. Việc kết hợp PCA, KMeans và Hồi quy Logistic trong tiên lượng bệnh tiểu đường giúp các bác sĩ có công cụ hiệu quả hơn trong việc chẩn đoán và điều trị. Điều này đặc biệt quan trọng trong bối cảnh bệnh tiểu đường đang gia tăng nhanh chóng. Các mô hình dự đoán có thể giúp phát hiện sớm bệnh, từ đó giảm thiểu các biến chứng nghiêm trọng. Hơn nữa, nghiên cứu này mở ra hướng đi mới cho việc ứng dụng công nghệ thông tin trong y tế, góp phần nâng cao chất lượng cuộc sống cho bệnh nhân.

3.1. Khuyến nghị cho nghiên cứu tiếp theo

Dựa trên kết quả đạt được, nghiên cứu tiếp theo có thể mở rộng phạm vi dữ liệu và áp dụng các thuật toán học máy khác để so sánh hiệu quả. Việc tích hợp thêm các yếu tố như di truyền, lối sống và chế độ ăn uống vào mô hình có thể giúp cải thiện độ chính xác hơn nữa. Ngoài ra, việc phát triển ứng dụng di động hoặc phần mềm hỗ trợ chẩn đoán cũng là một hướng đi tiềm năng, giúp người dùng dễ dàng tiếp cận thông tin và dịch vụ y tế.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kết hợp pca và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Bệnh tiểu đường là một trong những căn bệnh mãn tính phổ biến và nguy hiểm, ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng toàn cầu. Theo ước tính của Tổ chức Y tế Thế giới (WHO), đến năm 2040, số người mắc bệnh tiểu đường trên toàn thế giới có thể lên tới 642 triệu người, trong đó Việt Nam dự kiến có hơn 6 triệu người mắc bệnh. Tỷ lệ người mắc bệnh chưa được chẩn đoán chiếm khoảng 5%, cho thấy nhu cầu cấp thiết về việc phát hiện sớm và chính xác bệnh tiểu đường. Việc chẩn đoán sớm không chỉ giúp kiểm soát bệnh hiệu quả mà còn giảm thiểu các biến chứng nguy hiểm như tổn thương mắt, thận, tim mạch và thần kinh.

Luận văn tập trung nghiên cứu ứng dụng các thuật toán học máy gồm Principal Component Analysis (PCA), K-Means và hồi quy Logistic nhằm xây dựng mô hình tiên lượng bệnh tiểu đường chính xác hơn. Phạm vi nghiên cứu sử dụng dữ liệu xét nghiệm của 300 bệnh nhân tại Bệnh viện Đa khoa tỉnh Bình Định trong khoảng thời gian từ tháng 6/2019 đến tháng 2/2020. Mục tiêu chính là giảm chiều dữ liệu, loại bỏ dữ liệu ngoại lai và xây dựng mô hình phân lớp dự đoán bệnh tiểu đường với độ chính xác cao, góp phần hỗ trợ công tác chẩn đoán y khoa và nâng cao hiệu quả điều trị.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba thuật toán chính trong lĩnh vực học máy:

Hồi quy Logistic (Logistic Regression): Thuật toán phân lớp nhị phân dùng để dự đoán xác suất một bệnh nhân mắc bệnh tiểu đường dựa trên các biến đầu vào. Hàm sigmoid được sử dụng để chuyển đổi giá trị đầu ra thành xác suất trong khoảng từ 0 đến 1. Mục tiêu là tối ưu hàm mất mát dựa trên likelihood tối đa, sử dụng thuật toán Stochastic Gradient Descent (SGD) để cập nhật tham số mô hình.
Phân tích thành phần chính (PCA): Kỹ thuật giảm chiều dữ liệu bằng cách biến đổi dữ liệu gốc sang không gian mới với số chiều thấp hơn nhưng vẫn giữ được phần lớn thông tin quan trọng. PCA giúp loại bỏ các biến ít liên quan, giảm nhiễu và tăng hiệu quả tính toán cho các mô hình học máy.
Phân cụm K-Means: Thuật toán học không giám sát dùng để phân nhóm dữ liệu dựa trên khoảng cách Euclidean đến các tâm cụm. K-Means được sử dụng để phát hiện và loại bỏ các dữ liệu ngoại lai (outliers), giúp làm sạch dữ liệu trước khi xây dựng mô hình hồi quy Logistic.

Ba thuật toán này được kết hợp nhằm tận dụng ưu điểm của từng phương pháp: PCA giảm chiều dữ liệu, K-Means làm sạch dữ liệu, và hồi quy Logistic xây dựng mô hình phân lớp chính xác.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu xét nghiệm của 300 bệnh nhân tại Bệnh viện Đa khoa tỉnh Bình Định, bao gồm 147 mẫu dương tính và 153 mẫu âm tính với bệnh tiểu đường. Các biến đầu vào gồm tuổi, giới tính, chỉ số glucose và các chỉ số sinh hóa khác liên quan đến bệnh.

Phương pháp nghiên cứu bao gồm:

Tiền xử lý dữ liệu: Chuẩn hóa dữ liệu, áp dụng PCA để giảm chiều dữ liệu từ 8 biến xuống còn 5 biến chính, giữ lại trên 80% thông tin ban đầu.
Phân cụm K-Means: Phân cụm dữ liệu thành 2 nhóm để phát hiện và loại bỏ dữ liệu ngoại lai, giúp làm sạch dữ liệu đầu vào.
Xây dựng mô hình hồi quy Logistic: Sử dụng dữ liệu đã được xử lý để huấn luyện mô hình phân lớp dự đoán bệnh tiểu đường. Dữ liệu được chia thành tập huấn luyện (75%) và tập kiểm tra (25%) để đánh giá hiệu quả mô hình.
Phân tích kết quả: Đánh giá mô hình dựa trên các chỉ số accuracy, precision, recall và ma trận nhầm lẫn.

Quá trình nghiên cứu được thực hiện trên phần mềm Python với các thư viện hỗ trợ như Numpy, Pandas, Scikit-learn và Matplotlib, đảm bảo tính chính xác và khả năng tái lập kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Giảm chiều dữ liệu hiệu quả với PCA: Sau khi áp dụng PCA, số chiều dữ liệu giảm từ 8 xuống còn 5, giữ lại trên 80% phương sai của dữ liệu gốc. Việc giảm chiều này giúp rút ngắn thời gian huấn luyện và tăng hiệu suất mô hình.
Loại bỏ dữ liệu ngoại lai bằng K-Means: Thuật toán phân cụm K-Means với 2 cụm đã phát hiện và loại bỏ các điểm dữ liệu ngoại lai, làm sạch bộ dữ liệu đầu vào. Điều này giúp cải thiện độ chính xác của mô hình hồi quy Logistic.
Mô hình hồi quy Logistic đạt độ chính xác 81%: Trên tập kiểm tra, mô hình dự đoán bệnh tiểu đường đạt accuracy 81%, với ma trận nhầm lẫn cho thấy số lượng dự đoán đúng là 155 trên tổng số 192 mẫu kiểm tra, vượt trội so với một số nghiên cứu trước đó.
So sánh với các mô hình khác: Kết quả này tương đương hoặc cao hơn so với các mô hình sử dụng riêng lẻ hồi quy Logistic hoặc các thuật toán khác như Naïve Bayes (79,56%) và mạng nơ-ron (92,2%) khi chưa kết hợp xử lý dữ liệu ngoại lai và giảm chiều.

Thảo luận kết quả

Việc kết hợp PCA và K-Means với hồi quy Logistic đã giúp cải thiện đáng kể hiệu quả dự đoán bệnh tiểu đường. PCA giảm số chiều dữ liệu, loại bỏ các biến ít liên quan, giảm nhiễu và tăng tốc độ huấn luyện. K-Means giúp phát hiện và loại bỏ các điểm dữ liệu ngoại lai, vốn có thể làm sai lệch mô hình phân lớp. Hồi quy Logistic sau đó được áp dụng trên dữ liệu đã được xử lý sạch và giảm chiều, giúp mô hình đạt độ chính xác cao hơn.

Kết quả này phù hợp với các nghiên cứu gần đây cho thấy sự kết hợp các thuật toán học máy có thể nâng cao hiệu quả dự đoán trong lĩnh vực y tế. Biểu đồ ma trận nhầm lẫn và đồ thị phân tích thành phần chính (PCA) minh họa rõ ràng sự phân tách dữ liệu và hiệu quả của mô hình. Tuy nhiên, độ chính xác 81% vẫn còn khoảng cách so với các mô hình phức tạp hơn như mạng nơ-ron sâu, cho thấy tiềm năng phát triển thêm trong tương lai.

Đề xuất và khuyến nghị

Triển khai mô hình kết hợp PCA-K-Means-Logistic trong hệ thống y tế: Các bệnh viện và cơ sở y tế nên áp dụng mô hình này để hỗ trợ chẩn đoán sớm bệnh tiểu đường, giúp nâng cao độ chính xác và giảm thiểu sai sót trong chẩn đoán. Thời gian triển khai dự kiến trong vòng 6 tháng.
Mở rộng bộ dữ liệu và cập nhật liên tục: Thu thập thêm dữ liệu xét nghiệm từ nhiều địa phương khác nhau để tăng tính đa dạng và độ tin cậy của mô hình. Việc cập nhật dữ liệu định kỳ sẽ giúp mô hình thích nghi với các biến đổi về đặc điểm bệnh nhân.
Phát triển giao diện phần mềm thân thiện: Xây dựng phần mềm ứng dụng tích hợp mô hình dự đoán với giao diện dễ sử dụng cho cán bộ y tế, giúp họ nhanh chóng nhập liệu và nhận kết quả dự đoán chính xác.
Đào tạo và nâng cao năng lực cán bộ y tế: Tổ chức các khóa đào tạo về ứng dụng công nghệ học máy trong y tế, giúp cán bộ y tế hiểu và vận dụng hiệu quả các công cụ hỗ trợ chẩn đoán.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu khoa học máy tính và trí tuệ nhân tạo: Luận văn cung cấp phương pháp kết hợp các thuật toán học máy trong bài toán phân lớp y tế, có thể làm cơ sở cho các nghiên cứu phát triển mô hình dự đoán khác.
Chuyên gia và cán bộ y tế: Hỗ trợ trong việc áp dụng công nghệ mới vào chẩn đoán và tiên lượng bệnh tiểu đường, nâng cao hiệu quả điều trị và quản lý bệnh nhân.
Sinh viên và học viên cao học ngành Khoa học máy tính, Y học và Công nghệ thông tin: Tài liệu tham khảo hữu ích về ứng dụng thực tiễn của học máy trong y tế, từ lý thuyết đến triển khai thực nghiệm.
Các nhà quản lý và hoạch định chính sách y tế: Cung cấp cơ sở khoa học để xây dựng các chương trình tầm soát và phòng chống bệnh tiểu đường dựa trên công nghệ hiện đại.

Câu hỏi thường gặp

Tại sao cần kết hợp PCA, K-Means và hồi quy Logistic trong nghiên cứu này?
Kết hợp PCA giúp giảm chiều dữ liệu, K-Means loại bỏ dữ liệu ngoại lai, và hồi quy Logistic xây dựng mô hình phân lớp chính xác. Sự kết hợp này nâng cao hiệu quả dự đoán so với sử dụng từng thuật toán riêng lẻ.
Bộ dữ liệu sử dụng trong nghiên cứu có đặc điểm gì?
Bộ dữ liệu gồm 300 mẫu xét nghiệm bệnh nhân tại Bệnh viện Đa khoa tỉnh Bình Định, trong đó 147 mẫu dương tính và 153 mẫu âm tính với bệnh tiểu đường, bao gồm các biến như tuổi, giới tính, chỉ số glucose và các chỉ số sinh hóa.
Mô hình dự đoán đạt được độ chính xác bao nhiêu?
Mô hình hồi quy Logistic kết hợp PCA và K-Means đạt độ chính xác khoảng 81% trên tập kiểm tra, thể hiện hiệu quả trong việc phân loại bệnh nhân mắc hoặc không mắc bệnh tiểu đường.
Làm thế nào để áp dụng mô hình này trong thực tế y tế?
Mô hình có thể được tích hợp vào phần mềm hỗ trợ chẩn đoán tại các cơ sở y tế, giúp cán bộ y tế nhập dữ liệu xét nghiệm và nhận kết quả dự đoán nhanh chóng, hỗ trợ quyết định điều trị.
Có thể mở rộng nghiên cứu này cho các bệnh khác không?
Có thể, phương pháp kết hợp các thuật toán học máy này có tính linh hoạt cao và có thể áp dụng cho các bài toán phân lớp và dự đoán trong nhiều lĩnh vực y tế khác như ung thư, tim mạch, hoặc các bệnh mãn tính khác.

Kết luận

Luận văn đã xây dựng thành công mô hình kết hợp PCA, K-Means và hồi quy Logistic để tiên lượng bệnh tiểu đường với độ chính xác 81%.
PCA giúp giảm chiều dữ liệu, K-Means loại bỏ dữ liệu ngoại lai, và hồi quy Logistic phân lớp hiệu quả trên dữ liệu đã xử lý.
Mô hình hỗ trợ chẩn đoán sớm, góp phần giảm thiểu biến chứng và nâng cao chất lượng điều trị bệnh tiểu đường.
Nghiên cứu mở ra hướng phát triển ứng dụng học máy trong y tế, đặc biệt trong việc xử lý và phân tích dữ liệu lớn.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, phát triển phần mềm ứng dụng và đào tạo cán bộ y tế để triển khai mô hình trong thực tế.

Hãy áp dụng và phát triển mô hình này để nâng cao hiệu quả chẩn đoán và điều trị bệnh tiểu đường, góp phần cải thiện sức khỏe cộng đồng.

Trích đoạn nội dung tài liệu

Chương 1: MỘT SỐ KIẾN THỨC LÝ THUYẾT CƠ SỞ Trong chương này, chúng tôi sẽ trình bày một số kiến thức về học máy, giới thiệu bài toán phân lớp, bài toán phân lớp nhị phân trên bộ dữ liệu bệnh tiểu đường. Chuẩn bị bộ dữ liệu mẫu và lựa chọn cài đặt phần mềm python.1 Giới hiệu về Machine learning 1.1 Khái niệm Machine learning Học máy (Machine learning): là nghiên cứu khoa học về các thuật toán và mô hình thống kê mà các hệ thống máy tính sử dụng để thực hiện một nhiệm vụ cụ thể mà không sử dụng các hướng dẫn rõ ràng, thay vào đó dựa vào các mẫu và suy luận. Machine learning tập trung vào sự phát triển của các hệ thống máy tính có thể truy cập dữ liệu và sử dụng nó để tự học. Đó là một phương pháp phân tích dữ liệu tự động hóa việc xây dựng mô hình phân tích.

Sử dụng các thuật toán học từ dữ liệu, học máy cho phép máy tính tìm thấy những hiểu biết ẩn giấu mà không được lập trình rõ ràng nơi cần tìm.2 Phân loại kỹ thuật học máy: Có nhiều loại mô hình học máy khác nhau như: học có giám sát, học không giám sát, học bán giám sát và học tăng cường. Học có giám sát (Supervised Learning): Học có giám sát là một kĩ thuật học máy để học tập từ tập dữ liệu được gán nhãn cho trước. Tập dữ liệu cho trước sẽ chứa nhiều bộ dữ liệu. Mỗi bộ dữ liệu có cấu trúc theo cặp {x, y} với x được xem là dữ liệu thô và y là nhãn của dữ liệu đó.

Nhiệm vụ của học có giám sát là dự đoán đầu ra mong muốn dựa vào giá trị đầu vào. Dễ nhận ra, học có giám sát tức là máy học dựa vào sự trợ giúp của con người, hay nói cách khác con người dạy cho máy học và giá trị đầu ra mong muốn được định trước bởi con người. Tập dữ liệu huấn luyện hoàn toàn được gán nhãn dựa vào con người. Tập càng nhỏ thì máy tính học càng ít.

e Pl-7 Học có giám sát được áp dụng cho 2 nhóm bài toán chính là bài toán dự đoán (regression problem) và bài toán phân lớp (classification problem). Kỹ thuật học có giám sát thực chất là để xây dựng một hàm có thể xuất ra giá trị đầu ra tương ứng với tập dữ liệu. Ta gọi hàm này là hàm h(x) và mong muốn hàm này xuất ra đúng giá trị y với một hoặc nhiều tập dữ liệu mới khác với dữ liệu được học. Hàm h(x) cần các loại tham số học khác nhau tùy thuộc với nhiều bài toán khác nhau.

Việc học từ tập dữ liệu (training) cũng chính là tìm ra bộ tham số học cho hàm h(x). Học không có giám sát (Unsupervised learning): Học không có giám sát là một kĩ thuật của máy học nhằm tìm ra một mô hình hay cấu trúc bị ẩn bởi tập dữ liệu không được gán nhãn cho trước. Học không có giám sát khác với học có giám sát là không thể xác định trước output từ tập dữ liệu huấn luyện được. Tùy thuộc vào tập huấn luyện kết quả output sẽ khác nhau.

Ứng dụng phổ biến nhất của học không có giám sát là gom cụm (cluster). Ứng dụng này dễ nhận ra nhất là Google và Facebook. Google có thể gom nhóm các bài báo có nội dung gần nhau, hoặc Facebook có thể gợi ý kết bạn có nhiều bạn chung cho bạn. Các bài báo có cùng nội dung sẽ được gom lại thành một nhóm (cluster) phân biệt với các nhóm khác.

Dữ liệu huấn luyện là các bài báo từ quá khứ tới hiện tại và tăng dần theo thời gian. Dễ nhận ra rằng dữ liệu không thể gán nhãn bởi con người. Khi một bài báo mới được cho vào input, nó sẽ tìm cụm (cluster) gần nhất với bài báo đó và gợi ý những bài liên quan. Học bán giám sát (Semi-supervised Learning): Đây là sự kết hợp của hai phương pháp học có giám sát và không giám sát, trong đó sử dụng cả dữ liệu có sẵn nhãn và dữ liệu không nhãn.

Nó hoạt động chủ yếu giống như việc học tập không giám sát với những cải tiến mà một phần dữ liệu được dán nhãn có thể mang lại. Học tăng cường (Reinforcement Learning): Trong kiểu học này, các e Pl-8 thuật toán cố gắng dự đoán đầu ra cho một vấn đề dựa trên một tập các tham số điều chỉnh. Sau đó, đầu ra được tính toán trở thành một tham số đầu vào và đầu ra mới được tính cho đến khi thấy đầu ra tối ưu. Các thuật toán học máy được sử dụng cho kiểu học này như: Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và Deep Learning.

Học tăng cường chủ yếu được sử dụng trong phát triển các ứng dụng giải trí AI, thu nhận kỹ năng, điều hướng rô-bốt và quyết định thời gian thực.3 Các ứng dụng của Machine learning Machine learning đã góp mặt và thực hiện rất tốt trong các hoạt động của các lĩnh vực sau đây: Lĩnh vực xử lý hình ảnh: Bài toán xử lý ảnh sẽ giải quyết một số vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép biến đổi. Một số ví dụ cơ bản cho lĩnh vực như ứng dụng ô tô tự lái, gắn thẻ hình ảnh, nhận dạng ký tự,… Lĩnh vực khai phá dữ liệu: Khai phá dữ liệu là quá trình khám phá ra các thông tin có giá trị hoặc đưa ra các dự đoán từ dữ liệu. Học máy được ứng dụng trong khai phá dữ liệu bao gồm: gom nhóm, dự đoán, phát hiện các bất thường, phát hiện ra các quy luật để ứng dụng vào hoạt động ngân hàng hay hoạt động của các hệ thống siêu thị,. Lĩnh vực phân tích văn bản: là công việc trích xuất hoặc phân loại thông tin từ các văn bản.

Các văn bản ở đây có thể là một email, đoạn chat trên facebook hay là các tài liệu. Lĩnh vực chăm sóc sức khỏe: Machine learning là một xu hướng phát triển nhanh chóng trong ngành chăm sóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực (real-time). Machine Learning còn giúp các chuyên gia y tế xác định những xu hướng hoặc tín hiệu để cải thiện khả năng e Pl-9 điều trị, chẩn đoán bệnh. Lĩnh vực marketing và sales Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những vật dụng mà bạn có thể sẽ quan tâm và yêu thích.

Khả năng tiếp nhận dữ liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa trải nghiệm mua sắm (hoặc thực hiện chiến dịch Marketing) chính là tương tai của ngành bán lẻ. Có thể nói rằng Machine Learning là một trong những lĩnh vực cạnh tranh nhất của các công ty phát triển công nghệ vì lợi ích mang lại từ nó là rất lớn. Trong tương lai, công nghệ này sẽ không ngừng phát triển.4 Các bước thực hiện cơ bản của học máy Bước 1: Thiết lập mô hình (Model) Khi đi xây dựng mô hình cho học máy tức là đi mô phỏng các mẫu hình từ thực tế giúp đưa ra được dự báo hoặc nhận dạng. Hay nói chính xác hơn là ta phải đi mô tả các biến dữ liệu có khả năng tác động lên kết quả hoạt động của mô hình, đồng thời phải tìm ra được mối quan hệ giữa biến tác động và biến kết quả.

Ngoài ra, ta có thể xây dựng một giả định ban đầu nào đó. Bước 2: Cung cấp dữ liệu đầu vào thực tế (Parameter) Sau khi mô hình được thiết lập, các thông tin thực tế sẽ được đưa vào để cho quá trình “ tự học” của học máy thực hiện. Kết thúc của quá trình này là đưa ra kết quả thực hiện thực tế. Bước 3: Quá trình điều chỉnh tự động( Learner) Khi lựa chọn mô hình và có các tham số, ta có thể dựa vào chúng để suy luận cho một đầu vào mới nào đó.

Trong học máy, luôn cần có dữ liệu để huấn luyện, nó được xem là điều kiện tiên quyết của quá trình học máy. Vì thế dữ liệu sau khi có được cần phải chuẩn hóa và phân chia dữ liệu. Việc chuẩn hóa các dữ liệu đầu vào nhằm thay e Pl-10 đổi tốc độ và hiệu quả của huấn luyện, phân chia dữ liệu là để kiểm chứng mô hình vì việc mô hình được chọn rất khớp với tập dữ liệu đang có không có nghĩa là giả thuyết của ta là đúng mà có thể xảy ra tình huống dữ liệu thật lại không khớp. Thông thường tập dữ liệu được chia thành 3 phần như sau:  Tập huấn luyện (Training set): Chiếm 60% dùng để học khi huấn luyện.

 Tập kiểm chứng (Cross validation set): Chiếm 20%, dùng để kiểm chứng mô hình khi huấn luyện.  Tập kiểm tra (Test set): Chiếm 20%, dùng để kiểm tra xem mô hình đã phù hợp hay chưa sau khi đã huấn luyện.2 Bài toán phân lớp dữ liệu 1.1 Phân lớp dữ liệu Phân lớp dữ liệu là một bài toán quan trọng của Machine Learning. Đầu vào của bài toán phân lớp là một tập các mẫu học đã được phân lớp trước, mỗi mẫu được mô tả bằng một số thuộc tính. Các thuộc tính dùng để mô tả một mẫu gồm hai loại là thuộc tính liên tục và thuộc tính rời rạc.

Trong các thuộc tính rời rạc có một thuộc tính đặc biệt là phân lớp, mà các giá trị của nó gọi là lớp nhãn. Thuộc tính liên tục sẽ nhận các giá trị có thứ tự, ngược lại các thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự. Ngoài ra, các thuộc tính cũng có thể nhận các giá trị không xác định. Tuy nhiên, lớp nhãn của các mẫu không được phép nhận giá trị không xác định.

Nhiệm vụ của quá trình phân lớp là thiết lập ánh xạ giữa các thuộc tính với các nhãn lớp. Mô hình biểu diễn quan hệ nói trên sau đó sẽ được dùng để xác định nhãn lớp cho các quan sát mới không nằm trong tập mẫu ban đầu. e Pl-11 Lớp 1 Dữ liệu Thuật toán vào phân lớp dữ Lớp 2 liệu Lớp n Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai. Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị rời rạc có nghĩa là phân lớp với những đối tượng dữ liệu mà có bộ giá trị biết trước.

Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Kết hợp PCA, KMeans và Hồi quy Logistic trong tiên lượng bệnh tiểu đường" trình bày một phương pháp hiệu quả để dự đoán nguy cơ mắc bệnh tiểu đường bằng cách kết hợp các kỹ thuật phân tích dữ liệu tiên tiến. Bài viết nhấn mạnh vai trò của PCA trong việc giảm chiều dữ liệu, KMeans trong việc phân nhóm bệnh nhân, và hồi quy logistic trong việc dự đoán xác suất mắc bệnh. Những phương pháp này không chỉ giúp cải thiện độ chính xác của dự đoán mà còn tối ưu hóa quy trình phân tích dữ liệu y tế, mang lại lợi ích lớn cho các nhà nghiên cứu và chuyên gia y tế.

Nếu bạn muốn tìm hiểu thêm về các phương pháp phân tích dữ liệu khác, hãy tham khảo tài liệu Đề tài nghiên cứu khoa học phương pháp ước lượng lasso cơ sở toán học và ứng dụng, nơi bạn có thể khám phá cách ước lượng lasso có thể được áp dụng trong các bài toán khác nhau. Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính cải tiến giải thuật kmeans cho bài toán gom cụm dữ liệu chuỗi thời gian sẽ cung cấp cho bạn cái nhìn sâu sắc về cách cải tiến thuật toán KMeans trong các ứng dụng thực tiễn. Cuối cùng, bạn có thể tham khảo Luận văn thạc sĩ hệ thống thông tin nghiên cứu về các phương pháp học biểu diễn dữ liệu để hiểu rõ hơn về các phương pháp học máy trong việc biểu diễn và phân tích dữ liệu. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và ứng dụng trong lĩnh vực phân tích dữ liệu y tế và khoa học máy tính.

#Luận văn Thạc sĩ

#phân tích dữ liệu y tế

#học máy trong y tế

#hồi quy logistic

#ứng dụng AI y tế

#PCA trong y học

Chủ đề

Phân tích dữ liệu

học máy y tế

AI trong y học