I. Tổng Quan Về Nghiên Cứu Thuật Toán Học Máy Phân Loại Bệnh
Công tác y tế và chăm sóc sức khỏe toàn dân đóng vai trò quan trọng trong sự phát triển xã hội, đặc biệt trong bối cảnh đại dịch. Quá trình điều trị bệnh nhân phụ thuộc nhiều vào kết quả xét nghiệm cận lâm sàng, có vai trò quan trọng trong quyết định của bác sĩ. Tình trạng bệnh tật gia tăng và đại dịch diễn ra trên quy mô toàn cầu, gây thách thức cho các cơ sở khám chữa bệnh. Do đó, cần có hệ thống hỗ trợ phân loại bệnh nhanh chóng và chính xác. Sự phát triển của công nghệ thông tin, các kỹ thuật học máy và học sâu được nghiên cứu và ứng dụng hiệu quả trong nhiều lĩnh vực, đặc biệt là bài toán phân lớp dữ liệu. Phân lớp dữ liệu là việc xếp dữ liệu vào các lớp khác nhau, ví dụ như phân loại sinh viên theo kết quả học tập hoặc phân loại các loài thực vật. Bài toán phân loại bệnh dựa trên kết quả xét nghiệm cũng thuộc lớp bài toán phân lớp dữ liệu, có thể giải quyết bằng các kỹ thuật học máy khác nhau.
1.1. Phân Lớp Dữ Liệu và Bài Toán Phân Loại Bệnh
Phân lớp dữ liệu là tiến trình xếp dữ liệu vào các lớp đã được định nghĩa trước, dựa vào giá trị của các thuộc tính. Quá trình phân lớp bao gồm hai giai đoạn: xây dựng mô hình phân lớp và sử dụng mô hình. Xây dựng mô hình phân lớp là mô tả một tập những lớp dữ liệu, trong đó mỗi mẫu được gán thuộc về một lớp nào đó. Tập hợp các mẫu được sử dụng trong việc xây dựng mô hình được gọi là tập huấn luyện. Mô hình thường được biểu diễn dưới dạng những luật phân lớp hoặc công thức toán học. Để xây dựng mô hình phân lớp cần sử dụng các kỹ thuật khác nhau, trong đó có các kỹ thuật học máy. Sử dụng mô hình phân lớp là sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến. Trước khi sử dụng mô hình người ta thường phải đánh giá độ chính xác của mô hình. Độ chính xác là phần trăm của tập hợp mẫu kiểm tra được phân loại đúng bởi mô hình. Do đó, tập kiểm tra thường là độc lập với tập huấn luyện. Bài toán phân loại bệnh là một dạng của phân lớp dữ liệu.
1.2. Quy Trình Thực Hiện Phân Loại Bệnh Hiệu Quả
Đối với bài toán phân lớp dữ liệu nói chung thường được thực hiện theo 2 giai đoạn: Giai đoạn học để xây dựng mô hình phân lớp và giai đoạn phân lớp để kiểm tra đánh giá mô hình phân lớp. Đối với bài toán phân loại bệnh có thể thực hiện theo các bước sau đây. Bước 1: Thu thập dữ liệu bệnh; Bước 2: Tiền xử lý dữ liệu; Bước 3: Phân chia dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng; Bước 4: Xây dựng mô hình phân lớp theo phương pháp lựa chọn phù hợp trên tập huấn luyện; Bước 5: Sử dụng mô hình phân lớp có được để phân loại với tập dữ liệu kiểm chứng và đánh giá kết quả của mô hình.
II. Thách Thức và Ứng Dụng Của Thuật Toán Học Máy Phân Loại
Hiệu quả của mô hình phân lớp dữ liệu nói chung và phân loại bệnh nói riêng thường được xác định thông qua các đại lượng như Precision, Recall, Accuracy và F-Measure. Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường được sử dụng trong lĩnh vực y tế để giải thích lâm sàng các kết quả xét nghiệm chẩn đoán và để ước tính mức độ tốt và phù hợp khi chỉ định xét nghiệm. Bài toán phân loại bệnh được ứng dụng rộng rãi trong y học, giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, cận lâm sàng, giữa các bệnh với nhau để hỗ trợ chẩn đoán, điều trị và tiên lượng bệnh. Trong điều trị, bài toán phân loại bệnh dùng đưa ra các dự đoán về kết quả điều trị, phẫu thuật dựa trên những kết quả điều trị trước đó và tình trạng hiện tại của người bệnh. Ngoài ra kết quả của bài toán phân loại bệnh có thể hỗ trợ trong quá trình phát hiện bệnh mới. Do đó cớ thể ứng dụng trong cảnh báo dịch bệnh. Điều này đặc biệt có ý nghĩa trong giai đoạn phát sinh đại dịch.
2.1. Các Độ Đo Đánh Giá Mô Hình Phân Loại Bệnh
Hiệu quả của mô hình phân lớp dữ liệu nói chung và phân loại bệnh nói riêng thường được xác định thông qua các đại lượng được mô tả dưới đây. Bốn trường hợp trên thường được biểu diễn dưới dạng ma trận hỗn loạn (confusion matrix). Ta có các độ đo đánh giá sau: (1) Độ đo Precision (Mức chính xác) - Định nghĩa: Precision = TP / (TP + FP). - Ý nghĩa: Precision càng lớn có nghĩa là độ chính xác của các điểm tìm được càng cao. - Ý nghĩa: Độ đo Recall được nhân với 100 và gọi là độ đo Sensitivity (Độ nhạy). - Ý nghĩa: Accuracy phản ánh độ chính xác chung của mô hình phân lớp . (4) Độ đo F-Measure - Định nghĩa: F-Measure = 2. - Ý nghĩa: F-Measure là là độ đo bao gồm vừa Precison và Recall. - Ý nghĩa: Độ đo Specitivity là tỷ lệ dự báo chính xác. Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường được sử dụng trong lĩnh vực y tế để giải thích lâm sàng các kết quả xét nghiệm chẩn đoán và để ước tính mức độ tốt và phù hợp khi chỉ định xét nghiệm.
2.2. Ứng Dụng Thực Tế Của Bài Toán Phân Loại Bệnh
Bài toán phân loại bệnh được ứng dụng rộng rãi trong y học. Gần đây việc ứng dụng bài toán phân loại bệnh trong y học ngày càng hoàn thiện trong việc tìm ra mối liên hệ giữa các triệu chứng lâm sàng, cận lâm sàng, giữa các bệnh với nhau để hỗ trợ chẩn đoán, điều trị và tiên lượng bệnh. Trong điều trị, bài toán phân loại bệnh dùng đưa ra các dự đoán về kết quả điều trị, phẫu thuật dựa trên những kết quả điều trị trước đó và tình trạng hiện tại của người bệnh. Ngoài ra kết quả của bài toán phân loại bệnh có thể hỗ trợ trong quá trình phát hiện bệnh mới. Do đó cớ thể ứng dụng trong cảnh báo dịch bệnh. Điều này đặc biệt có ý nghĩa trong giai đoạn phát sinh đại dịch.
III. Học Máy và Ứng Dụng Xây Dựng Mô Hình Phân Loại Bệnh
Học máy là một lĩnh vực con của trí tuệ nhân tạo, được định nghĩa rộng rãi là khả năng của một cỗ máy bắt chước hành vi thông minh của con người. Hệ thống trí tuệ nhân tạo được sử dụng để thực hiện các nhiệm vụ phức tạp theo cách tương tự như cách con người giải quyết vấn đề. Có ba dạng học máy chính: học có giám sát, học không giám sát và học tăng cường. Học máy có ứng dụng rộng khắp trong các ngành khoa học và công nghệ, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ để trích xuất ra các thông tin hữu ích. Qua các nội dung trình bày ở trên, có thể nhận thấy sự tương đồng giữa quá trình học máy và quá trình phân lớp dữ liệu nói chung và bài toán phân loại bệnh nói riêng. Do đó, hầu hết các kỹ thuật học máy đều có thể sử dụng để xây dựng mô hình phân loại bệnh.
3.1. Khái Niệm và Phân Loại Các Kỹ Thuật Học Máy
Học máy là một lĩnh vực con của trí tuệ nhân tạo, được định nghĩa rộng rãi là khả năng của một cỗ máy bắt chước hành vi thông minh của con người. Hệ thống trí tuệ nhân tạo được sử dụng để thực hiện các nhiệm vụ phức tạp theo cách tương tự như cách con người giải quyết vấn đề. Theo Boris Katz, principal research scientist và là người đứng đầu Nhóm InfoLab tại CSAIL, mục tiêu của AI là tạo ra các mô hình máy tính thể hiện “các hành vi thông minh” giống như con người. Điều này có nghĩa là máy có thể nhận dạng cảnh trực quan, hiểu văn bản được viết bằng ngôn ngữ tự nhiên hoặc thực hiện một hành động trong thế giới vật chất. Phân loại các kỹ thuật học máy Có ba dạng học máy chính như sau: Học có giám sát, Học không giám sát, Học tăng cường.
3.2. Ứng Dụng Học Máy Xây Dựng Mô Hình Phân Loại Bệnh
Học máy có ứng dụng rộng khắp trong các ngành khoa học và công nghệ, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ để trích xuất ra các thông tin hữu ích. Qua các nội dung trình bày ở trên, có thể nhận thấy sự tương đồng giữa quá trình học máy và quá trình phân lớp dữ liệu nói chung và bài toán phân loại bệnh nói riêng. Do đó, hầu hết các kỹ thuật học máy đều có thể sử dụng để xây dựng mô hình phân loại bệnh. Các kỹ thuật học máy tiêu biểu được ứng dụng cho bài toán phân loại bệnh bao gồm: Phương pháp Cây quyết định, Phương pháp Bayes, Phương pháp Máy vector hỗ trợ (SVM), Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network - ANN).
IV. Tổng Quan Về Học Sâu và Hướng Tiếp Cận Trong Phân Loại
Ban đầu thuật ngữ học sâu (Deep Learning) xuất hiện trong quá trình xây dựng các mạng nơ-ron sâu (deep neural networks) nhằm xử lý tốt hơn các bài toán phức tạp. Trong mạng nơ-ron sâu sẽ bao gồm nhiều lớp. Ví dụ, mô hình mạng nơ-ron sâu Google LeNet để nhận dạng hình ảnh có 22 lớp. Khi đó, đầu ra của một lớp nào đó sẽ được sử dung như là đầu vào của lớp kế tiếp. Do đó, quá trình học máy sẽ sâu hơn và hiệu quả hy vọng sẽ đạt được cao hơn. Học sâu không có nghĩa là học máy thêm kiến thức chuyên sâu, nó có nghĩa là máy sử dụng các lớp khác nhau để học hỏi từ dữ liệu. Độ sâu của mô hình được biểu thị bằng số lớp trong mô hình. Một trong những hứa hẹn của học sâu là thay thế các phương pháp thủ công bằng các thuật toán hiệu quả đối với học không giám sát hoặc bán giám sát và tính năng phân cấp. Học sâu vượt trội hơn so với học máy truyền thống trong xử lý các vấn đề phức tạp như nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, phân loại hình ảnh, phân loại tấn công mạng. Do đó, học sâu có tiềm năng lớn giải quyết hiệu quả bài toán phân loại bệnh
4.1. Khái Niệm Cơ Bản Về Học Sâu Trong Y Học
Ban đầu thuật ngữ học sâu (Deep Learning) xuất hiện trong quá trình xây dựng các mạng nơ-ron sâu (deep neural networks) nhằm xử lý tốt hơn các bài toán phức tạp. Trong mạng nơ-ron sâu sẽ bao gồm nhiều lớp. Ví dụ, mô hình mạng nơ-ron sâu Google LeNet để nhận dạng hình ảnh có 22 lớp. Khi đó, đầu ra của một lớp nào đó sẽ được sử dung như là đầu vào của lớp kế tiếp. Do đó, quá trình học máy sẽ sâu hơn và hiệu quả hy vọng sẽ đạt được cao hơn. Học sâu không có nghĩa là học máy thêm kiến thức chuyên sâu, nó có nghĩa là máy sử dụng các lớp khác nhau để học hỏi từ dữ liệu. Độ sâu của mô hình được biểu thị bằng số lớp trong mô hình.
4.2. Hướng Tiếp Cận Học Sâu và Mạng Nơ ron Sâu
Hướng tiếp cận học sâu đầu tiên thường được kể đến là các mạng nơ-ron sâu. Dưới đây, luận văn liệt kê một số dạng mạng nơ-ron sâu tham khảo trên mạng Internet. Mạng nơ-ron tích chập Mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) được xây dựng để xử lý hình ảnh. CNN thực hiện so sánh hình ảnh theo từng mảnh (còn gọi là các feature). Khi xem xét một hình ảnh mới, CNN không biết chính xác các feature nào sẽ khớp nên sẽ thử tất cả các mảnh có thể.
V. Nghiên Cứu Thuật Toán Cây Quyết Định và Máy Vector Hỗ Trợ
Trong khuôn khổ của luận văn, học viên sẽ thực hiện nghiên cứu hai kỹ thuật học máy Cây quyết định và Máy vector hỗ trợ và ứng dụng giải quyết bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm. Nội dung của luận văn được trình bày trong ba chương như sau: Chương 1: Tổng quan về bài toán phân loại bệnh và học máy. Nội dung chính của chương 1 của luận văn khảo sát tổng quan về bài toán phân loại bệnh, các kỹ thuật học máy và các vấn đề liên quan. Chương 2: Nghiên cứu thuật toán cây quyết định và thuật toán máy Vector hỗ trợ. Nội dung chính của chương 2 là nghiên cứu chi tiết hai thuật toán học máy cây quyết định và máy vector hỗ trợ để giải quyết bài toán phân loại bệnh và một số vấn đề liên quan. Chương 3: Kết quả thực nghiệm và đánh giá. Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm.
5.1. Khảo Sát Thuật Toán Cây Quyết Định và Các Vấn Đề Liên Quan
Nội dung chính của chương 2 là nghiên cứu chi tiết hai thuật toán học máy cây quyết định và máy vector hỗ trợ để giải quyết bài toán phân loại bệnh và một số vấn đề liên quan.
5.2. Khảo Sát Thuật Toán Máy Vector Hỗ Trợ và Các Vấn Đề Liên Quan
Nội dung chính của chương 2 là nghiên cứu chi tiết hai thuật toán học máy cây quyết định và máy vector hỗ trợ để giải quyết bài toán phân loại bệnh và một số vấn đề liên quan.
VI. Thực Nghiệm và Đánh Giá Kết Quả Phân Loại Bệnh
Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm. Chương 3: Kết quả thực nghiệm và đánh giá. Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm.
6.1. Tổng Quan Về Xét Nghiệm Hóa Nghiệm và Dữ Liệu Nghiên Cứu
Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm.
6.2. Kết Quả Thực Nghiệm và Phân Tích Đánh Giá Chi Tiết
Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm.