Nâng Cao Hiệu Quả Mô Hình Học Máy Cho Dữ Liệu Y Sinh

Tài liệu nghiên cứu cải thiện kết quả mô hình học máy cho dữ liệu y sinh, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Trường Đại Học Lạc Hồng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Án Tiến Sĩ

2023

119

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: TỔNG QUAN

1.1. TÍNH CẤP THIẾT CỦA LUẬN ÁN

1.2. MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU

1.3. NHIỆM VỤ CỦA LUẬN ÁN

1.3.1. Thiết kế mô hình học máy hiệu quả cho dữ liệu sinh học phân tử trong các nhiệm vụ ứng dụng trong phát triển thuốc bằng kỹ thuật tái tổ hợp

1.3.2. Mô hình học máy hiệu quả cho dữ liệu sinh học phân tử trong các nhiệm vụ định danh loài sinh vật

1.3.3. Mô hình học máy hiệu quả trong các ứng dụng y sinh về chẩn đoán bệnh dựa trên dữ liệu lâm sàng

1.4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN

1.5. BỐ CỤC CỦA LUẬN ÁN

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN

2.1. DỮ LIỆU Y SINH

2.1.1. DNA, hệ gene, gene, protein

2.1.2. DNA tái tổ hợp

2.1.3. Codon đồng nghĩa (Synonymous Condon)

2.1.4. Hệ thống biểu hiện

2.1.5. Định danh loài sinh vật

2.1.6. Dữ liệu lâm sàng, cận lâm sàng

2.2. CÁC NGHIÊN CỨU LIÊN QUAN CÓ SỬ DỤNG THUẬT TOÁN HỌC MÁY CHO DỮ LIỆU Y SINH

2.2.1. Rút gọn chiều

2.2.2. Phương pháp học tập không giám sát

2.2.3. Phương pháp học tập giám sát

2.2.4. Phương pháp học máy học kết hợp

2.3. CÁC NGHIÊN CỨU LIÊN QUAN

2.3.1. Nghiên cứu về ứng dụng các mô hình học máy trong các việc giải quyết các vấn đề trong sinh học phân tử

2.3.2. Nghiên cứu về việc áp dụng các mô hình học máy trong các chẩn đoán bệnh dựa trên dữ liệu lâm sàng

2.3.3. Các thuật toán học máy hiệu quả của ứng dụng y sinh trong các bài toán đề xuất

2.4. ĐÁNH GIÁ MÔ HÌNH MÔ HÌNH HỌC MÁY

2.5. DỮ LIỆU THỰC NGHIỆM

2.6. KẾT CHƯƠNG

3. CHƯƠNG 3: MÔ HÌNH HỌC MÁY TÌM GENE CHO HỆ THỐNG BIỂU HIỆN TRONG KỸ THUẬT DNA TÁI TỔ HỢP

3.1. BÀI TOÁN TÌM GENE BIỂU HIỆN CAO (HIGHLY EXPRESSED GENE - HEG)

3.1.1. Bài toán tìm HEG

3.1.2. Phương pháp giải quyết

3.1.3. Kết quả thực nghiệm

3.2. BÀI TOÁN TÌM HỆ THỐNG BIỂU HIỆN PHÙ HỢP VỚI GENE MỤC TIÊU

3.2.1. Phát biểu bài toán

3.2.2. Phương pháp giải quyết

3.2.3. Xử lý dữ liệu thực nghiệm

3.2.4. Thực nghiệm mô hình dự đoán gene tương quan

4. CHƯƠNG 4: MÔ HÌNH ĐỊNH DANH LOÀI SINH VẬT

4.1. Định danh loài sinh vật

4.2. Giới thiệu định danh loài nấm

4.3. Định danh loài nấm mối bằng phương pháp học máy

4.4. MÔ HÌNH ĐỊNH DANH LOÀI NẤM BẰNG KỸ THUẬT HỌC KẾT HỢP

4.5. CÁC THUẬT TOÁN HIỆU QUẢ CHO MÔ HÌNH ĐỊNH DANH LOÀI NẤM

4.6. KẾT QUẢ THỰC NGHIỆM

4.6.1. Xây dựng tập dữ liệu cho mô hình định danh loài nấm

4.6.2. Đánh giá hiệu năng của mô hình đề xuất

4.7. GIAO DIỆN MÔ HÌNH DỰ ĐOÁN TÊN LOÀI

5. CHƯƠNG 5: MÔ HÌNH HỌC MÁY CHO CHẨN ĐOÁN BỆNH DỰA TRÊN DỮ LIỆU CẬN LÂM SÀNG

5.1. MÔ HÌNH DỰ ĐOÁN BỆNH DỰA TRÊN DỮ LIỆU CẬN LÂM SÀN

5.1.1. Mô hình dự đoán bệnh dựa trên dữ liệu lâm sàn

5.1.2. Kết quả thực nghiệm

5.2. MÔ HÌNH PHÂN LOẠI BỆNH COVID-19 VÀ BỆNH CÚM MÙA

5.2.1. Mô hình phân biệt bệnh CoViD-19 và Cúm H1N1

5.2.2. Các thuật toán dùng trong mô hình đề xuất

5.2.3. Kết quả thực nghiệm

5.2.4. So sánh hiệu năng

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. HƯỚNG PHÁT TRIỂN

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng Quan Về Ứng Dụng Học Máy Trong Dữ Liệu Y Sinh

Tính toán y sinh, hay còn gọi là tin y sinh, là một lĩnh vực nghiên cứu liên ngành kết hợp y học và khoa học máy tính. Lĩnh vực này sử dụng các phương pháp phân tích dữ liệu, học máy, thống kê và lý thuyết thông tin để giải quyết các vấn đề trong y sinh, chẳng hạn như phát hiện và chẩn đoán bệnh, thiết kế thuốc và nghiên cứu sinh học phân tử. Học máy đóng vai trò quan trọng trong tin y sinh. Các mô hình học máy giúp quá trình nhận dạng và phân loại được thực hiện tự động với độ chính xác cao. Trong tin y sinh, các mô hình học máy được huấn luyện trên dữ liệu đầu vào và sử dụng các thuật toán để phân loại hoặc dự đoán kết quả. Việc xây dựng mô hình phân loại dữ liệu y sinh đòi hỏi kỹ năng chuyên môn, kinh nghiệm và hiểu biết sâu sắc về dữ liệu y sinh cũng như các phương pháp tính toán phù hợp. Đặc biệt, việc lựa chọn các đặc trưng quan trọng, xử lý dữ liệu thiếu, cân bằng dữ liệu và đánh giá hiệu suất của mô hình là rất quan trọng để đạt được kết quả phân loại chính xác và đáng tin cậy.

1.1. Vai Trò Của Học Máy Trong Phát Triển Thuốc Mới

Học máy giúp đẩy nhanh quá trình phát triển thuốc, tăng hiệu quả trong chẩn đoán và điều trị bệnh. Các thuật toán học máy có thể phân tích lượng lớn dữ liệu y sinh để xác định các mẫu và mối quan hệ phức tạp. Từ đó, chúng hỗ trợ dự đoán tác dụng của thuốc, xác định đối tượng bệnh nhân phù hợp và tối ưu hóa quá trình thử nghiệm lâm sàng. Ví dụ, trong công nghệ tái tổ hợp, học máy có thể giúp tìm ra tập gene biểu hiện protein cao hoặc lựa chọn môi trường vật chủ phù hợp. Nghiên cứu của Dương Thị Kim Chi đã đề xuất các mô hình dự đoán gene biểu hiện protein cao, đạt độ chính xác cao và được công bố rộng rãi.

1.2. Ứng Dụng Học Máy Trong Chẩn Đoán Bệnh Chính Xác

Trong chẩn đoán bệnh, học máy có thể phân tích dữ liệu cận lâm sàng và lâm sàng để phát hiện bệnh sớm, dự đoán nguy cơ và phân loại bệnh nhân vào các nhóm điều trị khác nhau. Điều này đặc biệt quan trọng đối với các bệnh hiếm hoặc phức tạp, nơi việc chẩn đoán truyền thống có thể mất nhiều thời gian và không chính xác. Các nghiên cứu gần đây đã chứng minh hiệu quả của học máy trong việc chẩn đoán COVID-19 và cúm mùa. Các mô hình này đạt độ chính xác cao và có thể được sử dụng để sàng lọc bệnh nhân và đưa ra quyết định điều trị kịp thời. Các phương pháp như KNNImputer và SMOTE giúp xử lý dữ liệu thiếu và mất cân bằng, nâng cao hiệu suất của mô hình.

II. Thách Thức Trong Xây Dựng Mô Hình Học Máy Y Sinh Hiệu Quả

Xây dựng mô hình học máy hiệu quả cho dữ liệu y sinh đối diện với nhiều thách thức. Thứ nhất, dữ liệu y sinh thường có số chiều rất lớn, cơ chế sinh học phức tạp và dữ liệu không cân bằng. Ví dụ, dữ liệu trình tự gene có thể chứa hàng ngàn chiều, gây khó khăn cho việc lựa chọn đặc trưng và huấn luyện mô hình. Thứ hai, dữ liệu y sinh thường chứa lỗi, thiếu hoặc nhiễu. Việc xử lý dữ liệu này đòi hỏi các kỹ thuật tiền xử lý phức tạp như loại bỏ giá trị ngoại lệ, điền giá trị thiếu và chuẩn hóa dữ liệu. Cuối cùng, việc đánh giá hiệu suất của mô hình học máy trong y sinh cần được thực hiện cẩn thận để đảm bảo tính tin cậy và khả năng ứng dụng thực tế. Các chỉ số đánh giá như độ chính xác, độ nhạy và độ đặc hiệu cần được xem xét trong bối cảnh cụ thể của từng bài toán.

2.1. Vấn Đề Dữ Liệu Lớn và Tính Không Cân Bằng Trong Y Sinh

Dữ liệu y sinh thường có số lượng biến (đặc trưng) lớn hơn nhiều so với số lượng mẫu. Điều này dẫn đến hiện tượng "lời nguyền chiều cao", làm giảm hiệu suất của các thuật toán học máy. Bên cạnh đó, dữ liệu y sinh thường không cân bằng, nghĩa là số lượng mẫu của một số lớp (ví dụ: bệnh hiếm) ít hơn nhiều so với các lớp khác. Điều này có thể khiến mô hình học máy thiên vị đối với các lớp phổ biến và bỏ qua các lớp hiếm. Các kỹ thuật như giảm chiều dữ liệu (ví dụ: PCA, t-SNE) và cân bằng dữ liệu (ví dụ: SMOTE, undersampling) có thể giúp giải quyết các vấn đề này.

2.2. Xử Lý Dữ Liệu Thiếu và Nhiễu Để Tăng Độ Tin Cậy

Dữ liệu y sinh thường chứa các giá trị thiếu do nhiều nguyên nhân khác nhau, ví dụ: lỗi thu thập dữ liệu, từ chối tham gia nghiên cứu hoặc giới hạn kỹ thuật. Việc xử lý dữ liệu thiếu là rất quan trọng để tránh làm sai lệch kết quả phân tích và làm giảm hiệu suất của mô hình học máy. Các phương pháp như điền giá trị trung bình, KNNImputer hoặc thuật toán học máy có thể được sử dụng để điền giá trị thiếu. Ngoài ra, dữ liệu y sinh cũng có thể chứa nhiễu do lỗi đo lường, sai sót trong quá trình nhập liệu hoặc biến động sinh học. Việc loại bỏ nhiễu bằng các kỹ thuật lọc dữ liệu có thể giúp cải thiện độ tin cậy của mô hình.

2.3. Đánh Giá Hiệu Suất Mô Hình Độ Chính Xác và Khả Năng Ứng Dụng

Việc đánh giá hiệu suất mô hình là bước quan trọng để đảm bảo mô hình hoạt động tốt trong thực tế. Các chỉ số như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (specificity), F1-score và AUC-ROC thường được sử dụng. Tuy nhiên, việc lựa chọn chỉ số đánh giá phù hợp phụ thuộc vào bối cảnh cụ thể của từng bài toán. Ngoài ra, cần xem xét khả năng diễn giải của mô hình, tức là khả năng hiểu được lý do tại sao mô hình đưa ra một dự đoán cụ thể. Điều này đặc biệt quan trọng trong y sinh, nơi các quyết định thường có tác động lớn đến sức khỏe của bệnh nhân.

III. Phương Pháp Học Máy Tăng Cường Độ Dốc Cho Y Sinh Chính Xác

Các thuật toán học máy tăng cường độ dốc như XGBoost, LightGBM và CatBoost đã chứng minh hiệu quả vượt trội trong nhiều bài toán y sinh. Các thuật toán này xây dựng mô hình bằng cách kết hợp nhiều cây quyết định yếu, mỗi cây tập trung vào việc sửa lỗi của các cây trước đó. Điều này giúp mô hình đạt được độ chính xác cao và khả năng khái quát hóa tốt. Học máy tăng cường độ dốc đặc biệt phù hợp với dữ liệu y sinh có số chiều cao, dữ liệu không cân bằng và nhiều tương tác phi tuyến tính giữa các biến. Các nghiên cứu gần đây đã chỉ ra rằng các mô hình dựa trên học máy tăng cường độ dốc có thể đạt được hiệu suất tốt hơn so với các phương pháp học máy truyền thống trong các bài toán như chẩn đoán bệnh, dự đoán nguy cơ và phân loại bệnh nhân.

3.1. XGBoost Tối Ưu Hóa Hiệu Năng Với Dữ Liệu Y Sinh

XGBoost (Extreme Gradient Boosting) là một thuật toán học máy tăng cường độ dốc phổ biến, được biết đến với hiệu suất cao và khả năng mở rộng tốt. XGBoost sử dụng các kỹ thuật như điều chuẩn hóa (regularization), xử lý dữ liệu thiếu và phân chia cây song song để cải thiện độ chính xác và tốc độ huấn luyện mô hình. XGBoost đã được ứng dụng thành công trong nhiều bài toán y sinh, bao gồm dự đoán nguy cơ bệnh tim mạch, phát hiện ung thư và phân loại bệnh nhân dựa trên dữ liệu di truyền. Các tham số của XGBoost cần được điều chỉnh cẩn thận để đạt được hiệu suất tối ưu cho từng bài toán cụ thể.

3.2. LightGBM Tốc Độ và Hiệu Quả Cho Dữ Liệu Y Sinh Lớn

LightGBM (Light Gradient Boosting Machine) là một thuật toán học máy tăng cường độ dốc được thiết kế để xử lý dữ liệu lớn với tốc độ cao và hiệu quả bộ nhớ tốt. LightGBM sử dụng kỹ thuật Gradient-based One-Side Sampling (GOSS) và Exclusive Feature Bundling (EFB) để giảm số lượng mẫu và đặc trưng cần xem xét trong quá trình huấn luyện, giúp tăng tốc độ và giảm chi phí tính toán. LightGBM đặc biệt phù hợp với các bài toán y sinh có bộ dữ liệu lớn, ví dụ: phân tích dữ liệu bệnh án điện tử hoặc dữ liệu trình tự gene. Các nghiên cứu gần đây đã chỉ ra rằng LightGBM có thể đạt được hiệu suất tương đương hoặc tốt hơn so với XGBoost trong một số bài toán y sinh với thời gian huấn luyện ngắn hơn.

IV. Ứng Dụng Mạng Nơ ron Sâu Deep Learning Trong Dữ Liệu Y Sinh

Mạng nơ-ron sâu (Deep Learning) đang ngày càng trở nên phổ biến trong lĩnh vực y sinh nhờ khả năng học các biểu diễn phức tạp từ dữ liệu thô. Các mô hình mạng nơ-ron sâu như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) đã được ứng dụng thành công trong nhiều bài toán y sinh, bao gồm phân tích hình ảnh y tế, xử lý ngôn ngữ tự nhiên cho dữ liệu bệnh án và dự đoán tác dụng của thuốc. Ưu điểm của mạng nơ-ron sâu là khả năng tự động học các đặc trưng quan trọng từ dữ liệu, giúp giảm bớt công sức của con người trong việc lựa chọn đặc trưng. Tuy nhiên, mạng nơ-ron sâu đòi hỏi lượng dữ liệu lớn và tài nguyên tính toán mạnh mẽ để huấn luyện, đồng thời có thể khó diễn giải hơn so với các phương pháp học máy truyền thống.

4.1. Phân Tích Ảnh Y Tế Bằng Mạng Nơ ron Tích Chập CNN

Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron sâu đặc biệt phù hợp với việc xử lý dữ liệu ảnh. CNN sử dụng các lớp tích chập để trích xuất các đặc trưng từ ảnh, sau đó sử dụng các lớp kết nối đầy đủ để phân loại hoặc phát hiện đối tượng. CNN đã được ứng dụng rộng rãi trong phân tích ảnh y tế, bao gồm phát hiện khối u trong ảnh X-quang, phân đoạn các cơ quan trong ảnh CT và phân loại các loại tế bào trong ảnh kính hiển vi. Các mô hình CNN có thể đạt được độ chính xác cao trong các bài toán này, giúp các bác sĩ chẩn đoán bệnh nhanh chóng và chính xác hơn.

4.2. Xử Lý Ngôn Ngữ Tự Nhiên NLP Trong Dữ Liệu Bệnh Án

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực của trí tuệ nhân tạo tập trung vào việc cho phép máy tính hiểu và xử lý ngôn ngữ của con người. NLP có thể được sử dụng để phân tích dữ liệu bệnh án, trích xuất thông tin quan trọng như tiền sử bệnh, triệu chứng và kết quả xét nghiệm. Các mô hình NLP như mạng nơ-ron hồi quy (RNN) và biến thể của nó (LSTM, GRU) có thể xử lý dữ liệu văn bản theo trình tự, cho phép chúng hiểu ngữ cảnh và mối quan hệ giữa các từ trong câu. Các mô hình NLP có thể giúp các nhà nghiên cứu và bác sĩ tìm kiếm thông tin trong dữ liệu bệnh án một cách nhanh chóng và hiệu quả, đồng thời hỗ trợ các quyết định lâm sàng.

V. Ứng Dụng Thực Tế Dự Đoán Bệnh và Cá Nhân Hóa Điều Trị

Các mô hình học máy đã được ứng dụng thành công trong nhiều lĩnh vực của y sinh, từ dự đoán bệnh đến cá nhân hóa điều trị. Ví dụ, các mô hình học máy có thể được sử dụng để dự đoán nguy cơ mắc bệnh tim mạch dựa trên dữ liệu nhân khẩu học, tiền sử bệnh và kết quả xét nghiệm. Các mô hình này có thể giúp xác định những người có nguy cơ cao và đưa ra các biện pháp phòng ngừa kịp thời. Trong lĩnh vực cá nhân hóa điều trị, các mô hình học máy có thể được sử dụng để dự đoán phản ứng của bệnh nhân đối với các loại thuốc khác nhau, giúp các bác sĩ lựa chọn phương pháp điều trị phù hợp nhất cho từng bệnh nhân.

5.1. Dự Đoán Nguy Cơ Bệnh Tim Mạch Bằng Học Máy

Bệnh tim mạch là một trong những nguyên nhân gây tử vong hàng đầu trên thế giới. Việc dự đoán nguy cơ mắc bệnh tim mạch sớm là rất quan trọng để đưa ra các biện pháp phòng ngừa và điều trị kịp thời. Các mô hình học máy có thể được sử dụng để dự đoán nguy cơ mắc bệnh tim mạch dựa trên các yếu tố nguy cơ như tuổi, giới tính, huyết áp, cholesterol và tiền sử bệnh. Các mô hình này có thể giúp xác định những người có nguy cơ cao và khuyến khích họ thay đổi lối sống, ví dụ: tập thể dục thường xuyên, ăn uống lành mạnh và bỏ thuốc lá.

5.2. Cá Nhân Hóa Điều Trị Ung Thư Dựa Trên Dữ Liệu Di Truyền

Ung thư là một bệnh lý phức tạp, có nhiều loại và mỗi loại có đặc điểm di truyền riêng. Việc cá nhân hóa điều trị ung thư dựa trên dữ liệu di truyền có thể giúp tăng hiệu quả điều trị và giảm tác dụng phụ. Các mô hình học máy có thể được sử dụng để phân tích dữ liệu di truyền của bệnh nhân và dự đoán phản ứng của họ đối với các loại thuốc hóa trị khác nhau. Các mô hình này có thể giúp các bác sĩ lựa chọn phương pháp điều trị phù hợp nhất cho từng bệnh nhân, dựa trên đặc điểm di truyền của khối u.

VI. Tương Lai Của Mô Hình Học Máy Trong Y Sinh Triển Vọng và Hướng Đi

Tương lai của mô hình học máy trong y sinh hứa hẹn nhiều triển vọng. Với sự phát triển của công nghệ thu thập dữ liệu và tài nguyên tính toán, chúng ta sẽ có nhiều dữ liệu hơn để huấn luyện các mô hình học máy phức tạp. Các mô hình này sẽ ngày càng chính xác và có khả năng giải quyết các bài toán phức tạp hơn trong y sinh. Tuy nhiên, việc ứng dụng học máy trong y sinh cũng đặt ra nhiều thách thức về đạo đức và pháp lý. Chúng ta cần đảm bảo rằng các mô hình học máy được sử dụng một cách có trách nhiệm và không gây ra phân biệt đối xử hoặc xâm phạm quyền riêng tư của bệnh nhân.

6.1. Học Máy Giải Thích Được Explainable AI Trong Y Sinh

Một trong những thách thức lớn nhất của việc ứng dụng học máy trong y sinh là tính khó diễn giải của các mô hình phức tạp. Các bác sĩ và nhà nghiên cứu cần hiểu được lý do tại sao một mô hình học máy đưa ra một dự đoán cụ thể để tin tưởng vào mô hình và sử dụng nó trong thực tế. Học máy giải thích được (Explainable AI) là một lĩnh vực nghiên cứu tập trung vào việc phát triển các phương pháp giúp làm cho các mô hình học máy dễ hiểu hơn. Các phương pháp này có thể giúp các bác sĩ và nhà nghiên cứu hiểu được các yếu tố quan trọng nhất ảnh hưởng đến dự đoán của mô hình, đồng thời xác định các sai sót và thiên vị trong mô hình.

6.2. Đạo Đức và Pháp Lý Trong Ứng Dụng Học Máy Y Sinh

Việc ứng dụng học máy trong y sinh đặt ra nhiều vấn đề đạo đức và pháp lý quan trọng. Các mô hình học máy có thể được sử dụng để đưa ra các quyết định quan trọng về sức khỏe của bệnh nhân, ví dụ: chẩn đoán bệnh, lựa chọn phương pháp điều trị và dự đoán tiên lượng. Chúng ta cần đảm bảo rằng các mô hình này được sử dụng một cách công bằng và không phân biệt đối xử với bất kỳ ai. Ngoài ra, việc thu thập và sử dụng dữ liệu y tế cần tuân thủ các quy định về bảo mật và quyền riêng tư của bệnh nhân. Cần có các cơ chế giám sát và kiểm soát để đảm bảo rằng các mô hình học máy được sử dụng một cách có trách nhiệm và mang lại lợi ích cho bệnh nhân.

23/05/2025

Bạn đang xem trước tài liệu:

Nâng cao hiệu quả mô hình học máy cho dữ liệu y sinh

Tải đầy đủ

Trích đoạn nội dung tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG DƯƠNG THỊ KIM CHI NÂNG CAO HIỆU QUẢ MÔ HÌNH HỌC MÁY CHO DỮ LIỆU Y SINH LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2023 Trang ii BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG DƯƠNG THỊ KIM CHI NÂNG CAO HIỆU QUẢ MÔ HÌNH HỌC MÁY CHO DỮ LIỆU Y SINH LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Mã số: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. Trần Văn Lăng Đồng Nai, Năm 2022 Trang iii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Luận án này được thực hiện dưới sự hướng dẫn của PGS. Các kết quả nghiên cứu trong luận án là trung thực và chưa từng được ai công bố trong các công trình nào khác.

Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Các bài báo được công bố chung với nhiều tác giả đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Đồng Nai, ngày ….tháng …năm 2023 Người hướng dẫn chính Nghiên cứu sinh PGS. Trần Văn Lăng Dương Thị Kim Chi Trang iv LỜI CẢM ƠN Để hoàn thành luận án này tôi đã nhận được sự hướng dẫn, quan tâm, giúp đỡ nhiệt tình từ Quý thầy cô, bạn bè và người thân.

Tôi xin gửi lời cảm ơn chân thành đến: Thầy đã tận tình chỉ bảo, hướng dẫn, động viên và tạo mọi điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu. Thầy cô và các anh, chị của Khoa Công nghệ thông tin, Phòng Sau Đại học, Ban Giám hiệu Trường Đại học Lạc Hồng đã cung cấp thêm kiến thức, tạo mọi điều kiện cho tôi và quan tâm, hỗ trợ tôi trong quá trình học tập. Ban Giám hiệu Trường Đại học Thủ Dầu Một, Ban Chủ nhiệm Viện Kỹ thuật Công nghệ đã tạo điều kiện để tôi được tham gia học tập nâng cao trình độ chuyên môn, các bạn đồng nghiệp đã không ngừng động viên và giúp đỡ tôi trong suốt thời gian học tập. Sau cùng tôi xin chân thành cảm ơn sâu sắc đến gia đình và người thân đã giúp đỡ, động viên tôi trong suốt quá trình học tập và tạo điều kiện tốt nhất để tôi hoàn thành luận án.

Dương Thị Kim Chi Trang v TÓM TẮT Tính toán y sinh (hay còn gọi là tin y sinh) là một lĩnh vực nghiên cứu liên ngành giữa y học và khoa học máy tính. Đó là sự kết hợp các phương pháp phân tích dữ liệu, học máy, thống kê và lý thuyết thông tin để giải quyết các vấn đề trong lĩnh vực y sinh như: phát hiện và chẩn đoán bệnh, thiết kế thuốc và nghiên cứu sinh học phân tử. Tính toán y sinh giúp đẩy nhanh quá trình phát triển thuốc, tăng hiệu quả trong việc chẩn đoán bệnh và điều trị bệnh. Một trong công cụ hỗ trợ cho tính toán y sinh thuận lợi hiệu quả hơn là các phương pháp học máy.

Các phương pháp học máy tạo ra các mô hình giúp quá trình nhân dạng, phân loại được thực hiện một cách tự động và đạt độ chính xác cao. Trong lĩnh vực tin y sinh các mô hình học máy được huấn luyện trên dữ liệu đầu vào sau đó sử dụng các thuật toán để phân loại hoặc dự đoán kết quả. Mô hình học máy cho dữ liệu y sinh có vai trò hết sức cần thiết và cấp bách nhằm phân loại các đối tượng để đưa ra các quyết định chính xác trong chẩn đoán và điều trị. Việc xây dựng mô hình phân loại cho dữ liệu y sinh đòi hỏi kỹ năng chuyên môn, kinh nghiệm và sự hiểu biết sâu sắc về dữ liệu y sinh và các phương pháp tính toán phù hợp.

Đặc biệt, việc lựa chọn các đặc trưng quan trọng, xử lý dữ liệu thiếu, cân bằng dữ liệu và đánh giá hiệu suất của mô hình là rất quan trọng để đạt được kết quả phân loại chính xác và đáng tin cậy. Cụ thể luận án đã giải quyết các vấn đề nâng cao hiệu quả các mô hình phân lớp, phân cụm trên dữ liệu y sinh với những đóng góp như sau: Thứ nhất, dữ liệu dạng trình tự gene có số chiều rất lớn (hàng ngàn chiều), cơ chế sinh học phức tạp, và dữ liệu không cân bằng đều là các vấn đề lớn trong loại dữ liệu này, đây cũng là thách thức lớn của ứng dụng học máy cho bài toán y sinh trong lĩnh vực sản xuất thuốc. Chẳng hạn như trong quá trình sản xuất thuốc bằng công nghệ tái tổ hợp, việc tìm được tập gene cho biểu hiện protein cao, hay việc chọn lựa môi trường vật chủ phù hơp với gene gene mục tiêu1 đều giúp cho chất lượng sản phẩm protein tái tổ hợp tốt hơn. Cụ thể việc tìm được môi trường vật chủ thích hợp cho gene mục tiêu đồng nghĩa với việc quyết định mức đáp ứng codon của môi trường vật chủ với sản phẩm protein tái tổ hợp cần sản xuất thuốc.

Thách thức 1 Gene mục tiêu: gene của một loài sinh vật có khả năng biểu hiện sản phẩm protein tốt trong cần sản xuất thuốc Trang vi của nhiệm vụ này là làm sao có thể tìm được tập gene có khả năng biểu hiện protein tốt nhất trong một hệ gene, số lượng gene này chỉ chiếm 5% tổng số trình tự của gene trong toàn hệ gene chứa hàng ngàn gene; và làm sao để có thể tìm được môi trường vật chủ phù hợp với gene mục tiêu. Cụ thể luận án đã đề xuất hai giải pháp hiệu quả trên tập dữ liệu gene này là: i) Giải pháp thứ nhất xây dựng mô hình "Dự đoán gene biểu hiện protein cao cho thiết kế gene dùng trong tái tổ hợp''; ii) Giải pháp thứ hai là xây dựng “Mô hình dự đoán gene tương quan với hệ thống vật chủ dùng trong tái tổ hợp”. Đối với giải pháp 1, luận án đã sử dụng kỹ thuật codon đồng nghĩa để tính chỉ số codon đồng nghĩa RSCU (Relative Synonymous Codon Usage) qua đó biểu diễn đặc trưng cho từng gene; tiếp theo luận án đã áp dụng hai giải thuật PAM (Partitioning Around Medoids), CLARA (Clustering for Large Applications) cho việc phân cụm dự đoán gene cho biểu hiện protein cao. Đối với giải pháp 2, luận án đã xây dựng mô hình dự đoán gene tương quan phù hợp với tế bào vật chủ với thuật toán XGBoost.

Mô hình dự đoán của đề xuất này đạt độ chính xác cao nhất 0,99. Những kết qủa này đã được công bố trong các công trình [CT1][CT2][CT3]. Thứ hai, trong các ứng dụng phát triển thuốc có sử dụng dữ liệu trình tự gene (genomic) thường có các nhiệm vụ như sau: định danh loài sinh vật, phân tích cơ chế bệnh, phát hiện bất thường trong trình tự gene. Việc định danh loài giúp xác định tên loài, phân tích thay đổi tiến hóa, hay hình thành loài mới.

Với việc phân loại loài dựa trên kiểu hình của sinh vật ẩn chứa nhiều khả năng định dạng sai loài vì vật mẫu có thể bị đột biến nên biểu hiện bên ngoài thay đổi nên rất dễ nhầm lẫn thành loài mới. Định danh loài bằng kỹ thuật sinh học phân tử giúp xác định loài tốt hơn, có thể phát hiện loài loài mới và xác định đột biến trong loài. Số lượng trình tự các loài sinh vật từ các ngân hàng gene quốc tế rất lớn nhưng phân phối không đồng đều giữa các loài trong cùng một chi. Bên cạnh đó độ dài trình tự của các loài cũng rất khác biệt trong cùng loại.

Đây là thách chính của nhiệm vụ định danh loài bằng kỹ thuật sinh học phân tử khi triển khai bằng các kỹ thuật định danh loài truyền thống như NJ, phương pháp khoảng cách, phương pháp phân cụm. Luận án đã đề xuất giải pháp mới sử dụng học máy để định dạng tên loài: i) Tự động trích xuất đặc trưng trình tự sinh học, ii) Vector hóa từ để số hóa dữ liệu chuỗi, iii) Tối ưu hóa tham số, iv) Xây dựng bộ phân loại. Thực nghiệm trên bộ dữ liệu trình tự nấm mối đã cho ra kết mô hình định danh loài nấm mối với hiệu năng và độ chính xác vượt trội. Cụ thể luận án đã tiến hành thực nghiệm trích xuất thông tin trên gene đặt trưng ITS Trang vii của 17 loài nấm mối loài bằng kỹ thuật K-mer.

Sau đó tiến hành phân loại bằng các thuật toán phân loại kết hợp, và phân cụm phân cấp để xác định tên loài. Kết quả mô hình phân lớp đạt kết quả về độ chính xác: 0,91; Multi-class area under the curve: 0.99; Thời gian thực thi 1. Với đề xuất này cho kết quả chính xác cao thời gian thực thi thấp và trùng khớp kết quả dự đoán với phần mềm BLAST của ngân hàng gene quốc tế NCBI. Mô hình này đạt hiệu quả cao về độ chính xác trong thời gian ngắn nên có thể triển khai khi trong thực tiễn.

Kết quả đã công bố trong các công trình [CT4][CT7]. Thứ ba, dữ liệu y sinh bao gồm dữ liệu cận lâm sàng và lâm sàn đây là dữ liệu y sinh được thu thập từ kết quả xét nghiệm sàn lọc khi khám bệnh của các cơ sở y tế. Dữ liệu này có đặc điểm chiều cao, dữ liệu thường chứa lỗi, dữ liệu bị thiếu, mất cân bằng nghiêm trọng đối với lớp bệnh hiếm. Để giải quyết hai vấn đề nghiêm trọng dữ liệu trống và mất cân bằng dữ liệu luận án đã sử dụng hai giải pháp: i) Giải pháp thứ nhất: Sử dụng phương pháp KNNImputer để bổ sung thêm dữ liệu trống, và sử dụng kỹ thuật SMOTE (Synthetic Minority Oversampling Technique) để xử lý dữ liệu trước khi thử nghiệm các thuật toán tăng cường độ dốc để xây dựng bộ phân loại.

Việc thử nghiệm mô hình dự đoán này trên bộ dữ liệu lâm sàng từ xét nghiệm mẫu máu của bệnh CoViD-19 của các bệnh nhân nhập bệnh viện Israelita Albert Einstein ở Brazil để dự đoán khả năng mắc bệnh CoViD-19. Hiệu suất của mô hình đạt độ chính xác tổng thể đạt trên 0,998. ii) Giải pháp thứ hai: sử dụng kết hợp hai bộ phân loại LightGBM và XGBoost để xây dựng mô hình phân loại bệnh CoViD-19 và Bệnh Cúm mùa, mô hình đề xuất đạt độ chính xác là 0,99. Khi tiến hành so sánh phương pháp đề xuất với các công bố khác trên cùng bộ dữ liệu COVIDandFLU cho chẩn đoán bệnh CoViD-19 và Bệnh Cúm mùa, mô hình đề cũngcó kết quả vượt trội hơn về độ chính xác cũng như độ nhạy Recall, độ đặc hiệu (Specificity), F1 score, ROC.

Kết quả tổng thể của mô hình đều đạt ở mức là 0.99 và đã được công bố trên [CT5][CT6]. Từ khóa: Genenomic, dữ liệu lâm sàng, học kết hợp, học máy tăng cường độ dốc, phân loại, Rừng Ngẫu Nhiên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nâng Cao Hiệu Quả Mô Hình Học Máy Trong Dữ Liệu Y Sinh tập trung vào việc cải thiện hiệu suất của các mô hình học máy trong lĩnh vực y sinh. Tài liệu này trình bày các phương pháp và kỹ thuật tiên tiến nhằm tối ưu hóa việc phân tích và dự đoán dữ liệu y tế, từ đó nâng cao độ chính xác trong chẩn đoán và điều trị bệnh. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng học máy, bao gồm khả năng phát hiện sớm các bệnh lý và cải thiện quy trình chăm sóc sức khỏe.

Để mở rộng kiến thức về ứng dụng của học máy trong y tế, bạn có thể tham khảo thêm tài liệu Ứng dụng kĩ thuật học máy trong dự đoán nguy cơ mắc tiểu đường type 2, nơi trình bày cách học máy có thể giúp dự đoán nguy cơ mắc bệnh tiểu đường. Ngoài ra, tài liệu Luận văn tốt nghiệp đại học ngành hệ thống thông tin đề tài hệ thống hỗ trợ chẩn đoán bệnh phổi dựa trên ảnh x quang sẽ cung cấp cái nhìn sâu sắc về việc sử dụng học máy trong chẩn đoán hình ảnh y tế. Cuối cùng, tài liệu Ứng dụng học máy trong nghiên cứu bài toán phân loại dữ liệu hình ảnh x quang lồng ngực sẽ giúp bạn hiểu rõ hơn về các kỹ thuật phân loại hình ảnh trong y học. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá sâu hơn về lĩnh vực này.

#phân tích dữ liệu y tế