Nghiên cứu một số phương pháp giảm chiều dữ liệu ứng dụng trong bài toán phân lớp bệnh nhân

Luận án tiến sĩ Yale nghiên cứu các phương pháp giảm chiều dữ liệu, ứng dụng phân lớp bệnh nhân. Giải pháp hiệu quả cho bài toán y sinh học, tối ưu điều trị.

Trường đại học

Trường Đại Học Yale

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ
134
1
0

Phí lưu trữ

35 Point

Mục lục chi tiết

MỞ ĐẦU

0.1. Mục tiêu của luận án

0.2. Nội dung, đối tượng và phạm vi nghiên cứu

0.3. Phương pháp nghiên cứu

0.4. Các đóng góp chính của luận án

0.5. Bố cục của luận án

1. CHƯƠNG 1: TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG XỬ LÝ DỮ LIỆU Y SINH HỌC

1.1. Bài toán giảm chiều dữ liệu

1.2. Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học và bài toán phân lớp bệnh nhân

1.3. Các hướng tiếp cận trong nghiên cứu giảm chiều dữ liệu trong y sinh học

1.3.1. Lựa chọn đặc trưng

1.3.2. Trích chọn đặc trưng

1.3.3. Phương pháp lai

1.3.4. Một số thách thức đặt ra khi giảm chiều dữ liệu y sinh học

1.3.5. Vấn đề nghiên cứu của luận án

1.3.6. Kiến thức nền tảng chung

1.3.7. Đánh giá kết quả thực nghiệm

1.3.8. Mô hình phân lớp bệnh nhân tổng quát ứng dụng trong điều trị bệnh nhân

2. CHƯƠNG 2: PHƯƠNG PHÁP HIỆU QUẢ PHÂN LỚP BỆNH NHÂN KẾT HỢP GIẢM CHIỀU DỮ LIỆU

2.1. Kiến thức nền tảng

2.2. Phương pháp hàm nhân

2.3. Phương pháp học đa hàm nhân

2.4. Phương pháp nhúng đồ thị trong giảm chiều dữ liệu

2.5. Phương pháp MKL-DR

2.5.1. Ý tưởng thuật toán

2.5.2. Nhận xét phương pháp MKL-DR

2.5.3. Đề xuất cải tiến phương pháp MKL-DR

2.5.4. Thuật toán tìm thứ tự tính toán tốt nhất cho tích chuỗi ma trận

2.6. Đề xuất Thuật toán fMKL-DR

2.6.1. Đề xuất mô hình phân lớp bệnh nhân dựa trên fMKL-DR

2.6.2. Thực nghiệm và kết quả

2.6.2.1. Tập dữ liệu
2.6.2.2. So sánh kết quả phân lớp từng loại dữ liệu riêng rẽ và tập dữ liệu tích hợp
2.6.2.3. Đánh giá hiệu năng thuật toán fMKL-DR với MKL-DR
2.6.2.4. Đánh giá hiệu năng của thuật toán fMKL-DR trên tập dữ liệu bệnh Alzheimer

3. CHƯƠNG 3: PHÂN LỚP BỆNH NHÂN DỰA TRÊN PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH TĂNG CƯỜNG

3.1. Phương pháp phân tích thành phần chính

3.2. Phương pháp PCA

3.3. Phương pháp phân tích thành phần chính tăng cường

3.4. Các hướng giải bài toán RPCA

3.5. Phương pháp dựa trên Nhân tử Lagrange tăng cường

3.6. Đánh giá phương pháp RPCA

3.7. Các hướng nghiên cứu mở rộng và áp dụng RPCA

3.8. Đề xuất mô hình phân lớp bệnh nhân dựa trên phương pháp phân tích thành phần chính tăng cường

3.9. Giảm chiều dữ liệu kết hợp chọn lọc các đặc trưng khác biệt dựa trên RPCA

3.10. Phân lớp dựa trên Học đa hàm nhân

3.11. Thực nghiệm và kết quả

3.11.1. Tập dữ liệu

3.11.2. Thiết kế thực nghiệm

3.11.3. Kết quả thực nghiệm

3.12. Các kết quả đạt được

3.13. Hạn chế và hướng nghiên cứu tiếp theo

3.14. Hướng nghiên cứu tiếp theo

Danh mục các công trình khoa học của tác giả liên quan đến luận án

Danh sách hình vẽ

Danh sách bảng

Thuật ngữ và từ viết tắt

Lời cam đoan

Lời cảm ơn

Tóm tắt

I. Tổng Quan về Giảm Chiều Dữ Liệu Ứng Dụng Lợi Ích

Trong kỷ nguyên số, dữ liệu y sinh học phát triển mạnh mẽ, tạo ra lượng lớn thông tin tiềm năng cho chẩn đoán và điều trị bệnh. Tuy nhiên, khối lượng dữ liệu y tế khổng lồ này thường có số chiều rất lớn, gây khó khăn cho việc xử lý và phân tích. Giảm chiều dữ liệu trở thành một kỹ thuật tiền xử lý quan trọng, giúp giảm số lượng biến (đặc trưng) mà vẫn giữ lại được thông tin quan trọng. Điều này không chỉ giảm chi phí tính toán mà còn cải thiện hiệu suất của các mô hình học máy. Các phương pháp giảm chiều giúp biến đổi dữ liệu thô thành tri thức hữu ích, hỗ trợ các hệ thống ra quyết định lâm sàng. Luận án này tập trung vào nghiên cứu và ứng dụng các kỹ thuật giảm chiều dữ liệu trong bài toán phân lớp bệnh nhân, nhằm nâng cao hiệu quả chẩn đoán và điều trị.

1.1. Tầm quan trọng của giảm chiều dữ liệu trong Y sinh học

Giảm chiều dữ liệu đóng vai trò then chốt trong việc đơn giản hóa dữ liệu y sinh học phức tạp. Dữ liệu gen, protein và hình ảnh y tế thường có số chiều lớn, gây khó khăn cho việc phân tích. Giảm chiều giúp trích xuất thông tin quan trọng, loại bỏ nhiễu và giảm chi phí tính toán. Việc này giúp cải thiện độ chính xác và tốc độ của các thuật toán phân lớp bệnh nhân, hỗ trợ chẩn đoán và điều trị hiệu quả hơn. Như tài liệu đã nêu, giảm chiều đã được ứng dụng trong giảm chiều dữ liệu các tập dữ liệu sinh học phân tử đơn lẻ, trích rút các thông tin hữu ích và kết hợp đồng thời giảm chiều dữ liệu và tích hợp các tập dữ liệu sinh học phân tử.

1.2. Các phương pháp giảm chiều dữ liệu chính Tổng quan

Có hai hướng tiếp cận chính trong giảm chiều dữ liệu: lựa chọn đặc trưng và trích chọn đặc trưng. Lựa chọn đặc trưng chọn một tập con đặc trưng từ tập gốc, giữ lại thông tin quan trọng nhất. Trích chọn đặc trưng biến đổi tập đặc trưng gốc thành một tập mới trong không gian thấp chiều, giảm thiểu mất mát thông tin. Các phương pháp phổ biến bao gồm Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), và tự mã hóa (Autoencoders). Việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của dữ liệu y tế và mục tiêu nghiên cứu.

II. Thách Thức và Vấn Đề trong Phân Lớp Bệnh Nhân Hướng Giải

Phân lớp bệnh nhân là một bài toán quan trọng trong healthcare, giúp chia bệnh nhân thành các nhóm khác nhau dựa trên đặc điểm sinh học và tình trạng bệnh. Tuy nhiên, việc này gặp nhiều thách thức do dữ liệu y tế ngày càng đa dạng, phức tạp và có kích thước lớn. Các bộ dữ liệu thường chứa nhiều nhiễu, dữ liệu thiếu và ngoại lai, gây khó khăn cho việc xây dựng các mô hình phân lớp chính xác. Ngoài ra, việc tích hợp dữ liệu từ nhiều nguồn khác nhau cũng đặt ra những thách thức về mặt kỹ thuật. Luận án này tập trung giải quyết các vấn đề này bằng cách nghiên cứu và cải tiến các phương pháp giảm chiều dữ liệuhọc máy.

2.1. Vấn Đề Dữ Liệu Nhiễu và Thưa trong Dữ Liệu Y Tế

Dữ liệu y tế, đặc biệt là dữ liệu gen và protein, thường chứa nhiều nhiễu, dữ liệu thiếu và ngoại lai. Điều này có thể làm giảm độ chính xác của các mô hình phân lớp bệnh nhân. Việc xử lý dữ liệu nhiễu và thưa đòi hỏi các phương pháp đặc biệt, chẳng hạn như Phân tích thành phần chính tăng cường (RPCA). RPCA là một phương pháp giảm chiều được thiết kế để đối phó với dữ liệu ngoại lai và nhiễu, giúp cải thiện hiệu suất của các mô hình học máy.

2.2. Tích Hợp Dữ Liệu Đa Nguồn Thách Thức Giải Pháp

Việc tích hợp dữ liệu từ nhiều nguồn khác nhau (ví dụ: dữ liệu gen, protein, hình ảnh y tế) có thể cung cấp thông tin toàn diện hơn về bệnh nhân. Tuy nhiên, mỗi loại dữ liệu thường có cấu trúc và độ đo khác nhau, gây khó khăn cho việc tích hợp. Các phương pháp học đa hàm nhân (MKL) là một giải pháp hiệu quả cho vấn đề này. MKL cho phép học một nhân từ nhiều hàm nhân cơ sở, giúp tích hợp thông tin từ các nguồn dữ liệu khác nhau một cách linh hoạt.

2.3 Ứng dụng Machine Learning trong giải quyết vấn đề dữ liệu đa nguồn.

Trong bối cảnh dữ liệu y sinh học ngày càng đa dạng và phức tạp, việc áp dụng Machine Learning để giải quyết vấn đề tích hợp dữ liệu đa nguồn trở nên vô cùng quan trọng. Các thuật toán Machine Learning có khả năng học các mối quan hệ phức tạp giữa các loại dữ liệu khác nhau, từ đó đưa ra các dự đoán chính xác hơn về tình trạng bệnh nhân. Việc này không chỉ nâng cao hiệu quả chẩn đoán mà còn giúp cá nhân hóa phác đồ điều trị, tối ưu hóa kết quả cho từng bệnh nhân.

III. Phương Pháp Học Đa Hàm Nhân Cải Tiến fMKL DR Chi Tiết

Luận án này đề xuất một phương pháp học đa hàm nhân cải tiến, được gọi là fMKL-DR (fast MKL-DR), nhằm giải quyết vấn đề chi phí tính toán cao của phương pháp MKL-DR truyền thống. fMKL-DR giảm đáng kể thời gian tính toán bằng cách tối ưu hóa việc tính tích chuỗi ma trận, một bước lặp đi lặp lại trong thuật toán MKL-DR. Phương pháp này vẫn giữ được hiệu quả của MKL-DR trong việc tích hợp dữ liệu và giảm chiều dữ liệu, đồng thời cải thiện đáng kể tốc độ xử lý. fMKL-DR hứa hẹn là một công cụ hiệu quả cho việc phân tích dữ liệu y tế lớn và phức tạp.

3.1. Ý tưởng và thuật toán của phương pháp fMKL DR

fMKL-DR dựa trên ý tưởng tối ưu hóa thứ tự tính toán của tích chuỗi ma trận trong thuật toán MKL-DR. Bằng cách tìm thứ tự tính toán tốt nhất, fMKL-DR giảm số lượng phép tính cần thiết, từ đó giảm thời gian chạy thuật toán. Thuật toán fMKL-DR bao gồm các bước: (1) Tính các ma trận nhân cơ sở từ các nguồn dữ liệu khác nhau; (2) Tìm thứ tự tính toán tối ưu cho tích chuỗi ma trận; (3) Thực hiện tích chuỗi ma trận theo thứ tự tối ưu; (4) Sử dụng kết quả để giảm chiều dữ liệuphân lớp bệnh nhân.

3.2. So sánh hiệu năng fMKL DR so với MKL DR

Thực nghiệm cho thấy fMKL-DR giảm đáng kể thời gian tính toán so với MKL-DR, đặc biệt khi kích thước dữ liệu lớn. Trong khi vẫn duy trì độ chính xác tương đương. Kết quả này chứng minh rằng fMKL-DR là một cải tiến hiệu quả cho phương pháp MKL-DR, làm cho nó phù hợp hơn cho việc phân tích dữ liệu y tế trong thực tế. Đánh giá hiệu năng thuật toán fMKL-DR với MKL-DR trên tập dữ liệu bệnh Alzheimer cũng đã được chứng minh trong tài liệu gốc.

IV. PCA Tăng Cường RPCA Ứng Dụng trong Dữ Liệu Ngoại Lai

Phân tích thành phần chính (PCA) là một phương pháp giảm chiều dữ liệu phổ biến, nhưng nó nhạy cảm với dữ liệu ngoại lai. PCA Tăng cường (RPCA) là một biến thể của PCA được thiết kế để đối phó với dữ liệu ngoại lai, nhiễu và thưa. RPCA phân tách dữ liệu thành hai thành phần: một thành phần có hạng thấp (low-rank) và một thành phần thưa thớt (sparse). Thành phần hạng thấp biểu diễn cấu trúc chính của dữ liệu, trong khi thành phần thưa thớt biểu diễn dữ liệu ngoại lai và nhiễu. Luận án này nghiên cứu việc ứng dụng RPCA trong giảm chiều dữ liệuphân lớp bệnh nhân, đặc biệt trong các trường hợp dữ liệu y tế chứa nhiều ngoại lai.

4.1. Nguyên lý hoạt động của phương pháp RPCA

RPCA dựa trên ý tưởng rằng dữ liệu ngoại lai và nhiễu thường là thưa thớt, trong khi cấu trúc chính của dữ liệu thường có hạng thấp. RPCA tìm cách phân tách dữ liệu thành hai thành phần: một thành phần có hạng thấp và một thành phần thưa thớt. Việc này giúp loại bỏ ảnh hưởng của dữ liệu ngoại lai và nhiễu, cho phép PCA tập trung vào cấu trúc chính của dữ liệu. Như tài liệu đã chỉ ra, RPCA được xây dựng trên nền tảng phân tích thành phần chính, song có khả năng thích ứng với dữ liệu ngoại lai, nhiễu, và thưa.

4.2. Ứng dụng RPCA trong Phân Lớp Bệnh Nhân ung thư

Luận án này đề xuất một mô hình phân lớp bệnh nhân ung thư dựa trên RPCA. Mô hình này bao gồm các bước: (1) Tiền xử lý dữ liệu gen bằng RPCA để loại bỏ dữ liệu ngoại lai và nhiễu; (2) Giảm chiều dữ liệu bằng PCA; (3) Sử dụng các thuật toán phân lớp (ví dụ: SVM, k-NN) để phân loại bệnh nhân. Kết quả thực nghiệm cho thấy mô hình này có độ chính xác cao hơn so với các phương pháp truyền thống. Kết quả thực nghiệm cũng đã được thể hiện rõ trong tài liệu gốc.

V. Ứng Dụng Thực Tế Mô Hình Hỗ Trợ Chẩn Đoán Bệnh Tim Mạch

Nghiên cứu này đã phát triển một mô hình hỗ trợ chẩn đoán bệnh tim mạch sử dụng các phương pháp giảm chiều dữ liệuphân lớp bệnh nhân. Mô hình sử dụng dữ liệu lâm sàng, kết quả xét nghiệm và hình ảnh y tế để dự đoán nguy cơ mắc bệnh tim mạch. Các phương pháp giảm chiều được sử dụng để chọn lọc các đặc trưng quan trọng nhất, giúp cải thiện độ chính xác và tốc độ của mô hình. Mô hình này có thể giúp bác sĩ đưa ra quyết định chẩn đoán và điều trị bệnh tim mạch sớm hơn và hiệu quả hơn.

5.1. Thu thập và tiền xử lý dữ liệu y tế cho mô hình

Dữ liệu y tế được thu thập từ bệnh viện và các cơ sở y tế. Dữ liệu bao gồm thông tin về tiền sử bệnh, kết quả khám lâm sàng, kết quả xét nghiệm máu, điện tâm đồ và hình ảnh tim mạch. Dữ liệu được tiền xử lý để loại bỏ dữ liệu thiếu, dữ liệu nhiễu và chuẩn hóa dữ liệu. Các phương pháp giảm chiều dữ liệu (ví dụ: PCA, LDA) được sử dụng để chọn lọc các đặc trưng quan trọng nhất.

5.2. Xây dựng và đánh giá mô hình phân lớp bệnh nhân

Các thuật toán phân lớp (ví dụ: SVM, k-NN, mạng nơ-ron) được sử dụng để xây dựng mô hình dự đoán nguy cơ mắc bệnh tim mạch. Mô hình được huấn luyện trên một tập dữ liệu lớn và được đánh giá trên một tập dữ liệu kiểm tra độc lập. Các độ đo đánh giá hiệu suất bao gồm độ chính xác, độ nhạy, độ đặc hiệu và diện tích dưới đường cong ROC (AUC). Các kết quả đạt được cho thấy mô hình có độ chính xác cao và có thể được sử dụng để hỗ trợ chẩn đoán bệnh tim mạch.

VI. Kết Luận Hướng Nghiên Cứu Tương Lai Giảm Chiều Dữ Liệu

Luận án này đã nghiên cứu và cải tiến các phương pháp giảm chiều dữ liệu và ứng dụng chúng trong bài toán phân lớp bệnh nhân. Các phương pháp fMKL-DR và RPCA đã được đề xuất và chứng minh hiệu quả trong việc xử lý dữ liệu y tế lớn, phức tạp và chứa nhiều ngoại lai. Các mô hình phân lớp bệnh nhân dựa trên các phương pháp này có độ chính xác cao và có thể được sử dụng để hỗ trợ chẩn đoán và điều trị bệnh. Hướng nghiên cứu tương lai bao gồm việc mở rộng các phương pháp này cho các loại dữ liệu y tế khác nhau và phát triển các mô hình phân lớp phức tạp hơn.

6.1. Tổng kết các đóng góp chính của luận án

Luận án đã có những đóng góp quan trọng trong lĩnh vực giảm chiều dữ liệuphân lớp bệnh nhân, bao gồm: (1) Đề xuất phương pháp fMKL-DR để giảm chi phí tính toán của MKL-DR; (2) Nghiên cứu việc ứng dụng RPCA trong xử lý dữ liệu ngoại lai và nhiễu; (3) Xây dựng các mô hình phân lớp bệnh nhân dựa trên fMKL-DR và RPCA; (4) Chứng minh hiệu quả của các phương pháp và mô hình đề xuất trên các tập dữ liệu y tế thực tế.

6.2. Các hướng nghiên cứu tiếp theo và tiềm năng ứng dụng

Các hướng nghiên cứu tiếp theo bao gồm việc mở rộng các phương pháp fMKL-DR và RPCA cho các loại dữ liệu y tế khác nhau (ví dụ: dữ liệu hình ảnh, dữ liệu văn bản). Phát triển các mô hình phân lớp phức tạp hơn, chẳng hạn như mạng nơ-ron sâu. Nghiên cứu các phương pháp giải thích mô hình (model interpretability) để hiểu rõ hơn về cách các mô hình đưa ra quyết định. Ứng dụng các phương pháp và mô hình này trong các lĩnh vực y tế khác nhau, chẳng hạn như chẩn đoán bệnh, dự đoán bệnh và cá nhân hóa điều trị.

15/05/2025

Trích đoạn nội dung tài liệu

Chương 1 TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG XỬ LÝ DỮ LIỆU Y SINH HỌC Giảm chiều dữ liệu đã trở thành một bước tiền xử lý không thể thiếu khi phân tích dữ liệu. Các phương pháp giảm chiều dữ liệu hiện nay không chỉ giảm cơ học số đặc trưng của dữ liệu để phù hợp với các phương pháp tính toán hiện nay mà còn góp phần gia tăng độ chính xác cho các phương pháp phân tích dữ liệu ở các bước tiếp theo khi có thể loại bỏ những dữ liệu gây nhiễu. Trong lĩnh vực y sinh học, các phương pháp giảm chiều dữ liệu được được sử dụng nhiều do đặc điểm của dữ liệu sinh học phân tử, hoặc dữ liệu ảnh y tế với số lượng đặc trưng lên đến hàng nghìn, thậm chí hàng triệu. Trong Chương này, luận án tập trung trình bày tổng quan về giảm chiều dữ liệu, tầm quan trọng cũng như ứng dụng của các phương pháp giảm chiều trong xử lý dữ liệu y sinh học (bao gồm phương pháp hiệu quả được ứng dụng phổ biến hiện nay như học sâu) nhằm đưa ra bức tranh tổng quan về các phương pháp giảm chiều dữ liệu và ứng dụng chúng trong lĩnh vực y sinh học.

Bài toán giảm chiều dữ liệu Giảm chiều dữ liệu là hoạt động tiền xử lý không thể thiếu đối với các bài toán khai phá tri thức từ các tập dữ liệu lớn. Bài toán giảm chiều dữ liệu được phát biểu như sau: Đầu vào: Tập dữ liệu X có số chiều S lớn 9 Hình 1.1: Minh họa Giảm chiều dữ liệu Đầu ra: Tập dữ liệu X ′ (là biểu diễn của tập dữ liệu X trong không gian mới) có số chiều D nhỏ hơn rất nhiều so với S mà vẫn giữ được bản chất thông tin của dữ liệu tương đương X. Bài toán giảm chiều dữ liệu là bài toán đi tìm một hàm số: f :RS → RD (1.1) x→z với D < S , hàm f biến một điểm dữ liệu x trong không gian có số chiều lớn RS thành một điểm z trong không gian có số chiều nhỏ RD. Trong đó, trên không gian số thực R, mỗi điểm dữ liệu x, y là các véc tơ số thực gồm S và D phần tử (tương ứng là số chiều của mỗi điểm dữ liệu).

Mỗi tập dữ liệu gồm nhiều điểm dữ liệu, do đó RS , RD là các ma trận số thực có số dòng là S, D tương ứng là số chiều của không gian, số cột là số điểm dữ liệu của ma trận (tương ứng với số mẫu được quan sát). Trong mô hình minh họa này, phép biến đổi chỉ làm thay đổi số chiều của tập dữ liệu mà vẫn giữ nguyên số mẫu quan sát của tập dữ liệu.1 minh họa cho bài toán Giảm chiều dữ liệu. Dữ liệu ở không gian gốc được chiếu sang không gian mới có số chiều thấp hơn không gian cũ giúp tăng hiệu năng tính toán. Ngoài ra, dữ liệu ở không gian mới có thể được phân tách tốt hơn giúp tăng độ chính xác của các mô hình phân lớp.

Việc giảm chiều dữ liệu có thể được thực hiện nhằm vào một số mục đích khác nhau như dùng để nén thông tin sao cho x có thể được suy ngược lại (xấp xỉ) từ z hoặc phục vụ cho các bài toán phân lớp bằng cách chọn ra những đặc 10 trưng quan trọng (lựa chọn đặc trưng) hay tạo ra những đặc trưng mới từ tập đặc trưng cũ (trích chọn đặc trưng). Với phương pháp lựa chọn đặc trưng, z có thể là một phiên bản thu gọn của x khi các đặc trưng của z là tập con của các đặc trưng trên x. Còn với trích chọn đặc trưng, các đặc trưng của z khác hoàn toàn và được sinh ra từ các đặc trưng của x. Đối với các tập dữ liệu biểu hiện gen thường có số chiều rất lớn, lên đến hàng nghìn, chục nghìn gen.

Khi đó bài toán giảm chiều dữ liệu áp dụng trên tập biểu hiện gen sẽ tìm kiếm một tập con các gen hoặc tạo ra các biến mới là tổ hợp tuyến tính từ hàng nghìn gen ban đầu sao cho vẫn giữ được bản chất thông tin của dữ liệu. Thêm nữa, giảm chiều dữ liệu là bài toán tiền đề trước khi triển khai các bài toán khai phá dữ liệu khác. Do đó, tiêu chí để lựa chọn các phương pháp giảm chiều dữ liệu trên tập dữ liệu biểu hiện gen là phải lựa chọn tập con (hoặc sinh mới) các gen có ý nghĩa, loại bỏ các gen không liên quan góp phần gia tăng độ chính xác cho các bài toán khai phá dữ liệu ở bước tiếp theo. Đối với các tập dữ liệu hình ảnh có kích thước lớn.

Giả sử một bức ảnh có kích thước 1.000 pixel thì số lượng điểm ảnh (đặc trưng) đã lên tới 1. Do đó, bức ảnh cần được giảm chiều trước khi được xử lý ở các bước tiếp theo. Giảm chiều ảnh có hai phương pháp chính. Một là, giảm kích thước của bức ảnh theo cách cơ học từ 1.000 pixel xuống độ phân giải thấp hơn có thể là 200x200 pixel.

Khi đó số đặc trưng chỉ còn ở mức 40.000 đặc trưng. Tuy nhiên, phương pháp này sẽ gây mất dữ liệu do phải loại bớt phần lớn đặc trưng để giảm kích thước bức ảnh nên có thể mất bản chất của dữ liệu.000 cũng vẫn là một số lượng đặc trưng lớn, không phù hợp với các mô hình tính toán. Phương pháp thứ hai là sử dụng các phương pháp học máy để tìm ra các đặc trưng có ý nghĩa trên bức ảnh. Phương pháp này có lợi điểm là tìm ra được đặc trưng có ý nghĩa của bức ảnh mà không phải dùng toàn bộ số đặc trưng ban đầu, kết quả này có ý nghĩa lớn khi cần phân lớp, phân cụm bức ảnh trong các bài toán nhận dạng.

Tuy nhiên, các phương pháp này đỏi hỏi cần phải có thuật toán trích chọn đặc trưng phù hợp. Phương pháp thứ hai thường được áp dụng trong các bài toán thực tế do có thể đem lại độ chính xác cao cho các bài toán nhận dạng. Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học và bài toán phân lớp bệnh nhân Nghiên cứu dữ liệu y sinh để xác định các nguyên nhân, đối tượng gây bệnh cũng như tìm ra các phương thuốc điều trị là hướng nghiên cứu quan trọng và có nhiều đóng góp vào nghiên cứu y học chính xác trong điều trị các bệnh và lĩnh vực chăm sóc sức khỏe [11, 12, 13]. Có bốn ngành y sinh lớn được tập trung nghiên cứu bao gồm: tin-sinh học, tin học lâm sàng, tin học hình ảnh và tin học y tế công cộng.

Cụ thể, trong tin-sinh học, các thí nghiệm thông lượng cao tạo điều kiện thuận lợi cho việc nghiên cứu toàn bộ gen, mối liên hệ giữa các gen về bệnh tật; tin học lâm sàng, lĩnh vực lâm sàng được hưởng lợi từ lượng lớn dữ liệu bệnh nhân được thu thập, được phối hợp phân tích với các lĩnh vực khác để đưa ra quyết định; tin học hình ảnh phân tích và đưa ra dự đoán từ dữ liệu hình ảnh y tế, trợ giúp trong hoạt động chẩn đoán và điều trị bệnh; tin học y tế công cộng được nghiên cứu dự đoán và giám sát các đợt bùng phát bệnh truyền nhiễm trên phạm vi địa lý lớn. Trong đó, hai ngành tin-sinh học và tin học hình ảnh là hai ngành chủ chốt trong nghiên cứu về dữ liệu y sinh nhằm tìm ra nguyên nhân gây bệnh và đề xuất giải pháp điều trị phù hợp [12]. Một trong những đặc điểm nổi bật của dữ liệu y sinh là có số đặc trưng rất lớn. Cụ thể, trong tập dữ liệu sinh học phân tử, mỗi tập dữ liệu biểu hiện gen cũng có thể có tới hàng chục nghìn gen [14]; đối với tập dữ liệu biểu diễn sự tương tác giữa các gen có tới hàng triệu đặc trưng biểu hiện mối quan hệ giữa các gen [15].

Tập dữ liệu ảnh y tế (ảnh cộng hưởng từ - MRI, ảnh chụp cắt lớp - CT) cũng có số chiều lên tới hàng nghìn, thậm chí hàng triệu [16]. Ví dụ như một bức ảnh chụp mặt cắt của vỏ não có kích thước 500x500 điểm ảnh, khi đó số điểm ảnh lên tới 250.000, trong môi trường không gian 3 chiều của ảnh cộng hưởng từ hay ảnh chụp cắt lớp thì số điểm ảnh gia tăng theo cấp số nhân. Số lượng đặc trưng lớn gây nhiều khó khăn trong việc phân tích dữ liệu y sinh như: ˆ Số đặc trưng lớn dẫn đến độ phức tạp tính toán tăng mà các hệ thống máy tính hiện nay không đáp ứng được. Để phân tích trên tất cả các đặc trưng sẽ đòi hỏi cao về nguồn tài nguyên (bộ vi xử lý, bộ nhớ), kỹ thuật tính toán và thời gian tính toán.

Đây là thách thức khó giải quyết mặc dù tốc độ tính toán cũng như công nghệ hỗ trợ tính toán hiện nay như tính toán song song, điện toán đám mây cũng đang phát triển không ngừng. Đặc biệt 12 trong giảm chiều dữ liệu y sinh, khi số lượng đặc trưng biểu diễn các đặc điểm sinh học của đối tượng cũng như mối quan hệ giữa chúng lên tới hàng nghìn, hàng triệu đặc trưng. ˆ Khi số đặc trưng lớn, dẫn đến không gian tìm kiếm lớn trong khi bài toán đặt ra chỉ cần tìm kiếm trong không gian nhỏ, cục bộ. Khi đó, việc tìm kiếm lời giải tối ưu toàn cục trên toàn bộ không gian gặp nhiều khó khăn.

ˆ Mặc dù có nhiều đặc trưng, nhưng không phải tất cả các đặc trưng đều đóng góp thông tin vào từng bài toán cụ thể. Ví dụ như đối với bệnh Ung thư phổi, chỉ có một số gen là nguyên nhân gây bệnh, khi đó nếu phân tích trên toàn bộ các gen thì các gen không liên quan có thể sẽ gây nhiễu và làm ảnh hưởng đến kết quả phân tích. Từ đó, giảm chiều dữ liệu trở thành bước tiền xử lý dữ liệu không thể thiếu trong xử lý dữ liệu y sinh. Giảm chiều dữ liệu góp phần nâng cao chất lượng dự đoán, giảm thời gian tính toán mà góp phần xây dựng các mô hình ổn định hơn [17].

Cụ thể như sau: ˆ Đối với tập dữ liệu sinh học phân tử: như biểu hiện gen, phương pháp giảm chiều lựa chọn đặc trưng có thể đo lường và xác định mức độ ảnh hưởng của các gen liên quan đến một bệnh cụ thể, từ đó chọn một tập các gen có liên quan đến bệnh để phân tích.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ