Chương 1 TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG XỬ LÝ DỮ LIỆU Y SINH HỌC Giảm chiều dữ liệu đã trở thành một bước tiền xử lý không thể thiếu khi phân tích dữ liệu. Các phương pháp giảm chiều dữ liệu hiện nay không chỉ giảm cơ học số đặc trưng của dữ liệu để phù hợp với các phương pháp tính toán hiện nay mà còn góp phần gia tăng độ chính xác cho các phương pháp phân tích dữ liệu ở các bước tiếp theo khi có thể loại bỏ những dữ liệu gây nhiễu. Trong lĩnh vực y sinh học, các phương pháp giảm chiều dữ liệu được được sử dụng nhiều do đặc điểm của dữ liệu sinh học phân tử, hoặc dữ liệu ảnh y tế với số lượng đặc trưng lên đến hàng nghìn, thậm chí hàng triệu. Trong Chương này, luận án tập trung trình bày tổng quan về giảm chiều dữ liệu, tầm quan trọng cũng như ứng dụng của các phương pháp giảm chiều trong xử lý dữ liệu y sinh học (bao gồm phương pháp hiệu quả được ứng dụng phổ biến hiện nay như học sâu) nhằm đưa ra bức tranh tổng quan về các phương pháp giảm chiều dữ liệu và ứng dụng chúng trong lĩnh vực y sinh học.
Bài toán giảm chiều dữ liệu Giảm chiều dữ liệu là hoạt động tiền xử lý không thể thiếu đối với các bài toán khai phá tri thức từ các tập dữ liệu lớn. Bài toán giảm chiều dữ liệu được phát biểu như sau: Đầu vào: Tập dữ liệu X có số chiều S lớn 9 Hình 1.1: Minh họa Giảm chiều dữ liệu Đầu ra: Tập dữ liệu X ′ (là biểu diễn của tập dữ liệu X trong không gian mới) có số chiều D nhỏ hơn rất nhiều so với S mà vẫn giữ được bản chất thông tin của dữ liệu tương đương X. Bài toán giảm chiều dữ liệu là bài toán đi tìm một hàm số: f :RS → RD (1.1) x→z với D < S , hàm f biến một điểm dữ liệu x trong không gian có số chiều lớn RS thành một điểm z trong không gian có số chiều nhỏ RD. Trong đó, trên không gian số thực R, mỗi điểm dữ liệu x, y là các véc tơ số thực gồm S và D phần tử (tương ứng là số chiều của mỗi điểm dữ liệu).
Mỗi tập dữ liệu gồm nhiều điểm dữ liệu, do đó RS , RD là các ma trận số thực có số dòng là S, D tương ứng là số chiều của không gian, số cột là số điểm dữ liệu của ma trận (tương ứng với số mẫu được quan sát). Trong mô hình minh họa này, phép biến đổi chỉ làm thay đổi số chiều của tập dữ liệu mà vẫn giữ nguyên số mẫu quan sát của tập dữ liệu.1 minh họa cho bài toán Giảm chiều dữ liệu. Dữ liệu ở không gian gốc được chiếu sang không gian mới có số chiều thấp hơn không gian cũ giúp tăng hiệu năng tính toán. Ngoài ra, dữ liệu ở không gian mới có thể được phân tách tốt hơn giúp tăng độ chính xác của các mô hình phân lớp.
Việc giảm chiều dữ liệu có thể được thực hiện nhằm vào một số mục đích khác nhau như dùng để nén thông tin sao cho x có thể được suy ngược lại (xấp xỉ) từ z hoặc phục vụ cho các bài toán phân lớp bằng cách chọn ra những đặc 10 trưng quan trọng (lựa chọn đặc trưng) hay tạo ra những đặc trưng mới từ tập đặc trưng cũ (trích chọn đặc trưng). Với phương pháp lựa chọn đặc trưng, z có thể là một phiên bản thu gọn của x khi các đặc trưng của z là tập con của các đặc trưng trên x. Còn với trích chọn đặc trưng, các đặc trưng của z khác hoàn toàn và được sinh ra từ các đặc trưng của x. Đối với các tập dữ liệu biểu hiện gen thường có số chiều rất lớn, lên đến hàng nghìn, chục nghìn gen.
Khi đó bài toán giảm chiều dữ liệu áp dụng trên tập biểu hiện gen sẽ tìm kiếm một tập con các gen hoặc tạo ra các biến mới là tổ hợp tuyến tính từ hàng nghìn gen ban đầu sao cho vẫn giữ được bản chất thông tin của dữ liệu. Thêm nữa, giảm chiều dữ liệu là bài toán tiền đề trước khi triển khai các bài toán khai phá dữ liệu khác. Do đó, tiêu chí để lựa chọn các phương pháp giảm chiều dữ liệu trên tập dữ liệu biểu hiện gen là phải lựa chọn tập con (hoặc sinh mới) các gen có ý nghĩa, loại bỏ các gen không liên quan góp phần gia tăng độ chính xác cho các bài toán khai phá dữ liệu ở bước tiếp theo. Đối với các tập dữ liệu hình ảnh có kích thước lớn.
Giả sử một bức ảnh có kích thước 1.000 pixel thì số lượng điểm ảnh (đặc trưng) đã lên tới 1. Do đó, bức ảnh cần được giảm chiều trước khi được xử lý ở các bước tiếp theo. Giảm chiều ảnh có hai phương pháp chính. Một là, giảm kích thước của bức ảnh theo cách cơ học từ 1.000 pixel xuống độ phân giải thấp hơn có thể là 200x200 pixel.
Khi đó số đặc trưng chỉ còn ở mức 40.000 đặc trưng. Tuy nhiên, phương pháp này sẽ gây mất dữ liệu do phải loại bớt phần lớn đặc trưng để giảm kích thước bức ảnh nên có thể mất bản chất của dữ liệu.000 cũng vẫn là một số lượng đặc trưng lớn, không phù hợp với các mô hình tính toán. Phương pháp thứ hai là sử dụng các phương pháp học máy để tìm ra các đặc trưng có ý nghĩa trên bức ảnh. Phương pháp này có lợi điểm là tìm ra được đặc trưng có ý nghĩa của bức ảnh mà không phải dùng toàn bộ số đặc trưng ban đầu, kết quả này có ý nghĩa lớn khi cần phân lớp, phân cụm bức ảnh trong các bài toán nhận dạng.
Tuy nhiên, các phương pháp này đỏi hỏi cần phải có thuật toán trích chọn đặc trưng phù hợp. Phương pháp thứ hai thường được áp dụng trong các bài toán thực tế do có thể đem lại độ chính xác cao cho các bài toán nhận dạng. Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học và bài toán phân lớp bệnh nhân Nghiên cứu dữ liệu y sinh để xác định các nguyên nhân, đối tượng gây bệnh cũng như tìm ra các phương thuốc điều trị là hướng nghiên cứu quan trọng và có nhiều đóng góp vào nghiên cứu y học chính xác trong điều trị các bệnh và lĩnh vực chăm sóc sức khỏe [11, 12, 13]. Có bốn ngành y sinh lớn được tập trung nghiên cứu bao gồm: tin-sinh học, tin học lâm sàng, tin học hình ảnh và tin học y tế công cộng.
Cụ thể, trong tin-sinh học, các thí nghiệm thông lượng cao tạo điều kiện thuận lợi cho việc nghiên cứu toàn bộ gen, mối liên hệ giữa các gen về bệnh tật; tin học lâm sàng, lĩnh vực lâm sàng được hưởng lợi từ lượng lớn dữ liệu bệnh nhân được thu thập, được phối hợp phân tích với các lĩnh vực khác để đưa ra quyết định; tin học hình ảnh phân tích và đưa ra dự đoán từ dữ liệu hình ảnh y tế, trợ giúp trong hoạt động chẩn đoán và điều trị bệnh; tin học y tế công cộng được nghiên cứu dự đoán và giám sát các đợt bùng phát bệnh truyền nhiễm trên phạm vi địa lý lớn. Trong đó, hai ngành tin-sinh học và tin học hình ảnh là hai ngành chủ chốt trong nghiên cứu về dữ liệu y sinh nhằm tìm ra nguyên nhân gây bệnh và đề xuất giải pháp điều trị phù hợp [12]. Một trong những đặc điểm nổi bật của dữ liệu y sinh là có số đặc trưng rất lớn. Cụ thể, trong tập dữ liệu sinh học phân tử, mỗi tập dữ liệu biểu hiện gen cũng có thể có tới hàng chục nghìn gen [14]; đối với tập dữ liệu biểu diễn sự tương tác giữa các gen có tới hàng triệu đặc trưng biểu hiện mối quan hệ giữa các gen [15].
Tập dữ liệu ảnh y tế (ảnh cộng hưởng từ - MRI, ảnh chụp cắt lớp - CT) cũng có số chiều lên tới hàng nghìn, thậm chí hàng triệu [16]. Ví dụ như một bức ảnh chụp mặt cắt của vỏ não có kích thước 500x500 điểm ảnh, khi đó số điểm ảnh lên tới 250.000, trong môi trường không gian 3 chiều của ảnh cộng hưởng từ hay ảnh chụp cắt lớp thì số điểm ảnh gia tăng theo cấp số nhân. Số lượng đặc trưng lớn gây nhiều khó khăn trong việc phân tích dữ liệu y sinh như: Số đặc trưng lớn dẫn đến độ phức tạp tính toán tăng mà các hệ thống máy tính hiện nay không đáp ứng được. Để phân tích trên tất cả các đặc trưng sẽ đòi hỏi cao về nguồn tài nguyên (bộ vi xử lý, bộ nhớ), kỹ thuật tính toán và thời gian tính toán.
Đây là thách thức khó giải quyết mặc dù tốc độ tính toán cũng như công nghệ hỗ trợ tính toán hiện nay như tính toán song song, điện toán đám mây cũng đang phát triển không ngừng. Đặc biệt 12 trong giảm chiều dữ liệu y sinh, khi số lượng đặc trưng biểu diễn các đặc điểm sinh học của đối tượng cũng như mối quan hệ giữa chúng lên tới hàng nghìn, hàng triệu đặc trưng. Khi số đặc trưng lớn, dẫn đến không gian tìm kiếm lớn trong khi bài toán đặt ra chỉ cần tìm kiếm trong không gian nhỏ, cục bộ. Khi đó, việc tìm kiếm lời giải tối ưu toàn cục trên toàn bộ không gian gặp nhiều khó khăn.
Mặc dù có nhiều đặc trưng, nhưng không phải tất cả các đặc trưng đều đóng góp thông tin vào từng bài toán cụ thể. Ví dụ như đối với bệnh Ung thư phổi, chỉ có một số gen là nguyên nhân gây bệnh, khi đó nếu phân tích trên toàn bộ các gen thì các gen không liên quan có thể sẽ gây nhiễu và làm ảnh hưởng đến kết quả phân tích. Từ đó, giảm chiều dữ liệu trở thành bước tiền xử lý dữ liệu không thể thiếu trong xử lý dữ liệu y sinh. Giảm chiều dữ liệu góp phần nâng cao chất lượng dự đoán, giảm thời gian tính toán mà góp phần xây dựng các mô hình ổn định hơn [17].
Cụ thể như sau: Đối với tập dữ liệu sinh học phân tử: như biểu hiện gen, phương pháp giảm chiều lựa chọn đặc trưng có thể đo lường và xác định mức độ ảnh hưởng của các gen liên quan đến một bệnh cụ thể, từ đó chọn một tập các gen có liên quan đến bệnh để phân tích.