I. Tổng Quan Về Dự Đoán Tác Dụng Phụ Thuốc Y Văn
Trong y học, tác dụng phụ của thuốc là một vấn đề quan trọng, có thể là hữu ích hoặc bất lợi, nhưng thường không mong muốn so với mục đích điều trị chính. Quá trình phát triển thuốc rất phức tạp, và việc tạo ra một loại thuốc tác động chọn lọc mà không ảnh hưởng đến các bộ phận khác của cơ thể là một thách thức lớn. Tác dụng phụ bất lợi không chỉ ảnh hưởng đến sức khỏe con người mà còn cản trở sự phát triển của các loại thuốc hiệu quả. Mặc dù đã có nhiều nỗ lực để xác định tác dụng phụ trước đó, đây vẫn là một nhiệm vụ khó khăn. Dữ liệu thường đến từ các báo cáo tự phát sau khi thuốc đã được bán trên thị trường, điều này có những hạn chế nhất định. Các công ty dược phẩm có thể xác định các tác dụng phổ biến, nhưng việc dự đoán các tác dụng phụ nghiêm trọng, hiếm gặp là một thách thức lớn. Sự bùng nổ của tài liệu y sinh đã tạo ra một nguồn tri thức phong phú, cho phép khai thác thông tin hữu ích, bao gồm cả việc dự đoán tác dụng phụ của thuốc từ y văn. Điều này giúp khắc phục nhiều hạn chế trong quá trình phát hiện tác dụng phụ của thuốc.
1.1. Tầm Quan Trọng Của Phát Hiện Tác Dụng Phụ Thuốc
Việc phát hiện tác dụng phụ của thuốc có vai trò then chốt trong việc bảo vệ sức khỏe người bệnh. Theo Pharmacology Education Project (PEP) được phát triển bởi liên minh quốc tế về dược học cơ bản và lâm sàng (IUPHAR) [25], phản ứng có hại của thuốc (ADR) là phản ứng không mong muốn hoặc có hại xảy ra sau khi sử dụng thuốc. Các tác dụng phụ bất lợi của thuốc là một vấn đề sức khỏe cấp bách và cũng là một trở ngại cho việc phát triển các loại thuốc có hiệu quả điều trị. Được biết, khoảng 7000 ca tử vong do ADRs gây ra mỗi năm trong một nghiên cứu được thực hiện trong năm 2000 [13]. Các ADRs gây tử vong thường là do xuất huyết.
1.2. Hạn Chế Của Phương Pháp Truyền Thống trong Phát Hiện Tác Dụng Phụ
Các phương pháp truyền thống thường dựa vào báo cáo tự phát và cơ sở dữ liệu thụ động, chẳng hạn như Hệ thống báo cáo sự kiện có hại của Cơ quan Quản lý Dược phẩm Liên bang (FAERS) của Mỹ [13]. Nghiên cứu cho thấy 94% ADR được báo cáo thiếu ở các hệ thống chính thức [20]. Các loại thuốc đặc biệt liên quan đến ADR bao gồm thuốc chống kết tập tiểu cầu, thuốc chống đông máu, thuốc độc tế bào, thuốc ức chế miễn dịch, thuốc lợi tiểu, thuốc chống đái tháo đường và thuốc kháng sinh. Các hệ thống này có thể chậm và không hiệu quả, bỏ sót nhiều trường hợp tác dụng phụ của thuốc. Hướng tiếp cận Tóm lược tri thức (Abstract Knowledge) là một hình thức để hiểu thế giới, cung cấp nhận thức và trí thông minh ở cấp độ con người cho trí thông minh nhân tạo trong thế hệ tiếp theo.
II. Thách Thức Trong Dự Đoán Tác Dụng Phụ Thuốc Từ Y Văn
Việc dự đoán tác dụng phụ của thuốc từ y văn gặp phải nhiều thách thức. Các nghiên cứu truyền thống sử dụng các phương pháp học máy như SVM đã hoạt động tương đối tốt, nhưng vẫn có những hạn chế khi xử lý các câu dài và khả năng khái quát hóa từ vựng hạn chế cho những từ chưa từng thấy. Ngược lại, các phương pháp dựa trên mạng nơ-ron (NN) là các phương pháp học biểu diễn tự động với nhiều cấp độ biểu diễn. Các phương pháp tiếp cận học sâu (Deep learning) đã được nghiên cứu rộng rãi và đạt được hiệu suất tiên tiến trong các nhiệm vụ NLP khác nhau. Trong các bài toán về trích xuất quan hệ y sinh, các từ “trigger word” được sử dụng rộng rãi như là các đặc điểm đầu vào của các phương pháp khai thác văn bản khác nhau. Cơ chế tập trung (attention mechanism) được đề xuất từ trực giác của sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào và đã được chứng minh là cải thiện hiệu suất mô hình.
2.1. Khó Khăn Với Dữ Liệu Y Văn Ngôn Ngữ Không Chính Thức
Trong các văn bản y sinh như các tóm tắt Pubmeds, cách viết không chính thức hoặc mô tả kỹ thuật quá mức có thể khiến một số lượng lớn các từ OOV xuất hiện. Bởi vì những từ này không có từ tương ứng, chúng sẽ được khởi tạo ngẫu nhiên cho một số giá trị cụ thể. Điều này sẽ gây ra nhiều phân loại sai của các từ OOV đó trong tập dữ liệu. Cần tận dụng lợi thế của việc biểu diễn cấp độ từ và ký tự của một token, do đó các từ OOV đó có thể được gắn nhãn tốt hơn do bổ sung các biểu diễn ký tự chi tiết.
2.2. Hạn Chế Của Các Mô Hình Học Máy Truyền Thống SVM CRF
Một số mô hình trích xuất quan hệ truyền thống sử dụng các phương pháp thống kê như máy vectơ hỗ trợ (Support Vector Machine - SVM) [1] và trường ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [18]. Với sự phát triển mạnh mẽ của công nghệ học sâu, các mô hình mạng nơ-ron đã đạt được hiệu suất hiện đại trên nhiều tác vụ gắn nhãn theo trình tự như nhận dạng tên thực thể (NER) [17] và gắn thẻ từ loại (Part-Of-Speech - POS) [3] . Các mô hình học sâu hiện tại thường sử dụng word embeddings, cho phép chúng học các cách biểu diễn tương tự cho các từ tương tự về mặt ngữ nghĩa.
III. Mạng Nơ Ron Cơ Chế Tập Trung Trong Dự Đoán Dược Lý
Luận văn này tập trung vào bài toán trích xuất quan hệ trong lĩnh vực y sinh với đầu vào là dữ liệu từ các văn bản y sinh, đầu ra cần xác định được liệu một cặp thực thể ứng viên trong một văn bản hoặc trong một câu có mối quan hệ ngữ nghĩa hay không? Các mô hình học sâu hiện tại thường sử dụng word embeddings, cho phép chúng học các cách biểu diễn tương tự cho các từ tương tự về mặt ngữ nghĩa. Cơ chế tập trung [28], được đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mô hình và tăng cường khả năng diễn giải mô hình thông qua việc kết hợp thông tin tâp trung vào việc học sâu [16].
3.1. Giới Thiệu Mạng Nơ Ron Nhân Tạo ANN Học Sâu Deep Learning
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một tập con của học máy và là trung tâm của các thuật toán học sâu. Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau. Mạng nơ ron nhân tạo (ANN) bao gồm một lớp nút, chứa một lớp đầu vào (Input layer), một hoặc nhiều lớp ẩn (Hidden layer) và một lớp đầu ra (Output layer). Mỗi nút, hoặc mỗi nơron nhân tạo, kết nối với một nút khác và có trọng số và ngưỡng liên quan.
3.2. Vai Trò Của Cơ Chế Tập Trung Attention Mechanism
Cơ chế tập trung (attention mechanism) được đề xuất từ trực giác của sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào và đã được chứng minh là cải thiện hiệu suất mô hình và nâng cao khả năng diễn giải mô hình thông qua việc kết hợp thông tin chú ý vào học sâu. Cơ chế tập trung [28], được đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mô hình và tăng cường khả năng diễn giải mô hình thông qua việc kết hợp thông tin tâp trung vào việc học sâu [16].
IV. Phương Pháp Nghiên Cứu Mạng Nơ Ron Dựa Trên Cơ Chế Tập Trung
Trong phạm vi khóa luận sẽ trình bày về mô hình mạng nơ-ron dựa trên cơ chế tập trung (attention-based neural networks) áp dụng vào việc dự đoán tác dụng phụ của thuốc sử dụng dữ liệu từ y văn. Kết quả thử nghiệm của khóa luận chỉ ra rằng mô hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mô hình CNN khi không sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1 trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử nghiệm. Quan sát kết quả cũng cho thấy cơ chế tập trung áp dụng hiệu quả hơn khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống.
4.1. Mô Hình ATT RNN ATT GRU ATT LSTM So Sánh Với CNN
Luận văn này trình bày nghiên cứu mạng nơ ron với cơ chế tập trung cho nhiệm vụ trích xuất tác dụng phụ của thuốc và chứng minh tính hiệu quả của cơ chế tập trung trong việc lựa chọn thông tin mức độ quan trọng. Nhìn chung, mạng nơ ron sâu (DNN) đã được sử dụng rộng rãi trong các nhiệm vụ dự đoán, gán nhãn, trích xuất quan hệ với nhiều mô hình khác nhau. Ví dụ: Đề xuất mạng nơ-ron tích chập (CNN) sử dụng position embedding để trích xuất quan hệ [32], sử dụng mô hình bộ nhớ dài - ngắn (LSTM) cùng tính phụ thuộc và position embedding [29] đã cho thấy chiến lược học tập vượt trội hơn đáng kể so với các phương pháp mạng nơ-ron hồi quy (RNN) sử dụng các tính năng mở rộng bao gồm POS, NER và WordNet.
4.2. Đánh Giá Hiệu Quả Của Cơ Chế Tập Trung Attention Trên Các Mô Hình
Để xác thực tính hiệu quả của mô hình, luận văn thực hiện thử nghiệm trên tập dữ liệu của PubMed. Cơ chế tập trung [28], được đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mô hình và tăng cường khả năng diễn giải mô hình thông qua việc kết hợp thông tin tâp trung vào việc học sâu [16]. Ở đây, luận văn trình bày cách tiếp cận bằng cách sử dụng các mạng nơ ron dựa trên cơ chế tập trung (ATT-) và chứng minh sức mạnh của các mô hình ATT về hiệu suất bằng cách so sánh với các phương pháp học sâu khác và khả năng hiểu của chúng bằng cách phân tích trọng số tập trung ở cấp độ từ.
V. Ứng Dụng Thực Tế Phân Tích Dữ Liệu Dược Phẩm Y Sinh
Trong lĩnh vực y sinh, các nhiệm vụ trích xuất quan hệ khác nhau như tương tác protein-protein, tương tác thuốc - thuốc và tương tác bệnh - hóa học đã được nghiên cứu. Các phương pháp dựa trên học máy khác nhau bao gồm các phương pháp học máy có giám sát, phân cụm mẫu và mô hình khai phá chủ đề đã được sử dụng trước khi các mô hình học sâu trở nên chiếm ưu thế trong những tiến bộ gần đây. Bên cạnh các mô hình DNN thông thường, sự phụ thuộc và thông tin cấp độ ký tự đã được sử dụng để cải thiện, nâng cao hiệu quả của các mô hình. Gần đây, cơ chế tập trung trên các mô hình DNN đã cho thấy sự hứa hẹn trong các nhiệm vụ NLP khác nhau.
5.1. Các Bài Toán Trích Xuất Quan Hệ Trong Y Sinh Protein Thuốc Bệnh
Trong lĩnh vực y sinh, các nhiệm vụ trích xuất quan hệ khác nhau như tương tác protein-protein, tương tác thuốc - thuốc và tương tác bệnh - hóa học đã được nghiên cứu. Các phương pháp dựa trên học máy khác nhau bao gồm các phương pháp học máy có giám sát, phân cụm mẫu và mô hình khai phá chủ đề đã được sử dụng trước khi các mô hình học sâu trở nên chiếm ưu thế trong những tiến bộ gần đây. Bên cạnh các mô hình DNN thông thường, sự phụ thuộc và thông tin cấp độ ký tự đã được sử dụng để cải thiện, nâng cao hiệu quả của các mô hình.
5.2. Tiềm Năng Ứng Dụng Trong An Toàn Thuốc Phát Triển Dược Phẩm
Dự đoán ADRs hiệu quả là điều cần thiết để cải thiện chăm sóc sức khỏe bệnh nhân và thúc đẩy quá trình phát triển thuốc. Các kỹ thuật tính toán khác nhau đã được sử dụng trong thời gian gần đây để tìm hiểu cơ chế phản ứng của thuốc. Khi lĩnh vực tin sinh học đang phát triển nhanh chóng, người ta có thể thực hiện nhiều khám phá mới về thuốc mới. Dự đoán tác dụng phụ của thuốc là một bước tiến quan trọng, nhiều thú vị. Một số nghiên cứu gần đây [5], [21] tập trung vào ADR đề cập đến việc trích xuất trên văn bản y sinh. Nghiên cứu của tác giả được thực hiện trên kho ngữ liệu văn bản y sinh PubMed.
VI. Kết Luận Hướng Phát Triển Tương Lai Của Học Máy Y Học
Luận văn có bố cục gồm 3 chương chính: Chương 1: Tổng quan về tác dụng phụ của thuốc. Chương này giới thiệu tổng quan về tác dụng phụ của thuốc và hướng tiếp cận sử dụng phương pháp học máy. Chương 2: Cơ sở lý thuyết. Chương này đi sâu tìm hiểu về mô hình mạng nơ ron nhân tạo và mô hình mạng nơ-ron dựa trên cơ chế tập trung sẽ áp dụng trong khóa luận. Chương 3: Thực nghiệm Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung. Chương này sẽ trình bày việc áp dụng mô hình mạng nơ-ron dựa trên cơ chế tập trung áp dụng trong bài toán dự đoán tác dụng phụ của thuốc và các kết quả thực nghiệm. Cuối cùng là một số kết luận và hướng phát triển trong tương lai.
6.1. Tóm Tắt Kết Quả Nghiên Cứu Đóng Góp
Kết quả thử nghiệm của khóa luận chỉ ra rằng mô hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mô hình CNN khi không sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1 trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử nghiệm. Quan sát kết quả cũng cho thấy cơ chế tập trung áp dụng hiệu quả hơn khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống.
6.2. Hướng Nghiên Cứu Tương Lai Ứng Dụng Mở Rộng
Hướng phát triển tương lai có thể tập trung vào việc cải thiện khả năng xử lý ngôn ngữ không chính thức và từ OOV trong y văn, sử dụng các kỹ thuật biểu diễn từ ngữ tiên tiến hơn. Ngoài ra, việc kết hợp các nguồn dữ liệu khác nhau, chẳng hạn như cơ sở dữ liệu thuốc và thông tin bệnh nhân, có thể cải thiện độ chính xác của việc dự đoán tác dụng phụ.