I. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh
Học máy (Machine Learning: ML) đã trở thành công cụ quan trọng trong việc phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Sự phát triển gần đây của học sâu đã nâng cao khả năng của ML. Các thuật toán ML hiện nay được áp dụng rộng rãi trong nhiều lĩnh vực như khoa học máy tính, khoa học tự nhiên, kỹ thuật và khoa học xã hội. Tuy nhiên, mô hình ML truyền thống có những hạn chế. Chúng không lưu giữ kiến thức đã học và không thể áp dụng cho các nhiệm vụ mới mà không cần huấn luyện lại từ đầu. Điều này dẫn đến việc cần thiết phải phát triển các mô hình học máy suốt đời (Lifelong Learning: LL) và học máy thế giới mở (Open World Learning: OWL). Mô hình OWL cho phép phát hiện các lớp chưa thấy trong quá trình huấn luyện, từ đó cập nhật mô hình mà không cần huấn luyện lại toàn bộ. Bài toán chuẩn hóa tên thực thể bệnh trong văn bản y sinh là một ví dụ điển hình cho việc áp dụng học máy thế giới mở. Việc này không chỉ giúp nhận diện các thực thể mới mà còn hỗ trợ trong việc phân loại và chuẩn hóa thông tin y tế.
1.1. Học máy truyền thống
Mô hình học máy truyền thống thường hoạt động trên tập dữ liệu đã cho để tạo ra mô hình. Tuy nhiên, mô hình này không xem xét thông tin liên quan nào khác và không tích lũy kiến thức từ quá khứ. Điều này dẫn đến việc mô hình không thể áp dụng cho các nhiệm vụ mới mà không cần huấn luyện lại từ đầu. Hơn nữa, trong môi trường mở, nơi mà dữ liệu và nhiệm vụ liên tục thay đổi, mô hình truyền thống không thể đáp ứng được yêu cầu. Việc gán nhãn dữ liệu huấn luyện thường tốn nhiều thời gian và công sức, và không thể thực hiện liên tục. Do đó, việc phát triển các mô hình học máy có khả năng học suốt đời và học máy thế giới mở là cần thiết để giải quyết những vấn đề này.
1.2. Học máy suốt đời
Học máy suốt đời (Lifelong Learning: LL) là một hướng nghiên cứu mới nhằm bắt chước khả năng học tập của con người. Con người có khả năng tích lũy và vận dụng kiến thức đã học để giải quyết các vấn đề mới. LL cho phép các hệ thống học máy không chỉ học từ dữ liệu hiện tại mà còn lưu giữ kiến thức từ quá khứ để áp dụng cho các nhiệm vụ mới. Điều này rất quan trọng trong các ứng dụng thực tế, nơi mà dữ liệu và nhiệm vụ thường xuyên thay đổi. LL giúp cải thiện khả năng của hệ thống trong việc tương tác với con người và các hệ thống khác, từ đó nâng cao hiệu suất và độ chính xác của các mô hình học máy.
II. Mô hình phân lớp văn bản thế giới mở
Mô hình phân lớp văn bản thế giới mở (Open World Classification) là một phương pháp mới trong học máy, cho phép phát hiện và phân loại các lớp chưa thấy trong quá trình huấn luyện. Mô hình này có khả năng cập nhật và điều chỉnh mà không cần phải huấn luyện lại toàn bộ từ đầu. Điều này rất quan trọng trong các lĩnh vực như y sinh, nơi mà các tên bệnh mới có thể xuất hiện thường xuyên. Mô hình phân lớp văn bản thế giới mở sử dụng các kỹ thuật học sâu để cải thiện khả năng nhận diện và phân loại các thực thể mới. Việc áp dụng mô hình này trong chuẩn hóa tên thực thể bệnh giúp nâng cao độ chính xác và hiệu quả trong việc xử lý thông tin y tế.
2.1. Kỹ thuật học sâu
Kỹ thuật học sâu (Deep Learning) đã trở thành một phần quan trọng trong học máy hiện đại. Các mạng nơ ron tích chập (Convolutional Neural Networks: CNN) được sử dụng để xử lý và phân tích dữ liệu văn bản. Mô hình học sâu cho phép hệ thống học từ dữ liệu lớn và phát hiện các mẫu phức tạp trong dữ liệu. Việc áp dụng học sâu trong mô hình phân lớp văn bản thế giới mở giúp cải thiện khả năng nhận diện các thực thể mới và nâng cao hiệu suất của mô hình. Hơn nữa, việc sử dụng các kỹ thuật học sâu còn giúp giảm thiểu rủi ro trong việc phân loại và chuẩn hóa thông tin.
2.2. Ứng dụng trong y sinh
Trong lĩnh vực y sinh, việc chuẩn hóa tên thực thể bệnh là một nhiệm vụ quan trọng. Mô hình phân lớp văn bản thế giới mở có thể được áp dụng để nhận diện và chuẩn hóa các tên bệnh mới xuất hiện trong văn bản y tế. Việc này không chỉ giúp cải thiện độ chính xác trong việc xử lý thông tin y tế mà còn hỗ trợ trong việc phát hiện các mối quan hệ giữa các thực thể y sinh. Các kết quả thực nghiệm cho thấy mô hình này có thể đạt được độ đo F1 lên đến 80%, cho thấy hiệu quả vượt trội so với các phương pháp truyền thống.