## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo và học máy, việc phân tích dữ liệu văn bản y sinh trở thành một lĩnh vực nghiên cứu quan trọng và cấp thiết. Theo báo cáo của ngành, số lượng tài liệu y sinh được xuất bản hàng năm tăng lên đến hàng chục nghìn bài báo, tạo ra một khối lượng dữ liệu phi cấu trúc khổng lồ cần được xử lý hiệu quả. Vấn đề chính đặt ra là làm thế nào để tự động hóa việc trích xuất tri thức từ văn bản, đặc biệt là chuẩn hóa tên thực thể y sinh như tên bệnh, nhằm hỗ trợ các nghiên cứu y học và ứng dụng lâm sàng.

Mục tiêu của luận văn là phát triển một mô hình học máy thế giới mở dựa trên kỹ thuật học sâu, có khả năng nhận diện và chuẩn hóa các tên thực thể bệnh mới chưa từng xuất hiện trong dữ liệu huấn luyện. Phạm vi nghiên cứu tập trung vào lĩnh vực y sinh, sử dụng bộ dữ liệu chuẩn NCBI disease với hơn 5.000 đoạn văn bản huấn luyện và 960 đoạn kiểm thử, trong đó có khoảng 30% mã định danh bệnh trong tập kiểm thử không xuất hiện trong tập huấn luyện. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác chuẩn hóa tên bệnh, với chỉ số F1 đạt tới 80%, góp phần giảm thiểu chi phí và thời gian nghiên cứu y sinh, đồng thời mở rộng khả năng ứng dụng của học máy trong môi trường mở và biến động.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học máy suốt đời (Lifelong Machine Learning - LL):** Là quá trình học liên tục, tích lũy và sử dụng tri thức từ các nhiệm vụ trước để giải quyết các nhiệm vụ mới, giúp mô hình thích nghi với môi trường mở và biến động.
- **Học máy thế giới mở (Open World Machine Learning):** Mô hình không giả định thế giới đóng, có khả năng phát hiện và học thêm các lớp mới chưa từng xuất hiện trong dữ liệu huấn luyện.
- **Mô hình phân lớp mở sâu (Deep Open Classification - DOC):** Sử dụng mạng nơ ron tích chập (CNN) với tầng sigmoid 1-vs-rest thay cho softmax truyền thống, giúp giảm rủi ro không gian mở và tăng khả năng phát hiện lớp mới.
- **Chuẩn hóa tên thực thể y sinh (Named Entity Normalization - NEN):** Quá trình liên kết các tên thực thể bệnh trong văn bản với các định danh chuẩn trong bộ từ vựng y sinh như MEDIC, giải quyết các vấn đề về nhập nhằng và đa dạng tên gọi.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Bộ dữ liệu chuẩn NCBI disease gồm 593 bài báo huấn luyện, 100 bài phát triển và 100 bài kiểm thử, với tổng số 6.892 tên bệnh khác nhau.
- **Phương pháp phân tích:** Áp dụng mô hình DOC dựa trên CNN, kết hợp với bộ phân giải viết tắt Ab3P để xử lý các tên viết tắt trong văn bản. Mô hình được huấn luyện sử dụng vector nhúng từ 6 triệu từ trên cơ sở dữ liệu PubMed và PMC.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong khoảng thời gian từ năm 2016 đến 2019, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.
- **Cỡ mẫu và chọn mẫu:** Sử dụng toàn bộ bộ dữ liệu chuẩn NCBI disease để đảm bảo tính đại diện và độ tin cậy của kết quả. Phương pháp chọn mẫu dựa trên phân chia chuẩn train/dev/test theo bộ dữ liệu gốc.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình DOC đạt độ đo F1 trung bình 80.2% trên bộ dữ liệu kiểm thử, vượt trội so với phương pháp khớp từ điển truyền thống chỉ đạt 66.1%.
- Khoảng 30% mã định danh bệnh trong tập kiểm thử là mới, chưa xuất hiện trong tập huấn luyện, mô hình vẫn có khả năng nhận diện và phân loại chính xác các tên bệnh này.
- Việc điều chỉnh ngưỡng sigmoid trong mô hình giúp giảm rủi ro không gian mở, duy trì hiệu suất ổn định với F1 khoảng 78-80%.
- So sánh với các mô hình tiên tiến khác sử dụng BiLSTM, mô hình luận văn có hiệu quả cạnh tranh, mặc dù chưa tích hợp các kỹ thuật biểu diễn ngôn ngữ phức tạp hơn.

### Thảo luận kết quả

Kết quả cho thấy mô hình học máy thế giới mở dựa trên học sâu có khả năng xử lý hiệu quả bài toán chuẩn hóa tên thực thể bệnh trong môi trường dữ liệu y sinh luôn biến động và xuất hiện nhiều tên mới. Việc sử dụng tầng sigmoid 1-vs-rest thay cho softmax truyền thống giúp mô hình phát hiện các lớp chưa biết, giảm thiểu sai phân loại. So với các nghiên cứu trước đây, mô hình này không yêu cầu dữ liệu ví dụ cho các lớp mới, phù hợp với đặc thù của lĩnh vực y sinh.

Các số liệu có thể được trình bày qua biểu đồ so sánh độ đo F1 giữa các mô hình, bảng thống kê tỷ lệ nhận diện tên bệnh mới và biểu đồ phân phối các tên đồng nghĩa trong bộ từ vựng MEDIC. Kết quả này khẳng định tính khả thi và hiệu quả của phương pháp học máy thế giới mở trong việc trích xuất tri thức tự động từ văn bản y sinh.

## Đề xuất và khuyến nghị

- **Phát triển mô hình tích hợp BiLSTM:** Kết hợp mạng nơ ron hồi tiếp hai chiều để nâng cao khả năng biểu diễn ngữ cảnh, hướng tới tăng chỉ số F1 trên 85% trong vòng 1-2 năm tới.
- **Mở rộng bộ từ vựng MEDIC:** Cập nhật và tích hợp thêm các tên bệnh mới từ các nguồn dữ liệu y sinh đa dạng, nhằm tăng độ bao phủ và chính xác của mô hình, thực hiện định kỳ hàng năm.
- **Triển khai hệ thống tự động phát hiện và học tên mới:** Xây dựng công cụ tự động phát hiện các tên thực thể mới trong văn bản y sinh và cập nhật mô hình theo thời gian thực, giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn thủ công.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho các nhà nghiên cứu và chuyên gia y sinh về ứng dụng học máy thế giới mở, thúc đẩy ứng dụng rộng rãi trong nghiên cứu và thực tiễn lâm sàng trong vòng 3 năm tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu học máy và trí tuệ nhân tạo:** Nắm bắt các kỹ thuật học máy thế giới mở và ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên, đặc biệt trong lĩnh vực y sinh.
- **Chuyên gia y sinh và dược học:** Áp dụng mô hình chuẩn hóa tên thực thể để hỗ trợ khai thác tri thức từ văn bản y sinh, phục vụ nghiên cứu và phát triển thuốc.
- **Nhà phát triển phần mềm và hệ thống thông tin:** Phát triển các hệ thống trích xuất thông tin tự động, tích hợp mô hình học máy thế giới mở để nâng cao hiệu quả xử lý dữ liệu.
- **Sinh viên và học viên cao học:** Tham khảo phương pháp nghiên cứu, thiết kế mô hình và thực nghiệm trong lĩnh vực học máy ứng dụng, đặc biệt là học máy suốt đời và học thế giới mở.

## Câu hỏi thường gặp

1. **Học máy thế giới mở khác gì so với học máy truyền thống?**  
Học máy thế giới mở không giả định rằng tất cả các lớp dữ liệu đã biết trong quá trình huấn luyện, có khả năng phát hiện và học thêm các lớp mới khi dữ liệu mới xuất hiện, trong khi học máy truyền thống giả định thế giới đóng.

2. **Mô hình DOC có ưu điểm gì trong chuẩn hóa tên thực thể?**  
DOC sử dụng tầng sigmoid 1-vs-rest giúp giảm rủi ro không gian mở, cho phép mô hình phát hiện các tên thực thể mới chưa xuất hiện trong dữ liệu huấn luyện mà không cần dữ liệu ví dụ cho lớp mới.

3. **Bộ dữ liệu NCBI disease có đặc điểm gì nổi bật?**  
Bộ dữ liệu gồm 593 bài báo huấn luyện, 100 bài phát triển và 100 bài kiểm thử, với tổng số hơn 6.000 tên bệnh, trong đó khoảng 30% mã định danh bệnh trong tập kiểm thử là mới, chưa xuất hiện trong tập huấn luyện.

4. **Làm thế nào để xử lý các tên viết tắt trong văn bản y sinh?**  
Sử dụng công cụ Ab3P để phân giải các từ viết tắt thành tên đầy đủ kèm xác suất, giúp mô hình chuẩn hóa tên thực thể chính xác hơn.

5. **Mô hình có thể áp dụng cho các lĩnh vực khác ngoài y sinh không?**  
Có, mô hình học máy thế giới mở và kỹ thuật học sâu có thể được điều chỉnh và áp dụng cho các lĩnh vực khác có dữ liệu phi cấu trúc và yêu cầu phát hiện lớp mới như truyền thông xã hội, an ninh mạng, và thương mại điện tử.

## Kết luận

- Luận văn đã phát triển thành công mô hình học máy thế giới mở dựa trên học sâu, ứng dụng hiệu quả trong chuẩn hóa tên thực thể bệnh trong văn bản y sinh.  
- Mô hình đạt độ đo F1 trung bình 80.2%, vượt trội so với các phương pháp truyền thống và có khả năng nhận diện tên bệnh mới chưa từng xuất hiện.  
- Nghiên cứu góp phần nâng cao khả năng trích xuất tri thức tự động, giảm chi phí và thời gian nghiên cứu trong lĩnh vực y sinh.  
- Đề xuất mở rộng và tích hợp các kỹ thuật học sâu tiên tiến hơn để nâng cao hiệu quả mô hình trong tương lai.  
- Khuyến khích triển khai ứng dụng mô hình trong các hệ thống khai thác tri thức y sinh và đào tạo chuyên gia trong lĩnh vực học máy và y sinh.

**Hành động tiếp theo:** Tiếp tục nghiên cứu tích hợp BiLSTM, mở rộng bộ từ vựng và phát triển hệ thống tự động cập nhật mô hình để nâng cao hiệu quả và tính ứng dụng thực tiễn của mô hình.