Tổng quan nghiên cứu
Trong bối cảnh lượng dữ liệu văn bản y khoa phi cấu trúc ngày càng gia tăng, việc khai thác và xử lý thông tin từ các tài liệu này trở nên cấp thiết. Theo ước tính, mỗi năm có hàng triệu văn bản y tế được tạo ra từ bệnh viện, phòng khám và các phòng thí nghiệm y sinh, tuy nhiên phần lớn dữ liệu này chưa được tổ chức và phân tích hiệu quả. Bài toán trích rút quan hệ thực thể trong văn bản y khoa tiếng Việt nhằm xác định mối quan hệ giữa các khái niệm y học như bệnh lý, phương pháp điều trị và xét nghiệm, đóng vai trò quan trọng trong việc hỗ trợ chẩn đoán và điều trị bệnh nhân. Mục tiêu nghiên cứu là xây dựng bộ dữ liệu chú thích quan hệ thực thể cho văn bản y khoa tiếng Việt dựa trên chuẩn i2b2/VA 2010 và phát triển mô hình phân lớp quan hệ sử dụng mô hình ngôn ngữ tiên tiến PhoBERT. Nghiên cứu tập trung vào dữ liệu thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh trong giai đoạn gần đây, với tổng cộng 10.403 câu được gán nhãn, trong đó 7.926 câu dùng cho huấn luyện và 2.477 câu dùng để kiểm thử. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trích rút quan hệ thực thể, góp phần cải thiện các hệ thống hỗ trợ quyết định lâm sàng và khai thác tri thức y sinh học trong ngôn ngữ tiếng Việt.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình chính trong xử lý ngôn ngữ tự nhiên (NLP) và học máy, bao gồm:
- Trích rút quan hệ thực thể (Relation Extraction - RE): Xác định mối quan hệ giữa các thực thể y khoa đã được nhận dạng trong văn bản, như quan hệ giữa bệnh và phương pháp điều trị, hoặc bệnh và xét nghiệm.
- Mô hình BERT (Bidirectional Encoder Representations from Transformers): Sử dụng kiến trúc Transformer với cơ chế chú ý đa đầu (multi-head attention) để biểu diễn ngữ cảnh hai chiều của từ trong câu, giúp cải thiện hiệu quả các tác vụ NLP.
- PhoBERT: Phiên bản BERT được huấn luyện đặc thù cho ngôn ngữ tiếng Việt, hỗ trợ xử lý các đặc trưng ngôn ngữ và cú pháp riêng biệt của tiếng Việt.
- Phân loại quan hệ (Relation Classification - RC): Bài toán phân lớp các loại quan hệ giữa các thực thể dựa trên dữ liệu đã được gán nhãn, với 9 loại quan hệ chính được định nghĩa trong bộ dữ liệu y khoa tiếng Việt.
- Kỹ thuật xử lý dữ liệu và cân bằng dữ liệu: Áp dụng phương pháp Random Oversampling để xử lý sự mất cân bằng giữa các lớp quan hệ trong bộ dữ liệu.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu văn bản y khoa tiếng Việt được xây dựng dựa trên chuẩn i2b2/VA 2010, thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh. Bộ dữ liệu gồm 880 tệp văn bản, tương ứng 10.403 câu, trong đó 7.926 câu dùng cho huấn luyện và 2.477 câu dùng cho kiểm thử. Dữ liệu được gán nhãn thực thể và quan hệ bởi các chuyên gia y tế và sinh viên y khoa, sử dụng công cụ WebAnno để đảm bảo chất lượng chú thích.
Phương pháp phân tích sử dụng mô hình học sâu PhoBERT, được tinh chỉnh (fine-tuning) trên bộ dữ liệu đã gán nhãn. Các tham số huấn luyện được điều chỉnh gồm độ dài chuỗi tối đa (max_seq_length), tốc độ học (learning rate) và số epoch. Quá trình huấn luyện được thực hiện trên hai bộ dữ liệu: phân biệt chữ hoa thường và không phân biệt chữ hoa thường, nhằm đánh giá ảnh hưởng của việc chuẩn hóa văn bản đến hiệu quả mô hình. Ngoài ra, kỹ thuật Random Oversampling được áp dụng để cân bằng số lượng mẫu giữa các lớp quan hệ, giúp cải thiện độ chính xác của mô hình trên các lớp thiểu số.
Timeline nghiên cứu kéo dài trong năm 2023, bao gồm các giai đoạn thu thập và gán nhãn dữ liệu, xây dựng và tiền xử lý dữ liệu, huấn luyện mô hình, đánh giá kết quả và hoàn thiện luận văn.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả mô hình PhoBERT trên bộ dữ liệu không phân biệt chữ hoa thường: Mô hình PhoBERT-large huấn luyện với 30 epochs và learning rate 6e-5 đạt độ chính xác trung bình (F1-score) khoảng 85% trên bộ dữ liệu thử nghiệm không phân biệt chữ hoa thường, cao hơn đáng kể so với bộ dữ liệu phân biệt chữ hoa thường.
Ảnh hưởng của cân bằng dữ liệu: Sau khi áp dụng phương pháp Random Oversampling để cân bằng dữ liệu, F1-score của các lớp quan hệ thiểu số như TrNAP và TrWP được cải thiện rõ rệt, tăng từ dưới 50% lên trên 70%, góp phần nâng tổng thể hiệu suất mô hình.
Phân bố nhãn quan hệ: Các loại quan hệ phổ biến như TrAP (phương pháp điều trị được thực hiện cho vấn đề y tế) và PIP (vấn đề y tế chỉ ra vấn đề y tế khác) chiếm tỷ lệ lớn trong bộ dữ liệu huấn luyện, với số lượng mẫu lần lượt chiếm khoảng 30% và 25%, tương ứng với kết quả F1-score trên 80%.
So sánh các phiên bản PhoBERT: PhoBERT-large cho kết quả tốt hơn PhoBERT-base với cùng bộ tham số huấn luyện, thể hiện qua F1-score trung bình cao hơn khoảng 3-5%, tuy nhiên yêu cầu tài nguyên tính toán cũng lớn hơn.
Thảo luận kết quả
Kết quả cho thấy việc chuẩn hóa văn bản bằng cách không phân biệt chữ hoa thường giúp mô hình học sâu tập trung vào nội dung ngữ nghĩa thay vì bị phân tán bởi các biến thể hình thức của từ, từ đó nâng cao hiệu quả phân loại quan hệ. Việc cân bằng dữ liệu bằng Random Oversampling là cần thiết do sự mất cân bằng nghiêm trọng giữa các lớp quan hệ, đặc biệt các lớp ít xuất hiện trước đây thường bị mô hình bỏ qua hoặc phân loại sai.
So với các nghiên cứu trước đây sử dụng mô hình BERT cho trích rút quan hệ lâm sàng trên tiếng Anh, kết quả đạt được trên tiếng Việt với PhoBERT là tương đương, chứng tỏ tính khả thi và hiệu quả của mô hình trong ngôn ngữ có cấu trúc phức tạp như tiếng Việt. Biểu đồ phân bố số lượng các loại quan hệ và F1-score từng lớp được trình bày rõ ràng trong luận văn, giúp minh họa trực quan sự cải thiện sau khi áp dụng các kỹ thuật xử lý dữ liệu.
Ngoài ra, việc sử dụng mô hình PhoBERT-large với kiến trúc Transformer sâu và cơ chế chú ý đa đầu giúp mô hình hiểu được ngữ cảnh hai chiều và các mối quan hệ phức tạp giữa các thực thể y khoa trong câu, từ đó nâng cao độ chính xác phân loại.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu chú thích: Tiếp tục thu thập và gán nhãn thêm các văn bản y khoa tiếng Việt từ nhiều nguồn khác nhau nhằm tăng tính đa dạng và độ bao phủ của bộ dữ liệu, giúp mô hình học sâu có khả năng tổng quát hóa tốt hơn. Mục tiêu đạt khoảng 20.000 câu chú thích trong vòng 2 năm tới.
Áp dụng kỹ thuật học bán giám sát: Sử dụng các phương pháp học bán giám sát hoặc tự học (self-training) để tận dụng các dữ liệu chưa được gán nhãn, giảm chi phí gán nhãn thủ công và cải thiện hiệu suất mô hình trên các lớp quan hệ ít dữ liệu.
Tối ưu hóa mô hình và tài nguyên tính toán: Nghiên cứu áp dụng các kỹ thuật giảm kích thước mô hình như pruning, quantization hoặc sử dụng các biến thể nhẹ hơn của PhoBERT để triển khai trên các hệ thống có tài nguyên hạn chế, đảm bảo khả năng ứng dụng thực tế.
Phát triển hệ thống hỗ trợ quyết định lâm sàng: Tích hợp mô hình trích rút quan hệ thực thể vào các hệ thống hỗ trợ quyết định y tế nhằm tự động hóa việc phân tích hồ sơ bệnh án, đề xuất phác đồ điều trị và cảnh báo tương tác thuốc, hướng tới cải thiện chất lượng chăm sóc sức khỏe.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở dữ liệu và mô hình tiên tiến cho bài toán trích rút quan hệ thực thể tiếng Việt, hỗ trợ phát triển các ứng dụng NLP chuyên sâu.
Chuyên gia y tế và nhà quản lý y tế: Kết quả nghiên cứu giúp hiểu rõ hơn về cách tự động hóa khai thác thông tin y khoa từ văn bản, hỗ trợ ra quyết định lâm sàng và quản lý hồ sơ bệnh án điện tử.
Sinh viên và học viên cao học ngành khoa học dữ liệu và trí tuệ nhân tạo: Tài liệu chi tiết về quy trình xây dựng dữ liệu, phương pháp học máy và đánh giá mô hình là nguồn tham khảo quý giá cho các đề tài nghiên cứu tương tự.
Doanh nghiệp công nghệ y tế: Các công ty phát triển phần mềm y tế có thể ứng dụng mô hình và dữ liệu trong việc xây dựng các sản phẩm hỗ trợ phân tích văn bản y khoa, nâng cao hiệu quả và độ chính xác của hệ thống.
Câu hỏi thường gặp
Bộ dữ liệu y khoa tiếng Việt được xây dựng như thế nào?
Bộ dữ liệu được thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh, gồm 880 tệp văn bản với hơn 10.000 câu, được gán nhãn thực thể và quan hệ bởi các chuyên gia y tế và sinh viên y khoa sử dụng công cụ WebAnno.Tại sao lại sử dụng mô hình PhoBERT cho bài toán này?
PhoBERT là mô hình BERT được huấn luyện đặc thù cho tiếng Việt, giúp hiểu ngữ cảnh và cấu trúc ngôn ngữ tiếng Việt tốt hơn, từ đó nâng cao hiệu quả trích rút quan hệ thực thể so với các mô hình đa ngôn ngữ hoặc không chuyên biệt.Làm thế nào để xử lý sự mất cân bằng dữ liệu trong bộ dữ liệu?
Nghiên cứu áp dụng phương pháp Random Oversampling để nhân bản các mẫu thuộc lớp thiểu số, giúp cân bằng số lượng mẫu giữa các lớp và cải thiện độ chính xác phân loại cho các lớp ít dữ liệu.Kết quả mô hình đạt được có thể ứng dụng thực tế không?
Với độ chính xác trung bình khoảng 85% và cải thiện rõ rệt sau cân bằng dữ liệu, mô hình có tiềm năng ứng dụng trong các hệ thống hỗ trợ quyết định lâm sàng và khai thác tri thức y sinh học tiếng Việt.Có thể mở rộng nghiên cứu này cho các ngôn ngữ khác không?
Phương pháp và mô hình có thể được điều chỉnh và áp dụng cho các ngôn ngữ khác, tuy nhiên cần xây dựng bộ dữ liệu chú thích tương ứng và tinh chỉnh mô hình phù hợp với đặc trưng ngôn ngữ đó.
Kết luận
- Luận văn đã xây dựng thành công bộ dữ liệu trích rút quan hệ thực thể y khoa tiếng Việt với hơn 10.000 câu được gán nhãn chính xác.
- Mô hình PhoBERT-large được tinh chỉnh trên bộ dữ liệu này đạt độ chính xác trung bình F1-score khoảng 85%, thể hiện hiệu quả cao trong bài toán phân loại quan hệ.
- Việc xử lý mất cân bằng dữ liệu bằng Random Oversampling giúp cải thiện đáng kể hiệu suất trên các lớp quan hệ ít dữ liệu.
- Nghiên cứu góp phần quan trọng vào lĩnh vực xử lý ngôn ngữ tự nhiên y sinh tiếng Việt, mở ra hướng phát triển các ứng dụng hỗ trợ y tế thông minh.
- Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng học bán giám sát và phát triển hệ thống ứng dụng thực tế nhằm nâng cao chất lượng chăm sóc sức khỏe.
Để tiếp tục phát triển nghiên cứu, các nhà khoa học và chuyên gia y tế được khuyến khích hợp tác mở rộng dữ liệu và ứng dụng mô hình trong thực tiễn, góp phần thúc đẩy chuyển đổi số trong ngành y tế Việt Nam.