NGHIÊN CỨU XÂY DỰNG DỮ LIỆU VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

Trường đại học

Trường Đại Học Khoa Học Tự Nhiên

Chuyên ngành

Khoa Học Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: BÀI TOÁN TRÍCH RÚT QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA

1.1. Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa

1.2. Giới thiệu về bộ dữ liệu i2b2/VA 2010

1.3. Khó khăn và thách thức

1.4. Cơ sở dữ liệu nghiên cứu của luận văn

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH RÚT QUAN HỆ THỰC THỂ Y KHOA

2.1. Các phương pháp phân loại quan hệ thực thể RE

2.1.1. Các phương pháp dựa trên quy tắc

2.1.2. Các phương pháp học có giám sát

2.1.3. Các phương pháp học phi giám sát

2.1.4. Các phương pháp dựa trên mô hình huấn luyện trước

2.2. Giới thiệu mô hình BERT

2.3. Các mô hình BERT cho trích rút quan hệ lâm sàng

2.4. BERT cho ngôn ngữ tiếng Việt

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Xây dựng dữ liệu

3.2. Kết quả thực nghiệm

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Kết luận chung

4.2. Hướng phát triển trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Phân Lớp Quan Hệ Thực Thể Y Khoa

Trong kỷ nguyên số, lượng văn bản được tạo ra hàng ngày tăng vọt, đặc biệt trong lĩnh vực chăm sóc sức khỏe. Các bài báo, tài liệu khoa học, và phương tiện truyền thông xã hội đều chứa đựng thông tin giá trị. Dữ liệu y tế phi cấu trúc từ bệnh viện, phòng khám, và phòng thí nghiệm tồn tại dưới nhiều dạng, đòi hỏi các phương pháp khai thác và xử lý hiệu quả. Nghiên cứu này tập trung vào việc phát triển hệ thống tự động trích rút mối quan hệ (RE) giữa các khái niệm y khoa trong tạp chí y học tiếng Việt. Trích rút quan hệ thực thể đóng vai trò quan trọng trong phát hiện, điều trị, và theo dõi bệnh nhân. Xử lý ngôn ngữ tự nhiên (NLP) y khoa giúp các nhà khoa học hiểu sâu hơn dữ liệu từ các văn bản y khoa quy mô lớn. Nhiều nghiên cứu chứng minh trích rút quan hệ lâm sàng là bước trung gian quan trọng trong các ứng dụng NLP y sinh học, như nhận dạng phản ứng có hại của thuốc, hệ thống hỏi đáp, và hỗ trợ quyết định lâm sàng. Ví dụ: "Paracetamol làm giảm cơn sốt hiệu quả", trong đó mối quan hệ là phương pháp điều trị - phục hồi vấn đề y tế.

1.1. Giới Thiệu Bài Toán Trích Rút Quan Hệ Thực Thể Y Khoa

Bài toán trích rút quan hệ thực thể (RE) là quá trình xác định mối quan hệ giữa hai hoặc nhiều thực thể trong một văn bản. Mục tiêu của RE là chuyển đổi thông tin phi cấu trúc trong văn bản thành thông tin có cấu trúc, dễ dàng truy cập và xử lý. Trong lĩnh vực y khoa, RE đặc biệt quan trọng vì nó cho phép chúng ta khám phá các mối liên kết giữa các khái niệm y học, như thuốc, bệnh, triệu chứng và phương pháp điều trị. Việc xác định các mối quan hệ này có thể giúp các chuyên gia y tế đưa ra các quyết định lâm sàng tốt hơn, phát triển các phương pháp điều trị hiệu quả hơn và cải thiện sức khỏe của bệnh nhân. Ví dụ, việc xác định mối quan hệ giữa một loại thuốc và một bệnh có thể giúp các bác sĩ cảnh giác hơn về các tác dụng phụ tiềm ẩn của thuốc đó.

1.2. Tầm Quan Trọng của NLP trong Trích Rút Thông Tin Y Khoa

Xử lý ngôn ngữ tự nhiên (NLP) y khoa đóng vai trò then chốt trong việc khai thác và trích xuất thông tin từ văn bản y khoa. NLP cho phép máy tính hiểu và xử lý ngôn ngữ tự nhiên, từ đó giúp tự động hóa các tác vụ như nhận dạng thực thể, phân loại quan hệ và trích xuất thông tin quan trọng. Sử dụng NLP, chúng ta có thể xử lý lượng lớn dữ liệu văn bản y khoa một cách nhanh chóng và hiệu quả, giúp các nhà nghiên cứu và chuyên gia y tế tiết kiệm thời gian và công sức. Hơn nữa, NLP có thể giúp phát hiện ra các mối liên kết và xu hướng tiềm ẩn trong dữ liệu mà con người khó có thể nhận ra một cách thủ công. Ví dụ, NLP có thể được sử dụng để phân tích các hồ sơ bệnh án điện tử và xác định các yếu tố nguy cơ tiềm ẩn cho một bệnh cụ thể.

II. Thách Thức Phân Lớp Quan Hệ Thực Thể Y Khoa Tiếng Việt

Bài toán trích rút mối quan hệ giữa các thực thể là một bài toán cơ bản, tuy nhiên cũng gặp không ít những thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ. Để thực hiện bài toán trích rút quan hệ ta cần phải giải quyết 2 vấn đề lớn là nhận dạng thực thể (NER) và phân loại mối quan hệ (Relation Classification - RC). Thiếu dữ liệu huấn luyện cũng là một vấn đề khó khăn thường xảy ra đối với các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là dữ liệu về lĩnh vực y sinh học còn khá ít. Việc gán nhãn dữ liệu sẽ tốn nhiều thời gian và tiền bạc vì nó đòi hỏi các chuyên gia đặc biệt có kiến thức về y sinh học. Khai phá văn bản y sinh nói chung và trích rút quan hệ giữa các thực thể trong văn bản y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu cho dữ liệu thông thường. Mục tiêu nghiên cứu cụ thể của các hệ thống khai phá văn bản y sinh khác với các mối quan hệ giữa các thực thể kinh điển.

2.1. Khó Khăn trong Nhận Dạng Thực Thể và Phân Loại Quan Hệ

Việc nhận dạng thực thể có tên (NER) y khoa và phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt gặp nhiều thách thức do tính chất phức tạp của ngôn ngữ y khoa. Các thuật ngữ y khoa thường dài, có nhiều biến thể và viết tắt, gây khó khăn cho việc nhận dạng chính xác. Ngoài ra, một số thuật ngữ có thể mang nhiều ý nghĩa khác nhau tùy thuộc vào ngữ cảnh, làm cho việc phân loại quan hệ trở nên phức tạp hơn. Ví dụ, từ “ung thư” có thể đề cập đến nhiều loại ung thư khác nhau, và mối quan hệ giữa “ung thư” và các thực thể khác (như thuốc điều trị) có thể khác nhau tùy thuộc vào loại ung thư cụ thể. Để giải quyết những khó khăn này, cần có các phương pháp NER và phân loại quan hệ chuyên biệt, có khả năng xử lý sự phức tạp và đa dạng của ngôn ngữ y khoa.

2.2. Vấn Đề Thiếu Hụt Dữ Liệu Huấn Luyện Tiếng Việt Y Khoa

Một trong những thách thức lớn nhất trong việc xây dựng mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt là sự thiếu hụt dữ liệu huấn luyện. So với các ngôn ngữ phổ biến như tiếng Anh, nguồn dữ liệu y khoa tiếng Việt được gán nhãn còn hạn chế. Điều này gây khó khăn cho việc huấn luyện các mô hình học máy (Machine Learning) có độ chính xác cao. Để khắc phục vấn đề này, cần có các nỗ lực để thu thập và gán nhãn dữ liệu y khoa tiếng Việt, hoặc sử dụng các kỹ thuật như transfer learning để tận dụng kiến thức từ các ngôn ngữ khác. Ngoài ra, việc phát triển các phương pháp học bán giám sát và học không giám sát cũng có thể giúp giảm sự phụ thuộc vào dữ liệu gán nhãn.

III. Xây Dựng Bộ Dữ Liệu cho Phân Lớp Quan Hệ Thực Thể Y Khoa

Trong lĩnh vực y khoa, để xây dựng kho dữ liệu được chú thích không chỉ tốn nhiều chi phí cả về sức người và sức của, mà còn thường không có sẵn và gặp nhiều khó khăn do các yêu cầu về quyền riêng tư và bảo mật của bệnh nhân. Việc tiến hành gán nhãn quan hệ trên các văn bản tạp chí y khoa tiếng Việt dưới sự trợ giúp của các chuyên gia y tế. Bộ dữ liệu được xây dựng tập nhãn của bộ dữ liệu i2b2/VA 2010 dùng cho cuộc thi về nhận dạng khái niệm y tế và phân lớp quan hệ cho các hồ sơ lâm sàng trong văn bản tiếng Anh.

3.1. Sử Dụng Bộ Dữ Liệu i2b2 VA 2010 làm Nền Tảng

Bộ dữ liệu i2b2/VA 2010 là một nguồn tài nguyên quý giá cho việc phát triển các mô hình phân lớp quan hệ thực thể. Bộ dữ liệu này chứa các báo cáo lâm sàng được gán nhãn với các thực thể y khoa và mối quan hệ giữa chúng. Các loại thực thể bao gồm vấn đề y tế, phương pháp điều trị và xét nghiệm. Các loại quan hệ bao gồm điều trị phục hồi vấn đề y tế, xét nghiệm cho thấy vấn đề y tế và vấn đề y tế gây ra vấn đề y tế. Việc sử dụng bộ dữ liệu i2b2/VA 2010 làm nền tảng giúp tận dụng các kết quả nghiên cứu đã có và so sánh hiệu quả của các phương pháp khác nhau. Tuy nhiên, cần lưu ý rằng bộ dữ liệu i2b2/VA 2010 được viết bằng tiếng Anh, do đó cần có các bước chuyển đổi hoặc thích ứng để sử dụng cho văn bản y khoa tiếng Việt.

3.2. Quy Trình Gán Nhãn Dữ Liệu Tiếng Việt với Chuyên Gia Y Tế

Việc gán nhãn dữ liệu y khoa tiếng Việt đòi hỏi sự tham gia của các chuyên gia y tế để đảm bảo tính chính xác và nhất quán. Quy trình gán nhãn bao gồm các bước sau: (1) Xác định các loại thực thể và quan hệ quan trọng cho bài toán. (2) Xây dựng hướng dẫn gán nhãn chi tiết, bao gồm định nghĩa của từng loại thực thể và quan hệ, cũng như các ví dụ minh họa. (3) Tuyển dụng và đào tạo các chuyên gia y tế về quy trình gán nhãn và hướng dẫn. (4) Gán nhãn dữ liệu bởi các chuyên gia y tế. (5) Kiểm tra và đánh giá chất lượng dữ liệu gán nhãn, và thực hiện các điều chỉnh khi cần thiết. Việc kiểm tra chéo giữa các chuyên gia y tế cũng giúp đảm bảo tính khách quan và giảm thiểu sai sót.

IV. Mô Hình PhoBERT cho Phân Lớp Quan Hệ Thực Thể Tiếng Việt

Sau khi khảo sát các bài báo về kết quả nghiên cứu của bài toán RE, học viên quyết định sử dụng mô hình PhoBERT để tiến hành thử nghiệm trên bộ dữ liệu tiếng Việt. Học viên đã tiến hành gán nhãn quan hệ trên các văn bản tạp chí y khoa tiếng Việt dưới sự trợ giúp của các chuyên gia y tế. Ngoài ra, cùng với sự giúp đỡ của giảng viên hướng dẫn học viên đã tiến hành thử nghiệm dữ liệu sau khi xây dựng được với mô hình PhoBERT và đã thu được một số kết quả tương đối khả quan với độ chính xác trung bình lên đến 85%.

4.1. Giới Thiệu về Mô Hình PhoBERT và Ưu Điểm

PhoBERT là một mô hình ngôn ngữ dựa trên Transformer được huấn luyện trước trên một lượng lớn dữ liệu văn bản tiếng Việt. Mô hình này có khả năng hiểu và sinh ngôn ngữ tự nhiên tiếng Việt một cách hiệu quả. PhoBERT có nhiều ưu điểm so với các mô hình ngôn ngữ truyền thống, bao gồm khả năng xử lý các câu dài, hiểu ngữ cảnh phức tạp và học được các biểu diễn ngữ nghĩa phong phú. Đặc biệt, khả năng deep learning trong NLP y khoa của PhoBERT rất phù hợp để ứng dụng cho các bài toán phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt. Việc sử dụng PhoBERT có thể cải thiện đáng kể độ chính xác và hiệu quả của các hệ thống trích xuất thông tin y khoa.

4.2. Thực Nghiệm và Đánh Giá Hiệu Suất Mô Hình PhoBERT

Để đánh giá hiệu suất của mô hình PhoBERT trong bài toán phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt, cần thực hiện các thí nghiệm trên bộ dữ liệu đã được gán nhãn. Các thí nghiệm bao gồm huấn luyện mô hình PhoBERT trên dữ liệu huấn luyện, và đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra. Các chỉ số đánh giá hiệu suất thường được sử dụng bao gồm độ chính xác (accuracy), độ thu hồi (recall) và độ đo F1 (F1-score). Kết quả thực nghiệm cho thấy mô hình PhoBERT đạt được độ chính xác khá cao trên bộ dữ liệu thử nghiệm, cho thấy tiềm năng ứng dụng của mô hình này trong các hệ thống trích xuất thông tin y khoa thực tế.

V. Ứng Dụng Thực Tế và Triển Vọng của Phân Lớp Quan Hệ

Ứng dụng của phân lớp quan hệ thực thể trong y khoa là rất rộng lớn và đầy tiềm năng. Các mô hình này có thể được sử dụng để trích xuất thông tin quan trọng từ các hồ sơ bệnh án điện tử, báo cáo nghiên cứu y khoa, và các nguồn thông tin y tế khác. Thông tin được trích xuất có thể được sử dụng để cải thiện chất lượng chăm sóc bệnh nhân, hỗ trợ các nhà nghiên cứu trong việc khám phá các mối liên hệ giữa bệnh tật và phương pháp điều trị, và giúp các nhà quản lý y tế đưa ra các quyết định dựa trên dữ liệu.

5.1. Trích Xuất Thông Tin Tương Tác Thuốc và Phản Ứng Phụ

Một trong những ứng dụng quan trọng nhất của phân lớp quan hệ thực thể trong y khoa là trích xuất thông tin về tương tác thuốc và phản ứng phụ. Việc xác định các tương tác thuốc tiềm ẩn và các phản ứng phụ có thể giúp các bác sĩ tránh kê đơn các loại thuốc có thể gây hại cho bệnh nhân. Các mô hình phân lớp quan hệ thực thể có thể được sử dụng để tự động hóa quá trình này, giúp tiết kiệm thời gian và công sức cho các bác sĩ. Ví dụ, mô hình có thể xác định mối quan hệ "gây ra" giữa một loại thuốc và một triệu chứng, từ đó cảnh báo cho bác sĩ về khả năng xảy ra phản ứng phụ.

5.2. Hỗ Trợ Ra Quyết Định Lâm Sàng và Chẩn Đoán Bệnh

Các mô hình phân lớp quan hệ thực thể cũng có thể được sử dụng để hỗ trợ ra quyết định lâm sàng và chẩn đoán bệnh. Bằng cách trích xuất thông tin về mối quan hệ giữa các triệu chứng, bệnh tật và phương pháp điều trị, các mô hình này có thể giúp các bác sĩ đưa ra các quyết định chính xác hơn và nhanh chóng hơn. Các mô hình này cũng có thể được sử dụng để xây dựng các hệ thống khuyến nghị điều trị, giúp các bác sĩ lựa chọn phương pháp điều trị phù hợp nhất cho từng bệnh nhân. Ví dụ, mô hình có thể gợi ý các xét nghiệm cần thiết để chẩn đoán một bệnh cụ thể, hoặc đề xuất các loại thuốc có hiệu quả nhất trong điều trị một triệu chứng.

VI. Hướng Phát Triển Nghiên Cứu Phân Lớp Quan Hệ Y Khoa Tiếng Việt

Nghiên cứu và phát triển các mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng Việt vẫn còn nhiều tiềm năng phát triển. Trong tương lai, các nhà nghiên cứu có thể tập trung vào việc cải thiện độ chính xác và hiệu quả của các mô hình, mở rộng phạm vi ứng dụng của các mô hình, và giải quyết các thách thức còn tồn tại trong lĩnh vực này.

6.1. Tích Hợp Tri Thức Y Khoa và Ontology Tiếng Việt

Việc tích hợp tri thức y khoa và ontology tiếng Việt có thể cải thiện đáng kể hiệu suất của các mô hình phân lớp quan hệ thực thể. Ontology y khoa tiếng Việt cung cấp một cấu trúc có tổ chức để biểu diễn các khái niệm y khoa và mối quan hệ giữa chúng. Việc sử dụng ontology có thể giúp các mô hình hiểu ngữ cảnh của văn bản y khoa tốt hơn, và đưa ra các quyết định chính xác hơn. Ví dụ, ontology có thể cho biết rằng "Paracetamol" là một loại thuốc giảm đau, và "cơn sốt" là một triệu chứng. Thông tin này có thể giúp mô hình xác định mối quan hệ "điều trị" giữa hai thực thể này.

6.2. Nghiên Cứu Các Phương Pháp Học Chuyển Giao và Tăng Cường Dữ Liệu

Do sự thiếu hụt dữ liệu huấn luyện tiếng Việt, việc nghiên cứu các phương pháp học chuyển giao và tăng cường dữ liệu là rất quan trọng. Học chuyển giao cho phép tận dụng kiến thức từ các ngôn ngữ khác, như tiếng Anh, để cải thiện hiệu suất của các mô hình trên tiếng Việt. Tăng cường dữ liệu là một kỹ thuật để tạo ra các dữ liệu huấn luyện mới từ dữ liệu hiện có. Các kỹ thuật này có thể giúp giảm sự phụ thuộc vào dữ liệu gán nhãn và cải thiện độ chính xác của các mô hình. Ví dụ, có thể sử dụng các kỹ thuật dịch máy để tạo ra các dữ liệu huấn luyện tiếng Việt từ dữ liệu tiếng Anh, hoặc sử dụng các kỹ thuật biến đổi dữ liệu để tạo ra các biến thể của dữ liệu hiện có.

28/04/2025

Bạn đang xem trước tài liệu:

Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh lượng dữ liệu văn bản y khoa phi cấu trúc ngày càng gia tăng, việc khai thác và xử lý thông tin từ các tài liệu này trở nên cấp thiết. Theo ước tính, mỗi năm có hàng triệu văn bản y tế được tạo ra từ bệnh viện, phòng khám và các phòng thí nghiệm y sinh, tuy nhiên phần lớn dữ liệu này chưa được tổ chức và phân tích hiệu quả. Bài toán trích rút quan hệ thực thể trong văn bản y khoa tiếng Việt nhằm xác định mối quan hệ giữa các khái niệm y học như bệnh lý, phương pháp điều trị và xét nghiệm, đóng vai trò quan trọng trong việc hỗ trợ chẩn đoán và điều trị bệnh nhân. Mục tiêu nghiên cứu là xây dựng bộ dữ liệu chú thích quan hệ thực thể cho văn bản y khoa tiếng Việt dựa trên chuẩn i2b2/VA 2010 và phát triển mô hình phân lớp quan hệ sử dụng mô hình ngôn ngữ tiên tiến PhoBERT. Nghiên cứu tập trung vào dữ liệu thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh trong giai đoạn gần đây, với tổng cộng 10.403 câu được gán nhãn, trong đó 7.926 câu dùng cho huấn luyện và 2.477 câu dùng để kiểm thử. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trích rút quan hệ thực thể, góp phần cải thiện các hệ thống hỗ trợ quyết định lâm sàng và khai thác tri thức y sinh học trong ngôn ngữ tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính trong xử lý ngôn ngữ tự nhiên (NLP) và học máy, bao gồm:

Trích rút quan hệ thực thể (Relation Extraction - RE): Xác định mối quan hệ giữa các thực thể y khoa đã được nhận dạng trong văn bản, như quan hệ giữa bệnh và phương pháp điều trị, hoặc bệnh và xét nghiệm.
Mô hình BERT (Bidirectional Encoder Representations from Transformers): Sử dụng kiến trúc Transformer với cơ chế chú ý đa đầu (multi-head attention) để biểu diễn ngữ cảnh hai chiều của từ trong câu, giúp cải thiện hiệu quả các tác vụ NLP.
PhoBERT: Phiên bản BERT được huấn luyện đặc thù cho ngôn ngữ tiếng Việt, hỗ trợ xử lý các đặc trưng ngôn ngữ và cú pháp riêng biệt của tiếng Việt.
Phân loại quan hệ (Relation Classification - RC): Bài toán phân lớp các loại quan hệ giữa các thực thể dựa trên dữ liệu đã được gán nhãn, với 9 loại quan hệ chính được định nghĩa trong bộ dữ liệu y khoa tiếng Việt.
Kỹ thuật xử lý dữ liệu và cân bằng dữ liệu: Áp dụng phương pháp Random Oversampling để xử lý sự mất cân bằng giữa các lớp quan hệ trong bộ dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu văn bản y khoa tiếng Việt được xây dựng dựa trên chuẩn i2b2/VA 2010, thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh. Bộ dữ liệu gồm 880 tệp văn bản, tương ứng 10.403 câu, trong đó 7.926 câu dùng cho huấn luyện và 2.477 câu dùng cho kiểm thử. Dữ liệu được gán nhãn thực thể và quan hệ bởi các chuyên gia y tế và sinh viên y khoa, sử dụng công cụ WebAnno để đảm bảo chất lượng chú thích.

Phương pháp phân tích sử dụng mô hình học sâu PhoBERT, được tinh chỉnh (fine-tuning) trên bộ dữ liệu đã gán nhãn. Các tham số huấn luyện được điều chỉnh gồm độ dài chuỗi tối đa (max_seq_length), tốc độ học (learning rate) và số epoch. Quá trình huấn luyện được thực hiện trên hai bộ dữ liệu: phân biệt chữ hoa thường và không phân biệt chữ hoa thường, nhằm đánh giá ảnh hưởng của việc chuẩn hóa văn bản đến hiệu quả mô hình. Ngoài ra, kỹ thuật Random Oversampling được áp dụng để cân bằng số lượng mẫu giữa các lớp quan hệ, giúp cải thiện độ chính xác của mô hình trên các lớp thiểu số.

Timeline nghiên cứu kéo dài trong năm 2023, bao gồm các giai đoạn thu thập và gán nhãn dữ liệu, xây dựng và tiền xử lý dữ liệu, huấn luyện mô hình, đánh giá kết quả và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình PhoBERT trên bộ dữ liệu không phân biệt chữ hoa thường: Mô hình PhoBERT-large huấn luyện với 30 epochs và learning rate 6e-5 đạt độ chính xác trung bình (F1-score) khoảng 85% trên bộ dữ liệu thử nghiệm không phân biệt chữ hoa thường, cao hơn đáng kể so với bộ dữ liệu phân biệt chữ hoa thường.
Ảnh hưởng của cân bằng dữ liệu: Sau khi áp dụng phương pháp Random Oversampling để cân bằng dữ liệu, F1-score của các lớp quan hệ thiểu số như TrNAP và TrWP được cải thiện rõ rệt, tăng từ dưới 50% lên trên 70%, góp phần nâng tổng thể hiệu suất mô hình.
Phân bố nhãn quan hệ: Các loại quan hệ phổ biến như TrAP (phương pháp điều trị được thực hiện cho vấn đề y tế) và PIP (vấn đề y tế chỉ ra vấn đề y tế khác) chiếm tỷ lệ lớn trong bộ dữ liệu huấn luyện, với số lượng mẫu lần lượt chiếm khoảng 30% và 25%, tương ứng với kết quả F1-score trên 80%.
So sánh các phiên bản PhoBERT: PhoBERT-large cho kết quả tốt hơn PhoBERT-base với cùng bộ tham số huấn luyện, thể hiện qua F1-score trung bình cao hơn khoảng 3-5%, tuy nhiên yêu cầu tài nguyên tính toán cũng lớn hơn.

Thảo luận kết quả

Kết quả cho thấy việc chuẩn hóa văn bản bằng cách không phân biệt chữ hoa thường giúp mô hình học sâu tập trung vào nội dung ngữ nghĩa thay vì bị phân tán bởi các biến thể hình thức của từ, từ đó nâng cao hiệu quả phân loại quan hệ. Việc cân bằng dữ liệu bằng Random Oversampling là cần thiết do sự mất cân bằng nghiêm trọng giữa các lớp quan hệ, đặc biệt các lớp ít xuất hiện trước đây thường bị mô hình bỏ qua hoặc phân loại sai.

So với các nghiên cứu trước đây sử dụng mô hình BERT cho trích rút quan hệ lâm sàng trên tiếng Anh, kết quả đạt được trên tiếng Việt với PhoBERT là tương đương, chứng tỏ tính khả thi và hiệu quả của mô hình trong ngôn ngữ có cấu trúc phức tạp như tiếng Việt. Biểu đồ phân bố số lượng các loại quan hệ và F1-score từng lớp được trình bày rõ ràng trong luận văn, giúp minh họa trực quan sự cải thiện sau khi áp dụng các kỹ thuật xử lý dữ liệu.

Ngoài ra, việc sử dụng mô hình PhoBERT-large với kiến trúc Transformer sâu và cơ chế chú ý đa đầu giúp mô hình hiểu được ngữ cảnh hai chiều và các mối quan hệ phức tạp giữa các thực thể y khoa trong câu, từ đó nâng cao độ chính xác phân loại.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu chú thích: Tiếp tục thu thập và gán nhãn thêm các văn bản y khoa tiếng Việt từ nhiều nguồn khác nhau nhằm tăng tính đa dạng và độ bao phủ của bộ dữ liệu, giúp mô hình học sâu có khả năng tổng quát hóa tốt hơn. Mục tiêu đạt khoảng 20.000 câu chú thích trong vòng 2 năm tới.
Áp dụng kỹ thuật học bán giám sát: Sử dụng các phương pháp học bán giám sát hoặc tự học (self-training) để tận dụng các dữ liệu chưa được gán nhãn, giảm chi phí gán nhãn thủ công và cải thiện hiệu suất mô hình trên các lớp quan hệ ít dữ liệu.
Tối ưu hóa mô hình và tài nguyên tính toán: Nghiên cứu áp dụng các kỹ thuật giảm kích thước mô hình như pruning, quantization hoặc sử dụng các biến thể nhẹ hơn của PhoBERT để triển khai trên các hệ thống có tài nguyên hạn chế, đảm bảo khả năng ứng dụng thực tế.
Phát triển hệ thống hỗ trợ quyết định lâm sàng: Tích hợp mô hình trích rút quan hệ thực thể vào các hệ thống hỗ trợ quyết định y tế nhằm tự động hóa việc phân tích hồ sơ bệnh án, đề xuất phác đồ điều trị và cảnh báo tương tác thuốc, hướng tới cải thiện chất lượng chăm sóc sức khỏe.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở dữ liệu và mô hình tiên tiến cho bài toán trích rút quan hệ thực thể tiếng Việt, hỗ trợ phát triển các ứng dụng NLP chuyên sâu.
Chuyên gia y tế và nhà quản lý y tế: Kết quả nghiên cứu giúp hiểu rõ hơn về cách tự động hóa khai thác thông tin y khoa từ văn bản, hỗ trợ ra quyết định lâm sàng và quản lý hồ sơ bệnh án điện tử.
Sinh viên và học viên cao học ngành khoa học dữ liệu và trí tuệ nhân tạo: Tài liệu chi tiết về quy trình xây dựng dữ liệu, phương pháp học máy và đánh giá mô hình là nguồn tham khảo quý giá cho các đề tài nghiên cứu tương tự.
Doanh nghiệp công nghệ y tế: Các công ty phát triển phần mềm y tế có thể ứng dụng mô hình và dữ liệu trong việc xây dựng các sản phẩm hỗ trợ phân tích văn bản y khoa, nâng cao hiệu quả và độ chính xác của hệ thống.

Câu hỏi thường gặp

Bộ dữ liệu y khoa tiếng Việt được xây dựng như thế nào?
Bộ dữ liệu được thu thập từ các bài báo tạp chí y học Thành phố Hồ Chí Minh, gồm 880 tệp văn bản với hơn 10.000 câu, được gán nhãn thực thể và quan hệ bởi các chuyên gia y tế và sinh viên y khoa sử dụng công cụ WebAnno.
Tại sao lại sử dụng mô hình PhoBERT cho bài toán này?
PhoBERT là mô hình BERT được huấn luyện đặc thù cho tiếng Việt, giúp hiểu ngữ cảnh và cấu trúc ngôn ngữ tiếng Việt tốt hơn, từ đó nâng cao hiệu quả trích rút quan hệ thực thể so với các mô hình đa ngôn ngữ hoặc không chuyên biệt.
Làm thế nào để xử lý sự mất cân bằng dữ liệu trong bộ dữ liệu?
Nghiên cứu áp dụng phương pháp Random Oversampling để nhân bản các mẫu thuộc lớp thiểu số, giúp cân bằng số lượng mẫu giữa các lớp và cải thiện độ chính xác phân loại cho các lớp ít dữ liệu.
Kết quả mô hình đạt được có thể ứng dụng thực tế không?
Với độ chính xác trung bình khoảng 85% và cải thiện rõ rệt sau cân bằng dữ liệu, mô hình có tiềm năng ứng dụng trong các hệ thống hỗ trợ quyết định lâm sàng và khai thác tri thức y sinh học tiếng Việt.
Có thể mở rộng nghiên cứu này cho các ngôn ngữ khác không?
Phương pháp và mô hình có thể được điều chỉnh và áp dụng cho các ngôn ngữ khác, tuy nhiên cần xây dựng bộ dữ liệu chú thích tương ứng và tinh chỉnh mô hình phù hợp với đặc trưng ngôn ngữ đó.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu trích rút quan hệ thực thể y khoa tiếng Việt với hơn 10.000 câu được gán nhãn chính xác.
Mô hình PhoBERT-large được tinh chỉnh trên bộ dữ liệu này đạt độ chính xác trung bình F1-score khoảng 85%, thể hiện hiệu quả cao trong bài toán phân loại quan hệ.
Việc xử lý mất cân bằng dữ liệu bằng Random Oversampling giúp cải thiện đáng kể hiệu suất trên các lớp quan hệ ít dữ liệu.
Nghiên cứu góp phần quan trọng vào lĩnh vực xử lý ngôn ngữ tự nhiên y sinh tiếng Việt, mở ra hướng phát triển các ứng dụng hỗ trợ y tế thông minh.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng học bán giám sát và phát triển hệ thống ứng dụng thực tế nhằm nâng cao chất lượng chăm sóc sức khỏe.

Để tiếp tục phát triển nghiên cứu, các nhà khoa học và chuyên gia y tế được khuyến khích hợp tác mở rộng dữ liệu và ứng dụng mô hình trong thực tiễn, góp phần thúc đẩy chuyển đổi số trong ngành y tế Việt Nam.

Chủ đề

Xây dựng mô hình phân lớp quan hệ

Ứng dụng AI trong y khoa tiếng Việt

Xử lý văn bản y khoa tiếng Việt

Nhận dạng và phân loại thực thể