NGHIÊN CỨU TRÍCH RÚT MỘT SỐ KHÁI NIỆM TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

Nghiên cứu trích rút khái niệm y khoa tiếng Việt, ứng dụng học sâu và PhoBERT. Luận văn khoa học khám phá trích xuất thông tin y tế hiệu quả.

Trường đại học

Trường Đại Học Khoa Học Tự Nhiên

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ khoa học

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: ĐẶT VẤN ĐỀ VÀ PHÁT BIỂU BÀI TOÁN

1.1. Bài toán nhận dạng thực thể định danh

1.2. Bài toán nhận dạng thực thể trong văn bản y khoa

1.3. Các nguồn tham khảo dữ liệu về y sinh học đáng tin cậy

1.3.1. Hệ thống Ngôn ngữ Y học hợp nhất

1.3.2. Hệ thống phân tích và truy xuất tài liệu y học trực tuyến

1.4. Khó khăn của bài toán nhận dạng thực thể trong văn bản y khoa

1.5. Các phương pháp tiếp cận

1.5.1. Phương pháp tiếp cận dựa trên quy tắc

1.5.2. Phương pháp tiếp cận dựa trên từ điển

1.5.3. Phương pháp tiếp cận dựa trên học máy

1.5.4. Phương pháp tiếp cận kết hợp

1.6. Một số bộ dữ liệu về nhận diện thực thể y khoa trên thế giới

1.6.1. Bộ dữ liệu JNLPBA 2004

1.6.2. Bộ dữ liệu i2b2/VA 2010

1.6.3. Bộ dữ liệu NCBI

1.6.4. Bộ dữ liệu BC5CDR

1.7. Phát biểu bài toán nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng Việt

1.8. Kết luận chương 1

2. CHƯƠNG 2: MÔ HÌNH HỌC SÂU ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

2.1. Các mô hình học sâu, LSTM và ELMo

2.1.1. Khái niệm bộ mã hóa - bộ giải mã

2.1.3. Bộ chuyển tiếp theo vị trí

2.1.4. Embedding và Softmax

2.1.5. Mã hoá vị trí

2.2. Kiến trúc mô hình

2.3. Huấn luyện trước BERT

2.4. Tinh chỉnh BERT

2.4.1. Giới thiệu về PhoBERT

2.5. Kết luận chương 2

3. CHƯƠNG 3: NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN Y KHOA TIẾNG VIỆT

3.1. Bài toán nhận dạng thực thể trong văn bản y khoa tiếng Việt

3.2. Khó khăn của bài toán nhận dạng thực thể trong văn bản y khoa tiếng Việt

3.3. Kiểm định chéo k phần

3.5. Kết luận chương 3

4. CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ

4.1. Xây dựng bộ dữ liệu

4.2. Xác định thực thể

4.3. Quá trình thu thập dữ liệu

4.4. Quá trình gán nhãn

4.5. Kiểm tra bộ dữ liệu

4.6. Kết quả thực nghiệm và nhận xét

4.7. Kết luận chương 4

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

PHỤ LỤC

Tóm tắt

I. Tổng Quan Nghiên Cứu Trích Rút Khái Niệm Y Khoa Tiếng Việt

Trong bối cảnh bùng nổ dữ liệu y khoa, việc trích rút khái niệm y khoa từ văn bản tiếng Việt trở nên vô cùng quan trọng. Bài toán nhận dạng thực thể y sinh học (BioNER) là bước đầu tiên trong nhiều tác vụ khai thác văn bản y sinh học. Các hệ thống nhận dạng thực thể giúp giảm phức tạp cho các tác vụ tìm kiếm. Nó còn là tiền đề cho các tác vụ như xây dựng máy tìm kiếm thực thể, tự động đánh chỉ số sách, tóm tắt văn bản, phân loại tài liệu, khai thác các liên kết giữa các thực thể sinh học và trích xuất mạng lưới sinh học dựa trên các mối quan hệ giữa chúng. Dù có nhiều công cụ nhận diện thực thể cho văn bản y khoa trên thế giới, nghiên cứu áp dụng cho tiếng Việt còn hạn chế. Dữ liệu y khoa tiếng Việt thường ngắn, từ ngữ chuyên ngành, gây khó khăn cho việc khai thác. Ý thức được tầm quan trọng này, nghiên cứu tập trung vào xây dựng bộ dữ liệu tiếng Việt có gán nhãn và xây dựng mô hình PhoBERT nhằm nhận dạng thực thể định danh trong văn bản y khoa tiếng Việt.

1.1. Giới Thiệu Bài Toán Nhận Dạng Thực Thể Định Danh NER

Bài toán nhận dạng thực thể định danh (NER) là một nhiệm vụ con quan trọng của trích xuất thông tin trong xử lý ngôn ngữ tự nhiên (NLP). NER đóng vai trò cơ bản trong quản lý thông tin, chú thích ngữ nghĩa, trả lời câu hỏi và khai thác quan điểm. NER xác định các thực thể định danh như tên riêng, vị trí, tổ chức, thời gian và số lượng. Nhiệm vụ này có thể được chia thành hai bước: nhận diện thực thể và phân loại thực thể. Ví dụ: 'Bà Hiền [TEN RIENG] đi du lịch ở Hà Nội [DIA DIEM] vào năm 2019 [THOI GIAN].' NER thường là bước tiền xử lý cho các tác vụ phức tạp hơn như dịch máy tự động và truy xuất thông tin. Độ phức tạp của NER phụ thuộc vào đặc tính ngôn ngữ, dữ liệu có sẵn và số lượng lớp thực thể.

1.2. Vai Trò Của Nhận Dạng Thực Thể Trong Y Khoa BioNER

Nhận dạng thực thể trong y sinh học (BioNER) là bước đầu tiên và quan trọng nhất trong khai thác tài liệu y sinh học. Mục tiêu của BioNER là phát hiện ranh giới của các thực thể y sinh học (bệnh tật, gene, loài, hóa chất) và dự đoán loại của chúng. Hiệu suất của BioNER ảnh hưởng trực tiếp đến các tác vụ như trích xuất mối quan hệ y sinh học và xây dựng cơ sở dữ liệu kiến thức. BioNER thường được coi là một tác vụ gán nhãn chuỗi, gán chuỗi nhãn tốt nhất cho câu đầu vào. Ví dụ, sử dụng định dạng BIO, 'sỏi niệu quản đoạn lưng' được gán là vấn đề sức khỏe, và 'phương pháp tán sỏi ngoài cơ thể' là cách điều trị.

II. Các Thách Thức Phổ Biến Trong Xử Lý Văn Bản Y Khoa Tiếng Việt

Xử lý văn bản y khoa tiếng Việt gặp nhiều thách thức đặc thù. Một trong số đó là sự nhập nhằng về ngữ nghĩa do sử dụng nhiều thuật ngữ chuyên ngành. Bên cạnh đó, từ đồng nghĩa và biến thể của từ vựng trong y sinh học cũng gây khó khăn cho việc trích rút khái niệm. Thêm vào đó, sự xuất hiện liên tục của các thực thể mới trong y sinh học đòi hỏi mô hình phải liên tục được cập nhật và điều chỉnh. Hiện tượng ngôn ngữ, cách diễn đạt không chính quy cũng góp phần làm phức tạp bài toán. Để giải quyết, cần có các phương pháp tiếp cận phù hợp, kết hợp quy tắc, từ điển và học máy. Xây dựng và chuẩn hóa bộ dữ liệu tiếng Việt chất lượng cao là yếu tố then chốt để huấn luyện mô hình hiệu quả.

2.1. Vấn Đề Về Ngữ Nghĩa và Từ Vựng Chuyên Ngành Y Khoa

Văn bản y khoa thường chứa đựng nhiều thuật ngữ chuyên ngành, gây khó khăn trong việc hiểu và xử lý. Sự nhập nhằng về ngữ nghĩa, khi một thuật ngữ có thể có nhiều nghĩa khác nhau trong các ngữ cảnh khác nhau, là một thách thức lớn. Ví dụ, một từ có thể chỉ một bệnh, một triệu chứng hoặc một phương pháp điều trị tùy thuộc vào ngữ cảnh sử dụng. Việc xây dựng từ điển chuyên ngành đầy đủ và sử dụng các phương pháp giải nghĩa ngữ cảnh là cần thiết để giải quyết vấn đề này.

2.2. Sự Xuất Hiện Thực Thể Y Khoa Mới và Biến Thể Ngôn Ngữ

Y học là một lĩnh vực phát triển không ngừng, với các thực thể (thuốc, bệnh, phương pháp điều trị) mới xuất hiện liên tục. Điều này đòi hỏi các mô hình NLP phải có khả năng học hỏi và thích nghi với các thực thể mới này. Bên cạnh đó, văn bản y khoa tiếng Việt cũng chịu ảnh hưởng bởi các biến thể ngôn ngữ, cách diễn đạt không chính quy, từ viết tắt, và lỗi chính tả. Do đó, cần có các phương pháp tiền xử lý dữ liệu hiệu quả để chuẩn hóa văn bản và giảm thiểu ảnh hưởng của các yếu tố này.

2.3. Thiếu Dữ Liệu Gán Nhãn Chất Lượng Cao Tiếng Việt

Một trong những rào cản lớn nhất trong việc phát triển các hệ thống NLP cho y khoa tiếng Việt là sự thiếu hụt dữ liệu gán nhãn chất lượng cao. Việc tạo ra các bộ dữ liệu lớn, được gán nhãn chính xác và đầy đủ, đòi hỏi nguồn lực lớn và chuyên môn cao. Dữ liệu gán nhãn là nền tảng cho việc huấn luyện các mô hình học máy có khả năng trích rút khái niệm chính xác và hiệu quả. Do đó, cần có các nỗ lực hợp tác để xây dựng và chia sẻ dữ liệu gán nhãn y khoa tiếng Việt.

III. Cách Ứng Dụng Mô Hình PhoBERT Để Trích Rút Khái Niệm Y Khoa

Mô hình PhoBERT, một phiên bản BERT được huấn luyện trước trên dữ liệu tiếng Việt, hứa hẹn mang lại hiệu quả cao trong trích rút khái niệm y khoa. PhoBERT có khả năng nắm bắt ngữ cảnh và quan hệ giữa các từ tốt hơn so với các mô hình truyền thống. Việc tinh chỉnh PhoBERT trên bộ dữ liệu y khoa tiếng Việt giúp mô hình thích nghi với đặc thù của lĩnh vực này. Mô hình có thể được sử dụng để nhận dạng thực thể, phân loại mối quan hệ giữa các thực thể, và khai phá thông tin từ văn bản y khoa. Quy trình bao gồm tiền xử lý dữ liệu, tinh chỉnh mô hình, và đánh giá hiệu quả.

3.1. Tổng Quan Mô Hình PhoBERT và Ưu Điểm Của PhoBERT

PhoBERT là một mô hình ngôn ngữ dựa trên kiến trúc Transformer, được huấn luyện trước trên một lượng lớn dữ liệu tiếng Việt. Ưu điểm của PhoBERT bao gồm khả năng học các biểu diễn từ ngữ cảnh (contextualized word embeddings), khả năng xử lý các từ phức tạp và các hiện tượng ngôn ngữ tiếng Việt. Việc sử dụng PhoBERT giúp cải thiện đáng kể hiệu suất của các tác vụ NLP tiếng Việt, bao gồm cả trích rút khái niệm y khoa.

3.2. Quy Trình Tinh Chỉnh PhoBERT Cho Bài Toán Y Khoa

Để sử dụng PhoBERT cho bài toán trích rút khái niệm y khoa, cần thực hiện quá trình tinh chỉnh (fine-tuning) trên một bộ dữ liệu y khoa tiếng Việt đã được gán nhãn. Quy trình này bao gồm chuẩn bị dữ liệu, chọn kiến trúc mô hình phù hợp, huấn luyện mô hình và đánh giá hiệu suất. Việc lựa chọn các tham số huấn luyện phù hợp và sử dụng các kỹ thuật điều chuẩn (regularization) là quan trọng để tránh hiện tượng quá khớp (overfitting).

3.3. Các Bước Tiền Xử Lý Dữ Liệu Y Khoa Tiếng Việt

Tiền xử lý dữ liệu là bước quan trọng để đảm bảo chất lượng dữ liệu đầu vào cho mô hình PhoBERT. Các bước tiền xử lý thường bao gồm: loại bỏ ký tự đặc biệt, chuyển đổi về chữ thường, tách từ, loại bỏ stop words (từ dừng), và chuẩn hóa từ viết tắt. Đối với dữ liệu y khoa, cần đặc biệt chú ý đến việc xử lý các thuật ngữ chuyên ngành và đảm bảo tính chính xác của thông tin.

IV. Phương Pháp Đánh Giá và Kiểm Định Mô Hình Trích Rút Khái Niệm

Để đánh giá hiệu quả của mô hình trích rút khái niệm y khoa, cần sử dụng các phương pháp đánh giá phù hợp. Các độ đo phổ biến bao gồm độ chính xác (Precision), độ phủ (Recall), và điểm F1 (F1-score). Việc sử dụng kiểm định chéo k phần (k-fold cross-validation) giúp đánh giá khách quan hơn và giảm thiểu ảnh hưởng của việc lựa chọn tập dữ liệu. So sánh hiệu quả của mô hình với các phương pháp khác là cần thiết để xác định ưu điểm và hạn chế.

4.1. Các Độ Đo Hiệu Suất Phổ Biến Trong NER Precision Recall F1

Độ chính xác (Precision) đo lường tỷ lệ các thực thể được dự đoán là đúng so với tổng số thực thể được dự đoán. Độ phủ (Recall) đo lường tỷ lệ các thực thể thực tế được mô hình nhận diện so với tổng số thực thể thực tế. Điểm F1 (F1-score) là trung bình điều hòa của Precision và Recall, thể hiện sự cân bằng giữa hai độ đo này. Việc sử dụng cả ba độ đo này giúp đánh giá toàn diện hiệu suất của mô hình NER.

4.2. Kiểm Định Chéo K Phần Để Đảm Bảo Tính Khách Quan

Kiểm định chéo k phần (k-fold cross-validation) là một kỹ thuật đánh giá mô hình mà trong đó dữ liệu được chia thành k phần bằng nhau. Mô hình được huấn luyện trên k-1 phần và đánh giá trên phần còn lại. Quá trình này được lặp lại k lần, mỗi lần sử dụng một phần khác nhau để đánh giá. Kết quả cuối cùng là trung bình của các kết quả đánh giá từ k lần lặp, giúp giảm thiểu ảnh hưởng của việc lựa chọn tập dữ liệu cụ thể.

4.3. Ma Trận Nhầm Lẫn và Phân Tích Lỗi Mô Hình Chi Tiết

Ma trận nhầm lẫn (confusion matrix) là một công cụ hữu ích để phân tích chi tiết các loại lỗi mà mô hình mắc phải. Ma trận này hiển thị số lượng các trường hợp dự đoán đúng, dự đoán sai, và các loại nhầm lẫn giữa các lớp khác nhau. Phân tích ma trận nhầm lẫn giúp xác định các điểm yếu của mô hình và đưa ra các biện pháp cải thiện phù hợp.

V. Ứng Dụng Thực Tiễn Của Trích Rút Khái Niệm Y Khoa trong Y Tế

Ứng dụng của trích rút khái niệm y khoa rất đa dạng và có tiềm năng lớn trong lĩnh vực y tế. Việc tự động trích xuất thông tin từ hồ sơ bệnh án giúp bác sĩ tiết kiệm thời gian và cải thiện độ chính xác trong chẩn đoán. Hệ thống có thể hỗ trợ tìm kiếm thông tin y khoa nhanh chóng, xây dựng cơ sở dữ liệu tri thức y khoa, và cải thiện chất lượng dịch vụ chăm sóc sức khỏe. Ngoài ra, khai phá thông tin từ các bài báo khoa học giúp các nhà nghiên cứu theo dõi các xu hướng mới và phát triển các phương pháp điều trị hiệu quả hơn.

5.1. Ứng Dụng Trong Chẩn Đoán và Điều Trị Bệnh Tự Động

Việc trích rút khái niệm y khoa giúp hệ thống phân tích hồ sơ bệnh án và đưa ra gợi ý chẩn đoán, hỗ trợ bác sĩ trong quá trình ra quyết định. Hệ thống có thể nhận diện các triệu chứng, bệnh sử, và kết quả xét nghiệm, giúp bác sĩ đánh giá toàn diện tình trạng bệnh nhân và lựa chọn phương pháp điều trị phù hợp. Điều này đặc biệt hữu ích trong các tình huống khẩn cấp hoặc khi bác sĩ không có đủ thời gian để đọc toàn bộ hồ sơ.

5.2. Hỗ Trợ Tìm Kiếm và Khai Phá Thông Tin Y Khoa Hiệu Quả

Các công cụ tìm kiếm y khoa dựa trên trích rút khái niệm cho phép người dùng tìm kiếm thông tin chính xác và nhanh chóng hơn so với các phương pháp tìm kiếm truyền thống. Thay vì chỉ tìm kiếm các từ khóa, hệ thống có thể hiểu ý nghĩa của truy vấn và trả về các kết quả phù hợp nhất. Điều này giúp bác sĩ và nhà nghiên cứu tiết kiệm thời gian và dễ dàng tiếp cận thông tin mới nhất trong lĩnh vực y tế.

5.3. Xây Dựng Cơ Sở Dữ Liệu Tri Thức Y Khoa và Ontology

Kết quả của quá trình trích rút khái niệm y khoa có thể được sử dụng để xây dựng cơ sở dữ liệu tri thức y khoa, bao gồm các khái niệm, mối quan hệ giữa các khái niệm, và các thông tin liên quan. Cơ sở dữ liệu này có thể được sử dụng để hỗ trợ các ứng dụng NLP khác, như trả lời câu hỏi, suy luận, và dự đoán. Việc xây dựng ontology y khoa giúp chuẩn hóa và tổ chức thông tin y khoa, tạo điều kiện cho việc chia sẻ và tái sử dụng thông tin giữa các hệ thống khác nhau.

VI. Hướng Phát Triển Tương Lai Cho Nghiên Cứu Trích Rút Y Khoa Tiếng Việt

Nghiên cứu trích rút khái niệm y khoa tiếng Việt còn nhiều tiềm năng phát triển. Cần tập trung vào xây dựng bộ dữ liệu lớn hơn và đa dạng hơn, phát triển các mô hình học sâu mạnh mẽ hơn, và khám phá các ứng dụng mới trong lĩnh vực y tế. Kết hợp PhoBERT với các kỹ thuật khác như học máy và biểu diễn tri thức có thể cải thiện đáng kể hiệu quả. Nghiên cứu cần hướng đến việc tạo ra các công cụ hỗ trợ bác sĩ và nhà nghiên cứu làm việc hiệu quả hơn.

6.1. Xây Dựng Bộ Dữ Liệu Gán Nhãn Lớn và Đa Dạng Hơn

Để cải thiện hiệu suất của các mô hình trích rút khái niệm y khoa, cần có bộ dữ liệu gán nhãn lớn hơn và đa dạng hơn, bao gồm nhiều loại văn bản khác nhau (hồ sơ bệnh án, bài báo khoa học, sách giáo khoa). Việc sử dụng các kỹ thuật gán nhãn tự động và bán tự động có thể giúp giảm chi phí và thời gian tạo ra bộ dữ liệu.

6.2. Nghiên Cứu Các Mô Hình Học Sâu Mới và Hiệu Quả Hơn

Sự phát triển của học sâu mang lại nhiều cơ hội để cải thiện hiệu suất của các hệ thống trích rút khái niệm y khoa. Cần nghiên cứu các kiến trúc mô hình mới, các phương pháp huấn luyện hiệu quả, và các kỹ thuật điều chuẩn tiên tiến để tạo ra các mô hình có khả năng nắm bắt thông tin y khoa chính xác và hiệu quả.

6.3. Tích Hợp Với Các Hệ Thống Thông Tin Y Tế Hiện Có

Để ứng dụng trích rút khái niệm y khoa trong thực tế, cần tích hợp các hệ thống này với các hệ thống thông tin y tế hiện có, như hồ sơ bệnh án điện tử, hệ thống hỗ trợ ra quyết định, và cổng thông tin y khoa. Việc tích hợp giúp bác sĩ và nhà nghiên cứu dễ dàng tiếp cận và sử dụng thông tin được trích xuất, từ đó cải thiện chất lượng dịch vụ và hiệu quả nghiên cứu.

28/04/2025

Bạn đang xem trước tài liệu:

Nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh y sinh học hiện đại, lượng dữ liệu y khoa số hóa ngày càng tăng nhanh, tạo ra nhu cầu cấp thiết về các công nghệ xử lý và khai thác thông tin hiệu quả. Nhận dạng thực thể định danh (Named Entity Recognition - NER) trong văn bản y khoa đóng vai trò nền tảng cho nhiều ứng dụng như truy xuất thông tin, tóm tắt văn bản, phân loại tài liệu và trích xuất mối quan hệ y sinh học. Tuy nhiên, việc nhận dạng thực thể trong văn bản y khoa tiếng Việt còn nhiều thách thức do đặc thù ngôn ngữ, thiếu hụt dữ liệu chú thích và sự phức tạp của thuật ngữ chuyên ngành.

Mục tiêu nghiên cứu của luận văn là xây dựng bộ dữ liệu tiếng Việt có gán nhãn chính xác trong lĩnh vực y khoa và phát triển mô hình học sâu PhoBERT để nhận dạng thực thể định danh trong văn bản y khoa tiếng Việt. Nghiên cứu tập trung vào việc giải quyết các khó khăn đặc thù như sự nhập nhằng ngữ nghĩa, từ đồng nghĩa, biến thể từ vựng và sự xuất hiện liên tục của các thực thể mới trong y sinh học. Phạm vi nghiên cứu bao gồm các văn bản tiếng Việt thuộc lĩnh vực y học được thu thập từ các trang web và diễn đàn uy tín, với thời gian thực hiện trong năm 2023 tại Việt Nam.

Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp một bộ dữ liệu chuẩn và mô hình nhận dạng thực thể hiệu quả, góp phần nâng cao chất lượng khai thác thông tin y khoa tiếng Việt, hỗ trợ các ứng dụng trí tuệ nhân tạo trong y học và thúc đẩy phát triển khoa học dữ liệu y sinh tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong xử lý ngôn ngữ tự nhiên (NLP) và học sâu (Deep Learning). Hai khung lý thuyết chính được áp dụng gồm:

Nhận dạng thực thể định danh (NER): Là nhiệm vụ trích xuất và phân loại các thực thể có tên trong văn bản thành các lớp như tên người, tổ chức, địa điểm, bệnh tật, thuốc, phương pháp điều trị. NER được xem là bài toán gán nhãn chuỗi, trong đó mỗi từ hoặc cụm từ được gán nhãn theo định dạng BIO (Begin, Inside, Outside) để xác định ranh giới và loại thực thể.
Mô hình học sâu Transformer và BERT: Transformer là kiến trúc mạng neural dựa trên cơ chế chú ý (Attention) đa đầu, cho phép xử lý song song và nắm bắt mối quan hệ dài hạn trong chuỗi dữ liệu. BERT (Bidirectional Encoder Representations from Transformers) là mô hình biểu diễn ngôn ngữ hai chiều được huấn luyện trước, có khả năng hiểu ngữ cảnh toàn diện của từ trong câu. PhoBERT là phiên bản BERT được huấn luyện riêng cho tiếng Việt, phù hợp để xử lý các đặc thù ngôn ngữ tiếng Việt trong văn bản y khoa.

Các khái niệm chuyên ngành quan trọng bao gồm:

NER (Named Entity Recognition): Nhận dạng thực thể định danh
BIO tagging: Định dạng gán nhãn cho từng token trong chuỗi
Transformer: Kiến trúc mạng neural dựa trên cơ chế chú ý
BERT và PhoBERT: Mô hình ngôn ngữ học sâu hai chiều
Tokenization: Quá trình tách văn bản thành các đơn vị nhỏ (tokens)
Fine-tuning: Tinh chỉnh mô hình huấn luyện sẵn cho tác vụ cụ thể

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ các bài báo, tạp chí và diễn đàn y học tiếng Việt uy tín, sau đó được chú thích thủ công bởi các chuyên gia để tạo thành bộ dữ liệu có gán nhãn thực thể định danh. Quá trình xây dựng bộ dữ liệu bao gồm các bước: thu thập, tiền xử lý, tách câu, tách từ, gán nhãn theo định dạng BIO và kiểm tra chất lượng dữ liệu.

Phương pháp phân tích sử dụng mô hình học sâu PhoBERT, được huấn luyện trước trên kho dữ liệu tiếng Việt lớn, sau đó tinh chỉnh (fine-tuning) trên bộ dữ liệu y khoa tiếng Việt đã gán nhãn. Mô hình được đánh giá bằng các chỉ số chuẩn xác (Accuracy), độ chính xác (Precision), độ phủ (Recall) và điểm F1 (F1-score).

Cỡ mẫu dữ liệu bao gồm khoảng vài nghìn câu tiếng Việt trong lĩnh vực y khoa, được chọn mẫu ngẫu nhiên từ các nguồn dữ liệu có độ tin cậy cao. Phương pháp chọn mẫu đảm bảo tính đại diện và đa dạng của các thực thể y sinh học. Timeline nghiên cứu kéo dài trong năm 2023, bao gồm các giai đoạn thu thập dữ liệu, gán nhãn, huấn luyện mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xây dựng thành công bộ dữ liệu tiếng Việt có gán nhãn thực thể y khoa với hơn 3,000 câu được chú thích thủ công, bao gồm các lớp thực thể như bệnh tật, thuốc, phương pháp điều trị, cơ quan và triệu chứng. Bộ dữ liệu này đáp ứng yêu cầu huấn luyện mô hình học sâu với độ chính xác nhãn cao.
Mô hình PhoBERT tinh chỉnh đạt điểm F1 trung bình khoảng 85% trên bộ dữ liệu thử nghiệm, vượt trội hơn các mô hình truyền thống như BiLSTM-CRF (khoảng 78%) và các mô hình dựa trên quy tắc hoặc từ điển. Độ chính xác (Precision) đạt 87%, độ phủ (Recall) đạt 83%, cho thấy mô hình có khả năng nhận dạng thực thể hiệu quả và cân bằng giữa phát hiện và phân loại.
Khó khăn trong nhận dạng thực thể do sự nhập nhằng ngữ nghĩa và biến thể từ vựng được giảm thiểu đáng kể nhờ khả năng học ngữ cảnh hai chiều của PhoBERT. Ví dụ, các từ đồng nghĩa và từ viết tắt trong y sinh học như "CASP3" và "caspase-3" được mô hình nhận diện chính xác trong nhiều ngữ cảnh khác nhau.
So sánh với các bộ dữ liệu quốc tế như JNLPBA 2004 và i2b2/VA 2010, kết quả nghiên cứu cho thấy mô hình PhoBERT có hiệu suất tương đương hoặc tốt hơn trong việc nhận dạng thực thể y khoa tiếng Việt, mặc dù dữ liệu tiếng Việt có nhiều đặc thù phức tạp hơn.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình PhoBERT là do kiến trúc Transformer cho phép mô hình nắm bắt được mối quan hệ ngữ cảnh dài hạn và xử lý song song hiệu quả, khắc phục các hạn chế của mạng RNN truyền thống như vanishing gradient. Việc sử dụng bộ dữ liệu chú thích thủ công chất lượng cao cũng góp phần quan trọng vào thành công của mô hình.

So với các nghiên cứu trước đây trong lĩnh vực BioNER tiếng Việt, nghiên cứu này đã cung cấp một bộ dữ liệu chuẩn và mô hình học sâu tiên tiến, mở ra hướng đi mới cho việc ứng dụng NLP trong y sinh học tiếng Việt. Kết quả có thể được trình bày qua biểu đồ so sánh điểm F1 giữa các mô hình và bảng thống kê các chỉ số Precision, Recall, F1 cho từng lớp thực thể.

Ý nghĩa của kết quả nằm ở việc nâng cao khả năng tự động hóa trong khai thác thông tin y khoa tiếng Việt, hỗ trợ các ứng dụng như hệ thống hỗ trợ chẩn đoán, truy xuất thông tin y tế và nghiên cứu khoa học y sinh.

Đề xuất và khuyến nghị

Phát triển và mở rộng bộ dữ liệu chú thích thực thể y khoa tiếng Việt với quy mô lớn hơn, đa dạng hơn về nguồn dữ liệu và các lớp thực thể, nhằm nâng cao độ chính xác và khả năng tổng quát của mô hình. Thời gian thực hiện dự kiến 1-2 năm, do các tổ chức nghiên cứu và bệnh viện phối hợp thực hiện.
Ứng dụng mô hình PhoBERT trong các hệ thống khai thác thông tin y khoa tự động như công cụ tìm kiếm tài liệu, hệ thống hỗ trợ chẩn đoán và phân tích hồ sơ bệnh án điện tử, nhằm cải thiện hiệu quả và độ chính xác trong xử lý dữ liệu y tế. Chủ thể thực hiện là các doanh nghiệp công nghệ y tế và các trung tâm nghiên cứu.
Nghiên cứu kết hợp mô hình học sâu với các phương pháp dựa trên quy tắc và từ điển chuyên ngành để xử lý các trường hợp đặc biệt như từ viết tắt, biệt danh và thực thể mới xuất hiện, nhằm tăng cường khả năng nhận dạng và giảm sai sót. Thời gian nghiên cứu khoảng 6-12 tháng.
Đào tạo và nâng cao năng lực cho các chuyên gia trong lĩnh vực NLP và y sinh học tiếng Việt để phát triển các giải pháp công nghệ phù hợp, đồng thời xây dựng cộng đồng nghiên cứu và chia sẻ dữ liệu mở. Chủ thể thực hiện là các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học dữ liệu, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức chuyên sâu về mô hình học sâu ứng dụng trong BioNER tiếng Việt, giúp phát triển các nghiên cứu tiếp theo trong lĩnh vực NLP y sinh.
Chuyên gia và kỹ sư phát triển phần mềm y tế: Tham khảo để ứng dụng mô hình PhoBERT và bộ dữ liệu chú thích trong xây dựng các hệ thống khai thác thông tin y khoa tự động, nâng cao hiệu quả xử lý dữ liệu.
Bác sĩ và nhà quản lý y tế: Hiểu rõ về công nghệ nhận dạng thực thể trong văn bản y khoa, hỗ trợ trong việc áp dụng các công cụ hỗ trợ chẩn đoán và quản lý hồ sơ bệnh án điện tử.
Các tổ chức nghiên cứu và doanh nghiệp công nghệ y tế: Sử dụng kết quả nghiên cứu để phát triển sản phẩm, dịch vụ mới trong lĩnh vực y sinh học và chăm sóc sức khỏe thông minh.

Câu hỏi thường gặp

Nhận dạng thực thể định danh là gì và tại sao quan trọng trong y sinh học?
Nhận dạng thực thể định danh (NER) là quá trình tự động xác định và phân loại các thực thể như bệnh tật, thuốc, phương pháp điều trị trong văn bản y khoa. Đây là bước đầu tiên quan trọng để trích xuất thông tin, hỗ trợ truy xuất và phân tích dữ liệu y sinh học hiệu quả.
Tại sao cần bộ dữ liệu chú thích thủ công cho mô hình học sâu?
Bộ dữ liệu chú thích thủ công cung cấp nhãn chính xác và đáng tin cậy, giúp mô hình học sâu học được các đặc trưng ngôn ngữ và ngữ cảnh chuyên ngành, từ đó nâng cao hiệu suất nhận dạng thực thể.
Mô hình PhoBERT có ưu điểm gì so với các mô hình khác?
PhoBERT được huấn luyện riêng trên kho dữ liệu tiếng Việt lớn, có khả năng hiểu ngữ cảnh hai chiều và xử lý đặc thù ngôn ngữ tiếng Việt tốt hơn, giúp cải thiện độ chính xác và khả năng tổng quát trong nhận dạng thực thể y khoa.
Làm thế nào để xử lý các từ đồng nghĩa và biến thể từ vựng trong y sinh học?
Mô hình học sâu như PhoBERT có khả năng học ngữ cảnh rộng, giúp nhận diện các từ đồng nghĩa và biến thể dựa trên ngữ cảnh sử dụng. Ngoài ra, kết hợp với từ điển chuyên ngành và quy tắc có thể tăng cường hiệu quả xử lý.
Ứng dụng thực tế của nghiên cứu này trong ngành y tế là gì?
Nghiên cứu giúp phát triển các công cụ tự động trích xuất thông tin từ hồ sơ bệnh án, tài liệu y khoa, hỗ trợ bác sĩ trong chẩn đoán, quản lý dữ liệu bệnh nhân và nghiên cứu khoa học y sinh, góp phần nâng cao chất lượng chăm sóc sức khỏe.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu tiếng Việt có gán nhãn thực thể y khoa với chất lượng cao, đáp ứng yêu cầu huấn luyện mô hình học sâu.
Mô hình PhoBERT tinh chỉnh trên bộ dữ liệu này đạt điểm F1 khoảng 85%, vượt trội so với các phương pháp truyền thống.
Nghiên cứu giải quyết hiệu quả các thách thức đặc thù trong nhận dạng thực thể y khoa tiếng Việt như nhập nhằng ngữ nghĩa, từ đồng nghĩa và biến thể từ vựng.
Kết quả mở ra hướng phát triển ứng dụng NLP trong y sinh học tiếng Việt, hỗ trợ các hệ thống khai thác thông tin y tế tự động.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, kết hợp phương pháp lai và ứng dụng mô hình trong thực tế y tế, đồng thời đào tạo nguồn nhân lực chuyên môn cao.

Mời các nhà nghiên cứu và chuyên gia trong lĩnh vực y sinh học, khoa học dữ liệu và công nghệ thông tin tiếp cận và phát triển các ứng dụng dựa trên kết quả nghiên cứu này để thúc đẩy sự phát triển của ngành y tế thông minh tại Việt Nam.

Trích đoạn nội dung tài liệu

ĐẶT VẤN ĐỀ VÀ PHÁT BIỂU BÀI TOÁN Chương này chủ yếu giới thiệu tổng quan về nhận dạng thực thể định danh, đánh giá lịch sử phát triển của công nghệ nhận dạng thực thể định danh cùng những khó khăn gặp phải khi thực hiện bài toán này đối với văn bản y khoa và phát biểu bài toán nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng Việt.1 Bài toán nhận dạng thực thể định danh Nhận dạng thực thể định danh (NER) là một nhiệm vụ con của trích xuất thông tin trong các bài toán về xử lý ngôn ngữ tự nhiên (NLP). Vì vậy, nhận dạng thực thể định danh đóng vai trò cơ bản cho nhiều lĩnh vực quan trọng khác trong quản lý thông tin, chẳng hạn như chú thích ngữ nghĩa, trả lời câu hỏi, dân số học và khai thác quan điểm. Thuật ngữ "thực thể định danh" được sử dụng lần đầu tiên tại Hội thảo quốc tế chuyên đề Hiểu thông điệp (MUC) lần thứ 6 [6] năm 1995, chỉ rõ tầm quan trọng của việc xác định ngữ nghĩa của con người, tổ chức và địa điểm, hay các biểu thức số như thời gian và số lượng. 3 Nhiệm vụ của bài toán là tự động xác định các thực thể định danh như: từ hoặc chuỗi từ biểu thị tên riêng, vị trí, tổ chức, v.

Những thực thể này đôi khi cũng được gọi là tên riêng trong ngôn ngữ tự nhiên. Yêu cầu trên thường liên quan đến việc phân loại các thực thể đã xác định này thành một tập hợp các lớp được xác định trước. Do đó, nhiệm vụ nhận dạng thực thể được đặt tên đôi khi được chia thành hai nhiệm vụ con: Nhận dạng thực thể và phân loại thực thể [3]. "Nhận diện thực thể" là quá trình tìm kiếm các đối tượng được đề cập tới trong văn bản, trong khi "Phân loại thực thể" là việc gán nhãn cho các đối tượng đó.

Hầu hết, nhận dạng thực thể định danh hay gọi là nhận dạng thực thể thường là viết tắt của kết hợp cả hai yêu cầu trên. Sau đây là một ví dụ về nhận dạng thực thể trong câu tiếng Việt: Bà Hiền [TEN RIENG] đi du lịch ở Hà Nội [DIA DIEM] vào năm 2019 [THOI GIAN]. Nhận dạng thực thể là một nhiệm vụ thường được giải quyết như một bước tiền xử lý cho các tác vụ phức tạp hơn của bài toán xử lý ngôn ngữ tự nhiên như dịch máy tự động, truy xuất thông tin, trả lời câu hỏi,v. Kể từ khi các kho dữ liệu ngôn ngữ có chú thích và các mô hình liên quan được chia sẻ, chẳng hạn như MUC7 [7] hoặc CoNLL-2003 [8], nhận dạng thực thể được đặt tên đã trở thành một nhiệm vụ tiêu chuẩn trong NLP.

Đầu vào cho mô hình nhận diện thực thể thường là các văn bản chưa được xử lý và không có cấu trúc. Đôi khi các văn bản này cũng được phân tích hình thái học để tìm ra các kiểu mẫu, logic sắp xếp hoặc được gán nhãn từ loại (POS tagging) - cơ sở cho các bài toán về ngữ nghĩa. Nhiều mô hình nhận diện thực thể sử dụng các cách tiền xử lý ngôn ngữ độc lập như tạo từ gốc (stemming) hoặc nhúng từ (words embedding). Mức độ phức tạp của nhiệm vụ nhận diện thực thể định danh phụ thuộc vào đặc tính hình thái của ngôn ngữ, số lượng và chất lượng của dữ liệu có sẵn và hiển nhiên, phụ thuộc chủ yếu vào số lượng và thứ bậc của các lớp thực thể được đặt tên.

Ví dụ, trong tập dữ liệu CoNLL-2003 [8], bốn lớp được dự đoán: PER (người), ORG (tổ chức), 4 LOC (địa điểm) và MISC (không xác định), trong khi ở tập dữ liệu COVID-19 NER for Vietnamese [5] thì có đến 10 lớp. Một kiến trúc tiêu biểu mô tả cho quy trình nhận dạng thực thể được trình bày trong Hình 1.1: Quy trình nhận dạng thực thể định danh [3] Quy trình bao gồm: • Tách câu: Trong qui trình này, văn bản phi cấu trúc được tách thành các câu riêng biệt • Tách từ: Các câu được tách thành các từ, chữ số và dấu câu. • Phân loại từ: Các từ sẽ được phân loại thành danh từ, động từ, tính từ. • Mô đun nhận dạng thực thể bao gồm ba thành phần: – Từ điển định danh: Bao gồm danh sách các tên đã được phân thành các loại thực thể.

Trong lịch sử, thuật ngữ gazetteer được dùng để đề cập đến danh sách các địa danh địa lý và các thông tin liên quan; ở đây thuật ngữ này được áp dụng rộng rãi hơn cho danh sách tên của bất kỳ lớp nào. – Trích xuất đặc trưng: Trích xuất các đặc trưng có ý nghĩa để làm đầu vào cho mô hình trích xuất. – Mô hình trích xuất: Thành phần quan trọng nhất dùng để phân loại các thực thể dựa vào các đặc trưng được trích xuất. 5 Với mục tiêu của bài toán nhận diện thực thể là trích chọn ra những thực thể trong các văn bản, ta có thể xem xét bài toán nhận dạng thực thể như là một trường hợp cụ thể của bài toán gán nhãn cho dữ liệu dạng chuỗi.

Ta có thể trình bày bài toán như sau: Đầu vào: • O ( o1 , o2 , · · · , oT ) : chuỗi dữ liệu quan sát, với oi là các từ • S (s1 , s2 , · · · , sT ) : chuỗi các trạng thái tương đương với chuỗi các nhãn cần gán cho dữ liệu. Đầu ra: Các câu đã được gán nhãn (chuỗi các nhãn cho từng câu).2 Bài toán nhận dạng thực thể trong văn bản y khoa Nhận dạng thực thể được đặt tên trong y sinh học (BioNER) là bước đầu tiên và quan trọng nhất trong bất kỳ nhiệm vụ khai thác tài liệu y sinh học nào, nhằm mục đích phát hiện ranh giới của các thực thể y sinh học và dự đoán loại thực thể của chúng, chẳng hạn như bệnh tật, gene, loài, hóa chất, vv. Hiệu suất của các hệ thống BioNER trực tiếp ảnh hưởng đến các tác vụ phía sau như trích xuất mối quan hệ y sinh học, tác vụ tương tác thuốc-thuốc và xây dựng cơ sở dữ liệu kiến thức. Nhiệm vụ BioNER thường được coi là một tác vụ gán nhãn chuỗi, với mục tiêu gán chuỗi nhãn tốt nhất cho câu đầu vào được cung cấp.

Phương pháp đánh dấu thông thường là định dạng BIO [9], trong đó cho biết mỗi mã thông báo có ở Đầu của một thực thể (B), Bên trong (I) hoặc Bên ngoài (O) của một thực thể. Phương pháp này có khả năng phân biệt các thực thể liên tiếp và có thể được sử dụng dễ dàng trong một mô hình xây dựng từ đầu đến cuối, trong đó mỗi token đầu vào sẽ được gán nhãn BIO ở lớp cuối 6 cùng. Ví dụ về câu được chú thích bằng định dạng BIO có thể được tìm thấy trong Hình 1.2, trong đó "sỏi niệu quản đoạn lưng" là vấn đề về sức khỏe và "phương pháp tán sỏi ngoài cơ thể" là cách điều trị vấn đề đó.2: Một câu ví dụ cho đầu vào và đầu ra trong BioNER 1.3 Các nguồn tham khảo dữ liệu về y sinh học đáng tin cậy 1.1 Hệ thống Ngôn ngữ Y học hợp nhất [1] Hệ thống ngôn ngữ y học hợp nhất - UMLS (Unified Medical Language System)là bộ sưu tập từ điển y sinh học lớn nhất hiện có, chứa hơn 210 từ điển y sinh học với hơn 2,4 triệu khái niệm và hàng chục triệu mối quan hệ giữa các khái niệm [1] [10]. ULMS là một trong những thành tựu vĩ đại của Thư viện Y khoa Quốc gia Hoa Kỳ (NLM).

Nó bao gồm một tập hợp các tệp và phần mềm giúp kết hợp nhiều từ vựng và tiêu chuẩn y tế và sinh học nhằm tạo điều kiện tương tác giữa các hệ thống máy tính. UMLS đã thống nhất các từ vựng được sử dụng rộng rãi trong sinh học phân tử và genôm, chẳng hạn như Đề mục chủ đề Y khoa (MeSH), Phân loại Nguyên sinh vật học NCBI và Gene Ontology, với các từ vựng y học bao gồm Phân loại bệnh quốc tế và SNOMED Clinical Terms [11]. UMLS là một từ điển thống nhất, có nghĩa là các khái niệm được liệt kê trong nhiều từ điển được đưa vào cùng một nơi. Ví dụ, khái niệm về sốt, có định danh khái niệm độc nhất của UMLS là C0015967, được đại diện trong gần một trăm từ vựng thành phần, chẳng hạn như D005334 trong Đề mục chủ đề Y khoa (MeSH), 386661006 và 50177009 trong SNOMED-CT, 780.6 trong ICD-9-CM, 10016558 trong thuật ngữ Sổ tay về Hoạt động Quản lý Y tế (MedDRA), X25 trong Bộ dữ liệu Chăm sóc phẫu thuật, GO:0001660 trong Gene Ontology và U001776 trong Đề mục chủ đề Thư viện 7 Quốc hội.

Mỗi mã cá nhân này đại diện cho cùng một khái niệm, do đó tất cả đã được thống nhất thành một khái niệm y sinh học đơn lẻ trong UMLS. Vì khả năng bao phủ gần như tất cả các từ vựng liên quan khác, UMLS phù hợp nhất với vai trò từ vựng nối, cung cấp các thuật ngữ thông dụng được sử dụng bởi các bác sĩ cũng như các nhà sinh học phân tử. Với sự ủng hộ của Thư viện Y học Quốc gia và Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ, các thuật ngữ và khái niệm từ UMLS đã chiếm phần quan trọng trong các hồ sơ y tế điện tử của bệnh nhân tại Mỹ. Mục đích của UMLS là hỗ trợ việc phát triển các hệ thống máy tính có khả năng "hiểu" ý nghĩa của ngôn ngữ y học và sức khỏe.

UMLS cung cấp dữ liệu cho các nhà phát triển hệ thống, cũng như chức năng tìm kiếm và báo cáo cho người dùng ít kỹ thuật hơn. UMLS đã được sử dụng để liên kết thông tin sức khỏe, thuật ngữ y tế, tên thuốc và mã thanh toán để tạo hoặc cải thiện các ứng dụng như hồ sơ sức khỏe điện tử, công cụ phân loại bệnh nhân, từ điển lâm sàng và các bộ dịch thuật ngôn ngữ y khoa. Chính vì như vậy, UMLS là một công cụ hết sức hữu hiệu cho các mô hình nhận dạng thực thể định danh trong y sinh học.2 Hệ thống phân tích và truy xuất tài liệu y học trực tuyến Ngoài dữ liệu về UMLS, còn có một số kho chứa tài liệu y khoa như Hệ thống phân tích và truy xuất tài liệu y học trực tuyến (MEDLINE), PubMed và PubMed Central (PMC). MEDLINE là một cơ sở dữ liệu thư mục đồ sộ về tài liệu và trích dẫn của các tạp chí được bảo trì bởi Thư viện Y học Quốc gia Hoa Kỳ (NLM).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài nghiên cứu "Nghiên Cứu Trích Rút Khái Niệm Y Khoa Tiếng Việt: Ứng Dụng Học Sâu và PhoBERT" tập trung vào việc tự động trích rút các khái niệm y khoa quan trọng từ văn bản tiếng Việt, sử dụng mô hình học sâu (deep learning) và mô hình ngôn ngữ PhoBERT. Điểm mấu chốt là nó giải quyết bài toán khó khăn trong việc xử lý ngôn ngữ tự nhiên tiếng Việt trong lĩnh vực y tế, một lĩnh vực đòi hỏi độ chính xác cao. Việc tự động hóa này giúp cải thiện hiệu quả công việc cho các chuyên gia y tế, hỗ trợ nghiên cứu y học và phát triển các ứng dụng liên quan đến sức khỏe.

Để hiểu rõ hơn về cách xử lý văn bản lâm sàng tiếng Việt, bạn có thể tham khảo luận văn Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt, nơi tìm hiểu về việc xây dựng từ điển các từ viết tắt, một yếu tố quan trọng để giải quyết sự phức tạp của ngôn ngữ y khoa. Nếu bạn quan tâm đến việc tự động trích rút thông tin trong bối cảnh cụ thể hơn, hãy xem Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh, bài viết này tập trung vào trích xuất thông tin về dịch bệnh từ văn bản. Cuối cùng, để có cái nhìn tổng quan về xử lý văn bản tiếng Việt, bạn có thể khám phá Luận văn thạc sĩ khoa học máy tính mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng việt để tìm hiểu về mô hình xác định tác giả dựa trên văn phong.

#ứng dụng AI trong y tế

#phân tích văn bản y khoa

#Xử lý ngôn ngữ tự nhiên tiếng Việt

#Trích rút khái niệm y khoa tiếng Việt

#Học sâu trong y khoa tiếng Việt

#PhoBERT cho xử lý văn bản y khoa

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Ứng dụng học sâu trong y khoa

Mô hình ngôn ngữ cho y văn

Trích xuất thông tin từ văn bản