Nghiên Cứu Rút Trích Quan Hệ Trong Văn Bản Tiếng Việt

Trường đại học

Đại Học Quốc Gia Thành Phố Hồ Chí Minh - Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giới thiệu bài toán. Mục tiêu và phạm vi nghiên cứu. Ý nghĩa thực tiễn - khoa học

1.2. Ý nghĩa thực tiễn - khoa học

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Các nghiên cứu trên thế giới

2.1.1. Phương pháp dựa trên đặc trưng

2.1.2. Phương pháp dựa trên CNN

2.1.3. Phương pháp dựa trên RNN hoặc LSTM

2.1.4. Phương pháp dựa trên BERT

2.2. Các nghiên cứu trong nước

2.2.1. Phương pháp lan truyền nhãn

2.2.2. Phương pháp dựa trên mệnh đề

2.2.3. Phương pháp kết hợp các mô hình dựa trên BERT

2.3. Cơ sở lý thuyết

2.3.1. Mô hình Transformer

2.3.1.1. Giới thiệu về Transformer

2.3.1.2. Kiến trúc mô hình Transformer

3. CHƯƠNG 3: XÂY DỰNG BỘ DỮ LIỆU

3.1. Bộ dữ liệu rút trích quan hệ UIT-ViRE

3.2. Bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR

4. CHƯƠNG 4: PHƯƠNG PHÁP, KẾT QUẢ THỬ NGHIỆM VÀ ỨNG DỤNG MINH HỌA

4.1. Phương pháp đánh giá

4.2. Kết quả thử nghiệm

4.2.1. Kết quả thử nghiệm cho bài toán RE

4.2.2. Kết quả thử nghiệm cho bài toán CR

4.3. Xây dựng hệ thống minh họa

4.4. Ý tưởng xây dựng

4.5. Các công nghệ và framework được áp dụng

4.6. Các chức năng đã xây dựng

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Rút Trích Quan Hệ Tiếng Việt là gì

Bài toán rút trích quan hệ (RE) là một nhiệm vụ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây là một bài toán con của bài toán trích xuất thông tin, và có ứng dụng rộng rãi trong nhiều lĩnh vực như xây dựng cơ sở tri thức, hệ thống hỏi đáp tự động, và tóm tắt văn bản. Bài toán này ngày càng thu hút sự quan tâm của các nhà nghiên cứu do sự phát triển mạnh mẽ của dữ liệu, đặc biệt là dữ liệu văn bản. Dù vậy, số lượng các nghiên cứu về rút trích quan hệ trong văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác như tiếng Anh và tiếng Trung. Bài toán này tập trung vào việc tìm và phân loại các quan hệ ngữ nghĩa giữa các thực thể trong văn bản, ví dụ như quan hệ giữa người và tổ chức, hoặc giữa địa điểm và sự kiện. Ví dụ, trong câu "Năm 2010, Trần Ngọc Anh đã thành lập Công ty Ngôi Sao Trẻ", hệ thống cần xác định quan hệ "FounderOf (Trần Ngọc Anh, Công ty Ngôi Sao Trẻ)" và "FoundedIn (Công ty Ngôi Sao Trẻ, 2010)".

1.1. Bài toán Nhận dạng thực thể NER và vai trò

Trước khi có thể rút trích quan hệ giữa các thực thể, cần thực hiện một số bước tiền xử lý quan trọng. Đầu tiên là tách từ, giúp phân đoạn văn bản thành các đơn vị từ hoặc âm tiết. Sau đó, nhận dạng thực thể (NER) xác định và phân loại các từ hoặc cụm từ quan trọng như tên người, tổ chức, địa điểm. Theo tài liệu, "Tách từ có ý nghĩa trong bài toán nhận dạng thực thể, từ đó làm cơ sở để xác định các quan hệ giữa các thực thê đó." Nhận dạng thực thể là bài toán tìm các từ hoặc cụm từ trong một văn bản được xem là thực thể (NE) và phân loại chúng vào những nhóm được xác định trước như thời gian, địa điểm, tổ chức, tên người, số lượng, tỷ lệ phần trăm, giá trị tiền tỆ.

1.2. Phân giải đồng tham chiếu Coreference Resolution

Phân giải đồng tham chiếu (CR) là một bước quan trọng khác, giúp xác định các cụm từ khác nhau trong văn bản cùng đề cập đến một đối tượng. Đồng tham chiếu có ảnh hưởng đáng kể đến bài toán rút trích quan hệ. Nó không những có thẻ giúp rút trích được nhiều quan hệ hơn mà còn giúp liên kết các quan hệ của các thực thể có cùng tham chiều, làm giảm vấn đề phân mảnh các quan hệ được rút trích. Ví dụ, nếu văn bản có câu "Ông A là giám đốc. Ông ấy vừa mới đi công tác", hệ thống cần nhận ra rằng "Ông A" và "Ông ấy" cùng chỉ một người.

II. Thách Thức Rút Trích Quan Hệ Tiếng Việt Top 3 Vấn Đề

Bài toán rút trích quan hệ trong tiếng Việt đối mặt với nhiều thách thức đặc thù. Thứ nhất, sự phức tạp của cấu trúc ngữ pháp tiếng Việt gây khó khăn cho việc xác định chính xác các quan hệ ngữ nghĩa. Thứ hai, thiếu hụt các dataset đủ lớn và chất lượng cho việc huấn luyện các mô hình học máy. Số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ khác như tiếng Anh, tiếng Trung,. Thứ ba, vấn đề đồng tham chiếu trong tiếng Việt, với sự đa dạng của các đại từ và cách sử dụng, đòi hỏi các phương pháp xử lý tinh vi hơn. Bài toán rút trích quan hệ (RE) là một nhiệm vụ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).

2.1. Khó khăn trong việc Tách từ tiếng Việt và ảnh hưởng

Tiếng Việt có cấu trúc từ vựng phức tạp, với nhiều từ ghép và từ láy. Việc tách từ chính xác là yếu tố then chốt để đảm bảo hiệu suất của các bước xử lý tiếp theo. Ranh giới giữa các từ ở trong tiếng Việt thông thường không phải là khoảng trắng do cấu trúc của chúng có thé được thé hiện bằng một hoặc nhiều âm tiết (từ đơn hoặc từ ghép, từ láy). Sai sót trong quá trình này có thể dẫn đến việc nhận diện sai các thực thể và các quan hệ liên quan. Tách từ có ý nghĩa trong bài toán nhận dạng thực thể, từ đó làm cơ sở để xác định các quan hệ giữa các thực thể đó.

2.2. Sự hạn chế về Dataset cho bài toán rút trích quan hệ

Một trong những rào cản lớn nhất đối với nghiên cứu rút trích quan hệ trong tiếng Việt là sự thiếu hụt các dataset được gán nhãn chất lượng cao. Việc xây dựng các dataset này tốn kém và đòi hỏi nhiều công sức. Nguồn tài liệu có đề cập "Xây dựng bộ dữ liệu rút trích quan hệ UIT-ViRE từ việc chuẩn hóa bộ dữ liệu rút trích quan hệ VLSP2020 và xây dựng bộ đữ liệu phân giải đồng tham chiếu UIT-ViCR". Điều này gây khó khăn cho việc huấn luyện các mô hình học máy đủ mạnh để đạt được độ chính xác cao.

III. Phương Pháp Rút Trích Quan Hệ Tiếng Việt Hiệu Quả Nhất

Có nhiều phương pháp tiếp cận khác nhau để giải quyết bài toán rút trích quan hệ. Các phương pháp truyền thống dựa trên các đặc trưng ngữ nghĩa và cú pháp, trong khi các phương pháp hiện đại sử dụng các mô hình học sâu như CNN, RNN, và Transformer. Gần đây, việc sử dụng các mô hình Transformer, đặc biệt là BERT, đã mang lại những kết quả đầy hứa hẹn. Một số mô hình dựa trên BERT được sử dụng trong bài toán rút trích quan hệ như ALBERT, BioBERT, XLNet. Đặc biệt, việc kết hợp các mô hình dựa trên BERT đã và đang mở ra một hướng tiếp cận tiếp theo đê cải thiện hiệu quả các mô hình trong nhiều bài toán khác nhau.

3.1. Tìm hiểu về Phương pháp dựa trên đặc trưng

Phương pháp dựa trên đặc trưng là một phương pháp học máy có giám sát. Ý tưởng chính dựa vào các đặc trưng ngữ nghĩa và cú pháp được rút trích từ văn bản đê quyết định xem các thực thể trong câu có quan hệ với nhau hay không [7]. Các đặc trưng cú pháp được rút trích trong câu bao gồm chính các thực thể đang quan sát, loại của các thực thể, trình tự từ giữa các thực thể, số lượng từ giữa các thực thể và đường dẫn trong cây phân tích cú pháp có chứa hai thực thể. Các đặc trưng ngữ nghĩa bao gồm đường dẫn giữa hai thực thể trong phân tích cú pháp phụ thuộc. Cả hai đặc trưng ngữ nghĩa và cú pháp đưa vào bộ phân lớp dưới dạng một vector đặc trưng đê huấn luyện hoặc phân loại.

3.2. Ưu điểm của Phương pháp dựa trên mô hình BERT

Các mô hình dựa trên BERT có khả năng nắm bắt ngữ cảnh tốt hơn và xử lý các câu dài hiệu quả hơn. Các mô hình dựa trên BERT cho các bài toán phân loại đã đạt được những kết quả ấn tượng, trong đó có bài toán rút trích quan hệ. Mô hình này tận dụng bốn loại thông tin: vector từ, thé gan nhãn từ loại, quan hệ ngữ pháp va WordNet đê xây dựng bốn kênh. Sau đó, nó nối kết quả của bốn kênh với lớp softmax đê dự đoán. Mô hình này xem xét rat nhiều cú pháp và thông tin ngữ nghĩa bổ sung nhưng cũng khá phức tạp.

IV. Ứng Dụng Rút Trích Quan Hệ Top 3 Lĩnh Vực Tiềm Năng

Rút trích quan hệ có nhiều ứng dụng thực tiễn quan trọng. Trong lĩnh vực khai phá dữ liệu web, nó giúp thu thập thông tin về đối thủ cạnh tranh, sản phẩm thịnh hành, và phân tích tâm lý khách hàng. Trong lĩnh vực trí tuệ doanh nghiệp, nó hỗ trợ đánh giá thông tin thị trường và các thông tin chính trị giữa các quốc gia. Quan trọng, rút trích quan hệ còn góp phần xây dựng các cơ sở tri thức quy mô lớn, phục vụ cho nhiều ứng dụng khác như hệ thống hỏi đáp tự động và tóm tắt văn bản. Vé mặt thực tiễn, rút trích quan hệ ứng dụng nhiều trong các lĩnh vực bao gồm khai phá dữ liệu từ Web (Web mining), trí tuệ doanh nghiệp (Business intelligent)

4.1. Ứng dụng trong Khai phá dữ liệu Web và Phân tích

Rút trích quan hệ đóng vai trò quan trọng trong việc khai thác thông tin từ web, giúp thu thập dữ liệu về đối thủ cạnh tranh, nhận diện tên người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá ca sản phẩm, phân tích tâm lý của khách hàng.

4.2. Vai trò trong Xây dựng Cơ sở tri thức và Ứng dụng

Rút trích quan hệ đóng vai trò then chốt trong việc xây dựng các cơ sở tri thức, cung cấp thông tin có cấu trúc cho nhiều ứng dụng như hệ thống hỏi đáp tự động, tìm kiếm thông tin thông minh, và suy luận tri thức. Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn ban.

V. Kết quả Nghiên Cứu Rút Trích Quan Hệ Tiếng Việt gần đây

Các nghiên cứu gần đây về rút trích quan hệ trong tiếng Việt đã đạt được những tiến bộ đáng kể. Phương pháp kết hợp PhoBERT [15] và XLM-RoBERTa [8]: Hướng tiếp cận này được đề xuất bởi Thuật [17]. Phương pháp này sử dụng “từ” làm đơn vị cơ bản và áp dụng kết hợp mô hình XLM-RoBERTa và PhoBERT. Kết quả đánh giá với F1 micro trung bình đạt 72.06% trên bộ Test của bộ dữ liệu VLSP2020. Phương pháp này đạt giải nhất trong cuộc thi về RE trong văn bản tiếng Việt do VLSP tổ chức. Các nghiên cứu tập trung vào việc tận dụng các mô hình ngôn ngữ tiền huấn luyện và các kỹ thuật học sâu để cải thiện độ chính xác và khả năng khái quát hóa của các mô hình. Ngoài ra, việc xây dựng và chia sẻ các dataset mới cũng đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của lĩnh vực này.

5.1. Tổng quan về Các mô hình và kỹ thuật tiên tiến

Các mô hình ngôn ngữ tiền huấn luyện như BERT và các biến thể của nó đã chứng minh được hiệu quả vượt trội trong nhiều nhiệm vụ NLP, bao gồm cả rút trích quan hệ. Các kỹ thuật học sâu như attention mechanism và graph neural networks cũng được sử dụng để cải thiện khả năng nắm bắt các mối quan hệ phức tạp giữa các thực thể.

5.2. Thách thức trong Đánh giá và so sánh các phương pháp

Việc đánh giá và so sánh các phương pháp rút trích quan hệ khác nhau đòi hỏi các dataset chuẩn và các metric đánh giá phù hợp. Ngoài độ chính xác, các yếu tố khác như khả năng xử lý các câu dài và khả năng khái quát hóa cũng cần được xem xét.

VI. Hướng Phát Triển Nghiên Cứu Rút Trích Quan Hệ Tiếng Việt

Nghiên cứu rút trích quan hệ trong tiếng Việt vẫn còn nhiều tiềm năng phát triển. Các hướng nghiên cứu tiềm năng bao gồm: (1) Khai thác các nguồn dữ liệu mới và xây dựng các dataset quy mô lớn hơn. (2) Phát triển các mô hình học sâu chuyên biệt cho tiếng Việt. (3) Nghiên cứu các phương pháp xử lý đồng tham chiếu hiệu quả hơn. (4) Ứng dụng rút trích quan hệ vào các bài toán thực tế như xây dựng cơ sở tri thức và hệ thống hỏi đáp tự động. Về khía cạnh khoa học, luận văn có những đóng góp sau: - Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

6.1. Xây dựng Dataset lớn và chất lượng cao cho RE Tiếng Việt

Việc tạo ra các dataset lớn và chất lượng cao là yếu tố then chốt để cải thiện hiệu suất của các mô hình rút trích quan hệ. Các dataset này cần bao phủ nhiều lĩnh vực và loại quan hệ khác nhau để đảm bảo khả năng khái quát hóa của các mô hình.

6.2. Kết hợp Rút Trích Quan Hệ với các Bài toán NLP khác

Rút trích quan hệ có thể được kết hợp với các bài toán NLP khác như tóm tắt văn bản, dịch máy, và phân tích cảm xúc để tạo ra các hệ thống thông minh hơn. Thảo luận, đánh giá phương pháp rút trích quan hệ và phương pháp phân giải đồng tham chiếu và đề xuất các hướng phát triển tiếp theo của đề tài.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin rút trích quan hệ giữa các thực thể trong văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Rút trích quan hệ (Relation Extraction - RE) là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đóng vai trò then chốt trong việc khai thác thông tin từ văn bản. Theo ước tính, với sự bùng nổ dữ liệu văn bản trên Internet và các nguồn dữ liệu số, việc tự động nhận diện và phân loại các quan hệ ngữ nghĩa giữa các thực thể trong văn bản ngày càng trở nên cấp thiết. Tuy nhiên, các nghiên cứu về rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ như tiếng Anh hay tiếng Trung. Luận văn này tập trung nghiên cứu sâu về bài toán rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt, đồng thời kết hợp với bài toán phân giải đồng tham chiếu (Coreference Resolution - CR) nhằm nâng cao hiệu quả rút trích.

Mục tiêu cụ thể của nghiên cứu bao gồm xây dựng bộ dữ liệu chuẩn hóa cho bài toán rút trích quan hệ (UIT-ViRE) và bộ dữ liệu phân giải đồng tham chiếu (UIT-ViCR), nghiên cứu và đánh giá các phương pháp phân giải đồng tham chiếu trên văn bản tiếng Việt dựa trên mô hình tiếng Anh, cũng như phát triển và thử nghiệm các mô hình rút trích quan hệ dựa trên BERT và các mô hình kết hợp. Phạm vi nghiên cứu giới hạn trong việc rút trích quan hệ trong phạm vi từng câu, với ba loại thực thể chính là người (PER), tổ chức (ORG) và địa danh (LOC), cùng tám loại quan hệ ngữ nghĩa được xác định rõ ràng.

Ý nghĩa thực tiễn của đề tài rất lớn, đặc biệt trong các lĩnh vực khai phá dữ liệu web, trí tuệ doanh nghiệp, phân tích thị trường và chính trị. Về mặt khoa học, nghiên cứu góp phần làm rõ tình hình nghiên cứu trong nước và quốc tế, đồng thời đề xuất các phương pháp mới phù hợp với đặc thù ngôn ngữ tiếng Việt, mở ra hướng phát triển cho các bài toán NLP liên quan.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong NLP, đặc biệt là:

Mô hình Transformer: Kiến trúc học sâu dựa trên cơ chế multi-head self-attention, cho phép xử lý song song dữ liệu và học ngữ cảnh hai chiều của từ trong câu. Transformer gồm bộ Encoder-Decoder với các lớp attention và feed-forward, giúp mô hình nắm bắt mối quan hệ phức tạp giữa các từ trong văn bản.
Mô hình BERT (Bidirectional Encoder Representations from Transformers): Sử dụng bộ Encoder của Transformer để tạo biểu diễn ngữ cảnh hai chiều cho từ, được huấn luyện qua hai nhiệm vụ chính là Masked Language Model (MLM) và Next Sentence Prediction (NSP). BERT có hai phiên bản chính là BERT-base và BERT-large với số lượng tham số lần lượt khoảng 110 triệu và 340 triệu.
Các mô hình BERT cải tiến cho tiếng Việt: PhoBERT được huấn luyện trên dữ liệu tiếng Việt lớn, đạt độ chính xác cao trong các bài toán như nhận dạng thực thể (F1 đạt 94.7%). XLM-RoBERTa là mô hình đa ngôn ngữ được huấn luyện trên hơn 2TB dữ liệu, hỗ trợ tiếng Việt và nhiều ngôn ngữ khác.
Phân giải đồng tham chiếu (CR): Bài toán xác định các cụm từ cùng chỉ một thực thể trong văn bản, giúp tăng cường hiệu quả rút trích quan hệ bằng cách liên kết các thực thể đồng tham chiếu. Phương pháp CR đề xuất dựa trên dịch văn bản tiếng Việt sang tiếng Anh, áp dụng mô hình SpanBERT-large cho tiếng Anh, sau đó chiếu nhãn đồng tham chiếu trở lại tiếng Việt.

Các khái niệm chính bao gồm: thực thể đặt tên (Named Entity - NE), rút trích quan hệ (RE), phân giải đồng tham chiếu (CR), multi-head self-attention, Masked Language Model (MLM), Next Sentence Prediction (NSP).

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm bộ dữ liệu rút trích quan hệ chuẩn hóa UIT-ViRE, được xây dựng từ bộ dữ liệu VLSP2020 với hơn 15.000 quan hệ trên hơn 10.000 câu, và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR gồm 102 đoạn văn với 150 cụm đồng tham chiếu được gán nhãn.

Phương pháp phân tích bao gồm:

Xử lý tiền đề: tách từ bằng thư viện UITws-v1 với độ chính xác F1 đạt 98%, nhận dạng thực thể bằng mô hình PhoBERT.
Phân giải đồng tham chiếu: dịch văn bản tiếng Việt sang tiếng Anh bằng mô hình vinai-translate-vi2en, áp dụng mô hình SpanBERT-large cho tiếng Anh để xác định cụm đồng tham chiếu, sau đó chiếu nhãn trở lại tiếng Việt qua công cụ Awesome-align.
Rút trích quan hệ: thử nghiệm các mô hình dựa trên BERT riêng lẻ và kết hợp (ensemble) như PhoBERT-base + XLM-RoBERTa-base, PhoBERT-large + XLM-RoBERTa-large.
Đánh giá mô hình: sử dụng các độ đo F1 micro-averaged và macro-averaged cho bài toán RE, và ba độ đo MUC, B3, CEAF cho bài toán CR.

Timeline nghiên cứu kéo dài trong năm 2023, với các giai đoạn xây dựng bộ dữ liệu, phát triển mô hình, thử nghiệm và xây dựng hệ thống minh họa.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình kết hợp trong rút trích quan hệ: Mô hình kết hợp PhoBERT-large và XLM-RoBERTa-large đạt F1 micro trên bộ Test là 73%, cao hơn so với mô hình PhoBERT-base đơn lẻ đạt khoảng 91.94% trên bộ Dev. Sự kết hợp này giúp cải thiện khả năng nắm bắt ngữ cảnh và đặc trưng ngôn ngữ, nâng cao độ chính xác rút trích quan hệ.
Phương pháp phân giải đồng tham chiếu hiệu quả: Phương pháp CR đề xuất đạt F1 trung bình trên ba độ đo MUC, B3, CEAF là 75.16% trên bộ dữ liệu UIT-ViCR, gần tương đương với kết quả 79.6% của mô hình SpanBERT trên dữ liệu tiếng Anh. Điều này chứng tỏ tính khả thi của việc tận dụng mô hình tiếng Anh cho bài toán tiếng Việt thông qua dịch và chiếu nhãn.
Tác động tích cực của phân giải đồng tham chiếu đến rút trích quan hệ: Việc xử lý đồng tham chiếu giúp liên kết các thực thể đồng nhất, giảm phân mảnh quan hệ, từ đó tăng số lượng và chất lượng các quan hệ được rút trích. Ví dụ, các thực thể như "Ông Lê Văn Sáu" và "Ông Sáu" được nhận diện là cùng một thực thể, giúp rút trích chính xác các quan hệ PERSONAL_SOCIAL và LOCATED.
Bộ dữ liệu UIT-ViRE được chuẩn hóa và mở rộng: Bộ dữ liệu này đã xử lý các lỗi Unicode, tách biệt quan hệ cho từng cặp thực thể trong câu, mở rộng từ 4 lên 8 loại quan hệ, với tổng số hơn 15.000 quan hệ trong bộ Train, tạo nền tảng vững chắc cho việc huấn luyện và đánh giá mô hình.

Thảo luận kết quả

Kết quả thử nghiệm cho thấy mô hình kết hợp giữa PhoBERT và XLM-RoBERTa tận dụng được ưu điểm của cả hai mô hình, đặc biệt trong việc xử lý ngữ cảnh phức tạp của tiếng Việt. So với các nghiên cứu trước đây chỉ sử dụng mô hình đơn lẻ hoặc phương pháp truyền thống, kết quả này có sự cải thiện rõ rệt về độ chính xác.

Phương pháp phân giải đồng tham chiếu dựa trên dịch và chiếu nhãn là một hướng tiếp cận sáng tạo, tận dụng các mô hình mạnh trên tiếng Anh để khắc phục hạn chế về dữ liệu và mô hình cho tiếng Việt. Tuy nhiên, kết quả còn phụ thuộc vào chất lượng dịch và độ chính xác của mô hình SpanBERT, đồng thời thời gian xử lý có thể kéo dài do chuỗi các bước phức tạp.

Việc xây dựng bộ dữ liệu chuẩn hóa UIT-ViRE và UIT-ViCR là đóng góp quan trọng, giúp chuẩn hóa dữ liệu đầu vào, giảm thiểu lỗi và tạo điều kiện cho các nghiên cứu tiếp theo. Các biểu đồ so sánh F1 giữa các mô hình và bảng thống kê số lượng quan hệ theo loại có thể minh họa rõ nét sự khác biệt hiệu quả giữa các phương pháp.

Đề xuất và khuyến nghị

Tăng cường huấn luyện mô hình kết hợp đa ngôn ngữ: Khuyến nghị phát triển thêm các mô hình kết hợp PhoBERT, XLM-RoBERTa và các biến thể mới như SpanBERT hoặc XLNet để nâng cao độ chính xác rút trích quan hệ, đặc biệt trên các tập dữ liệu đa dạng hơn. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm nghiên cứu NLP.
Cải tiến phương pháp phân giải đồng tham chiếu cho tiếng Việt: Đề xuất nghiên cứu trực tiếp các mô hình CR trên tiếng Việt, xây dựng bộ dữ liệu lớn hơn và áp dụng kỹ thuật học sâu thay vì dựa vào dịch thuật. Mục tiêu nâng F1 trung bình lên trên 80%. Thời gian: 12-18 tháng, chủ thể: các trung tâm nghiên cứu ngôn ngữ.
Mở rộng phạm vi rút trích quan hệ vượt ra ngoài câu: Phát triển các phương pháp rút trích quan hệ liên câu, kết hợp với CR để khai thác quan hệ phức tạp hơn trong văn bản dài. Thời gian: 12 tháng, chủ thể: nhóm phát triển mô hình.
Xây dựng hệ thống ứng dụng thực tiễn: Triển khai hệ thống minh họa rút trích quan hệ trên các nguồn dữ liệu thực tế như báo chí, mạng xã hội, phục vụ khai phá tri thức, phân tích thị trường. Tích hợp cơ sở dữ liệu đồ thị Neo4j để lưu trữ và truy vấn hiệu quả. Thời gian: 6 tháng, chủ thể: doanh nghiệp công nghệ và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, NLP: Luận văn cung cấp kiến thức chuyên sâu về rút trích quan hệ và phân giải đồng tham chiếu trong tiếng Việt, cùng các phương pháp hiện đại như Transformer, BERT, giúp phát triển các đề tài nghiên cứu mới.
Chuyên gia phát triển ứng dụng trí tuệ nhân tạo và khai phá dữ liệu: Các giải pháp và bộ dữ liệu chuẩn hóa trong luận văn hỗ trợ xây dựng hệ thống khai thác thông tin tự động, cải thiện hiệu quả xử lý ngôn ngữ tiếng Việt trong thực tế.
Doanh nghiệp trong lĩnh vực truyền thông, báo chí và phân tích thị trường: Hệ thống minh họa và phương pháp rút trích quan hệ giúp tự động hóa việc phân tích nội dung, theo dõi xu hướng, đánh giá đối thủ cạnh tranh và khách hàng.
Cơ quan quản lý và tổ chức nghiên cứu ngôn ngữ: Luận văn cung cấp cơ sở dữ liệu và phương pháp chuẩn để phát triển các công cụ xử lý ngôn ngữ tiếng Việt, phục vụ cho các dự án nghiên cứu và ứng dụng trong giáo dục, hành chính.

Câu hỏi thường gặp

Rút trích quan hệ là gì và tại sao quan trọng?
Rút trích quan hệ là quá trình xác định và phân loại các quan hệ ngữ nghĩa giữa các thực thể trong văn bản. Nó quan trọng vì giúp chuyển đổi dữ liệu văn bản thô thành thông tin có cấu trúc, phục vụ cho các ứng dụng như sơ đồ tri thức, hỏi đáp tự động, và phân tích dữ liệu.
Phân giải đồng tham chiếu ảnh hưởng thế nào đến rút trích quan hệ?
Phân giải đồng tham chiếu giúp nhận diện các cụm từ cùng chỉ một thực thể, từ đó liên kết các quan hệ liên quan, giảm phân mảnh và tăng số lượng quan hệ được rút trích chính xác. Ví dụ, "Ông Sáu" và "Ông Lê Văn Sáu" được xem là cùng một thực thể.
Tại sao sử dụng mô hình kết hợp PhoBERT và XLM-RoBERTa?
PhoBERT được huấn luyện chuyên sâu trên tiếng Việt, trong khi XLM-RoBERTa là mô hình đa ngôn ngữ mạnh mẽ. Kết hợp hai mô hình tận dụng ưu điểm của cả hai, cải thiện khả năng hiểu ngữ cảnh và đặc trưng ngôn ngữ, nâng cao hiệu quả rút trích quan hệ.
Bộ dữ liệu UIT-ViRE có điểm gì nổi bật?
UIT-ViRE là bộ dữ liệu chuẩn hóa, mở rộng từ VLSP2020, với hơn 15.000 quan hệ được gán nhãn trên 8 loại quan hệ và 3 loại thực thể, xử lý lỗi Unicode và tách biệt quan hệ theo từng cặp thực thể trong câu, tạo điều kiện thuận lợi cho huấn luyện mô hình chính xác.
Phương pháp phân giải đồng tham chiếu dựa trên dịch thuật có hạn chế gì?
Phương pháp này phụ thuộc vào chất lượng dịch tiếng Việt sang tiếng Anh và độ chính xác của mô hình CR tiếng Anh. Ngoài ra, quá trình xử lý phức tạp và tốn thời gian, có thể ảnh hưởng đến hiệu suất khi áp dụng trên văn bản dài hoặc dữ liệu lớn.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu chuẩn hóa UIT-ViRE và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR, phục vụ cho nghiên cứu rút trích quan hệ và phân giải đồng tham chiếu trong tiếng Việt.
Phương pháp phân giải đồng tham chiếu dựa trên dịch thuật và mô hình SpanBERT-large cho kết quả khả thi với F1 trung bình đạt trên 75%, mở ra hướng nghiên cứu mới cho tiếng Việt.
Mô hình kết hợp PhoBERT-large và XLM-RoBERTa-large đạt hiệu quả cao trong rút trích quan hệ, với F1 micro trên bộ Test đạt 73%, vượt trội so với mô hình đơn lẻ.
Việc xử lý đồng tham chiếu giúp tăng số lượng và chất lượng quan hệ được rút trích, giảm phân mảnh và nâng cao tính liên kết trong văn bản.
Hướng phát triển tiếp theo bao gồm mở rộng phạm vi rút trích quan hệ liên câu, cải tiến mô hình CR cho tiếng Việt và triển khai hệ thống ứng dụng thực tiễn.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng các phương pháp và bộ dữ liệu này, đồng thời đóng góp thêm dữ liệu và cải tiến mô hình nhằm nâng cao hiệu quả xử lý ngôn ngữ tiếng Việt.

Tài liệu "Nghiên Cứu Rút Trích Quan Hệ Trong Văn Bản Tiếng Việt" cung cấp cái nhìn sâu sắc về các phương pháp và kỹ thuật rút trích quan hệ trong văn bản tiếng Việt, một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về cách thức xác định và phân tích các mối quan hệ giữa các thực thể trong văn bản, mà còn mở ra cơ hội ứng dụng trong nhiều lĩnh vực như tìm kiếm thông tin, phân tích dữ liệu và phát triển hệ thống đối thoại.

Để mở rộng kiến thức của bạn về các khía cạnh liên quan, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính hội thoại dialog trong tiếng việt dùng phương pháp seqtoseq và attention, nơi khám phá các phương pháp hiện đại trong xử lý hội thoại. Ngoài ra, tài liệu Luận văn tốt nghiệp tìm hiểu mô hình ngôn ngữ phobert cho bài toán phân loại quan điểm bình luận tiếng việt sẽ giúp bạn hiểu rõ hơn về việc phân loại quan điểm trong bình luận, một ứng dụng quan trọng của rút trích quan hệ. Cuối cùng, tài liệu Luận văn thạc sĩ phân loại câu hỏi pháp quy tiếng việt sử dụng mô hình bert cũng là một nguồn tài liệu quý giá, giúp bạn nắm bắt cách thức phân loại câu hỏi trong ngữ cảnh pháp lý. Những tài liệu này sẽ cung cấp cho bạn cái nhìn toàn diện hơn về các ứng dụng và xu hướng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

#xử lý ngôn ngữ tự nhiên

#phân tích ngữ nghĩa

#văn bản tiếng Việt

#khai thác thông tin

#mô hình ngôn ngữ

#học máy trong ngôn ngữ

Chủ đề

Nghiên cứu ngôn ngữ tự nhiên

Kỹ thuật rút trích thông tin

Ứng dụng AI trong văn bản

Phân tích ngữ nghĩa trong tiếng Việt