Tổng quan nghiên cứu

Rút trích quan hệ (Relation Extraction - RE) là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đóng vai trò then chốt trong việc khai thác thông tin từ văn bản. Theo ước tính, với sự bùng nổ dữ liệu văn bản trên Internet và các nguồn dữ liệu số, việc tự động nhận diện và phân loại các quan hệ ngữ nghĩa giữa các thực thể trong văn bản ngày càng trở nên cấp thiết. Tuy nhiên, các nghiên cứu về rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ như tiếng Anh hay tiếng Trung. Luận văn này tập trung nghiên cứu sâu về bài toán rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt, đồng thời kết hợp với bài toán phân giải đồng tham chiếu (Coreference Resolution - CR) nhằm nâng cao hiệu quả rút trích.

Mục tiêu cụ thể của nghiên cứu bao gồm xây dựng bộ dữ liệu chuẩn hóa cho bài toán rút trích quan hệ (UIT-ViRE) và bộ dữ liệu phân giải đồng tham chiếu (UIT-ViCR), nghiên cứu và đánh giá các phương pháp phân giải đồng tham chiếu trên văn bản tiếng Việt dựa trên mô hình tiếng Anh, cũng như phát triển và thử nghiệm các mô hình rút trích quan hệ dựa trên BERT và các mô hình kết hợp. Phạm vi nghiên cứu giới hạn trong việc rút trích quan hệ trong phạm vi từng câu, với ba loại thực thể chính là người (PER), tổ chức (ORG) và địa danh (LOC), cùng tám loại quan hệ ngữ nghĩa được xác định rõ ràng.

Ý nghĩa thực tiễn của đề tài rất lớn, đặc biệt trong các lĩnh vực khai phá dữ liệu web, trí tuệ doanh nghiệp, phân tích thị trường và chính trị. Về mặt khoa học, nghiên cứu góp phần làm rõ tình hình nghiên cứu trong nước và quốc tế, đồng thời đề xuất các phương pháp mới phù hợp với đặc thù ngôn ngữ tiếng Việt, mở ra hướng phát triển cho các bài toán NLP liên quan.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong NLP, đặc biệt là:

  • Mô hình Transformer: Kiến trúc học sâu dựa trên cơ chế multi-head self-attention, cho phép xử lý song song dữ liệu và học ngữ cảnh hai chiều của từ trong câu. Transformer gồm bộ Encoder-Decoder với các lớp attention và feed-forward, giúp mô hình nắm bắt mối quan hệ phức tạp giữa các từ trong văn bản.

  • Mô hình BERT (Bidirectional Encoder Representations from Transformers): Sử dụng bộ Encoder của Transformer để tạo biểu diễn ngữ cảnh hai chiều cho từ, được huấn luyện qua hai nhiệm vụ chính là Masked Language Model (MLM) và Next Sentence Prediction (NSP). BERT có hai phiên bản chính là BERT-base và BERT-large với số lượng tham số lần lượt khoảng 110 triệu và 340 triệu.

  • Các mô hình BERT cải tiến cho tiếng Việt: PhoBERT được huấn luyện trên dữ liệu tiếng Việt lớn, đạt độ chính xác cao trong các bài toán như nhận dạng thực thể (F1 đạt 94.7%). XLM-RoBERTa là mô hình đa ngôn ngữ được huấn luyện trên hơn 2TB dữ liệu, hỗ trợ tiếng Việt và nhiều ngôn ngữ khác.

  • Phân giải đồng tham chiếu (CR): Bài toán xác định các cụm từ cùng chỉ một thực thể trong văn bản, giúp tăng cường hiệu quả rút trích quan hệ bằng cách liên kết các thực thể đồng tham chiếu. Phương pháp CR đề xuất dựa trên dịch văn bản tiếng Việt sang tiếng Anh, áp dụng mô hình SpanBERT-large cho tiếng Anh, sau đó chiếu nhãn đồng tham chiếu trở lại tiếng Việt.

Các khái niệm chính bao gồm: thực thể đặt tên (Named Entity - NE), rút trích quan hệ (RE), phân giải đồng tham chiếu (CR), multi-head self-attention, Masked Language Model (MLM), Next Sentence Prediction (NSP).

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm bộ dữ liệu rút trích quan hệ chuẩn hóa UIT-ViRE, được xây dựng từ bộ dữ liệu VLSP2020 với hơn 15.000 quan hệ trên hơn 10.000 câu, và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR gồm 102 đoạn văn với 150 cụm đồng tham chiếu được gán nhãn.

Phương pháp phân tích bao gồm:

  • Xử lý tiền đề: tách từ bằng thư viện UITws-v1 với độ chính xác F1 đạt 98%, nhận dạng thực thể bằng mô hình PhoBERT.

  • Phân giải đồng tham chiếu: dịch văn bản tiếng Việt sang tiếng Anh bằng mô hình vinai-translate-vi2en, áp dụng mô hình SpanBERT-large cho tiếng Anh để xác định cụm đồng tham chiếu, sau đó chiếu nhãn trở lại tiếng Việt qua công cụ Awesome-align.

  • Rút trích quan hệ: thử nghiệm các mô hình dựa trên BERT riêng lẻ và kết hợp (ensemble) như PhoBERT-base + XLM-RoBERTa-base, PhoBERT-large + XLM-RoBERTa-large.

  • Đánh giá mô hình: sử dụng các độ đo F1 micro-averaged và macro-averaged cho bài toán RE, và ba độ đo MUC, B3, CEAF cho bài toán CR.

Timeline nghiên cứu kéo dài trong năm 2023, với các giai đoạn xây dựng bộ dữ liệu, phát triển mô hình, thử nghiệm và xây dựng hệ thống minh họa.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình kết hợp trong rút trích quan hệ: Mô hình kết hợp PhoBERT-large và XLM-RoBERTa-large đạt F1 micro trên bộ Test là 73%, cao hơn so với mô hình PhoBERT-base đơn lẻ đạt khoảng 91.94% trên bộ Dev. Sự kết hợp này giúp cải thiện khả năng nắm bắt ngữ cảnh và đặc trưng ngôn ngữ, nâng cao độ chính xác rút trích quan hệ.

  2. Phương pháp phân giải đồng tham chiếu hiệu quả: Phương pháp CR đề xuất đạt F1 trung bình trên ba độ đo MUC, B3, CEAF là 75.16% trên bộ dữ liệu UIT-ViCR, gần tương đương với kết quả 79.6% của mô hình SpanBERT trên dữ liệu tiếng Anh. Điều này chứng tỏ tính khả thi của việc tận dụng mô hình tiếng Anh cho bài toán tiếng Việt thông qua dịch và chiếu nhãn.

  3. Tác động tích cực của phân giải đồng tham chiếu đến rút trích quan hệ: Việc xử lý đồng tham chiếu giúp liên kết các thực thể đồng nhất, giảm phân mảnh quan hệ, từ đó tăng số lượng và chất lượng các quan hệ được rút trích. Ví dụ, các thực thể như "Ông Lê Văn Sáu" và "Ông Sáu" được nhận diện là cùng một thực thể, giúp rút trích chính xác các quan hệ PERSONAL_SOCIAL và LOCATED.

  4. Bộ dữ liệu UIT-ViRE được chuẩn hóa và mở rộng: Bộ dữ liệu này đã xử lý các lỗi Unicode, tách biệt quan hệ cho từng cặp thực thể trong câu, mở rộng từ 4 lên 8 loại quan hệ, với tổng số hơn 15.000 quan hệ trong bộ Train, tạo nền tảng vững chắc cho việc huấn luyện và đánh giá mô hình.

Thảo luận kết quả

Kết quả thử nghiệm cho thấy mô hình kết hợp giữa PhoBERT và XLM-RoBERTa tận dụng được ưu điểm của cả hai mô hình, đặc biệt trong việc xử lý ngữ cảnh phức tạp của tiếng Việt. So với các nghiên cứu trước đây chỉ sử dụng mô hình đơn lẻ hoặc phương pháp truyền thống, kết quả này có sự cải thiện rõ rệt về độ chính xác.

Phương pháp phân giải đồng tham chiếu dựa trên dịch và chiếu nhãn là một hướng tiếp cận sáng tạo, tận dụng các mô hình mạnh trên tiếng Anh để khắc phục hạn chế về dữ liệu và mô hình cho tiếng Việt. Tuy nhiên, kết quả còn phụ thuộc vào chất lượng dịch và độ chính xác của mô hình SpanBERT, đồng thời thời gian xử lý có thể kéo dài do chuỗi các bước phức tạp.

Việc xây dựng bộ dữ liệu chuẩn hóa UIT-ViRE và UIT-ViCR là đóng góp quan trọng, giúp chuẩn hóa dữ liệu đầu vào, giảm thiểu lỗi và tạo điều kiện cho các nghiên cứu tiếp theo. Các biểu đồ so sánh F1 giữa các mô hình và bảng thống kê số lượng quan hệ theo loại có thể minh họa rõ nét sự khác biệt hiệu quả giữa các phương pháp.

Đề xuất và khuyến nghị

  1. Tăng cường huấn luyện mô hình kết hợp đa ngôn ngữ: Khuyến nghị phát triển thêm các mô hình kết hợp PhoBERT, XLM-RoBERTa và các biến thể mới như SpanBERT hoặc XLNet để nâng cao độ chính xác rút trích quan hệ, đặc biệt trên các tập dữ liệu đa dạng hơn. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm nghiên cứu NLP.

  2. Cải tiến phương pháp phân giải đồng tham chiếu cho tiếng Việt: Đề xuất nghiên cứu trực tiếp các mô hình CR trên tiếng Việt, xây dựng bộ dữ liệu lớn hơn và áp dụng kỹ thuật học sâu thay vì dựa vào dịch thuật. Mục tiêu nâng F1 trung bình lên trên 80%. Thời gian: 12-18 tháng, chủ thể: các trung tâm nghiên cứu ngôn ngữ.

  3. Mở rộng phạm vi rút trích quan hệ vượt ra ngoài câu: Phát triển các phương pháp rút trích quan hệ liên câu, kết hợp với CR để khai thác quan hệ phức tạp hơn trong văn bản dài. Thời gian: 12 tháng, chủ thể: nhóm phát triển mô hình.

  4. Xây dựng hệ thống ứng dụng thực tiễn: Triển khai hệ thống minh họa rút trích quan hệ trên các nguồn dữ liệu thực tế như báo chí, mạng xã hội, phục vụ khai phá tri thức, phân tích thị trường. Tích hợp cơ sở dữ liệu đồ thị Neo4j để lưu trữ và truy vấn hiệu quả. Thời gian: 6 tháng, chủ thể: doanh nghiệp công nghệ và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, NLP: Luận văn cung cấp kiến thức chuyên sâu về rút trích quan hệ và phân giải đồng tham chiếu trong tiếng Việt, cùng các phương pháp hiện đại như Transformer, BERT, giúp phát triển các đề tài nghiên cứu mới.

  2. Chuyên gia phát triển ứng dụng trí tuệ nhân tạo và khai phá dữ liệu: Các giải pháp và bộ dữ liệu chuẩn hóa trong luận văn hỗ trợ xây dựng hệ thống khai thác thông tin tự động, cải thiện hiệu quả xử lý ngôn ngữ tiếng Việt trong thực tế.

  3. Doanh nghiệp trong lĩnh vực truyền thông, báo chí và phân tích thị trường: Hệ thống minh họa và phương pháp rút trích quan hệ giúp tự động hóa việc phân tích nội dung, theo dõi xu hướng, đánh giá đối thủ cạnh tranh và khách hàng.

  4. Cơ quan quản lý và tổ chức nghiên cứu ngôn ngữ: Luận văn cung cấp cơ sở dữ liệu và phương pháp chuẩn để phát triển các công cụ xử lý ngôn ngữ tiếng Việt, phục vụ cho các dự án nghiên cứu và ứng dụng trong giáo dục, hành chính.

Câu hỏi thường gặp

  1. Rút trích quan hệ là gì và tại sao quan trọng?
    Rút trích quan hệ là quá trình xác định và phân loại các quan hệ ngữ nghĩa giữa các thực thể trong văn bản. Nó quan trọng vì giúp chuyển đổi dữ liệu văn bản thô thành thông tin có cấu trúc, phục vụ cho các ứng dụng như sơ đồ tri thức, hỏi đáp tự động, và phân tích dữ liệu.

  2. Phân giải đồng tham chiếu ảnh hưởng thế nào đến rút trích quan hệ?
    Phân giải đồng tham chiếu giúp nhận diện các cụm từ cùng chỉ một thực thể, từ đó liên kết các quan hệ liên quan, giảm phân mảnh và tăng số lượng quan hệ được rút trích chính xác. Ví dụ, "Ông Sáu" và "Ông Lê Văn Sáu" được xem là cùng một thực thể.

  3. Tại sao sử dụng mô hình kết hợp PhoBERT và XLM-RoBERTa?
    PhoBERT được huấn luyện chuyên sâu trên tiếng Việt, trong khi XLM-RoBERTa là mô hình đa ngôn ngữ mạnh mẽ. Kết hợp hai mô hình tận dụng ưu điểm của cả hai, cải thiện khả năng hiểu ngữ cảnh và đặc trưng ngôn ngữ, nâng cao hiệu quả rút trích quan hệ.

  4. Bộ dữ liệu UIT-ViRE có điểm gì nổi bật?
    UIT-ViRE là bộ dữ liệu chuẩn hóa, mở rộng từ VLSP2020, với hơn 15.000 quan hệ được gán nhãn trên 8 loại quan hệ và 3 loại thực thể, xử lý lỗi Unicode và tách biệt quan hệ theo từng cặp thực thể trong câu, tạo điều kiện thuận lợi cho huấn luyện mô hình chính xác.

  5. Phương pháp phân giải đồng tham chiếu dựa trên dịch thuật có hạn chế gì?
    Phương pháp này phụ thuộc vào chất lượng dịch tiếng Việt sang tiếng Anh và độ chính xác của mô hình CR tiếng Anh. Ngoài ra, quá trình xử lý phức tạp và tốn thời gian, có thể ảnh hưởng đến hiệu suất khi áp dụng trên văn bản dài hoặc dữ liệu lớn.

Kết luận

  • Luận văn đã xây dựng thành công bộ dữ liệu chuẩn hóa UIT-ViRE và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR, phục vụ cho nghiên cứu rút trích quan hệ và phân giải đồng tham chiếu trong tiếng Việt.
  • Phương pháp phân giải đồng tham chiếu dựa trên dịch thuật và mô hình SpanBERT-large cho kết quả khả thi với F1 trung bình đạt trên 75%, mở ra hướng nghiên cứu mới cho tiếng Việt.
  • Mô hình kết hợp PhoBERT-large và XLM-RoBERTa-large đạt hiệu quả cao trong rút trích quan hệ, với F1 micro trên bộ Test đạt 73%, vượt trội so với mô hình đơn lẻ.
  • Việc xử lý đồng tham chiếu giúp tăng số lượng và chất lượng quan hệ được rút trích, giảm phân mảnh và nâng cao tính liên kết trong văn bản.
  • Hướng phát triển tiếp theo bao gồm mở rộng phạm vi rút trích quan hệ liên câu, cải tiến mô hình CR cho tiếng Việt và triển khai hệ thống ứng dụng thực tiễn.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng các phương pháp và bộ dữ liệu này, đồng thời đóng góp thêm dữ liệu và cải tiến mô hình nhằm nâng cao hiệu quả xử lý ngôn ngữ tiếng Việt.