I. Giới thiệu đề tài
Trong bối cảnh xử lý ngôn ngữ tự nhiên (NLP), trích xuất thông tin thực thể và quan hệ từ văn bản tiếng Việt là một nhiệm vụ quan trọng, nhằm nhận diện và chiết xuất các thông tin thiết yếu như tên người, địa điểm và mối quan hệ giữa chúng. Tuy nhiên, việc thực hiện nhiệm vụ này gặp nhiều thách thức do những đặc điểm riêng của tiếng Việt như từ ngữ ghép và thiếu dấu. Do đó, nghiên cứu này nhằm phát triển một mô hình đồ thị động để cải thiện hiệu suất của việc trích xuất thông tin. Mô hình này không chỉ đơn thuần là một giải pháp cho việc nhận diện thực thể mà còn giúp tối ưu hóa việc khai thác thông tin từ văn bản, giảm thiểu lỗi xếp chồng giữa các tác vụ khác nhau.
1.1 Tổng quan và Động lực
NLP là lĩnh vực nghiên cứu nhằm giúp máy tính hiểu và tương tác với ngôn ngữ con người. Một trong những thách thức lớn nhất là trích xuất thông tin thực thể và quan hệ. Việc này không chỉ yêu cầu máy tính nhận diện thực thể mà còn cần hiểu ngữ cảnh và cấu trúc câu trong tiếng Việt. Các mô hình machine learning hiện tại thường gặp khó khăn trong việc xử lý đồng thời nhiều tác vụ, dẫn đến lỗi trong quá trình xử lý ngôn ngữ tự nhiên. Đề tài này được hình thành từ nhu cầu phát triển các phương pháp khai thác thông tin hiệu quả hơn, nhằm cải thiện khả năng nhận diện thực thể và quan hệ, đặc biệt trong ngữ cảnh tiếng Việt.
II. Các công trình liên quan
Nghiên cứu về trích xuất thông tin đã được thực hiện rộng rãi và có thể chia thành bốn hướng chính. Đầu tiên là đề xuất các kiến trúc mạng mới, nhằm cải thiện khả năng nhận diện và phân loại thực thể trong văn bản. Thứ hai là làm giàu dữ liệu, một yếu tố quan trọng giúp mô hình hoạt động hiệu quả hơn. Thứ ba là bổ sung thông tin cho mô hình, giúp cải thiện độ chính xác trong quá trình xử lý ngôn ngữ tự nhiên. Cuối cùng, việc áp dụng các công nghệ mới như mạng nơ ron hồi quy (RNN) và mô hình BERT cũng đóng góp vào việc nâng cao hiệu suất của các hệ thống trích xuất thông tin.
2.1 Các mô hình mới
Các nghiên cứu gần đây đã chỉ ra rằng việc phát triển các mô hình mới có thể cải thiện hiệu suất của việc trích xuất thông tin. Một trong những mô hình đáng chú ý là DyGIE++, sử dụng đồ thị động để kết nối các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên. Mô hình này cho phép xử lý đồng thời nhiều tác vụ, từ đó giảm thiểu lỗi xếp chồng và cải thiện độ chính xác trong việc nhận diện thực thể và quan hệ. Việc áp dụng các công nghệ hiện đại như trí tuệ nhân tạo và machine learning đã mở ra nhiều khả năng mới cho việc khai thác thông tin từ văn bản tiếng Việt.
III. Phương pháp nghiên cứu
Phương pháp nghiên cứu trong đề tài này tập trung vào việc sử dụng mô hình đồ thị động đa tác vụ để trích xuất thông tin thực thể và quan hệ. Mô hình này được thiết kế để xử lý đồng thời nhiều tác vụ khác nhau, giúp giảm thiểu lỗi xếp chồng giữa các tác vụ. Các bước tiền xử lý dữ liệu, bao gồm xác định loại thực thể và loại quan hệ, được thực hiện trước khi áp dụng mô hình. Hệ thống cũng sử dụng các thuật toán học sâu như LSTM và BERT để cải thiện khả năng nhận diện và phân loại thực thể, từ đó nâng cao hiệu suất của khai thác thông tin.
3.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là bước quan trọng trong việc trích xuất thông tin. Dữ liệu văn bản tiếng Việt cần được làm sạch và chuẩn hóa để loại bỏ những yếu tố không cần thiết như dấu câu và từ không có nghĩa. Sau đó, các thực thể và quan hệ sẽ được gán nhãn để sử dụng trong quá trình huấn luyện mô hình. Việc này không chỉ giúp cải thiện độ chính xác mà còn tạo điều kiện cho mô hình học hỏi từ các đặc điểm ngữ nghĩa của ngôn ngữ. Mô hình đồ thị động sẽ sử dụng thông tin này để tối ưu hóa quá trình khai thác thông tin, từ đó nâng cao hiệu suất nhận diện thực thể và quan hệ trong văn bản.