Luận văn thạc sĩ về trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

2023

73
2
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu đề tài

Trong bối cảnh xử lý ngôn ngữ tự nhiên (NLP), trích xuất thông tin thực thể và quan hệ từ văn bản tiếng Việt là một nhiệm vụ quan trọng, nhằm nhận diện và chiết xuất các thông tin thiết yếu như tên người, địa điểm và mối quan hệ giữa chúng. Tuy nhiên, việc thực hiện nhiệm vụ này gặp nhiều thách thức do những đặc điểm riêng của tiếng Việt như từ ngữ ghép và thiếu dấu. Do đó, nghiên cứu này nhằm phát triển một mô hình đồ thị động để cải thiện hiệu suất của việc trích xuất thông tin. Mô hình này không chỉ đơn thuần là một giải pháp cho việc nhận diện thực thể mà còn giúp tối ưu hóa việc khai thác thông tin từ văn bản, giảm thiểu lỗi xếp chồng giữa các tác vụ khác nhau.

1.1 Tổng quan và Động lực

NLP là lĩnh vực nghiên cứu nhằm giúp máy tính hiểu và tương tác với ngôn ngữ con người. Một trong những thách thức lớn nhất là trích xuất thông tin thực thể và quan hệ. Việc này không chỉ yêu cầu máy tính nhận diện thực thể mà còn cần hiểu ngữ cảnh và cấu trúc câu trong tiếng Việt. Các mô hình machine learning hiện tại thường gặp khó khăn trong việc xử lý đồng thời nhiều tác vụ, dẫn đến lỗi trong quá trình xử lý ngôn ngữ tự nhiên. Đề tài này được hình thành từ nhu cầu phát triển các phương pháp khai thác thông tin hiệu quả hơn, nhằm cải thiện khả năng nhận diện thực thể và quan hệ, đặc biệt trong ngữ cảnh tiếng Việt.

II. Các công trình liên quan

Nghiên cứu về trích xuất thông tin đã được thực hiện rộng rãi và có thể chia thành bốn hướng chính. Đầu tiên là đề xuất các kiến trúc mạng mới, nhằm cải thiện khả năng nhận diện và phân loại thực thể trong văn bản. Thứ hai là làm giàu dữ liệu, một yếu tố quan trọng giúp mô hình hoạt động hiệu quả hơn. Thứ ba là bổ sung thông tin cho mô hình, giúp cải thiện độ chính xác trong quá trình xử lý ngôn ngữ tự nhiên. Cuối cùng, việc áp dụng các công nghệ mới như mạng nơ ron hồi quy (RNN) và mô hình BERT cũng đóng góp vào việc nâng cao hiệu suất của các hệ thống trích xuất thông tin.

2.1 Các mô hình mới

Các nghiên cứu gần đây đã chỉ ra rằng việc phát triển các mô hình mới có thể cải thiện hiệu suất của việc trích xuất thông tin. Một trong những mô hình đáng chú ý là DyGIE++, sử dụng đồ thị động để kết nối các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên. Mô hình này cho phép xử lý đồng thời nhiều tác vụ, từ đó giảm thiểu lỗi xếp chồng và cải thiện độ chính xác trong việc nhận diện thực thể và quan hệ. Việc áp dụng các công nghệ hiện đại như trí tuệ nhân tạomachine learning đã mở ra nhiều khả năng mới cho việc khai thác thông tin từ văn bản tiếng Việt.

III. Phương pháp nghiên cứu

Phương pháp nghiên cứu trong đề tài này tập trung vào việc sử dụng mô hình đồ thị động đa tác vụ để trích xuất thông tin thực thể và quan hệ. Mô hình này được thiết kế để xử lý đồng thời nhiều tác vụ khác nhau, giúp giảm thiểu lỗi xếp chồng giữa các tác vụ. Các bước tiền xử lý dữ liệu, bao gồm xác định loại thực thể và loại quan hệ, được thực hiện trước khi áp dụng mô hình. Hệ thống cũng sử dụng các thuật toán học sâu như LSTM và BERT để cải thiện khả năng nhận diện và phân loại thực thể, từ đó nâng cao hiệu suất của khai thác thông tin.

3.1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trong việc trích xuất thông tin. Dữ liệu văn bản tiếng Việt cần được làm sạch và chuẩn hóa để loại bỏ những yếu tố không cần thiết như dấu câu và từ không có nghĩa. Sau đó, các thực thể và quan hệ sẽ được gán nhãn để sử dụng trong quá trình huấn luyện mô hình. Việc này không chỉ giúp cải thiện độ chính xác mà còn tạo điều kiện cho mô hình học hỏi từ các đặc điểm ngữ nghĩa của ngôn ngữ. Mô hình đồ thị động sẽ sử dụng thông tin này để tối ưu hóa quá trình khai thác thông tin, từ đó nâng cao hiệu suất nhận diện thực thể và quan hệ trong văn bản.

10/01/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Luận văn thạc sĩ về trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt" của tác giả Phạm Lương Hào, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ, mang đến cái nhìn sâu sắc về việc áp dụng mô hình đồ thị động trong việc trích xuất thông tin từ văn bản tiếng Việt. Luận văn không chỉ nêu rõ phương pháp và kỹ thuật mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý ngôn ngữ tự nhiên. Độc giả sẽ nhận được lợi ích từ những kiến thức chuyên sâu và cách tiếp cận mới mẻ trong việc khai thác thông tin từ văn bản, mở ra nhiều hướng nghiên cứu và ứng dụng trong tương lai.

Để mở rộng thêm kiến thức, bạn có thể tham khảo các bài viết liên quan đến lĩnh vực khoa học máy tính như Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt, nơi thảo luận về các kỹ thuật trong xử lý văn bản, hay Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính, giúp bạn hiểu rõ hơn về các phương pháp phân loại văn bản hiện đại. Ngoài ra, bạn cũng có thể tìm hiểu thêm về Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính, một nghiên cứu liên quan đến việc trích xuất thông tin từ các nguồn dữ liệu khác nhau. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các kỹ thuật và ứng dụng trong lĩnh vực này.