Luận văn thạc sĩ về trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt

Luận văn thạc sĩ nghiên cứu trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt bằng mô hình đồ thị động, mang lại ứng dụng thực tiễn.

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan và Động lực

1.2. Mục tiêu đề tài

1.3. Giới hạn đề tài

1.4. Đối tượng nghiên cứu

1.5. Cấu trúc luận văn

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Các mô hình mới

2.2. Làm giàu dữ liệu

2.3. Bổ sung thông tin cho mô hình

2.4. Sử dụng mô hình kết hợp

3. CHƯƠNG 3: KIẾN THỨC NỀN TẢNG

3.1. Tích chập rời rạc

3.2. Hàm kích hoạt

3.2.1. Hàm kích hoạt Softmax

3.2.2. Hàm kích hoạt ReLU

3.3. Giải thuật xuống đồi (Gradient Descent)

3.4. Hàm lỗi cross entropy

3.5. Mạng nơ ron nhân tạo (Artifical neuron network)

3.6. Mô hình mạng nơ ron hồi quy (Recurrent neural network - RNN)

3.7. Mô hình mạng bộ nhớ ngắn - dài hạn (Long Short - Term Memory - LSTM) và Bi-LSTM

3.7.1. Cơ chế Attention cho mô hình seq2seq

3.7.2. Các loại cơ chế Attention

3.8. Mô hình Transformer

3.9. Mô hình BERT và các biến thể

3.9.1. Mô hình BERT

3.9.2. Mô hình RoBERTa

3.9.3. Mô hình PhoBERT

4. CHƯƠNG 4: PHƯƠNG PHÁP NGHIÊN CỨU

4.1. Tiền xử lý dữ liệu

4.2. Mô hình đồ thị động đa tác vụ

4.2.1. Lớp biểu diễn từ (Token representation layer)

4.2.2. Lớp lan truyền đồng tham chiếu (Coreference propagation layer)

4.2.3. Lớp lan truyền quan hệ (Relation propagation layer)

4.2.4. Lớp dự đoán cuối cùng (Final prediction layer)

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM

5.1. Tập dữ liệu

5.2. Phương pháp đánh giá

5.3. Hiện thực mô hình

5.4. Kết quả thực nghiệm

5.4.1. Vai trò của lớp mã hóa từ

5.4.2. Bổ sung thêm quan hệ có hướng

5.4.3. Lan truyền đồng tham chiếu trong xác định quan hệ

6. CHƯƠNG 6: TỔNG KẾT

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu đề tài

Trong bối cảnh xử lý ngôn ngữ tự nhiên (NLP), trích xuất thông tin thực thể và quan hệ từ văn bản tiếng Việt là một nhiệm vụ quan trọng, nhằm nhận diện và chiết xuất các thông tin thiết yếu như tên người, địa điểm và mối quan hệ giữa chúng. Tuy nhiên, việc thực hiện nhiệm vụ này gặp nhiều thách thức do những đặc điểm riêng của tiếng Việt như từ ngữ ghép và thiếu dấu. Do đó, nghiên cứu này nhằm phát triển một mô hình đồ thị động để cải thiện hiệu suất của việc trích xuất thông tin. Mô hình này không chỉ đơn thuần là một giải pháp cho việc nhận diện thực thể mà còn giúp tối ưu hóa việc khai thác thông tin từ văn bản, giảm thiểu lỗi xếp chồng giữa các tác vụ khác nhau.

1.1 Tổng quan và Động lực

NLP là lĩnh vực nghiên cứu nhằm giúp máy tính hiểu và tương tác với ngôn ngữ con người. Một trong những thách thức lớn nhất là trích xuất thông tin thực thể và quan hệ. Việc này không chỉ yêu cầu máy tính nhận diện thực thể mà còn cần hiểu ngữ cảnh và cấu trúc câu trong tiếng Việt. Các mô hình machine learning hiện tại thường gặp khó khăn trong việc xử lý đồng thời nhiều tác vụ, dẫn đến lỗi trong quá trình xử lý ngôn ngữ tự nhiên. Đề tài này được hình thành từ nhu cầu phát triển các phương pháp khai thác thông tin hiệu quả hơn, nhằm cải thiện khả năng nhận diện thực thể và quan hệ, đặc biệt trong ngữ cảnh tiếng Việt.

II. Các công trình liên quan

Nghiên cứu về trích xuất thông tin đã được thực hiện rộng rãi và có thể chia thành bốn hướng chính. Đầu tiên là đề xuất các kiến trúc mạng mới, nhằm cải thiện khả năng nhận diện và phân loại thực thể trong văn bản. Thứ hai là làm giàu dữ liệu, một yếu tố quan trọng giúp mô hình hoạt động hiệu quả hơn. Thứ ba là bổ sung thông tin cho mô hình, giúp cải thiện độ chính xác trong quá trình xử lý ngôn ngữ tự nhiên. Cuối cùng, việc áp dụng các công nghệ mới như mạng nơ ron hồi quy (RNN) và mô hình BERT cũng đóng góp vào việc nâng cao hiệu suất của các hệ thống trích xuất thông tin.

2.1 Các mô hình mới

Các nghiên cứu gần đây đã chỉ ra rằng việc phát triển các mô hình mới có thể cải thiện hiệu suất của việc trích xuất thông tin. Một trong những mô hình đáng chú ý là DyGIE++, sử dụng đồ thị động để kết nối các tác vụ khác nhau trong xử lý ngôn ngữ tự nhiên. Mô hình này cho phép xử lý đồng thời nhiều tác vụ, từ đó giảm thiểu lỗi xếp chồng và cải thiện độ chính xác trong việc nhận diện thực thể và quan hệ. Việc áp dụng các công nghệ hiện đại như trí tuệ nhân tạo và machine learning đã mở ra nhiều khả năng mới cho việc khai thác thông tin từ văn bản tiếng Việt.

III. Phương pháp nghiên cứu

Phương pháp nghiên cứu trong đề tài này tập trung vào việc sử dụng mô hình đồ thị động đa tác vụ để trích xuất thông tin thực thể và quan hệ. Mô hình này được thiết kế để xử lý đồng thời nhiều tác vụ khác nhau, giúp giảm thiểu lỗi xếp chồng giữa các tác vụ. Các bước tiền xử lý dữ liệu, bao gồm xác định loại thực thể và loại quan hệ, được thực hiện trước khi áp dụng mô hình. Hệ thống cũng sử dụng các thuật toán học sâu như LSTM và BERT để cải thiện khả năng nhận diện và phân loại thực thể, từ đó nâng cao hiệu suất của khai thác thông tin.

3.1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trong việc trích xuất thông tin. Dữ liệu văn bản tiếng Việt cần được làm sạch và chuẩn hóa để loại bỏ những yếu tố không cần thiết như dấu câu và từ không có nghĩa. Sau đó, các thực thể và quan hệ sẽ được gán nhãn để sử dụng trong quá trình huấn luyện mô hình. Việc này không chỉ giúp cải thiện độ chính xác mà còn tạo điều kiện cho mô hình học hỏi từ các đặc điểm ngữ nghĩa của ngôn ngữ. Mô hình đồ thị động sẽ sử dụng thông tin này để tối ưu hóa quá trình khai thác thông tin, từ đó nâng cao hiệu suất nhận diện thực thể và quan hệ trong văn bản.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên (NLP), việc trích xuất thông tin thực thể và quan hệ từ văn bản đóng vai trò then chốt trong nhiều ứng dụng như tìm kiếm thông tin, dịch máy, phân tích ý kiến và xây dựng hệ thống tri thức. Đặc biệt, với tiếng Việt – một ngôn ngữ có cấu trúc phức tạp, nhiều từ ghép và dấu câu đặc thù – việc trích xuất thông tin trở nên thách thức hơn. Theo ước tính, các phương pháp truyền thống sử dụng mô hình "đường ống" thường gặp phải lỗi xếp tầng, làm giảm hiệu quả trích xuất thực thể và quan hệ.

Mục tiêu của luận văn là phát triển một mô hình trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt dựa trên mô hình đồ thị động đa tác vụ, nhằm giải quyết đồng thời các bài toán nhận dạng thực thể và trích xuất quan hệ, đồng thời hạn chế lỗi xếp tầng. Nghiên cứu tập trung vào việc ứng dụng các kỹ thuật học sâu, xử lý ngôn ngữ tự nhiên và mô hình đồ thị động để nâng cao độ chính xác và hiệu quả trích xuất. Phạm vi nghiên cứu bao gồm dữ liệu văn bản tiếng Việt có nhãn đầy đủ, được thu thập và xử lý trong khoảng thời gian gần đây, với trọng tâm là các đoạn văn bản dài chứa nhiều thực thể và quan hệ đa dạng.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số hiệu suất như độ chính xác và F1-score trong các tác vụ nhận dạng thực thể và trích xuất quan hệ, góp phần phát triển các ứng dụng NLP tiếng Việt tiên tiến, hỗ trợ các hệ thống khai thác tri thức và phân tích dữ liệu ngôn ngữ tự nhiên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học sâu hiện đại trong xử lý ngôn ngữ tự nhiên, bao gồm:

Mô hình mạng nơ ron hồi quy (RNN), LSTM và Bi-LSTM: Giúp xử lý dữ liệu chuỗi có tính thứ tự, nắm bắt ngữ cảnh dài hạn trong văn bản.
Cơ chế Attention và Transformer: Tăng cường khả năng tập trung vào các phần quan trọng của câu, xử lý song song và nắm bắt mối quan hệ không phụ thuộc vào thứ tự từ.
Mô hình BERT và các biến thể (RoBERTa, PhoBERT): Mã hóa ngữ cảnh hai chiều, hỗ trợ fine-tuning cho các tác vụ NLP tiếng Việt.
Mô hình đồ thị động đa tác vụ (DyGIE, DyGIE++): Kết hợp đồng thời các tác vụ nhận dạng thực thể, trích xuất quan hệ và phân giải đồng tham chiếu trong một mô hình thống nhất, sử dụng các lớp lan truyền thông tin trên đồ thị để cập nhật biểu diễn từ ngữ.

Các khái niệm chính bao gồm: thực thể (entity), quan hệ (relation), đồng tham chiếu (coreference), biểu diễn từ (token representation), lan truyền thông tin trên đồ thị (graph propagation), và các lớp dự đoán cuối cùng (final prediction layer).

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là tập văn bản tiếng Việt có nhãn thực thể và quan hệ, được chuẩn hóa và tiền xử lý kỹ lưỡng, bao gồm tách từ, đánh dấu từ loại và loại bỏ các ký tự đặc biệt, emoji. Tập dữ liệu được chia thành tập huấn luyện và kiểm tra với phân bố số lượng từ và thực thể được cân đối.

Phương pháp phân tích chính là xây dựng và huấn luyện mô hình mạng nơ ron đồ thị động đa tác vụ (VNDyGIE), dựa trên mô hình DyGIE++ nhưng được điều chỉnh phù hợp với đặc thù tiếng Việt bằng cách thay thế bộ nhúng từ cơ bản bằng PhoBERT. Mô hình bao gồm các lớp biểu diễn từ, lan truyền đồng tham chiếu, lan truyền quan hệ và lớp dự đoán cuối cùng.

Cỡ mẫu nghiên cứu gồm hàng nghìn câu văn bản tiếng Việt có nhãn thực thể và quan hệ, được lựa chọn theo phương pháp chọn mẫu ngẫu nhiên có kiểm soát để đảm bảo tính đại diện. Quá trình nghiên cứu diễn ra từ tháng 2 đến tháng 6 năm 2023, bao gồm các bước tiền xử lý dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và phân tích kết quả.

Các chỉ số đánh giá hiệu suất gồm độ chính xác (accuracy), độ bao phủ (recall), và điểm F1 (F1-score) cho từng tác vụ nhận dạng thực thể và trích xuất quan hệ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của việc sử dụng thông tin loại thực thể trong dự đoán quan hệ: Việc tích hợp thông tin loại thực thể qua cơ chế cổng cập nhật giúp giảm lỗi xếp tầng, nâng cao độ chính xác dự đoán quan hệ lên khoảng 5% so với mô hình cơ sở không sử dụng thông tin này.
Tác động tích cực của việc sử dụng thông tin quan hệ vào dự đoán loại thực thể: Bằng cách nhúng thông tin quan hệ vào biểu diễn thực thể, mô hình cải thiện độ chính xác nhận dạng thực thể thêm khoảng 3%, cho thấy sự chia sẻ thông tin hai chiều giữa hai tác vụ là cần thiết.
Vai trò của thông tin đồng tham chiếu trong dự đoán quan hệ: Tích hợp thông tin đồng tham chiếu vào biểu diễn quan hệ giúp tăng độ chính xác dự đoán quan hệ thêm khoảng 4%, đặc biệt hiệu quả với các câu có nhiều thực thể liên quan.
Tổng thể, mô hình VNDyGIE đạt điểm F1 trung bình trên 80% cho cả hai tác vụ nhận dạng thực thể và trích xuất quan hệ, vượt trội hơn so với các mô hình "đường ống" truyền thống và các mô hình đơn lẻ khác.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình đồ thị động cho phép lan truyền và chia sẻ thông tin giữa các tác vụ, giúp mô hình hiểu sâu sắc hơn về mối quan hệ ngữ nghĩa giữa thực thể và quan hệ trong câu. Việc sử dụng PhoBERT làm bộ nhúng từ giúp mô hình nắm bắt tốt hơn đặc trưng ngôn ngữ tiếng Việt, đặc biệt là các từ ghép và ngữ cảnh phức tạp.

So sánh với các nghiên cứu trước đây, kết quả của luận văn cho thấy sự vượt trội về hiệu suất nhờ vào việc kết hợp đồng thời các tác vụ và tích hợp thông tin đồng tham chiếu, điều mà các mô hình truyền thống chưa khai thác triệt để. Các biểu đồ so sánh điểm F1 giữa các mô hình minh họa rõ ràng sự cải thiện này.

Ý nghĩa của kết quả là mở ra hướng phát triển các hệ thống trích xuất thông tin tiếng Việt hiệu quả hơn, có thể ứng dụng trong các lĩnh vực như khai thác tri thức, phân tích dữ liệu lớn, và hỗ trợ các ứng dụng trí tuệ nhân tạo.

Đề xuất và khuyến nghị

Triển khai mô hình VNDyGIE trong các hệ thống khai thác thông tin tiếng Việt: Đề xuất các tổ chức, doanh nghiệp phát triển ứng dụng NLP tích hợp mô hình này để nâng cao hiệu quả trích xuất thực thể và quan hệ, đặc biệt trong các lĩnh vực báo chí, tài chính, và y tế. Thời gian thực hiện trong vòng 6-12 tháng.
Mở rộng tập dữ liệu huấn luyện và đánh giá mô hình trên các lĩnh vực chuyên biệt: Khuyến nghị thu thập thêm dữ liệu đa dạng từ các ngành khác nhau để tăng tính bao quát và khả năng tổng quát hóa của mô hình. Chủ thể thực hiện là các nhóm nghiên cứu và doanh nghiệp công nghệ, trong vòng 12-18 tháng.
Phát triển các kỹ thuật tiền xử lý dữ liệu nâng cao cho tiếng Việt: Tăng cường các bước tách từ, phân loại từ loại và chuẩn hóa ngôn ngữ nhằm giảm nhiễu và cải thiện chất lượng dữ liệu đầu vào. Thời gian thực hiện 6 tháng, do các chuyên gia ngôn ngữ và kỹ sư dữ liệu đảm nhiệm.
Nghiên cứu tích hợp thêm các tác vụ NLP khác như phân tích cú pháp, phân giải ngữ nghĩa sâu: Mở rộng mô hình đa tác vụ để khai thác sâu hơn các đặc trưng ngôn ngữ, nâng cao độ chính xác và khả năng ứng dụng. Thời gian nghiên cứu 1-2 năm, do các nhóm nghiên cứu chuyên sâu thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức nền tảng và phương pháp hiện đại về trích xuất thông tin, giúp phát triển các đề tài nghiên cứu tiếp theo.
Chuyên gia phát triển ứng dụng trí tuệ nhân tạo và NLP: Các kỹ thuật và mô hình được trình bày có thể áp dụng trực tiếp trong xây dựng hệ thống xử lý ngôn ngữ tiếng Việt, nâng cao hiệu quả sản phẩm.
Doanh nghiệp công nghệ và các tổ chức truyền thông: Có thể ứng dụng mô hình để tự động hóa việc phân tích, trích xuất thông tin từ dữ liệu văn bản lớn, tiết kiệm thời gian và chi phí.
Cơ quan quản lý và các tổ chức giáo dục: Tham khảo để xây dựng các chương trình đào tạo, chính sách phát triển công nghệ ngôn ngữ và trí tuệ nhân tạo phù hợp với thực tiễn Việt Nam.

Câu hỏi thường gặp

Mô hình đồ thị động có ưu điểm gì so với mô hình "đường ống" truyền thống?
Mô hình đồ thị động xử lý đồng thời các tác vụ nhận dạng thực thể và trích xuất quan hệ, giảm lỗi xếp tầng và tăng khả năng chia sẻ thông tin giữa các tác vụ, từ đó nâng cao độ chính xác tổng thể.
Tại sao lại sử dụng PhoBERT thay vì BERT gốc cho tiếng Việt?
PhoBERT được huấn luyện chuyên biệt trên dữ liệu tiếng Việt với kỹ thuật phân đoạn từ phù hợp, giúp mô hình nắm bắt ngữ cảnh và đặc trưng ngôn ngữ tiếng Việt tốt hơn, cải thiện hiệu suất trích xuất.
Thông tin đồng tham chiếu được tích hợp như thế nào trong mô hình?
Thông tin đồng tham chiếu được lan truyền qua lớp lan truyền đồng tham chiếu trong mô hình đồ thị, giúp mô hình hiểu mối liên hệ giữa các từ hoặc cụm từ cùng chỉ một thực thể, từ đó cải thiện dự đoán quan hệ.
Phương pháp đánh giá mô hình sử dụng những chỉ số nào?
Mô hình được đánh giá bằng các chỉ số độ chính xác (accuracy), độ bao phủ (recall) và điểm F1 (F1-score) cho cả tác vụ nhận dạng thực thể và trích xuất quan hệ, đảm bảo đánh giá toàn diện hiệu quả mô hình.
Mô hình có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Việt không?
Mô hình đồ thị động đa tác vụ có thể được điều chỉnh và huấn luyện trên các ngôn ngữ khác, tuy nhiên cần có bộ nhúng từ và tiền xử lý phù hợp với đặc thù ngôn ngữ đó để đạt hiệu quả cao.

Kết luận

Luận văn đã phát triển thành công mô hình VNDyGIE dựa trên mô hình đồ thị động đa tác vụ, tích hợp thông tin loại thực thể, quan hệ và đồng tham chiếu để trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt.
Mô hình đạt điểm F1 trung bình trên 80% cho cả hai tác vụ, vượt trội hơn các phương pháp truyền thống và mô hình đơn lẻ.
Việc sử dụng PhoBERT làm bộ nhúng từ giúp mô hình nắm bắt đặc trưng ngôn ngữ tiếng Việt hiệu quả hơn.
Kết quả nghiên cứu mở ra hướng phát triển các hệ thống NLP tiếng Việt tiên tiến, ứng dụng trong nhiều lĩnh vực thực tiễn.
Các bước tiếp theo bao gồm mở rộng dữ liệu, tích hợp thêm các tác vụ NLP và triển khai ứng dụng thực tế để nâng cao hiệu quả và tính ứng dụng của mô hình.

Hãy áp dụng và phát triển mô hình này để nâng cao chất lượng xử lý ngôn ngữ tự nhiên tiếng Việt trong các dự án nghiên cứu và ứng dụng thực tế!

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu đề tài: đề cập tới lí do chọn đề tài, giới thiệu ngữ cảnh, tình hình chung liên quan đến bài toán, những khó khăn, thách thức của đề tài và quá trình thực hiện nghiên cứu, sau đó trình bày về mục tiêu, phạm vi và cấu trúc luận văn. • Chương 2 Các công trình liên quan: giới thiệu các công trình nghiên cứu khoa học liên quan đến đề tài trích xuất thông tin được tham khảo trong quá trình thực hiện nghiên cứu này. • Chương 3 Kiến thức nền tảng: trình bày những kiến thức nền tảng về các cách xử lý dữ liệu, các mô hình học máy, cũng như các kĩ thuật được sử dụng trong luận văn. • Chương 4 Phương pháp đề xuất: trình bày vào bài toán cụ thể của đề tài, đưa ra những vấn đề và các phương pháp giải quyết đã được áp dụng.

Trong đó, trình bày chi tiết cách thực hiện, kiến trúc hệ thống và mô hình đề xuất, bao gồm cả các thư viện và công nghệ áp dụng. Đây chính là nền tảng cho phần đánh giá và kiểm thử tiếp theo. • Chương 5 Kết quả thực nghiệm: trình bày các tập dữ liệu được sử dụng, các thông tin cơ bản và dữ liệu mẫu. Sau đó, tác giả giới thiệu từng thí nghiệm đã được tiến hành và đánh giá các kết quả thí nghiệm thu được.

• Chương 6 Tổng kết: tổng kết mô hình được sử dụng trong đề tài, kết quả thí nghiệm, đưa ra những điểm nổi bật và hạn chế của đề tài, hướng phát triển, mở rộng của đề tài trong tương lai. 5 Chương 2 Các công trình liên quan Trích xuất thông tin (Information Extraction) [12] là nhiệm vụ trích xuất tự động thông tin có cấu trúc từ các tài liệu không có cấu trúc hoặc bán cấu trúc mà máy có thể đọc được và các nguồn được biểu diễn điện tử khác. Trong hầu hết các trường hợp, hoạt động này liên quan đến việc xử lý các văn bản ngôn ngữ của con người bằng phương pháp xử lý ngôn ngữ tự nhiên. Các hoạt động gần đây trong xử lý tài liệu đa phương tiện như chú thích tự động và trích xuất nội dung ra khỏi hình ảnh/ âm thanh/ video/ tài liệu có thể được coi là trích xuất thông tin.

Dữ liệu ngôn ngữ tự nhiên thường được hiểu là loại dữ liệu không có cấu trúc. Tuy nhiên, trong thực tế, dữ liệu văn bản được tạo nên bởi nhiều cấu trúc nhưng hầu hết đều không rõ ràng khiến quá trình tìm kiếm và phân tích thông tin trở nên khó khăn hơn. Mục tiêu của việc nghiên cứu các phương pháp rút trích thông tin là tự động chuyển đổi dữ liệu từ dạng không có cấu trúc sang dạng có cấu trúc ngữ nghĩa, từ đó tiến hành phân tích, xác định và phân loại các thực thể tồn tại trong văn bản cũng như các mối quan hệ giữa các thực thể đó. Trong một số trường hợp, hệ thống còn có khả năng sinh ra các loại thông tin ẩn khác bằng cách suy luận từ những thông tin về thực thể và mối quan hệ đã được rút trích trước đó.

Tất cả các thông tin, kết quả của quá trình này thường được lưu lại nhằm phục vụ cho các tác vụ khác trong hệ thống; do đó, các tác vụ sau có đạt hiệu quả cao hay không đều phụ thuộc một phần vào thông tin rút trích được ở tác vụ này. Các công trình nghiên cứu cho bài toán trích xuất thông tin có thể được chia thành 4 hướng chính: • Đề xuất kiến trúc mạng mới: Các tác giả tìm kiếm ý tưởng xây dựng kiến trúc mạng mới [17] [23] để phù hợp với cấu trúc thông tin 6 của dữ liệu đoạn văn. Các bài báo này thường tập trung vào cải thiện bước nhúng thông tin, chuyển đổi thông tin từ văn bản sang dạng véc tơ để mô hình học, cũng như thay đổi kiến trúc mạng chính dựa trên những phân tích về đặc điểm của văn bản. • Làm giàu dữ liệu: Ngôn ngữ có rất nhiều từ vựng, và cách diễn đạt từ để tạo thành câu văn cũng vô cùng phong phú.

Do đó, mô hình sẽ hoạt động tốt hơn nếu được học trên tập dữ liệu lớn, phong phú, có tính bao quát. Tuy nhiên, việc thu thập được dữ liệu lớn đáp ứng yêu cầu như vậy là một công việc khó khăn, đòi hỏi rất nhiều công sức cũng như tiền của. Nhằm mục đích tăng lượng dữ liệu cung cấp cho mô hình học, với một lượng công sức bỏ ra chấp nhận được, các tác giả đã lựa chọn áp dụng các kĩ thuật làm giàu dữ liệu. [7] • Bổ sung thông tin cho mô hình: Lĩnh vực trí tuệ nhân tạo, máy học nói chung hay xử lý ngôn ngữ tự nhiên đã xuất hiện được một khoảng thời gian, và có sự bùng nổ gần đây.

Bài toán trích xuất thông tin từ văn bản là một bài toán nguyên tử, đóng vai trò tiên quyết trong hầu hết các tác vụ xử lý ngôn ngữ tự nhiên dạng văn bản. Do vậy, các nghiên cứu sinh, các nhà khoa học đã tìm hiểu và phát triển ra những phương pháp, mô hình hoạt động tốt trên những tập dữ liệu sẵn có. Tuy nhiên, với lượng thông tin cố định được cung cấp tại những tập dữ liệu khiêm tốn ban đầu, ta khó có thể vượt qua được các thành tựu đi trước, để đạt được kết quả tốt hơn. Vì thế, một số bài báo [26] [25] đã tiến hành tìm tòi các thông tin mới, hữu ích giúp mô hình có thêm cơ sở để đưa ra quyết định.

• Sử dụng mô hình kết hợp: Ngoài các phương pháp kể trên, đối với dữ liệu tiếng Việt, tác giả một số bài báo [21] sử dụng kết hợp các mô hình đơn vào trong một mô hình kết hợp để giải quyết bài toán. Ý tưởng chính của phương pháp này là tận dụng lợi thế của từng mô hình đơn cho các dữ liệu khác nhau, và dùng cơ chế đóng góp trọng số để lấy kết quả dự đoán cuối cùng.1 Các mô hình mới Bắt đầu với bài báo đặt nền móng cho sự phát triển của các nghiên cứu mới của tác vụ trích xuất thông tin văn bản ở thời điểm hiện tại là A General 7 Framework for Information Extraction using Dynamic Span Graphs [17] được công bố vào năm 2019. Phần lớn các bài toán trích xuất thông tin yêu cầu việc định danh và phân loại các cụm từ, bao gồm xác định danh tính thực thể (naming entity recognition - NER), trích xuất quan hệ (relation extraction), phân giải đồng tham chiếu (coreference resolution),. Với quan sát rằng, kiến thức từ việc học tác vụ này có thể hữu ích với các tác vụ còn lại, tác giả Yi Luan cùng các đồng sự đã lồng ghép các tác vụ trên vào trong một luồng thực thi như sau: phân giải đồng tham chiếu → xác định danh tính thực thể → trích xuất quan hệ.

Tác giả phát triển một nền tảng trích xuất thông tin lấy tên là DyGIE được sử dụng để nhận dạng và phân loại các thực thể, quan hệ, và đồng tham chiếu trong một mô hình đa tác vụ. DyGIE duyệt qua tất cả các cụm từ trong từng câu và tính toán các véc tơ chứa thông tin ngữ cảnh cục bộ cho mỗi cụm từ. Mô hình sử dụng đồ thị động để kết hợp thông tin toàn cục vào biểu diễn của các cụm từ. Trong quá trình huấn luyện, mô hình xác định các đoạn văn bản giống nhất và coi chúng như các nút trong cấu trúc đồ thị.

Các cung trong đồ thị được đánh trọng số tin cậy tương ứng với đồng tham chiếu và quan hệ giữa các nút. Sau đó, các biểu diễn cụm từ được tinh chỉnh bằng cách sử dụng ngữ cảnh rộng hơn thông qua các bản cập nhật được lan truyền từ các tác vụ xác định loại quan hệ và thực thể cùng tham chiếu. Cuối cùng, véc tơ biểu diễn này được sử dụng để dự đoán loại thực thể, quan hệ và đồng tham chiếu của các đối tượng. Kiến trúc mô hình DyGIE bao gồm 5 lớp: • Lớp biểu diễn từ (Token representation layer ): ta sử dụng BiLSTM để rút trích đặc trưng, chồng kết quả đầu ra của 2 lớp LSTM lại ta thu được véc tơ đầu ra.

• Lớp biểu diễn span (Span representation layer ): kết hợp các véc tơ mã hóa bởi BiLSTM trên với các chỉ mục đánh dấu khởi đầu và kết thúc của cụm từ để chuẩn bị thông tin đưa vào đồ thị. • Lớp lan truyền đồng tham chiếu (Coreference Propagation Layer ): quá trình lan truyền bắt đầu từ biểu diễn cụm gi0 , ở mỗi vòng lặp t, ta tính véc tơ cập nhật utC rồi cập nhật cho git. Thực hiện lại việc này tới lần thứ N khi đó ta được biểu diễn giN chứa thông tin của N cụm từ trước đó. 8 • Lớp lan truyền quan hệ (Relation Propagation Layer ): sử dụng giN làm đầu vào, và xử lý tính toán, cập nhật tương tự như ở bước lan truyền đồng tham chiếu.

Cuối cùng ta được biểu diễn giN +M. • Lớp dự đoán cuối cùng: sử dụng giN +M để dự đoán nhãn thực thể E và nhãn quan hệ R. Với tác vụ dự đoán nhãn thực thể, sử dụng mạng nơ ron truyền thẳng (Feed Forward Neuron Network - FFNN ) để tính PE (i) cho mỗi cụm từ si. Với các tác vụ dự đoán quan hệ, ta sử dụng cặp giN +M , gjN +M qua FFNN để tính xác suất PR (i, j) giữa 2 cụm si và sj.

Với yêu cầu xác định đồng tham chiếu, ta dùng đầu ra của lớp lan truyền đồng tham chiếu giN , gjN để tính toán mối liên hệ giữa si và sj. Sau khi có được kiến trúc mô hình ở trên, ta sẽ đi vào thực hiện xây dựng đồ thị động và tinh chỉnh lại biểu diễn của các cụm từ. Các nút trong đồ thị là véc tơ biểu diễn git ∈ Rd cho lần lặp thứ t. Các cạnh được đánh trọng số bằng điểm đồng tham chiếu hoặc điểm tin cậy cho quan hệ, các điểm số này sẽ được huấn luyện bằng mô hình.

Với mô hình và các thiết kế kiến trúc được xác định ở phần trên, ta sẽ bước sang phần huấn luyện mô hình. Hàm mất mát được sử dụng ở đây sẽ là: X ∆E logP (E ∗ |C, R, D) + ∆R logP (R∗ |C, D) + ∆C logP (C ∗ |D) (D,R∗ ,E ∗ ,C ∗ )∈D (2.1) Trong đó E∗, R∗ , C ∗ là cấu trúc đúng của các loại thực thể, mối quan hệ và đồng tham chiếu. D là tập huấn luyện, ∆E , ∆R , ∆C là các siêu tham số để điều chỉnh độ quan trọng của các tác vụ. Tác giả sử dụng một lớp LSTM 200 chiều ẩn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt" của tác giả Phạm Lương Hào, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ, mang đến cái nhìn sâu sắc về việc áp dụng mô hình đồ thị động trong việc trích xuất thông tin từ văn bản tiếng Việt. Luận văn không chỉ nêu rõ phương pháp và kỹ thuật mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý ngôn ngữ tự nhiên. Độc giả sẽ nhận được lợi ích từ những kiến thức chuyên sâu và cách tiếp cận mới mẻ trong việc khai thác thông tin từ văn bản, mở ra nhiều hướng nghiên cứu và ứng dụng trong tương lai.

Để mở rộng thêm kiến thức, bạn có thể tham khảo các bài viết liên quan đến lĩnh vực khoa học máy tính như Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt, nơi thảo luận về các kỹ thuật trong xử lý văn bản, hay Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính, giúp bạn hiểu rõ hơn về các phương pháp phân loại văn bản hiện đại. Ngoài ra, bạn cũng có thể tìm hiểu thêm về Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính, một nghiên cứu liên quan đến việc trích xuất thông tin từ các nguồn dữ liệu khác nhau. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các kỹ thuật và ứng dụng trong lĩnh vực này.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#văn bản tiếng Việt

#trích xuất thông tin

#mô hình đồ thị động

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Học máy và trí tuệ nhân tạo

Trích xuất thông tin

Nghiên cứu và ứng dụng trong ngôn ngữ tiếng Việt