Nghiên Cứu Phương Pháp Trình Đọc Hồi Tưởng Trong Đọc Hiểu Tự Động Tiếng Việt

Khóa luận nghiên cứu phương pháp trình đọc hồi tưởng cho bài toán đọc hiểu tự động tiếng Việt, ứng dụng công nghệ thông tin trong giáo dục.

Trường đại học

Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Mục tiêu khóa luận

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Kết quả của đề tài

1.5. Cấu trúc khóa luận

2. CHƯƠNG 2

3. CHƯƠNG 3

4. CHƯƠNG 4

5. CHƯƠNG 5: THÍ NGHIỆM VÀ KẾT QUẢ

5.1. Mô hình cơ sở và phương pháp Heuristic

5.2. Phương pháp đánh giá

5.3. Cài đặt thí nghiệm

5.3.1. Mô hình Trình đọc hồi tưởng

5.3.2. Kết hợp Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ nghĩa vào Trình đọc hồi tưởng

5.4. Kết quả và phân tích

5.4.1. Trình đọc hồi tưởng

5.4.2. Trình đọc hồi tưởng với mô-đun phân loại tích hợp thông tin ngữ nghĩa

5.4.3. Phân tích đối kháng

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

7. CHƯƠNG 7: CÔNG BỐ KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Phương pháp đọc hiểu và bài toán đọc hiểu tự động

Phương pháp đọc hiểu là một trong những chủ đề nghiên cứu tiên tiến trong xử lý ngôn ngữ tự nhiên. Bài toán đọc hiểu tự động yêu cầu hệ thống trả lời câu hỏi dựa trên đoạn văn bản đầu vào. Đây là một thách thức lớn, đặc biệt với ngôn ngữ tiếng Việt, do sự phức tạp về ngữ nghĩa và cấu trúc. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh và tiếng Trung, trong khi tiếng Việt vẫn còn nhiều hạn chế. Kỹ thuật đọc hiểu hiện đại sử dụng các mô hình ngôn ngữ được huấn luyện trước như BERT, nhưng hiệu quả chưa cao. Tự động hóa đọc hiểu đòi hỏi sự kết hợp giữa phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu để cải thiện độ chính xác.

1.1. Phương pháp đọc hiểu tự động

Phương pháp đọc hiểu tự động tập trung vào việc dạy máy trả lời câu hỏi dựa trên đoạn văn bản. Các hệ thống ban đầu giả định mọi câu hỏi đều có thể trả lời, nhưng thực tế không phải lúc nào cũng đúng. Công nghệ đọc hiểu hiện đại yêu cầu mô hình phân biệt câu hỏi có thể trả lời và không thể trả lời. Điều này đòi hỏi sự kết hợp giữa phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu. Ví dụ, trong VLSP 2021, các mô hình phải xử lý cả câu hỏi có và không có câu trả lời, đặt ra thách thức lớn cho hệ thống đọc hiểu.

1.2. Ứng dụng của đọc hiểu tự động

Đọc hiểu tự động có nhiều ứng dụng thực tế, từ hệ thống trả lời câu hỏi đến chatbot. Công nghệ đọc hiểu giúp tóm tắt văn bản, tìm kiếm thông tin chính xác từ lượng lớn dữ liệu. Đặc biệt, với ngôn ngữ tiếng Việt, việc phát triển các mô hình đọc hiểu hiệu quả sẽ thúc đẩy các ứng dụng như dịch máy và hội thoại tự động. Tối ưu hóa nội dung và từ khóa ngữ nghĩa là yếu tố quan trọng để cải thiện hiệu suất của các hệ thống này.

II. Trình đọc hồi tưởng và tích hợp thông tin ngữ nghĩa

Trình đọc hồi tưởng là mô hình đạt hiệu suất cao trong bài toán đọc hiểu tiếng Anh. Mô hình này kết hợp phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu để cải thiện độ chính xác. Tích hợp thông tin ngữ nghĩa vào mô hình biểu diễn ngôn ngữ như BERT giúp mô hình hiểu sâu hơn về ngữ cảnh và ngữ nghĩa của câu. Phương pháp tự động này đặc biệt hữu ích trong việc phân loại khả năng trả lời của câu hỏi, một yếu tố quan trọng trong nghiên cứu đọc hiểu.

2.1. Mô hình Trình đọc hồi tưởng

Trình đọc hồi tưởng là mô hình được công bố năm 2020, đạt hiệu suất cao trong bài toán đọc hiểu tiếng Anh. Mô hình này gồm hai mô-đun chính: mô-đun phân loại và mô-đun đọc chuyên sâu. Mô-đun phân loại xác định khả năng trả lời của câu hỏi, trong khi mô-đun đọc chuyên sâu tìm câu trả lời chính xác. Hồi tưởng trong đọc hiểu giúp mô hình xác minh lại câu trả lời, cải thiện độ chính xác.

2.2. Tích hợp thông tin ngữ nghĩa

Tích hợp thông tin ngữ nghĩa vào mô hình biểu diễn ngôn ngữ như BERT giúp mô hình hiểu sâu hơn về ngữ cảnh và ngữ nghĩa của câu. Phương pháp tự động này sử dụng các nhãn vai nghĩa để cải thiện hiệu suất của hệ thống đọc hiểu. Ví dụ, trong bộ dữ liệu LORELEI, các nhãn vai nghĩa được sử dụng để huấn luyện mô hình Gán nhãn vai nghĩa, sau đó tích hợp vào mô hình biểu diễn ngôn ngữ để cải thiện hiệu suất đọc hiểu.

III. Thực nghiệm và kết quả

Các thực nghiệm được tiến hành trên bộ dữ liệu ViQuAD2.0 và LORELEI Vietnamese Representative Language Pack. Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao trong việc phân loại khả năng trả lời của câu hỏi. Phương pháp đánh giá sử dụng các chỉ số như Exact Match (EM) và F1-score. Kết quả cho thấy mô hình cơ sở hoạt động không tốt trong việc phân loại khả năng trả lời, trong khi Trình đọc hồi tưởng cải thiện đáng kể hiệu suất.

3.1. Phương pháp đánh giá

Phương pháp đánh giá sử dụng các chỉ số như Exact Match (EM) và F1-score để đo lường hiệu suất của mô hình. Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao hơn so với mô hình cơ sở. Kết quả cho thấy tầm quan trọng của việc phân loại khả năng trả lời trong bài toán đọc hiểu.

3.2. Kết quả thực nghiệm

Kết quả thực nghiệm trên bộ dữ liệu ViQuAD2.0 cho thấy Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao hơn so với mô hình cơ sở. Phương pháp tự động này cải thiện đáng kể khả năng phân loại khả năng trả lời của câu hỏi, một yếu tố quan trọng trong nghiên cứu đọc hiểu.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin nghiên cứu phương pháp trình đọc hồi tưởng cho bài toán đọc hiểu tự động tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề, trình bày lý do thực hiện khóa luận, đề tài của khóa luận, mục tiêu, đối tượng và phạm vi nghiên cứu của khóa luận, kết quả đạt được của khóa luận. Chương 2: Tổng quan. Chúng tôi giới thiệu về hai bài toán chính chúng tôi nghiên cứu trong khóa luận này là Đọc hiểu tự động và Gán nhãn vai nghĩa, thêm vào đó chúng tôi sẽ trình bày khó khăn và các nghiên cứu của từng bài toán. Chương 3: Cơ sở lý thuyết.

Trình bày các cơ sở lý thuyết liên quan tới các phương pháp mà chúng tôi sử dụng trong mô hình Đọc hiểu tự động Chương 4: Mô hình Đọc hiểu tự động. Trong chương này, chúng tôi tập trung trình bày kiến trúc mô hình cơ sở và mô hình Trình đọc hồi tưởng. CẤU TRÚC KHÓA LUẬN chúng tôi sẽ giới thiệu phương pháp Tích hợp thông tin ngữ nghĩa BERT (SemBERT) cho bài toán Đọc hiểu tự động. Chương 5: Thí nghiệm và kết quả.

Trình bay các bước cài đặt mô hình đã dé xuất, giới thiệu về bộ dữ liệu và những khó khăn, thách thức của bộ dữ liệu. Cuối cùng, đưa ra kết quả thu được và phân tích, đánh giá dựa trên các kết quả đó. Chương 6: Kết luận và hướng phát triển. Trong phần cuối cùng, chúng tôi tổng kết những điều đã đạt được trong khóa luận này, chỉ ra những điểm hạn chế và đưa ra hướng phát triển trong tương lai.

TỔNG QUAN Trong phần này chúng tôi giới thiệu về hai bài toán là Đọc hiểu tự động và Gán nhãn vai nghĩa. Cùng với đó chúng tôi sẽ trình bày những khó khăn, thách thức của bài toán Đọc hiểu tự động và Gán nhãn vai nghĩa trong xử lý ngôn ngữ tự nhiên đang gặp phải. Cuối cùng là giới thiệu một số công trình nghiên cứu có ảnh hưởng lớn dén hai bài toán trên.1 Bài toán Doc hiểu tự động Với rất nhiều dữ liệu văn bản được tạo ra từ các ngành khác nhau, cách xử lý dữ liệu thủ công theo kiểu truyền thống đã trở thành nút thắt cổ chai của nhiều ứng dụng do tốc độ chậm và chi phí lớn. Do đó, công nghệ Đọc hiểu tự động có thé tự động xử lý và phân tích dữ liệu văn bản cũng như trích xuất các thông tin ngữ nghĩa từ nó, ngày càng trở nên phổ biến hơn.

Ví dụ như công cụ tìm kiếm truyền thống chỉ có thể trả về tài liệu liên quan đến truy vấn của người dùng, trong khi mô hình Đọc hiểu tự động có thể xác định chính xác câu trả lời trong tài liệu, do đó cải thiện trải nghiệm người dùng. Đọc hiểu tự động (MRC) cũng có thể cải thiện đáng kể hiệu quả trong dịch vụ khách hàng khi tìm kiếm giải pháp cho các vấn đề của người dùng trong tài liệu sản phẩm. Trong lĩnh vực trí tuệ y tế, Đọc hiểu tự động có thể phân tích các triệu chứng của bệnh nhân và tự động tham khảo hàng đống hồ sơ và giấy tờ y tế để tim ra nguyên nhân có thể xảy ra và đưa ra chẩn đoán. Tóm lại, Đọc hiểu tự động có thể giúp tiết kiệm nhân lực và thời gian to lớn trong các lĩnh vực yêu cầu xử lý và phân tích tự động một lượng lớn văn bản.

Ngay cả khi chất lượng của một mô hình đọc hiểu không hoàn toàn đạt đến trình độ của con người, nó có thể tiết kiệm chi phí bằng cách giải quyết một phần không gian của vấn dé. Ví du, trong dịch vụ khách hàng, máy tính có thể giải quyết các van dé thường gặp nhất với độ chính xác cao, trong khi phải nhờ đến nhân viên cho các van dé còn lại. Do các ứng dụng rộng rãi của nó trong các lĩnh vực khác nhau, MRC đã trở thành một trong những hướng phổ biến nhất trong nghiên cứu Trí tuệ nhân tạo tiên tiến. BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG Đọc hiểu tự động tương tự như nhiệm vụ đọc hiểu của con người.

Do đó, nó cần được đánh giá bằng khả năng hiểu nội dung của các bài viết mẫu. Không giống như các van dé toán học, đọc hiểu yêu cầu các thước đo đánh giá cụ thể để hiểu ngữ nghĩa. Ai cũng biết rằng việc đánh giá khả năng đọc hiểu của con người được thực hiện dưới hình thức câu hỏi và trả lời, trong đó người đọc được yêu cầu trả lời các câu hỏi liên quan đến đoạn văn. Vì vậy việc đánh giá mô hình Đọc hiểu tự động có thể có cùng một dạng: mô hình trả lời các câu hỏi liên quan của đoạn văn và được đánh giá bằng chất lượng câu trả lời.

Tiêu chí đánh giá phụ thuộc vào hình thức trả lời. Dưới đây là một số mẫu câu trả lời phổ biến: e Multiple choice, nghĩa là, mô hình cần chọn câu trả lời đúng từ một số tùy chọn. e Trích xuât, nghĩa là, câu trả lời bị ràng buộc là một đoạn văn bản trong bài việt, vì vậy mô hình cân đánh dâu vị trí bắt đầu và kêt thúc chính xác của câu trả lời trong bài viết. e Tự do, nghĩa là, không có giới hạn về văn bản của câu trả lời, cho phép mô hình tự do tạo ra các câu trả lời.

e Kiểm tra Cloze, nghĩa là, một số từ khóa nhất định bị xóa khỏi bài viết và mô hình cần điền từ hoặc cụm từ chính xác vào chỗ trống. Ngoài ra, một số bộ dữ liệu thiết kế các câu hỏi “không thể trả lời được”, tức là câu hỏi không có câu trả lời phù hợp trong đoạn văn. Trong trường hợp này, mô hình sẽ xuất ra câu trả lời là rỗng.1 Mô ta bài toán Trong nghiên cứu này chúng tôi dựa theo cách trả lời trích xuất để đánh giá mô hình Đọc hiểu tự động của chúng tôi. Cụ thể, bài toán của chúng tôi trong nghiên cứu này có thể được phát biểu như sau: e Đâu vào: Đoạn văn và câu hỏi.

TỔNG QUAN e Đầu ra: Câu trả lời của câu hỏi là một khoảng trong đoạn văn hoặc là rỗng đối với câu hỏi không trả lời được. Với các bộ dữ liệu có chứa những câu hỏi không trả lời được, mô hình sẽ dự đoán thêm một nhãn “is_impossible”, nếu câu hỏi có thể trả lời được thì đầu ra sẽ là nhãn “is_impossible” mang giá trị là False cùng với câu trả lời của câu hỏi đó. Ngược lại, đối với những câu hỏi có không thể trả lời, đầu ra của mô hình sẽ là nhãn “is_impossible” mang giá tri True và câu trả lời là rỗng. Cu thể, xét ví dụ bên dưới: Doan van: Sao Kim hay Kim tinh, còn gọi là sao Thái Bạch, Thái Bạch Kim tinh, là hành tính thứ hai trong hệ Mặt Trời, tự quay quanh nó với chu kỳ 224,7 ngày Trái Đất.

Xếp sau Mặt Trăng, nó là thiên thể tự nhiên sáng nhất trong bầu trời tối, với cap sao biểu kiến bằng -4.6, đủ sáng để tạo nên bóng trên mặt nước. Bởi vì Sao Kim là hành tinh phía trong tính từ Trái Đất, nó không bao giờ xuất hiện trên bầu trời mà quá xa Mặt Trời: góc ly giác đạt cực đại bằng 47,8. Sao Kim đạt độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh, do vậy mà dân gian còn gọi là sao Hôm, khi hành tinh nay mọc lên lúc hoàng hôn, và sao Mai, khi hành tinh nay mọc lên lúc bình minh. Câu hỏi: Tại sao sao Kim được gọi là sao Hôm? Câu trả lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh.

is_impossible: False Câu hoi: Tại sao Mặt Trời được gọi là sao Hôm? Câu trả lời: [] is_impossible: True Bảng 2. Ví dụ về câu hỏi tra lời được va không trả lời được. Đối với câu hỏi thứ nhất: “Tại sao sao Kim được gọi là sao Hôm?” kết quả dự đoán sé là “is_impossible: False” và câu trả lời tương ứng với câu hỏi đó “Câu trả lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh”. Và ngược lại với câu hỏi thứ hai: “Tại sao Mặt Trời được gọi là sao Hôm?” kết quả dự đoán sẽ là “is_impossible: True” và “Câu trả lời: []”.

Ở đây hai dấu ngoặc vuông tượng trưng cho đó là một câu trả lời rỗng.2 Kho khan Mặc dù chúng ta đã đạt được những thành tựu đáng kể trong nhiều nhiệm vu xử lý ngôn ngữ tự nhiên, nhưng vẫn còn nhiều van dé chưa được giải quyết tốt, bao gồm cả sự hiểu biết về cấu trúc ngôn ngữ và ngữ nghĩa. Nhiều vấn dé chưa được giải 10 2. BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG quyết này cũng liên quan mật thiết đến Đọc hiểu tự động. Dưới đây chúng tôi sẽ trình bày một số van dé, khó khăn của Đọc hiểu tự động nói riêng và xử lý ngôn ngữ nói chung đang gặp phải: 2.1 Su mơ hồ của ngôn ngữ Một trong những đặc điểm của ngôn ngữ là nó có thể diễn đạt những ý tưởng phức tạp với những câu nói ngắn gọn.

Do đó, thường có sự mơ hồ trong một câu, tức là có nhiều cách hiểu hợp lý. Dưới đây là một số ví dụ. Ví dụ 1: Cá đã sẵn sàng để ăn. Câu trên có thể có nghĩa là “cá có thể bắt đầu ăn” hoặc “ca đã sẵn sàng để cung cấp cho một người nào đó để ăn”.

Sự mơ hồ đến từ các cách hiểu khác nhau về vai trò cua từ “cá” trong câu: phụ thuộc vào ý nghĩa của hành động "an" trong câu là chủ động hay bị động. Vi dụ 2: Tôi nhìn thay một người đàn ông trên đôi với kính viễn vọng. Kính viễn vọng có thể nằm trong tay tôi (tôi sử dụng kính viễn vọng và thấy một người đàn ông) hoặc người đàn ông (tôi đã nhìn thấy người đàn ông và kính viễn vọng của anh ta), vì cả hai nghĩa của câu đều hợp lệ. Đây chỉ là một số trong vô số ví dụ về sự mơ hồ trong ngôn ngữ.

Ngay cả đối với con người, rất khó để đánh giá ý định thực sự của người nói. Tuy nhiên, nếu có đủ thông tin theo ngữ cảnh, hầu hết sự mơ hồ có thể được loại bỏ. Ví dụ 1, nếu một người đầu bếp nói "cá đã sẵn sàng để ăn", chúng ta sẽ hiểu rằng ở đây cá đóng vai trò là món ăn và đã sẵn sàng để ăn. Nhiều mô hình NLP vẫn gặp khó khăn trong việc hiểu ngữ nghĩa của ngữ cảnh.

Bằng cách phân tích kết quả của các mô hình khác nhau về các nhiệm vụ như MRC, các nhà nghiên cứu nhận thấy rằng các mô hình hiện có phần lớn phụ thuộc vào đối sánh từ khóa hoặc cụm từ, điều này hạn chế đáng kể khả năng hiểu ngữ cảnh và xử lý sự mơ hồ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phương Pháp Trình Đọc Hồi Tưởng Cho Bài Toán Đọc Hiểu Tự Động Tiếng Việt là một nghiên cứu chuyên sâu về việc áp dụng kỹ thuật trình đọc hồi tưởng để cải thiện khả năng đọc hiểu tự động của máy tính đối với văn bản tiếng Việt. Phương pháp này tập trung vào việc tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên (NLP) bằng cách sử dụng các mô hình học sâu, giúp máy tính hiểu và phân tích văn bản một cách chính xác hơn. Nghiên cứu này không chỉ mang lại lợi ích cho các nhà phát triển AI mà còn mở ra cơ hội ứng dụng rộng rãi trong các lĩnh vực như giáo dục, dịch thuật và xử lý thông tin tự động.

Để hiểu rõ hơn về các phương pháp học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống học sâu tự động thêm dấu cho tiếng Việt, nghiên cứu này tập trung vào việc tự động hóa quá trình thêm dấu cho văn bản tiếng Việt. Ngoài ra, Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt bằng mô hình đồ thị động cung cấp cái nhìn sâu sắc về việc trích xuất thông tin từ văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin là một tài liệu hữu ích để khám phá thêm về các mô hình học sâu trong xử lý thông tin.

Mỗi liên kết trên là cơ hội để bạn mở rộng kiến thức và khám phá sâu hơn về các phương pháp xử lý ngôn ngữ tự nhiên tiên tiến.

#xử lý ngôn ngữ tự nhiên

#AI tiếng Việt

#trình đọc hồi tưởng

#đọc hiểu tự động

#phương pháp NLP

#bài toán đọc hiểu

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Trí tuệ nhân tạo

học máy tiếng Việt

đọc hiểu tự động