Khóa Luận Tốt Nghiệp: Nghiên Cứu Đọc Hiểu Tự Động Thành Ngữ Tiếng Việt

Khóa luận nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt, khám phá ứng dụng và tiềm năng trong lĩnh vực khoa học máy tính.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHƯƠNG 1: TONG QUAN

1.1. Đặt vấn đề

1.2. Đối tượng nghiên cứu

1.3. Phạm vi nghiên cứu

1.4. Mục tiêu đạt được

1.5. Cấu trúc khóa luận

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN VÀ CƠ SỞ LÝ THUYẾT

2.1. Các công trình nghiên cứu liên quan

2.2. Các bộ dữ liệu thành ngữ, tục ngữ đã có

2.3. Các bộ dữ liệu liên quan đến bài toán MRC

2.3.1. Bidirectional Transformers for Language Understanding

2.3.2. Hệ thống hỏi đáp

2.3.3. Hệ thống đọc hiểu tự động

2.4. Kết chương

3. CHƯƠNG 3: XÂY DỰNG BỘ DỮ LIỆU

3.1. Quy trình xây dựng bộ dữ liệu

3.1.1. Nguồn gốc của bộ dữ liệu

3.1.2. Thu thập và tạo dữ liệu thô

3.1.3. Thống kê dữ liệu đã thu thập trên Internet

3.1.4. Quá trình gán nhãn

3.1.5. Ba mức độ của bộ dữ liệu

3.2. Thống kê bộ dữ liệu

3.3. Kết chương

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Bài toán

4.2. Các mô hình cơ sở

4.3. Thực nghiệm và kết quả

4.4. Hiệu chỉnh tham số

4.5. Kết quả thực nghiệm và các thách thức của bộ dữ liệu

4.6. Kết chương

5. CHƯƠNG 5: KẾT LUẬN, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Nghiên Cứu Đọc Hiểu Tự Động Thành Ngữ Tiếng Việt

Nghiên cứu về đọc hiểu tiếng Việt là một lĩnh vực đang thu hút sự quan tâm lớn trong cộng đồng nghiên cứu ngôn ngữ tự nhiên. Đặc biệt, việc áp dụng công nghệ vào việc hiểu và xử lý thành ngữ tiếng Việt mang lại nhiều thách thức và cơ hội. Thành ngữ không chỉ là những cụm từ thông thường mà còn chứa đựng nhiều ý nghĩa sâu sắc, phản ánh văn hóa và tri thức của người Việt. Việc phát triển các mô hình đọc hiểu tự động cho thành ngữ sẽ giúp máy tính có khả năng xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn.

1.1. Định Nghĩa Thành Ngữ Và Vai Trò Trong Ngôn Ngữ

Thành ngữ là những cụm từ cố định mang ý nghĩa đặc biệt, thường không thể hiểu theo nghĩa đen. Chúng đóng vai trò quan trọng trong việc diễn đạt ý tưởng và cảm xúc trong giao tiếp hàng ngày.

1.2. Tại Sao Cần Nghiên Cứu Đọc Hiểu Tự Động Thành Ngữ

Việc nghiên cứu đọc hiểu tự động cho thành ngữ giúp cải thiện khả năng xử lý ngôn ngữ tự nhiên, từ đó nâng cao hiệu suất của các ứng dụng như dịch máy và phân tích ngữ nghĩa.

II. Những Thách Thức Trong Nghiên Cứu Đọc Hiểu Thành Ngữ Tiếng Việt

Một trong những thách thức lớn trong việc nghiên cứu thành ngữ tiếng Việt là tính đa nghĩa và sự phong phú của ngôn ngữ. Các thành ngữ thường có nhiều cách hiểu khác nhau tùy thuộc vào ngữ cảnh sử dụng. Điều này gây khó khăn cho các mô hình máy học trong việc nhận diện và phân tích chính xác ý nghĩa của chúng.

2.1. Tính Đa Nghĩa Của Thành Ngữ

Nhiều thành ngữ có thể mang nhiều nghĩa khác nhau, điều này làm cho việc phân tích ngữ nghĩa trở nên phức tạp hơn.

2.2. Khó Khăn Trong Việc Thu Thập Dữ Liệu

Việc thu thập dữ liệu cho các thành ngữ là một thách thức lớn, vì không phải tất cả các thành ngữ đều được ghi chép và lưu trữ một cách đầy đủ.

III. Phương Pháp Nghiên Cứu Đọc Hiểu Tự Động Thành Ngữ Tiếng Việt

Để giải quyết các thách thức trong nghiên cứu đọc hiểu tự động, nhiều phương pháp đã được áp dụng. Các mô hình học sâu như BERT và QANet đã cho thấy hiệu quả trong việc xử lý ngôn ngữ tự nhiên, đặc biệt là trong việc hiểu và phân tích thành ngữ.

3.1. Sử Dụng Mô Hình Học Sâu

Mô hình BERT đã được áp dụng để cải thiện khả năng đọc hiểu các văn bản chứa thành ngữ, giúp máy tính hiểu rõ hơn về ngữ cảnh.

3.2. Xây Dựng Bộ Dữ Liệu Thành Ngữ

Việc xây dựng một bộ dữ liệu phong phú về thành ngữ là rất cần thiết để huấn luyện các mô hình đọc hiểu tự động.

IV. Ứng Dụng Thực Tiễn Của Nghiên Cứu Đọc Hiểu Thành Ngữ

Nghiên cứu về đọc hiểu tự động cho thành ngữ không chỉ có giá trị lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các ứng dụng này có thể bao gồm dịch máy, phân tích cảm xúc và nhiều lĩnh vực khác trong xử lý ngôn ngữ tự nhiên.

4.1. Ứng Dụng Trong Dịch Máy

Việc cải thiện khả năng hiểu thành ngữ sẽ giúp nâng cao chất lượng dịch máy, đặc biệt trong các văn bản văn học và văn hóa.

4.2. Ứng Dụng Trong Phân Tích Cảm Xúc

Các mô hình đọc hiểu thành ngữ có thể được sử dụng để phân tích cảm xúc trong các bài viết, giúp hiểu rõ hơn về tâm tư của người viết.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng Việt là một lĩnh vực đầy tiềm năng. Các kết quả đạt được từ nghiên cứu này không chỉ giúp cải thiện khả năng xử lý ngôn ngữ tự nhiên mà còn mở ra nhiều hướng phát triển mới cho các ứng dụng trong tương lai.

5.1. Tầm Quan Trọng Của Nghiên Cứu

Nghiên cứu này đóng góp vào kho tàng tri thức về ngôn ngữ và văn hóa Việt Nam, đồng thời thúc đẩy sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên.

5.2. Hướng Phát Triển Trong Tương Lai

Cần tiếp tục nghiên cứu và phát triển các mô hình mới, cũng như mở rộng bộ dữ liệu để nâng cao hiệu suất của các ứng dụng đọc hiểu tự động.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. TONG QUAN 4 luận này, có hai mục tiêu chính tôi sé thực hiện. Đầu tiên tôi sẽ xây dựng bộ ngữ liệu về thành ngữ, tục ngữ tiếng Việt. Sau đó, tôi sẽ tìm hiểu các phương pháp để huấn luyện mô hình đọc hiểu thành ngữ, tục ngữ tiếng Việt cũng như kiểm tra tính khả thi của bộ ngữ liệu đã tạo.4 Pham vi nghiên cứu Tuy đề tài hiện đang ở mức sơ khởi nhưng phạm vi áp dụng là vô cùng lớn.

Cụ thé, nghiên cứu về đọc hiểu tự động trên thành ngữ, tục ngữ tiếng Việt với nguồn thu thập chính là các văn bản trên không gian mạng. Công trình nghiên cứu này là một bước đệm giúp cho các hệ thống đọc hiéu trích xuất văn bản tiếng Việt xử lý thông tin mượt mà hơn, tránh tình trạng nhập nhang khi xử lý những văn bản chứa thành ngữ, tục ngữ.5 Cấu trúc khóa luận: Khoá luận được chia thành 5 chương với các nội dung chính như sau: ° Chương 1: Tổng quan Giới thiệu bài toán nhận diện chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội tiếng Việt. Tầm quan trọng và tính ứng dụng của khoá luận vào thực tế đời sống trong bối cảnh phát triển mạnh mẽ của nền tảng trực tuyến hiện tại. ° Chương 2: Các nghiên cứu liên quan và cơ sở lý thuyết Giới thiệu một vài các công trình nghiên cứu liên quan dén bài toán đọc Chương 1.

TONG QUAN 5 hiểu máy nói chung cũng một số công trình về thành ngữ tiếng Trung va cơ sở lý thuyết. ° Chương 3: Xây dựng bộ dữ liệu Giới thiệu bộ dữ liệu Vietnamese Idiom Dataset (VIID). Tôi sẽ trình bày quy trình xây dựng bộ dữ liệu cu thé theo từng bước kèm theo phân tích về các đặc điểm ngôn ngữ đặc thù kèm phương pháp tiếp cận giải quyết, đưa ra những thống kê cơ bản cho bộ dữ liệu ViID. ° Chương 4: Thực nghiệm và đánh giá Thí nghiệm các mô hình học sâu, học chuyền tiếp đa ngôn ngữ và đơn ngôn ngữ dành riêng cho tiếng Việt trên bộ dữ liệu ViID.

Phân tích kết quả của từng mô hình, sau đó tiễn hành so sánh, đánh giá và kết luận về hiệu suất của từng loại mô hình. ° Chương 5: Kết luận, hạn chế và hướng phát triển Tổng kết các kết quả đạt được của khoá luận, nêu lên những hạn chế còn tồn tại và định hướng phát triển của khoá luận trong tương lai. CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 6 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ CƠ SỞ LY THUYET Trong chương này, tôi sẽ trình bày một số công trình nghiên cứu liên quan về xây dựng bộ ngữ liệu về thành ngữ và những bộ ngữ liệu liên quan đến bài toán đọc hiểu tự động trước đó, cũng như những nghiên cứu liên quan về bài toán đọc hiểu tự động, sau đó là tông quan về các cơ sở lý thuyết làm nền tảng trong khóa luận này.1 trình bày về một vài bộ dữ liệu đã có và những công trình nghiên cứu về bài toán đọc hiểu tự động.2 sẽ giới thiệu các kiến trúc cơ sở cần thiết dé xây dựng bộ dữ liệu cũng như giải quyết bài toán liên quan đến bộ dữ liệu.1 Các công trình nghiên cứu liên quan Liên quan đến nghiên cứu của khóa luận tốt nghiệp, tôi tập trung trình bài những bộ dữ liệu liên quan đến thành ngữ đã giới thiệu trước đó (Mục 2.1) và những bộ dữ liệu liên quan đến bài toán MRC (Mục 2. Ngoài ra, bảng 2.1 so sánh chỉ tiết các bộ dit liệu tôi đã đề cập với bộ dit liệu ViID tôi đã xây dựng.1 Các bộ dữ liệu thành ngữ, tục ngữ đã có Chương 2.

CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 7 Thành ngữ luôn là chủ đề gây ra nhiều khó khăn trong lĩnh vực NLP, tuy nhiên trong những năm gần đây, có nhiều nghiên cứu về thành ngữ đã được công bó, có thé kê đến một vài bộ dit liệu nổi bật như IMIL hay ChID, cụ thé: ° IMIL [3]: Bộ dữ liệu IMIL là bộ dữ liệu song song đa ngôn ngữ ảnh xa 2208 thành ngữ thường được sử dụng bằng tiếng Anh sang bản dịch của chúng bang bảy ngôn ngữ Ấn Độ: Hindi, Urdu, Bengali, Tamil, Gujarati, Malayalam va Telugu. Các thành ngữ cũng được chú thích bang những cảm xúc thích hop mà chúng truyền tải và ý nghĩa của chúng trong các ngôn ngữ tương ứng. Tập dữ liệu kết quả có kích thước 47. Các thành ngữ được thu thập trên các website kết hợp với những thành ngữ được tông hợp từ kho ngữ liệu tiếng Anh Mỹ nổi tiếng khác, bao gồm American National Corpus (ANC) (Ide và Suderman, 2004); Tập hợp tiếng Anh học thuật Michigan (MICASE) (Simpson va cộng su, 2002), và Brown Corpus (Francis và Kucera, 1979).5%), thành ngữ được thu thập từ tập thành ngữ tiếng Trung Daquan, các văn bản được thu thập từ các tiểu thuyết và tiêu luận Internet cũng như các bài báo do Sun và các cộng sự của ông cung cấp (2016) [5].2 Các bộ dữ liệu liên quan đến bai toán MRC: Do lĩnh vực MRC có nhiều nghiên cứu, trong khóa luận tốt nghiệp này tôi chỉ tập trung vào các bộ dữ liệu liên quan trực tiếp như CNN/DailyMail, Children”s Chương 2.

CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 8 Book Test, The 1st Evaluation on Chinese Machine Reading Comprehension, New Vietnamese Corpus for Machine Reading Comprehension of Health News Articles, Vietnamese Question Answering Dataset. ° CNN/DailyMail [6]: Bộ dữ liệu CNN/Daily Mail là bộ dữ liệu bao gồm hơn 300,000 bài báo được viết bởi các nhà báo ở hai tòa soạn CNN và Daily Mail, bộ dữ liệu được chia thành 287,113 mẫu đữ liệu để huấn luyện, 13,368 dé xác thực va 11,490 dé kiểm tra. Trung bình, có khoảng 28 câu trong mỗi tài liệu trong bộ huấn luyện. Bộ dữ liệu này bao gồm phiên bản an danh và phiên bản không ân danh.

Phiên bản đầu tiên là tất cả các tên thực thé của dữ liệu được thay thé bằng các từ thẻ đặc biệt, trong khi phiên bản thứ hai là dữ liệu gốc. Dữ liệu CNN/Daily Mail bao gồm nhiều cặp tài liệu-tóm tắt, mỗi cặp tương ứng với một vải câu được đánh dấu trong tài liệu được chú thích thủ công. ° Children’s Book Test [7]: Children’s Book Test được thiết kế để kiểm tra vai trò của trí nhớ và ngữ cảnh trong việc xử lý và hiểu ngôn ngữ. Bài kiểm tra yêu cầu dự đoán về các loại từ còn thiếu khác nhau trong sách dành cho trẻ em, dựa trên cả những từ gần đó và bối cảnh rộng hơn từ cuốn sách.

Bộ đữ liệu được thu thập từ những cuốn sách được cung cấp miễn phí nhờ dự án Gutenberg [8]. Việc sử dụng sách dành cho trẻ em đảm bảo cau trúc tường thuật rõ ràng, điều này có thé làm cho vai trò của bối cảnh trở nên nồi bật hon. ° The Ist Evaluation on Chinese Machine Reading Comprehension (CMRC-2017) [9]: Bộ dữ liệu dang cloze-style reading comprehension của Trung Quốc được tạo tự động quy mô lớn, được thu thập từ tài liệu đọc của trẻ em. Mặc dù tao dữ liệu dao tạo tự động, các bộ dữ liệu đánh giá của CMRC-2017 (xác thực và kiểm tra) được chú thích thủ công.

Dé tăng thêm sự đa dạng và điều tra sâu hon Chương 2. CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 9 về transfer learning, nhóm tác giả cũng cung cấp một bộ đữ liệu đánh giá khác cũng được con người chú thích, nhưng truy vấn tự nhiên hơn loại cloze. ° New Vietnamese Corpus for Machine Reading Comprehension of Health News Articles (UIT-ViNewsQA) [10]: ViNewsQA bao gom hon 22.000 cặp câu hỏi-câu trả lời do con người tạo ra dựa trên hon 4.400 bai báo trực tuyến trong lĩnh vực y tế. Kho ngữ liệu này được cung cấp công khai cho nghiên cứu xử lý ngôn ngữ tiếng Việt và cả cho các nghiên cứu đa ngôn ngữ cùng với các kho tài liệu tương tự khác như NewsQA [11] (cho tiếng Anh), CMRC (cho tiếng Trung) [12], FQuAD (cho tiếng Pháp) [13] và KorQuAD [14] (cho tiếng Hàn).

Bộ ngữ liệu được phân tích theo các khía cạnh ngôn ngữ khác nhau, bao gồm dựa trên từ vựng, ba loại độ dài (câu hỏi, câu trả lời và mạo từ), ba loại dựa trên nội dung (câu hỏi, câu trả lời và lý luận) và mối tương quan giữa dựa trên loại và độ dài câu trả lời, từ đó cung cấp những hiểu biết toàn điện về bộ dữ liệu. ° Vietnamese Question Answering Dataset (UIT-ViQuAD): [15] ViQuAD bao gồm 23.074 cặp câu hỏi-câu trả lời do con người tạo ra dựa trên 5.109 đoạn của 174 bài viết Wikipedia tiếng Việt. Tập dữ liệu được phân tích theo các khía cạnh ngôn ngữ khác nhau bao gồm phân tích theo độ dài (độ dài câu hỏi, độ dài câu trả lời và độ dài đoạn văn) và phân tích dựa trên loại (loại câu hỏi, loại câu trả lời và loại lý luận). UIT-ViQuAD có thể dùng làm nguồn tài nguyên cho nghiên cứu đa ngôn ngữ cùng với các bộ dữ liệu tương tự khác như SQuAD, CMRC và KorQuA.

CÁC NGHIÊN CUU LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 11 2,000 dé kiém tra UIT- Span- Tiéng Viét 22K cau hoi Y tế va tin tức ViNewsQA | extraction MRC UIT- Span- Tiéng Viét 5109 doan van va | Wikipedia(Ma ViQuAD extraction ae x. MRC 23074 câu hỏi nguôn mở) VIID Cloze-style | Tiếng Việt 3639 mẫu đữ liệu | Internet MRC dé huấn luyện, 363 mẫu xác thực và 363 mẫu kiêm tra Bảng 2.1: Khảo sát sơ bộ về bộ đữ liệu ViID và các bộ dữ liệu liên quan 2.1 Bidirectional Transformers for Language Understanding: BERT [16] là một kiến trúc mới cho lớp bài toán Language Representation được Google công bố vào năm 2019.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Đọc Hiểu Tự Động Thành Ngữ Tiếng Việt" mang đến cái nhìn sâu sắc về việc áp dụng công nghệ đọc hiểu tự động cho các thành ngữ trong tiếng Việt. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về cách thức hoạt động của các hệ thống xử lý ngôn ngữ tự nhiên mà còn chỉ ra những thách thức và cơ hội trong việc phát triển các ứng dụng ngôn ngữ. Một trong những lợi ích lớn nhất của tài liệu là nó cung cấp kiến thức nền tảng cho những ai quan tâm đến việc cải thiện khả năng đọc hiểu và xử lý ngôn ngữ trong các ứng dụng thực tiễn.

Nếu bạn muốn mở rộng thêm kiến thức về lĩnh vực này, hãy tham khảo các tài liệu liên quan như Khóa luận tốt nghiệp khoa học máy tính image captioning trong bộ dữ liệu tiếng việt, nơi bạn có thể tìm hiểu về cách mô tả hình ảnh trong ngữ cảnh tiếng Việt. Bên cạnh đó, tài liệu Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi ứng dụng với tiếng mường sẽ giúp bạn khám phá thêm về công nghệ nhận diện giọng nói trong các ngôn ngữ ít được nghiên cứu. Cuối cùng, bạn cũng có thể tìm hiểu về Luận văn các phương pháp phân đoạn tiếng việt và ứng dụng, một tài liệu hữu ích cho việc phân tích và xử lý ngôn ngữ tiếng Việt. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng và nghiên cứu trong lĩnh vực ngôn ngữ học và công nghệ thông tin.

#xử lý ngôn ngữ tự nhiên

#thành ngữ tiếng Việt

#khóa luận tốt nghiệp

#ngữ nghĩa tiếng Việt

#mô hình học sâu

#đọc hiểu tự động

Chủ đề

Ứng dụng công nghệ trong ngôn ngữ

Thách thức trong xử lý ngôn ngữ tự nhiên

Nghiên cứu về thành ngữ

Phát triển bộ dữ liệu ngôn ngữ