Khóa luận tốt nghiệp khoa học dữ liệu tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản tiếng việt

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp khoa học dữ liệu tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản, vận dụng lý thuyết vào thực tế, đề xuất giải pháp

Trường đại học

Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Mục tiêu và phạm vi nghiên cứu

1.2.1. Mục tiêu

1.2.2. Phạm vi nghiên cứu

1.3. Các đóng góp chính của khóa luận

1.3.1. Về khía cạnh thực tiễn

1.3.2. Về khía cạnh khoa học

1.4. Cấu trúc luận văn

2. CHƯƠNG 2: BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL ENTAILMENT)

2.1. Cơ sở kế thừa văn bản

2.2. Phát hiện kế thừa văn bản

2.3. Ứng dụng của Phát hiện kế thừa văn bản

2.4. Các công trình liên quan

2.4.1. Các nghiên cứu trên tiếng Anh

2.4.2. Các nghiên cứu trên tiếng Việt

2.5. Bài toán Gán nhãn vai nghĩa

2.5.1. Gán nhãn vai nghĩa (Semantic role labeling)

2.5.2. Thuật toán dựa trên đặc trưng cho tác vụ Gán nhãn vai nghĩa

2.5.3. Mạng nơ-ron nhân tạo cho bài toán Gán nhãn vai nghĩa

2.6. Các công trình liên quan

2.6.1. Các công trình liên quan trên tiếng Anh

2.6.2. Các công trình liên quan trên tiếng Việt

3. CHƯƠNG 3: MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN VÀ BIỂU DIỄN NGỮ NGHĨA

3.1. Tiền huấn luyện mô hình BERT

3.2. Tinh chỉnh mô hình BERT

3.3. Mô hình học không giám sát biểu diễn đa ngôn ngữ - XLM-R

3.4. Mô hình học biểu diễn ngữ cảnh nhận thức ngữ nghĩa

3.4.1. Mô hình SemBERT

3.4.2. Mô hình biến thể của SemBERT

4. CHƯƠNG 4: THÍ NGHIỆM VÀ KẾT QUẢ

4.1. Bộ dữ liệu Lorelei

4.2. Tổng quan về nhãn ngữ nghĩa

4.3. Tiền xử lí dữ liệu

4.4. Bộ dữ liệu VLSP-2021

4.5. Quá trình thực hiện

4.5.1. Tinh chỉnh mô hình cho tác vụ Gán nhãn vai nghĩa

4.5.2. Rút trích thông tin ngữ nghĩa

4.5.3. Tinh chỉnh mô hình biến thể của SemBERT cho bài toán Gán nhãn vai nghĩa

4.6. Kết quả

4.6.1. Ảnh hưởng của số lượng vị từ

4.6.2. Kết luận và hướng phát triển của thí nghiệm

4.6.2.1. Kết luận và hướng phát triển

4.6.2.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: CÔNG BỐ KHOA HỌC

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Tóm tắt

I. Khóa luận tốt nghiệp và Khoa học dữ liệu

Khóa luận tốt nghiệp là một nghiên cứu khoa học quan trọng trong lĩnh vực Khoa học dữ liệu, đặc biệt khi tích hợp ngữ nghĩa vào việc phát hiện kế thừa văn bản tiếng Việt. Nghiên cứu này tập trung vào việc sử dụng các mô hình ngôn ngữ tiền huấn luyện dựa trên kiến trúc Transformer để biểu diễn ngữ cảnh và kết hợp với thông tin ngữ nghĩa thông qua tác vụ Gán nhãn vai nghĩa. Đây là một hướng tiếp cận mới, phá vỡ giới hạn của các phương pháp truyền thống, mang lại hiệu quả cao trong việc hiểu và xử lý ngôn ngữ tự nhiên.

1.1. Mục tiêu nghiên cứu

Mục tiêu chính của khóa luận tốt nghiệp là nghiên cứu sự ảnh hưởng của tích hợp ngữ nghĩa trong việc phát hiện kế thừa văn bản tiếng Việt. Nghiên cứu này nhằm tận dụng các mô hình ngôn ngữ tiền huấn luyện như BERT, XLM-R để biểu diễn ngữ cảnh, đồng thời kết hợp với thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi tích hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.

1.2. Phạm vi nghiên cứu

Nghiên cứu được thực hiện trên bộ dữ liệu VLSP-2021, bộ dữ liệu đầu tiên được gán nhãn thủ công cho bài toán phát hiện kế thừa văn bản tiếng Việt. Bên cạnh đó, bộ dữ liệu Lorelei được sử dụng để khai thác thông tin ngữ nghĩa thông qua tác vụ Gán nhãn vai nghĩa. Phạm vi nghiên cứu tập trung vào việc đánh giá hiệu quả của việc tích hợp thông tin ngữ nghĩa với các mô hình ngôn ngữ tiền huấn luyện, từ đó đưa ra các kết luận và hướng phát triển trong tương lai.

II. Tích hợp ngữ nghĩa và Phát hiện kế thừa văn bản

Tích hợp ngữ nghĩa là một yếu tố quan trọng trong việc phát hiện kế thừa văn bản, đặc biệt là với ngôn ngữ tiếng Việt. Nghiên cứu này sử dụng mô hình SemBERT, kết hợp biểu diễn ngữ cảnh từ BERT với thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi tích hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.

2.1. Mô hình SemBERT

Mô hình SemBERT là sự kết hợp giữa biểu diễn ngữ cảnh từ BERT và thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Mô hình này cho thấy hiệu suất tăng khoảng 1% khi so sánh với mô hình BERT không kết hợp thông tin ngữ nghĩa. Điều này chứng tỏ vai trò quan trọng của tích hợp ngữ nghĩa trong việc cải thiện hiệu quả của các mô hình ngôn ngữ tiền huấn luyện.

2.2. Ứng dụng thực tiễn

Nghiên cứu này không chỉ mang lại giá trị học thuật mà còn có nhiều ứng dụng thực tiễn. Phát hiện kế thừa văn bản là nền tảng cho các hệ thống hỏi đáp, tóm tắt văn bản, và rút trích quan hệ. Việc tích hợp ngữ nghĩa vào các mô hình ngôn ngữ tiền huấn luyện giúp cải thiện độ chính xác và hiệu quả của các hệ thống này, đặc biệt trong việc xử lý ngôn ngữ tiếng Việt.

III. Kết luận và Hướng phát triển

Nghiên cứu này đã chứng minh được tầm quan trọng của tích hợp ngữ nghĩa trong việc phát hiện kế thừa văn bản tiếng Việt. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi kết hợp thông tin ngữ nghĩa với các mô hình ngôn ngữ tiền huấn luyện. Đây là một hướng nghiên cứu đầy tiềm năng, mở ra nhiều cơ hội phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên và khoa học dữ liệu.

3.1. Kết luận

Nghiên cứu đã thành công trong việc tích hợp ngữ nghĩa vào các mô hình ngôn ngữ tiền huấn luyện, mang lại hiệu quả cao trong việc phát hiện kế thừa văn bản tiếng Việt. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi kết hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.

3.2. Hướng phát triển

Trong tương lai, nghiên cứu có thể mở rộng bằng cách tích hợp thêm các yếu tố ngữ nghĩa khác, hoặc áp dụng các mô hình ngôn ngữ tiền huấn luyện mới. Ngoài ra, việc phát triển các bộ dữ liệu lớn hơn và đa dạng hơn cũng là một hướng đi quan trọng để cải thiện hiệu quả của các mô hình trong việc phát hiện kế thừa văn bản tiếng Việt.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU e Chương 3: Cơ sở lý thuyết. Trình bày các cơ sở lý thuyết về các mô hình liên quan đên đê tài khóa luận. e Chương 4: Mô hình biểu diễn ngữ cảnh nhận thức ngữ nghĩa. Trong chương này, chúng tôi tập trung trình bày chỉ tiết về mặt toán học của kiến trúc mô hình SemBERT.

Đồng thời, dựa vào kiến trúc mô hình SemBERT chúng tôi tạo ra mô hình biến thể phù hợp cho thí nghiệm. e Chương 5: Thí nghiệm và Kết quả. Chương này bao gồm việc giới thiệu bộ ngữ liệu Lorelei và bộ ngữ liệu VLSP-2021. Ngoài ra, chúng tôi cũng tinh bay các độ đo để đánh giá hiệu suất mô hình.

Tiếp theo bao gồm Quá trình thực hiện, Kết quả, Phân tích và cuối cùng là Kết luận và hướng phát triển của thí nghiệm. e Chương 6: Kết luận và hướng phát triển. Trong chương này, chúng tôi trình bày các kết quả đạt được từ khóa luận và hướng phát triển trong tương lai. TONG QUAN Trong chương này, chúng tôi sẽ trình bày định nghĩa, vai trò, cũng như các công trình liên quan của hai bài toán Phát hiện kế thừa văn bản và Gán nhãn vai nghĩa.1 Bài toán Phát hiện kế thừa văn bản (Recognizing Textual Entailment) 2.1 Cơ sở kế thừa văn bản Kế thừa văn bản trong ngôn ngữ tự nhiên là mối quan hệ có hướng giữa các câu hoặc các đoạn của văn bản.

Mối quan hệ được gọi là suy luận khi văn bản tiên đề nối tiếp văn bản giả thiết, hay giả thiết được suy ra một cách trọn nghĩa của tiên đề. Một cách tổng quát, đối với một văn bản T (tiên đề) với một thể hiện của nó là giả thiét H. Ta nói rằng 7 kế thừa H, kí hiệu 7 — H, nếu ý nghĩa của H suy ra được từ văn bản T khi đặt trong ngữ cảnh của 7. Trong hội nghị RTE-4 đã định nghĩa về kế thừa văn bản và định nghĩa này sẽ được tiếp cận trong toàn bộ khóa luận như sau: “Ké thừa văn bản là một quan hệ có hướng giữa hai văn bản ké thừa T và văn bản được ké thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong boi cảnh mà T sinh ra”.

Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản: CHƯƠNG 2. TỔNG QUAN Bảng 2. Ví dụ về kế thừa văn bản trong tiếng Việt. Văn bản Giả thuyét Kê thừa Google là công ty đa | Google sở hữu Alphabet.

Covid-19 vào ngày hôm qua.2 Phát hiện kế thừa văn ban Theo hội nghị RTE-1 định nghĩa, Phát hiện kế thừa văn bản là bài toán xác định, với hai đoạn van bản được cho trước, liệu ý nghĩa của một đoạn van bản có được suy luận ra từ văn bản còn lại hay không [4]. Theo MacCartney và Manning định nghĩa, Suy luận ngôn ngữ tự nhiên (Natural Language Inferrence) còn được hiểu như Phát hiện kế thừa văn bản là nhiệm vụ xác định xem liệu một giả thuyết (hypothesis) ngôn ngữ tự nhiên có thể được suy ra từ một tiền dé (premise) nhất định hay không [5]. Bài toán Phát hiện kế thừa văn bản được phát biểu một cách tổng quát như sau: e Đầu vào: Tập các cặp văn bản 7 và giả thuyết H. e Đầu ra: Nhãn kế thừa gồm entailment, neutral, và contradiction.

Nhãn kế thừa có dùng dé xác định mối quan hệ kế thừa, được gán một cách thủ công, có ý nghĩa như sau: e Kế thừa (entailment): có ý nghĩa rằng 7 kế thừa H. BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL ENTAILMENT) e Trung tính (neutral): có nghĩa rằng không có đủ điều để xác định liệu 7 kế thừa H hay không. e Mau thuẫn (contradiction): có nghĩa rằng T không kế thừa H. Bên cạnh đó, nhãn phân loại mối quan hệ kế thừa cũng có thể được đặt thành những tên khác nhưng ý nghĩa không thay đổi, điển hình như nhãn được gán trong bộ ngữ liệu VLSP-2021 ở tác vụ Gan nhãn vai nghĩa là: argee, neutral, và disagree cũng có ý nghĩa lần lượt là kế thừa, không đủ điều kiện xác định, và không kế thừa.3 Ứng dụng của Phát hiện kế thừa văn bản Tiếng Việt là một thứ tiếng mang nhiều ngữ nghĩa, điều này có thể dẫn đến hiện nhập nhằng trong văn nói hoặc văn viết.

Tuy nhiên, hiện tượng này ít được chú ý đến trong thực tế bởi con người có thể xử lí tốt hiện tượng này. Nhập nhằng là hiện tượng mơ hồ về ý tưởng làm mất ranh giới giữa cái này và cái nọ. Hiện tượng nhập nhằng xảy ra hầu hết trong ngôn ngữ tiếng Việt và không tránh khỏi quy luật chung. Một số hiện tượng nhập nhằng thường gặp như: e Hiện tượng nhập nhằng do viết sai chính tả tiếng Việt.

e Hiện tượng nhập nhằng về phạm vi, ranh giới giữa các từ. e Hiện tượng nhập nhằng do tính đa nghĩa của từ. e Hiện tượng nhập nhằng ngữ nghĩa khi sử dụng các từ đồng âm. e Hiện tượng nhập nhằng trong cách phân biệt từ loại.

e Hiện tượng nhập nhằng khi sử dụng tiếng Việt không dấu. e Hiện tượng nhập nhằng về sự vận dụng. e Hiện tượng nhập nhằng trong phân tích cú pháp tiếng Việt. Nhiều bài toán về Hiểu ngôn ngữ tự nhiên như Hỏi đáp, Tóm tắt văn bản, hay Rút trích thông tin (Information Retrieval) sẽ gặp khó khăn trong quá trình xử lí khi gặp hiện tượng nhập nhằng.

Vì thế, bài toán Phát hiện kế thừa văn bản được phát triển CHƯƠNG 2. TỔNG QUAN thành hệ thống để xử lí các vấn dé suy luận cho cái bài toán vừa nêu. Ngoài ra, nó còn được dùng như một hệ thống đánh giá mức độ hiểu ngôn ngữ tự nhiên của các bài toán Xử lí ngôn ngữ tự nhiên nói chung. Đối với các hệ thống tìm kiếm thông tin, khi việc tìm kiếm thông tin dựa vào là các từ khóa (key word) thì kết quả trả về sẽ là một tập kết quả rất lớn.

Ngoài ra, một điểm yếu khác là khi văn bản không chứa từ khóa của truy vấn nhưng có cùng ý nghĩa thì kết quả hệ thống vẫn trả về là không thể tìm thấy. Vì thế vai trò của bài toán Phát hiện kế thừa văn bản sẽ được thể hiện ở chỗ các văn bản thể hiện thông tin sẽ đóng vai trò là văn bản 7. Trong khi đó, các câu truy vấn sẽ đóng vai trò là giả thuyết H, những câu truy van nay sẽ khác các từ khóa về kích thước câu (thường là dài hơn) cũng như chúng sẽ được thể hiện dưới dạng ngữ nghĩa hơn là những từ xuất hiện trong văn bản 7. Từ đó, bài toán Phát hiện kế thừa văn bản sẽ xác định những văn bản phù hợp cũng như không phù hợp cho các truy vấn.

Tương tự, đối với các hệ thống Hỏi đáp, văn bản ngữ cảnh và những câu hỏi sẽ đóng vai trò là văn bản 7 và giả thuyết H. Nhiệm vụ của bài toán Phát hiện kế thừa văn bản sẽ giúp hệ thống xác định định ra mối quan hệ kế thừa giữa văn bản ngữ cảnh và câu hỏi. Từ đó giúp hệ thống xác định câu trả lời một cách chính xác và nhanh chóng. Ngoài ra, đối với các thống Dịch máy, bài toán Phát hiện kế thừa văn bản có thể được áp dụng để đánh giá độ chính xác của các bản dịch từ máy.

Cụ thể, bản dịch của con người sẽ được xem là văn bản 7 và các bản dịch từ máy sẽ đóng vai trò là giả thuyết H. Các ban dịch đúng sẽ có mối quan hệ kế thừa với bản dịch của con người.4 Các công trình liên quan 2.1 Cac nghiên cứu trên tiếng Anh Phát hiện kế thừa văn bản nhận được sự quan tâm rất lớn từ các nhà nghiên cứu trong lĩnh vực Xử lí ngôn ngữ tự nhiên. Hàng loạt những hội nghị và công bố khoa học về xây dựng bộ ngữ liệu cũng như cải thiện phương pháp cho bài toán này được tổ chức và dé xuất. Đặc biệt, chuỗi về bài toán Phát hiện kế thừa văn bản có tên The PASCAL Rec- ognizing Textual Entailment Challenge (viết tắt là RTE) được tổ chức liên tục từ 10 2.

BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL ENTAILMENT) năm 2005 đến năm 2011. Mục tiêu chính của chuỗi hội nghị là tổng hợp các phương pháp cho bài toán Phát hiện kế thừa văn bản cho kết quả tốt thông qua cuộc thi. Hội nghị RTE-1 [4] được tổ chức vào năm 2005, đã đưa ra những tiêu chuẩn đầu tiên cho bài toán Phát hiện kế thừa văn bản. Bộ ngữ liệu của hội nghị RTE-1 bao gồm văn bản 7 khoảng một hoặc nhiều câu và giả thuyết gồm một câu.

Các đội tham gia có nhiệm vụ đưa ra quyết định liệu mỗi cặp (7, H) có kế thừa nhau hay không. Tại hội nghị này, các đội tham gia chủ yếu xét sự trùng lặp về từ vựng giữa T và H. Vì thế, các mô hình được dé xuất chủ yếu là các mô hình dựa trên tính toán lô-gít hoặc các mô hình xác suất. Các hội nghị từ RTE-2 [6] đến RTE-5 [7] vẫn tiếp tục được phát triển từ cuộc thi RTE-1 với thách thức lớn cho các đội tham gia chính là việc tăng chiều dài của văn bản (nâng lên mức độ là đoạn).

Ở hội nghị RTE-2 được tổ chức năm 2006 đã cung cấp nhiều các mau dữ liệu thực tế của cặp văn bản 7 - giả thuyết H, chủ yếu đến từ các hệ thống trong thực tiễn. Các mô hình được đề xuất ở hội nghị cho độ chính xác tốt, sử dụng thêm thông tin về cú pháp và ngữ nghĩa từ nhiều nguồn dữ liệu khác. Các hội nghị RTE-6 [8] và RTE-7 [9] được tổ chức sau đó đã có sự khác biệt so với các hội nghị trước đây. Kế thừa văn bản được thực hiện trên một tập ngữ liệu và sử dụng một tập hợp cơ sở dữ liệu tri thức (knowledge base population) cho việc phát hiện kế thừa văn bản.

Bài toán được đưa ra là tập trung kế thừa dựa vào ngữ cảnh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Khóa Luận Tốt Nghiệp: Khoa Học Dữ Liệu Tích Hợp Ngữ Nghĩa Phát Hiện Kế Thừa Văn Bản Tiếng Việt là một nghiên cứu chuyên sâu về việc ứng dụng khoa học dữ liệu và ngữ nghĩa để phát hiện sự kế thừa trong văn bản tiếng Việt. Tài liệu này không chỉ cung cấp cái nhìn toàn diện về các phương pháp tích hợp ngữ nghĩa mà còn đề xuất các giải pháp hiệu quả để xử lý văn bản phức tạp. Đây là nguồn tài liệu quý giá cho những ai quan tâm đến xử lý ngôn ngữ tự nhiên và khoa học dữ liệu.

Để mở rộng kiến thức về các phương pháp xử lý dữ liệu, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phân lớp dữ liệu chuỗi thời gian dựa vào mạng nơron tích chập CNN, nghiên cứu này tập trung vào việc phân lớp dữ liệu chuỗi thời gian bằng mạng nơron tích chập. Ngoài ra, Luận văn thạc sĩ khoa học máy tính cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian cung cấp những cải tiến mới trong việc gom cụm dữ liệu, một kỹ thuật quan trọng trong khoa học dữ liệu. Cuối cùng, Luận văn thạc sĩ khoa học máy tính khai phá cụm hướng thời gian trên dữ liệu giáo dục sẽ giúp bạn hiểu rõ hơn về việc khai phá dữ liệu theo hướng thời gian, một chủ đề liên quan mật thiết đến nghiên cứu của bạn.

Những tài liệu này không chỉ bổ sung kiến thức mà còn mở ra các hướng nghiên cứu mới, giúp bạn nắm bắt sâu hơn về lĩnh vực khoa học dữ liệu và xử lý thông tin.

#xử lý ngôn ngữ tự nhiên

#khóa luận tốt nghiệp

#trí tuệ nhân tạo

#văn bản tiếng Việt

#phân tích văn bản

#Khoa Học Dữ Liệu

Chủ đề

Khoa học Dữ liệu

Trí tuệ nhân tạo

xử lý tiếng Việt

Khóa luận tốt nghiệp khoa học dữ liệu tích hợp thông tin ngữ nghĩa cho bài toán phát hiện kế thừa văn bản tiếng việt

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Mục tiêu và phạm vi nghiên cứu

1.2.1. Mục tiêu

1.2.2. Phạm vi nghiên cứu

1.3. Các đóng góp chính của khóa luận

1.3.1. Về khía cạnh thực tiễn

1.3.2. Về khía cạnh khoa học

1.4. Cấu trúc luận văn

2. CHƯƠNG 2: BÀI TOÁN PHÁT HIỆN KẾ THỪA VĂN BẢN (RECOGNIZING TEXTUAL ENTAILMENT)

2.1. Cơ sở kế thừa văn bản

2.2. Phát hiện kế thừa văn bản

2.3. Ứng dụng của Phát hiện kế thừa văn bản

2.4. Các công trình liên quan

2.4.1. Các nghiên cứu trên tiếng Anh

2.4.2. Các nghiên cứu trên tiếng Việt

2.5. Bài toán Gán nhãn vai nghĩa

2.5.1. Gán nhãn vai nghĩa (Semantic role labeling)

2.5.2. Thuật toán dựa trên đặc trưng cho tác vụ Gán nhãn vai nghĩa

2.5.3. Mạng nơ-ron nhân tạo cho bài toán Gán nhãn vai nghĩa

2.6. Các công trình liên quan

2.6.1. Các công trình liên quan trên tiếng Anh

2.6.2. Các công trình liên quan trên tiếng Việt

3. CHƯƠNG 3: MÔ HÌNH NGÔN NGỮ TIỀN HUẤN LUYỆN VÀ BIỂU DIỄN NGỮ NGHĨA

3.1. Tiền huấn luyện mô hình BERT

3.2. Tinh chỉnh mô hình BERT

3.3. Mô hình học không giám sát biểu diễn đa ngôn ngữ - XLM-R

3.4. Mô hình học biểu diễn ngữ cảnh nhận thức ngữ nghĩa

3.4.1. Mô hình SemBERT

3.4.2. Mô hình biến thể của SemBERT

4. CHƯƠNG 4: THÍ NGHIỆM VÀ KẾT QUẢ

4.1. Bộ dữ liệu Lorelei

4.2. Tổng quan về nhãn ngữ nghĩa

4.3. Tiền xử lí dữ liệu

4.4. Bộ dữ liệu VLSP-2021

4.5. Quá trình thực hiện

4.5.1. Tinh chỉnh mô hình cho tác vụ Gán nhãn vai nghĩa

4.5.2. Rút trích thông tin ngữ nghĩa

4.5.3. Tinh chỉnh mô hình biến thể của SemBERT cho bài toán Gán nhãn vai nghĩa

4.6. Kết quả

4.6.1. Ảnh hưởng của số lượng vị từ

4.6.2. Kết luận và hướng phát triển của thí nghiệm

4.6.2.1. Kết luận và hướng phát triển

4.6.2.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: CÔNG BỐ KHOA HỌC

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

I. Khóa luận tốt nghiệp và Khoa học dữ liệu

1.1. Mục tiêu nghiên cứu

1.2. Phạm vi nghiên cứu

II. Tích hợp ngữ nghĩa và Phát hiện kế thừa văn bản

2.1. Mô hình SemBERT

2.2. Ứng dụng thực tiễn

III. Kết luận và Hướng phát triển

3.1. Kết luận

3.2. Hướng phát triển

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Dương Quốc Lộc

Người hướng dẫn: ThS. Nguyễn Đức Vũ

Trường học: Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học dữ liệu

Đề tài: Tích hợp thông tin ngữ nghĩa với ngữ cảnh cho bài toán phát hiện kế thừa văn bản tiếng Việt

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2022

Địa điểm: Thành phố Hồ Chí Minh

SINH VIÊN CŨNG XEM