I. Tổng Quan Về Mô Hình Đa Ngôn Ngữ Và Tiếng Việt
Hiểu ngôn ngữ tự nhiên (NLU) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc cải thiện khả năng của máy tính trong việc hiểu và diễn giải ngôn ngữ của con người. Gần đây, sự phát triển của mạng Transformer và mô hình ngôn ngữ đã tạo ra những tiến bộ lớn. Các mô hình được huấn luyện trước trên một lượng lớn dữ liệu, khai thác các đặc trưng về cấu trúc và ngữ nghĩa. Những mô hình này đã trở thành yếu tố quan trọng trong các bài toán NLP như dịch máy, đọc hiểu tự động và phân tích cảm xúc. Học viên xin gửi lời cảm ơn đến Cô PGS. Nguyễn Lưu Thùy Ngân đã tận tình hướng dẫn, hỗ trợ và góp ý trong suốt quá trình thực hiện luận văn. Những kinh nghiệm và kiến thức chuyên sâu của Cô đã truyền cảm hứng và động lực đề học viên trang bị các kiến thức và kỹ năng chuyên môn, giúp học viên thực hiện nghiên cứu khoa học và giải quyết vấn đề một cách có hiệu quả.
1.1. Giới Thiệu Bài Toán Hiểu Ngôn Ngữ Tự Nhiên NLU
Hiểu ngôn ngữ tự nhiên hướng tới việc làm cho máy tính hiểu và xử lý ngôn ngữ của con người một cách hiệu quả nhất. Nhờ vào những tiến bộ trong lĩnh vực máy học, đặc biệt là học sâu, các nghiên cứu trên NLU đã đạt được nhiều thành tựu trên các tác vụ như phân tích cảm xúc, dịch máy, đọc hiểu tự động hay suy luận ngôn ngữ tự nhiên. Các tác vụ chính trong NLU hướng tới việc hiểu, diễn giải và phân tích ngôn ngữ của con người dưới dạng văn bản hoặc âm thanh để đưa ra các dự đoán chính xác.
1.2. Tầm Quan Trọng Của Mô Hình Ngôn Ngữ Tiền Huấn Luyện
Sự xuất hiện của mạng Transformers và các mô hình ngôn ngữ huấn luyện trước (PLM) đã tạo ra bước đột phá trong NLP. PLM được huấn luyện trên một lượng lớn dữ liệu văn bản và sau đó thực hiện việc tinh chỉnh trên các tác vụ NLP. Nghiên cứu đã đạt được kết quả tốt trên nhiều tác vụ. Các mô hình tiền huấn luyện là yếu tố quan trọng dẫn đến sự phát triển vượt bậc trên nhiều bài toán NLP khác nhau như dịch máy, đọc hiểu tự động, phân tích cảm xúc.
II. Thách Thức Hiệu Suất Mô Hình Đa Ngôn Ngữ Tiếng Việt
Các công trình nghiên cứu chủ yếu tập trung vào xây dựng mô hình ngôn ngữ huấn luyện trước trên các ngôn ngữ giàu tài nguyên. Đối với các ngôn ngữ ít tài nguyên hơn, mô hình huấn luyện trước không được tối ưu tốt do lượng dữ liệu hạn chế. Sự xuất hiện của mô hình đa ngôn ngữ đã giải quyết được vấn đề này, mở rộng khả năng biểu diễn của mô hình trên nhiều ngôn ngữ, tạo điều kiện cho việc chia sẻ tri thức. Điều này dẫn đến hiệu suất trên các tác vụ NLU được cải thiện, đặc biệt là trên các ngôn ngữ ít tài nguyên. Bằng việc khảo sát và phân tích kết quả nghiên cứu của các công trình khoa học được công bố, học viên nhận thấy mô hình đa ngôn ngữ có một nhược điểm: hiệu suất trên các tác vụ giảm khi chúng ta thêm nhiều ngôn ngữ hơn.
2.1. Hạn Chế Của Mô Hình Đa Ngôn Ngữ Trên Tiếng Việt
Mặc dù với số lượng trọng số lớn, các mô hình đa ngôn ngữ thường chưa được tối ưu tốt, đặc biệt trên các ngôn ngữ ít tài nguyên do số lượng ngôn ngữ cần phải biểu diễn là quá lớn. Các mô hình đa ngôn ngữ phần nào giải quyết được vấn đề khan hiếm dữ liệu trên các ngôn ngữ ít tài nguyên thông qua việc chia sẻ tri thức dựa vào học cách biểu diễn thống nhất cho nhiều ngôn ngữ khác nhau. Học viên nhận thấy sự cần thiết cho việc đề xuất một phương pháp để khắc phục những hạn chế và cải thiện hiệu suất trên các ngôn ngữ ít tài nguyên như tiếng Việt.
2.2. Bài Toán Đọc Hiểu Tự Động và Suy Luận Ngôn Ngữ Tự Nhiên
Luận văn tập trung vào hai tác vụ chính của NLU bao gồm đọc hiểu tự động và suy luận ngôn ngữ tự nhiên. Đây là hai tác vụ quan trọng, được áp dụng nhiều trong thực tế, đặc biệt là các hệ thống hỏi đáp và truy vấn thông tin. Đọc hiểu tự động (MRC) hướng tới nhiệm vụ xây dựng các thuật toán cho phép máy tính hiểu văn bản và trả lời câu hỏi. Suy luận ngôn ngữ tự nhiên (NLI) là bài toán xác định mối quan hệ logic giữa hai câu văn.
III. Phương Pháp DA KDOT Cải Tiến Mô Hình Đa Ngôn Ngữ
Để kết hợp những ưu điểm của cả mô hình đa ngôn ngữ và đơn ngôn ngữ, học viên đề xuất kỹ thuật DA-KDOT - một kỹ thuật tận dụng các tri thức có trong mô hình đơn ngôn ngữ và chuyển giao sang mô hình đa ngôn ngữ với mục đích cải tiến khả năng diễn đạt đầu vào cho tiếng Việt. Trong kỹ thuật này, học viên sử dụng hướng tiếp cận chắt lọc tri thức với kiến trúc thầy - trò, trong đó tri thức từ hai mô hình đơn ngôn ngữ (mô hình thầy) được chuyển giao sang mô hình đa ngôn ngữ (mô hình trò) thông qua một hàm mất mát.
3.1. Kỹ Thuật Chắt Lọc Tri Thức Knowledge Distillation
Học viên sử dụng hướng tiếp cận chắt lọc tri thức với kiến trúc thầy-trò, trong đó tri thức từ hai mô hình đơn ngôn ngữ (mô hình thầy) được chuyển giao sang mô hình đa ngôn ngữ (mô hình trò) thông qua một hàm mất mát. Do đặc trưng của mô hình thầy và trò nằm trên các không gian ngữ nghĩa khác nhau và việc áp dụng trực tiếp kỹ thuật chắt lọc tri thức là điều không khả thi.
3.2. Ứng Dụng Vận Chuyển Tối Ưu Optimal Transport
Học viên đề xuất sử dụng kỹ thuật vận chuyển tối ưu để đo lường sự khác biệt giữa các phân phối trên hai không gian này. Do đặc trưng của mô hình thầy va trò nằm trên các không gian ngữ nghĩa khác nhau và việc áp dụng trực tiếp kỹ thuật chat lọc tri thức là điều không khả thi, học viên đề xuất sử dụng kỹ thuật vận chuyền tối ưu để đo lường sự khác biệt giữa các phân phối trên hai không gian này.
IV. Thử Nghiệm Kết Quả Đánh Giá Hiệu Quả Mô Hình
Học viên tiến hành thử nghiệm trên hai tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt là đọc hiểu tự động và suy luận ngôn ngữ tự nhiên. Kết quả thử nghiệm cho thấy mô hình đề xuất có kết quả tốt hơn và có những cải tiến đáng kể so với các mô hình khác. Để hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của mô hình, học viên tiến hành phân tích kết quả theo các khía cạnh khác nhau.
4.1. Dữ Liệu Huấn Luyện và Phương Pháp Đánh Giá Mô Hình
Thử nghiệm được thực hiện trên các bộ dữ liệu tiếng Việt cho đọc hiểu tự động (UIT-ViQuAD) và suy luận ngôn ngữ tự nhiên (ViNLI). Hiệu suất của mô hình được đánh giá bằng các độ đo phù hợp cho từng tác vụ. Cụ thể, Exact Match và F1-score được sử dụng cho đọc hiểu tự động, và Accuracy được sử dụng cho suy luận ngôn ngữ tự nhiên.
4.2. Phân Tích Kết Quả Thử Nghiệm Chi Tiết
Kết quả thử nghiệm cho thấy mô hình đề xuất có kết quả tốt hơn và có những cải tiến đáng kể so với các mô hình khác. Để hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của mô hình, học viên tiến hành phân tích kết quả theo các khía cạnh khác nhau. Các yếu tố như độ dài câu hỏi, độ dài đoạn văn, và loại câu hỏi được xem xét để đánh giá khả năng của mô hình.
V. Kết Luận và Hướng Phát Triển Cho NLU Tiếng Việt
Nghiên cứu này đã đề xuất một phương pháp cải tiến mô hình đa ngôn ngữ cho các tác vụ NLU tiếng Việt bằng cách kết hợp chắt lọc tri thức và vận chuyển tối ưu. Kết quả thử nghiệm cho thấy phương pháp đề xuất có hiệu quả trong việc cải thiện hiệu suất trên các tác vụ đọc hiểu tự động và suy luận ngôn ngữ tự nhiên. Học viên hướng tới hai mục tiêu chính. Thứ nhất, học viên đề xuất ý tưởng cải thiện khả năng biểu diễn của mô hình đa ngôn ngữ trên tiếng Việt, từ đó nâng cao hiệu suất trên các tác vụ NLU. Thứ hai, luận văn trình bày các thử nghiệm, phân tích sự ảnh hưởng của các thành phần trong mô hình đối với hiệu suất trên hai tác vụ đọc hiểu tự động và suy luận ngôn ngữ tự nhiên để hiểu rõ ưu, nhược điểm của từng phương pháp.
5.1. Tóm Tắt Những Đóng Góp Chính Của Nghiên Cứu
Nghiên cứu các hướng tiếp cận và phương pháp cho bài toán NLU: Kết quả thử nghiệm, phân tích, đánh giá một số phương pháp và mô hình tiên tiến hiện nay cho bài toán NLU tiếng Việt. Đề xuất một thuật toán cải tiến mô hình đa ngôn ngữ: Mô hình đa ngôn ngữ cải tiến dựa trên sự kết hợp sử dụng hai kỹ thuật là chắt lọc tri thức và vận chuyển tối ưu.
5.2. Đề Xuất Hướng Nghiên Cứu Tương Lai Trong Lĩnh Vực
Trong tương lai, nghiên cứu có thể được mở rộng để áp dụng cho các tác vụ NLU tiếng Việt khác, chẳng hạn như phân tích tình cảm tiếng Việt và nhận dạng thực thể có tên (NER) tiếng Việt. Việc tích hợp thêm dữ liệu và tài nguyên tiếng Việt cũng có thể giúp cải thiện hiệu suất của mô hình.