Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), việc hiểu và xử lý ngôn ngữ tự nhiên (Natural Language Understanding - NLU) trở thành một thách thức quan trọng, đặc biệt đối với các ngôn ngữ ít tài nguyên như tiếng Việt. Theo ước tính, các mô hình đa ngôn ngữ hiện nay có hiệu suất giảm đáng kể khi số lượng ngôn ngữ cần biểu diễn tăng lên, gây ảnh hưởng tiêu cực đến khả năng xử lý các tác vụ NLU trên tiếng Việt. Mục tiêu của luận văn là cải tiến mô hình đa ngôn ngữ nhằm nâng cao hiệu suất trên các tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt, cụ thể là đọc hiểu tự động (Machine Reading Comprehension - MRC) và suy luận ngôn ngữ tự nhiên (Natural Language Inference - NLI).

Phạm vi nghiên cứu tập trung vào việc phát triển và thử nghiệm kỹ thuật cải tiến mô hình đa ngôn ngữ trên dữ liệu tiếng Việt, trong khoảng thời gian gần đây với các bộ dữ liệu tiêu biểu như UIT-ViQuAD và ViNLI. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác và khả năng tổng quát hóa của mô hình trên các tác vụ NLU, góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong các hệ thống hỏi đáp, trợ lý ảo và các ứng dụng xử lý ngôn ngữ tiếng Việt. Các chỉ số hiệu suất như độ chính xác (accuracy) và điểm Exact Match trên bộ dữ liệu thử nghiệm được sử dụng làm metrics đánh giá.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba nền tảng lý thuyết chính:

  1. Mô hình ngôn ngữ sử dụng kiến trúc Transformers: Đây là kiến trúc mạng nơ-ron nhân tạo tiên tiến, nổi bật với cơ chế Multi-head Self-attention, cho phép mô hình nắm bắt các mối quan hệ phụ thuộc toàn cục trong chuỗi đầu vào. Kiến trúc này bao gồm bộ mã hóa (encoder) và bộ giải mã (decoder), được huấn luyện trước trên lượng lớn dữ liệu để học biểu diễn ngôn ngữ phong phú.

  2. Kỹ thuật chắt lọc tri thức (Knowledge Distillation): Phương pháp này truyền tri thức từ mô hình lớn, chính xác (mô hình thầy) sang mô hình nhỏ hơn (mô hình trò) thông qua hàm mất mát so sánh phân phối xác suất đầu ra. Kỹ thuật này giúp mô hình trò học được các đặc trưng phức tạp và cải thiện hiệu suất mà không cần tăng kích thước mô hình.

  3. Vận chuyển tối ưu (Optimal Transport): Là phương pháp đo lường sự khác biệt giữa hai phân phối xác suất trên các không gian khác nhau, được sử dụng để so sánh và chuyển giao tri thức giữa mô hình thầy và trò khi chúng biểu diễn dữ liệu trên các không gian ngữ nghĩa khác nhau. Thuật toán Sinkhorn-Knopp được áp dụng để giải bài toán vận chuyển tối ưu một cách hiệu quả.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm: Multi-head Self-attention, Distillation loss (hàm mất mát chắt lọc tri thức), và Entropy-regularized Optimal Transport.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm các bộ dữ liệu tiếng Việt tiêu biểu cho hai tác vụ NLU: UIT-ViQuAD (hơn 23,000 cặp câu hỏi - câu trả lời) cho tác vụ đọc hiểu tự động và ViNLI (hơn 30,000 cặp câu tiền đề - giả thuyết) cho tác vụ suy luận ngôn ngữ tự nhiên. Ngoài ra, các mô hình đơn ngôn ngữ và đa ngôn ngữ hiện có được sử dụng làm mô hình thầy và trò trong quá trình chắt lọc tri thức.

Phương pháp phân tích bao gồm:

  • Tinh chỉnh mô hình đa ngôn ngữ dựa trên kỹ thuật chắt lọc tri thức kết hợp vận chuyển tối ưu (DA-KDOT).
  • Thử nghiệm trên hai tác vụ NLU với các chỉ số đánh giá như Accuracy, Exact Match, và Jaccard score.
  • Phân tích kết quả theo các yếu tố như độ dài câu hỏi, độ dài đoạn văn, và mức độ trùng lặp từ giữa các câu.
  • So sánh hiệu suất với các mô hình đa ngôn ngữ và đơn ngôn ngữ truyền thống.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2022 đến 2023 tại thành phố Hồ Chí Minh, dưới sự hướng dẫn của PGS. Nguyễn Lưu Thùy Ngân.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất cải tiến trên tác vụ đọc hiểu tự động: Mô hình DA-KDOT đạt điểm Exact Match cao hơn khoảng 5% so với mô hình đa ngôn ngữ XLM-R trên bộ dữ liệu UIT-ViQuAD, thể hiện qua biểu đồ hiệu suất theo độ dài câu hỏi và đoạn văn. Hiệu suất duy trì ổn định trên các độ dài câu hỏi khác nhau, cho thấy khả năng tổng quát hóa tốt.

  2. Cải thiện trên tác vụ suy luận ngôn ngữ tự nhiên: Trên bộ dữ liệu ViNLI, mô hình đề xuất đạt Accuracy cao hơn khoảng 4% so với các mô hình đa ngôn ngữ truyền thống, đặc biệt hiệu quả với các cặp câu có mức độ trùng lặp từ thấp, chứng tỏ khả năng suy luận sâu sắc hơn.

  3. Ảnh hưởng tích cực của vận chuyển tối ưu: Việc sử dụng thuật toán Sinkhorn-Knopp để đo lường sự khác biệt giữa phân phối xác suất của mô hình thầy và trò giúp quá trình chắt lọc tri thức hiệu quả hơn, giảm thiểu sự mất mát thông tin khi chuyển giao tri thức giữa các không gian ngữ nghĩa khác nhau.

  4. Phân tích các yếu tố ảnh hưởng: Kết quả phân tích cho thấy hiệu suất mô hình giảm nhẹ khi độ dài câu hỏi hoặc đoạn văn tăng lên quá mức, đồng thời mô hình hoạt động tốt hơn trên các câu hỏi có cấu trúc rõ ràng và ít mơ hồ. Bảng ma trận nhầm lẫn minh họa các trường hợp mô hình dễ bị nhầm lẫn giữa nhãn “kéo theo” và “trung tính” trong tác vụ NLI.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do kỹ thuật DA-KDOT tận dụng được tri thức phong phú từ các mô hình đơn ngôn ngữ, đồng thời duy trì khả năng tổng quát hóa của mô hình đa ngôn ngữ. So với các nghiên cứu trước đây chỉ tập trung vào gia tăng số lượng trọng số hoặc điều chỉnh kiến trúc mô hình, phương pháp này tiết kiệm tài nguyên tính toán hơn và phù hợp với các ngôn ngữ ít tài nguyên như tiếng Việt.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về việc sử dụng chắt lọc tri thức kết hợp vận chuyển tối ưu để cải thiện hiệu suất mô hình đa ngôn ngữ. Việc phân tích chi tiết theo các đặc trưng đầu vào giúp hiểu rõ hơn về hành vi của mô hình, từ đó có thể điều chỉnh phù hợp cho các ứng dụng thực tế.

Dữ liệu có thể được trình bày qua các biểu đồ đường thể hiện hiệu suất theo độ dài câu hỏi, biểu đồ cột so sánh Accuracy giữa các mô hình, và bảng ma trận nhầm lẫn minh họa các lỗi phổ biến.

Đề xuất và khuyến nghị

  1. Triển khai kỹ thuật DA-KDOT trong các hệ thống xử lý ngôn ngữ tiếng Việt: Động từ hành động là “áp dụng” kỹ thuật chắt lọc tri thức kết hợp vận chuyển tối ưu để cải thiện hiệu suất các hệ thống hỏi đáp và suy luận ngôn ngữ trong vòng 12 tháng tới, do các nhóm nghiên cứu và phát triển AI thực hiện.

  2. Tăng cường thu thập và chuẩn hóa dữ liệu tiếng Việt: Đề xuất “mở rộng” bộ dữ liệu gán nhãn chất lượng cao cho các tác vụ NLU, đặc biệt là các trường hợp phức tạp và đa dạng ngữ cảnh, nhằm nâng cao khả năng huấn luyện mô hình trong 2 năm tới, do các tổ chức nghiên cứu và doanh nghiệp công nghệ phối hợp thực hiện.

  3. Phát triển các mô-đun điều hợp ngôn ngữ (language adapters): Khuyến nghị “phát triển” các mô-đun điều hợp tích hợp vào mô hình đa ngôn ngữ để tăng dung lượng biểu diễn cho tiếng Việt, giảm thiểu hiện tượng giảm hiệu suất khi mở rộng số lượng ngôn ngữ, trong vòng 18 tháng, do các nhóm kỹ thuật AI đảm nhiệm.

  4. Đào tạo và nâng cao năng lực chuyên môn cho đội ngũ nghiên cứu: “Tổ chức” các khóa đào tạo chuyên sâu về kỹ thuật chắt lọc tri thức và vận chuyển tối ưu cho các nhà nghiên cứu và kỹ sư AI trong nước, nhằm thúc đẩy nghiên cứu và ứng dụng hiệu quả, trong vòng 6 tháng tới, do các trường đại học và viện nghiên cứu chủ trì.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về mô hình ngôn ngữ đa ngôn ngữ, kỹ thuật chắt lọc tri thức và vận chuyển tối ưu, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Chuyên gia phát triển sản phẩm AI và NLP: Các kỹ thuật và kết quả nghiên cứu giúp cải thiện hiệu suất các ứng dụng xử lý ngôn ngữ tiếng Việt như trợ lý ảo, hệ thống hỏi đáp tự động, và dịch máy.

  3. Doanh nghiệp công nghệ và startup trong lĩnh vực AI: Tham khảo để áp dụng các phương pháp cải tiến mô hình đa ngôn ngữ, tối ưu hóa tài nguyên tính toán và nâng cao chất lượng sản phẩm.

  4. Cơ quan quản lý và hoạch định chính sách về công nghệ thông tin: Cung cấp cơ sở khoa học để xây dựng các chính sách hỗ trợ phát triển công nghệ AI cho ngôn ngữ ít tài nguyên, thúc đẩy nghiên cứu và ứng dụng trong nước.

Câu hỏi thường gặp

  1. Kỹ thuật chắt lọc tri thức là gì và tại sao quan trọng?
    Chắt lọc tri thức là phương pháp truyền tri thức từ mô hình lớn (thầy) sang mô hình nhỏ (trò) để cải thiện hiệu suất mà không tăng kích thước mô hình. Ví dụ, mô hình trò học được các đặc trưng phức tạp từ mô hình thầy, giúp nâng cao độ chính xác trên tác vụ NLU.

  2. Vận chuyển tối ưu được áp dụng như thế nào trong nghiên cứu này?
    Vận chuyển tối ưu đo lường sự khác biệt giữa phân phối xác suất của mô hình thầy và trò trên các không gian ngữ nghĩa khác nhau, giúp quá trình chắt lọc tri thức hiệu quả hơn. Thuật toán Sinkhorn-Knopp được sử dụng để giải bài toán này nhanh chóng.

  3. Mô hình đa ngôn ngữ gặp phải những hạn chế gì?
    Hiệu suất giảm khi số lượng ngôn ngữ tăng do dung lượng mô hình bị phân bổ nhỏ cho mỗi ngôn ngữ, đặc biệt ảnh hưởng đến các ngôn ngữ ít tài nguyên như tiếng Việt. Điều này làm giảm khả năng biểu diễn và xử lý ngôn ngữ chính xác.

  4. Phương pháp DA-KDOT cải thiện hiệu suất ra sao?
    DA-KDOT kết hợp chắt lọc tri thức và vận chuyển tối ưu để tận dụng tri thức từ mô hình đơn ngôn ngữ, giúp mô hình đa ngôn ngữ biểu diễn tốt hơn trên tiếng Việt, nâng cao điểm số trên các bộ dữ liệu MRC và NLI.

  5. Có thể áp dụng kết quả nghiên cứu này vào các ngôn ngữ khác không?
    Có, phương pháp đề xuất có thể mở rộng cho các ngôn ngữ ít tài nguyên khác, đặc biệt là những ngôn ngữ có cấu trúc tương đồng hoặc có dữ liệu hạn chế, giúp cải thiện hiệu suất mô hình đa ngôn ngữ trên nhiều ngôn ngữ.

Kết luận

  • Đề tài đã đề xuất thành công kỹ thuật DA-KDOT, kết hợp chắt lọc tri thức và vận chuyển tối ưu, cải thiện hiệu suất mô hình đa ngôn ngữ trên tiếng Việt.
  • Kết quả thử nghiệm trên hai tác vụ đọc hiểu tự động và suy luận ngôn ngữ tự nhiên cho thấy sự nâng cao đáng kể về độ chính xác và khả năng tổng quát hóa.
  • Phân tích chi tiết các yếu tố ảnh hưởng giúp hiểu rõ hành vi mô hình và hướng phát triển tiếp theo.
  • Nghiên cứu góp phần giải quyết thách thức về hiệu suất mô hình đa ngôn ngữ trên các ngôn ngữ ít tài nguyên, mở ra hướng đi mới cho nghiên cứu NLP tiếng Việt.
  • Khuyến nghị triển khai kỹ thuật trong các hệ thống thực tế và tiếp tục mở rộng nghiên cứu trong các lĩnh vực liên quan.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp nên áp dụng kỹ thuật DA-KDOT trong các dự án AI, đồng thời tăng cường thu thập dữ liệu và đào tạo chuyên môn. Hành động ngay hôm nay để nâng cao năng lực xử lý ngôn ngữ tự nhiên tiếng Việt và thúc đẩy ứng dụng trí tuệ nhân tạo trong nước.