I. Tổng Quan Dịch Máy Ngôn Ngữ Thiếu Tài Nguyên Giới Thiệu 55 ký tự
Dịch máy là nhu cầu quan trọng của nhân loại. Sự ra đời của máy tính kỹ thuật số đã mở ra giấc mơ xây dựng máy móc dịch ngôn ngữ tự động. Gần như ngay khi máy tính điện tử xuất hiện, người ta đã nỗ lực xây dựng các hệ thống tự động để dịch, mở ra một lĩnh vực mới: dịch máy. Dịch máy (MT) là "các hệ thống vi tính hóa chịu trách nhiệm sản xuất bản dịch từ một ngôn ngữ tự nhiên sang ngôn ngữ khác, có hoặc không có sự trợ giúp của con người". Lịch sử phát triển của dịch máy rất dài. Các phương pháp tiếp cận khác nhau đã được khám phá như: dịch trực tiếp (sử dụng các quy tắc để ánh xạ đầu vào sang đầu ra), các phương pháp chuyển giao (phân tích thông tin cú pháp và hình thái), và các phương pháp liên ngôn ngữ (sử dụng các biểu diễn ý nghĩa trừu tượng). Các phương pháp tiếp cận thống trị của dịch máy hiện tại là dịch máy thống kê (SMT) và dịch máy thần kinh (NMT), dựa trên tài nguyên văn bản đã dịch, một xu hướng của các phương pháp hướng dữ liệu. Thay vì đó, một tập hợp các văn bản đã dịch được sử dụng để tự động tìm hiểu các quy tắc tương ứng giữa các ngôn ngữ. Xu hướng này đã cho thấy kết quả hiện đại trong các nghiên cứu gần đây cũng như được áp dụng trong hệ thống MT đang được sử dụng rộng rãi hiện nay, Google. Các văn bản đã dịch, được gọi là bilingual corpora, do đó trở thành một trong những yếu tố chính ảnh hưởng đến chất lượng dịch thuật.
1.1. Giới thiệu về dịch máy thống kê Statistical MT
Dịch máy thống kê (SMT) dựa trên các mô hình thống kê để dịch văn bản. Các mô hình này được học từ bilingual corpora. Mô hình phổ biến bao gồm mô hình kênh ồn và mô hình log-linear. SMT yêu cầu lượng lớn dữ liệu song ngữ để đạt hiệu quả cao. Nghiên cứu của Trieu Long Hai (2017) nhấn mạnh tầm quan trọng của bilingual corpora trong SMT.
1.2. Giới thiệu về dịch máy thần kinh Neural MT
Dịch máy thần kinh (NMT) sử dụng mạng nơ-ron sâu để mô hình hóa quá trình dịch. NMT đã đạt được những tiến bộ đáng kể trong những năm gần đây. Tuy nhiên, NMT cũng cần lượng lớn dữ liệu để huấn luyện hiệu quả. Việc thiếu dữ liệu là một thách thức lớn đối với NMT cho ngôn ngữ thiếu tài nguyên. Nghiên cứu cũng khám phá việc sử dụng NMT cho các ngôn ngữ này.
II. Vấn Đề Dữ Liệu Thách Thức Dịch Máy Ngôn Ngữ Nghèo 59 ký tự
Có nhiều nỗ lực trong việc xây dựng bilingual corpora lớn như Europarl (bilingual corpus của 21 ngôn ngữ châu Âu), tiếng Anh-tiếng Ả Rập, tiếng Anh-tiếng Trung. Xây dựng bilingual corpora lớn như vậy đòi hỏi nhiều nỗ lực. Do đó, bên cạnh bilingual corpora của các ngôn ngữ châu Âu và một số cặp ngôn ngữ khác, có rất ít bilingual corpora lớn cho hầu hết các cặp ngôn ngữ trên thế giới. Vấn đề này dẫn đến một nút thắt cổ chai cho dịch máy ở nhiều cặp ngôn ngữ thiếu bilingual corpora lớn, được gọi là ngôn ngữ thiếu tài nguyên. Công trình này định nghĩa ngôn ngữ thiếu tài nguyên là các cặp ngôn ngữ không có hoặc có bilingual corpora nhỏ (dưới một triệu cặp câu). Cải thiện MT trên ngôn ngữ thiếu tài nguyên trở thành một nhiệm vụ thiết yếu đòi hỏi nhiều nỗ lực cũng như thu hút nhiều sự quan tâm hiện nay.
2.1. Khó khăn trong thu thập dữ liệu song ngữ cho ngôn ngữ hiếm
Việc thu thập dữ liệu song ngữ chất lượng cao cho ngôn ngữ hiếm là vô cùng khó khăn. Quá trình này tốn kém về thời gian, công sức và nguồn lực tài chính. Do đó, việc tìm kiếm các phương pháp tự động hóa hoặc bán tự động để tạo ra dữ liệu song ngữ trở nên cấp thiết. Một số phương pháp đã được đề xuất, bao gồm back-translation và sử dụng dữ liệu tổng hợp.
2.2. Ảnh hưởng của dữ liệu ít ỏi đến chất lượng dịch máy
Khi dữ liệu song ngữ ít ỏi, các mô hình dịch máy, dù là dịch máy thống kê hay dịch máy thần kinh, đều gặp khó khăn trong việc học các quy tắc dịch chính xác. Điều này dẫn đến chất lượng dịch kém, đặc biệt là đối với các câu phức tạp hoặc chứa các từ vựng hiếm gặp. Đánh giá chất lượng dịch máy trong điều kiện thiếu dữ liệu là một thách thức lớn.
III. Hướng Dẫn Tăng Cường Dữ Liệu Dịch Máy Giải Pháp Hiệu Quả 59 ký tự
Các giải pháp đã được đề xuất để giải quyết vấn đề bilingual corpora không đủ. Có hai chiến lược chính: xây dựng bilingual corpora mới và sử dụng bilingual corpora đã có. Đối với chiến lược đầu tiên, bilingual corpora có thể được xây dựng thủ công hoặc tự động. Xây dựng bilingual corpora lớn bằng con người có thể đảm bảo chất lượng của corpora; tuy nhiên, nó đòi hỏi chi phí nhân công và thời gian cao. Do đó, xây dựng bilingual corpora tự động có thể là một giải pháp khả thi. Nhiệm vụ này liên quan đến một lĩnh vực con: sentence alignment, trong đó các câu là bản dịch của nhau có thể được trích xuất tự động. Hiệu quả của các thuật toán sentence alignment ảnh hưởng đến chất lượng của bilingual corpora.
3.1. Cải tiến sentence alignment để tăng dữ liệu song ngữ
Sentence alignment là quá trình xác định các cặp câu tương ứng trong hai văn bản song ngữ. Việc cải thiện độ chính xác của sentence alignment có thể giúp trích xuất dữ liệu song ngữ chất lượng cao hơn. Các phương pháp cải tiến bao gồm sử dụng thông tin từ điển, thông tin ngữ pháp và word embeddings.
3.2. Xây dựng multilingual parallel corpus cho ngôn ngữ ít ỏi
Việc xây dựng multilingual parallel corpus có thể giúp tăng cường dữ liệu cho dịch máy cho ngôn ngữ ít ỏi. Các phương pháp xây dựng bao gồm sử dụng dữ liệu từ Wikipedia, dữ liệu từ các tổ chức quốc tế và dữ liệu từ các trang web song ngữ. Sử dụng dữ liệu tổng hợp cũng là một giải pháp tiềm năng.
3.3. Sử dụng dữ liệu đơn ngữ để cải thiện sentence alignment
Sử dụng dữ liệu đơn ngữ là một phương pháp tiềm năng để cải thiện sentence alignment, đặc biệt khi dữ liệu song ngữ hạn chế. Bằng cách học word embeddings từ dữ liệu đơn ngữ, ta có thể ước tính độ tương đồng giữa các từ và câu, từ đó cải thiện độ chính xác của sentence alignment.
IV. Phương Pháp Pivot Khai Thác Triệt Để Corpus Song Ngữ 58 ký tự
Các bilingual corpora hiện có có thể được sử dụng để trích xuất các quy tắc dịch cho một cặp ngôn ngữ gọi là pivot methods. Cụ thể, ngôn ngữ (các) trục được sử dụng để kết nối dịch từ ngôn ngữ nguồn sang ngôn ngữ đích nếu có bilingual corpora của các cặp ngôn ngữ nguồn-trục và trục-đích. Công trình của Trieu Long Hai (2017) đã đề xuất hai phương pháp để cải thiện pivot methods.
4.1. Sử dụng semantic similarity cho pivot translation hiệu quả
Sử dụng semantic similarity giúp cải thiện pivot translation bằng cách chọn các cụm từ tương đương về mặt ngữ nghĩa, ngay cả khi chúng không tương đương về mặt từ vựng. Các mô hình semantic similarity có thể được huấn luyện trên dữ liệu đơn ngữ hoặc dữ liệu song ngữ.
4.2. Kết hợp kiến thức ngữ pháp và hình thái vào pivot translation
Kết hợp kiến thức ngữ pháp và hình thái có thể giúp cải thiện độ chính xác của pivot translation. Ví dụ, thông tin về từ loại (POS) và dạng gốc (lemma) có thể giúp chọn các cụm từ tương đương hơn về mặt cú pháp và ngữ nghĩa.
4.3. Phương pháp triangulation cải tiến để dịch ngôn ngữ hiếm
Cải tiến phương pháp triangulation bằng cách sử dụng semantic similarity để giải quyết vấn đề thiếu thông tin. Tích hợp kiến thức ngữ pháp và hình thái để cải thiện phương pháp triangulation thông thường.
V. Mô Hình Kết Hợp Nâng Cao Dịch Máy Ngôn Ngữ Thiếu Hụt 60 ký tự
Đề xuất một mô hình lai giúp cải thiện đáng kể MT trên ngôn ngữ thiếu tài nguyên bằng cách kết hợp hai chiến lược xây dựng bilingual corpora và khai thác bilingual corpora hiện có. Các thí nghiệm được thực hiện trên ba cặp ngôn ngữ khác nhau: tiếng Nhật-tiếng Việt, các ngôn ngữ Đông Nam Á và tiếng Thổ Nhĩ Kỳ-tiếng Anh để đánh giá phương pháp được đề xuất.
5.1. Kết hợp dữ liệu bổ sung để cải thiện SMT cho ngôn ngữ nghèo
Kết hợp các nguồn dữ liệu bổ sung như dữ liệu đơn ngữ, dữ liệu comparable và dữ liệu pivot có thể giúp cải thiện hiệu suất của dịch máy thống kê (SMT) cho ngôn ngữ nghèo tài nguyên. Các phương pháp kết hợp bao gồm sử dụng transfer learning và domain adaptation.
5.2. Ứng dụng mô hình kết hợp cho cặp ngôn ngữ Nhật Việt
Nghiên cứu của Trieu Long Hai (2017) đã áp dụng mô hình kết hợp cho cặp ngôn ngữ Nhật-Việt. Kết quả cho thấy mô hình kết hợp đã cải thiện đáng kể chất lượng dịch so với các mô hình SMT truyền thống. Mô hình này tận dụng cả dữ liệu song ngữ và dữ liệu đơn ngữ.
VI. Dịch Máy Thần Kinh Cho Ngôn Ngữ Thiếu Nghiên Cứu Tiềm Năng 60 ký tự
Một số điều tra thực nghiệm đã được thực hiện trên các cặp ngôn ngữ thiếu tài nguyên bằng cách sử dụng NMT để cung cấp một số cơ sở thực nghiệm hữu ích cho việc cải thiện hơn nữa phương pháp này trong tương lai cho ngôn ngữ thiếu tài nguyên.
6.1. So sánh NMT và SMT trên ngôn ngữ ít dữ liệu Ưu nhược điểm
So sánh NMT và SMT trong việc sử dụng Wikipedia corpus. So sánh giữa phrase-based và neural-based machine translation trên ngôn ngữ thiếu tài nguyên.
6.2. Thảo luận về Transfer Learning cho NMT ngôn ngữ hiếm
Thảo luận về việc sử dụng transfer learning cho neural machine translation (NMT) trên ngôn ngữ hiếm. Nghiên cứu về domain adaptation cho Low-Resource MT. Cross-lingual transfer learning và zero-shot translation.