I. Kỹ thuật dịch máy thống kê và tài nguyên hạn chế
Kỹ thuật dịch máy thống kê là một phương pháp quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt khi áp dụng cho cặp ngôn ngữ tiếng Việt - tiếng Anh. Với tài nguyên hạn chế, việc phát triển các hệ thống dịch máy hiệu quả đòi hỏi sự tối ưu hóa các mô hình ngôn ngữ và thuật toán dịch. Luận án tập trung vào việc cải thiện chất lượng dịch thông qua việc tăng cường dữ liệu huấn luyện và cải tiến các kỹ thuật gióng hàng từ. Các phương pháp như dịch ngược và chia nhỏ từ được đề xuất để giải quyết các thách thức trong việc xử lý ngôn ngữ có tài nguyên hạn chế.
1.1. Tăng cường dữ liệu huấn luyện
Tăng cường dữ liệu huấn luyện là một trong những phương pháp chính để cải thiện chất lượng của hệ thống dịch máy thống kê. Luận án đề xuất sử dụng kỹ thuật dịch ngược (Back-Translation) để tạo ra dữ liệu giả lập từ các nguồn đơn ngữ. Phương pháp này giúp bổ sung thêm dữ liệu song ngữ, đặc biệt hữu ích khi tài nguyên song ngữ hạn chế. Các độ đo thích nghi được áp dụng để lựa chọn dữ liệu giả lập phù hợp, đảm bảo chất lượng của dữ liệu tăng cường. Kết quả thử nghiệm cho thấy việc lựa chọn dữ liệu thích nghi giúp cải thiện đáng kể hiệu suất của hệ thống dịch.
1.2. Ứng dụng dịch ngược với ngôn ngữ trung gian
Luận án đề xuất sử dụng ngôn ngữ trung gian như tiếng Đức trong quá trình dịch ngược để tăng cường dữ liệu huấn luyện. Phương pháp này giúp tận dụng các mô hình dịch chất lượng cao sẵn có cho các cặp ngôn ngữ khác. Kết quả thử nghiệm cho thấy việc sử dụng ngôn ngữ trung gian giúp tạo ra dữ liệu giả lập chất lượng cao, góp phần cải thiện hiệu suất của hệ thống dịch máy cho cặp ngôn ngữ tiếng Việt - tiếng Anh.
II. Cải tiến mô hình gióng hàng từ
Gióng hàng từ là một bước quan trọng trong quá trình dịch máy, đặc biệt khi xử lý các cặp ngôn ngữ có cấu trúc khác biệt như tiếng Việt - tiếng Anh. Luận án đề xuất các kỹ thuật chia nhỏ từ để cải thiện chất lượng gióng hàng. Các phương pháp như BPE (Byte Pair Encoding) và Unigram Language Model được áp dụng để chia nhỏ từ tiếng Anh, giúp tăng tần suất xuất hiện của các từ hiếm và cải thiện độ chính xác của quá trình gióng hàng.
2.1. Chia nhỏ từ với thuật toán BPE
Thuật toán BPE được sử dụng để chia nhỏ từ tiếng Anh thành các đơn vị nhỏ hơn, giúp tăng tần suất xuất hiện của các từ hiếm trong dữ liệu huấn luyện. Phương pháp này giúp cải thiện chất lượng của bảng gióng hàng từ, đặc biệt khi xử lý các từ không xuất hiện thường xuyên trong ngữ liệu. Kết quả thử nghiệm cho thấy việc áp dụng BPE giúp cải thiện đáng kể hiệu suất của hệ thống dịch máy.
2.2. Cải tiến bảng gióng hàng từ
Luận án đề xuất cải tiến bảng gióng hàng từ bằng cách sử dụng thuật toán chuẩn hóa bảng gióng hàng A*. Phương pháp này giúp tối ưu hóa quá trình gióng hàng từ, đặc biệt khi kết hợp với các kỹ thuật chia nhỏ từ. Kết quả thử nghiệm cho thấy việc cải tiến bảng gióng hàng từ giúp nâng cao độ chính xác của quá trình dịch máy, đặc biệt khi xử lý các cặp câu phức tạp.
III. Kết hợp dịch ngược và chia nhỏ từ
Luận án đề xuất kết hợp hai phương pháp dịch ngược và chia nhỏ từ để tối ưu hóa hiệu suất của hệ thống dịch máy. Phương pháp này giúp tận dụng ưu điểm của cả hai kỹ thuật, từ đó cải thiện chất lượng dịch máy cho cặp ngôn ngữ tiếng Việt - tiếng Anh. Kết quả thử nghiệm cho thấy việc kết hợp hai phương pháp này giúp nâng cao đáng kể hiệu suất của hệ thống dịch máy, đặc biệt khi xử lý các cặp câu phức tạp và các từ hiếm.
3.1. Thử nghiệm kết hợp
Luận án thực hiện thử nghiệm kết hợp dịch ngược và chia nhỏ từ trên bộ dữ liệu IWSLT2015. Kết quả cho thấy việc kết hợp hai phương pháp này giúp cải thiện đáng kể hiệu suất của hệ thống dịch máy, đặc biệt khi xử lý các cặp câu phức tạp và các từ hiếm. Phương pháp này cũng giúp tối ưu hóa quá trình huấn luyện và nâng cao độ chính xác của quá trình dịch máy.
3.2. Đánh giá hiệu quả
Luận án sử dụng độ đo BLEU để đánh giá hiệu quả của phương pháp kết hợp. Kết quả cho thấy việc kết hợp dịch ngược và chia nhỏ từ giúp nâng cao đáng kể điểm BLEU, chứng tỏ hiệu quả của phương pháp này trong việc cải thiện chất lượng dịch máy cho cặp ngôn ngữ tiếng Việt - tiếng Anh.