I. Tính cấp thiết của luận án
Nghiên cứu về dịch máy đã thu hút sự quan tâm lớn từ cộng đồng khoa học, đặc biệt là trong bối cảnh phát triển nhanh chóng của công nghệ thông tin. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được sử dụng. SMT đã được chứng minh là hiệu quả trong nhiều lĩnh vực, nhưng NMT đang dần chiếm ưu thế nhờ khả năng dịch trôi chảy và sát nghĩa hơn. Tuy nhiên, cả hai phương pháp đều gặp phải thách thức lớn khi dữ liệu huấn luyện không đồng nhất với dữ liệu thực tế. Điều này dẫn đến nhu cầu cấp thiết về kỹ thuật thích ứng miền để cải thiện chất lượng dịch. Việc nghiên cứu và phát triển các phương pháp thích ứng miền cho cặp ngôn ngữ Anh-Việt là rất cần thiết, đặc biệt trong các lĩnh vực có tài nguyên ngôn ngữ hạn chế như y tế và pháp luật.
1.1. Mục tiêu của luận án
Luận án này nhằm mục đích nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Các mục tiêu cụ thể bao gồm việc cải thiện chất lượng dịch thông qua việc thu thập và xử lý dữ liệu, cũng như phát triển các mô hình dịch máy phù hợp với đặc thù ngôn ngữ và miền. Đặc biệt, luận án sẽ tập trung vào việc phát triển các phương pháp tinh chỉnh bảng cụm từ và sinh tự động dữ liệu song ngữ để tối ưu hóa quy trình dịch. Những đóng góp này không chỉ giúp nâng cao chất lượng dịch mà còn mở ra hướng nghiên cứu mới trong lĩnh vực dịch máy cho các ngôn ngữ ít tài nguyên.
II. Tổng quan về vấn đề nghiên cứu
Trong phần này, luận án sẽ trình bày tổng quan về dịch máy, bao gồm các khái niệm cơ bản, lịch sử phát triển và các phương pháp chính như dịch máy thống kê và dịch máy mạng nơ-ron. SMT sử dụng các mô hình thống kê để dự đoán bản dịch dựa trên dữ liệu huấn luyện, trong khi NMT áp dụng các mạng nơ-ron để cải thiện độ chính xác và tính tự nhiên của bản dịch. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề khi dữ liệu huấn luyện không đủ hoặc không phù hợp với miền cụ thể. Do đó, thích ứng miền trở thành một vấn đề quan trọng trong nghiên cứu dịch máy, nhằm giảm thiểu sự khác biệt giữa miền nguồn và miền đích.
2.1. Thách thức trong dịch máy
Một trong những thách thức lớn nhất trong dịch máy là việc thiếu dữ liệu song ngữ chất lượng cao cho các miền đặc thù. Các nghiên cứu trước đây đã chỉ ra rằng, khi dữ liệu huấn luyện không đủ phong phú, chất lượng bản dịch sẽ bị ảnh hưởng nghiêm trọng. Điều này đặc biệt đúng với cặp ngôn ngữ Anh-Việt, nơi mà tài nguyên ngôn ngữ còn hạn chế. Việc phát triển các phương pháp thích ứng miền có thể giúp cải thiện chất lượng dịch bằng cách tối ưu hóa dữ liệu huấn luyện và điều chỉnh mô hình dịch cho phù hợp với đặc thù của miền cụ thể.
III. Đóng góp của luận án
Luận án đã đạt được ba đóng góp chính trong nghiên cứu về thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đầu tiên, phương pháp tinh chỉnh bảng cụm từ đã được đề xuất, cho phép điều chỉnh xác suất dịch của các cụm từ theo miền đích, từ đó nâng cao chất lượng bản dịch. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ đã được phát triển, giúp tăng cường dữ liệu huấn luyện cho mô hình dịch máy. Cuối cùng, luận án cũng đề xuất các phương pháp cải tiến chất lượng dữ liệu giả song ngữ, nhằm giảm thiểu nhiễu và cải thiện độ chính xác của bản dịch. Những đóng góp này không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc phát triển các hệ thống dịch máy cho ngôn ngữ ít tài nguyên.
3.1. Phương pháp tinh chỉnh bảng cụm từ
Phương pháp này tập trung vào việc phân loại các cụm từ trong bảng dịch và điều chỉnh xác suất dịch của chúng theo hướng ưu tiên hơn trong miền đích. Kết quả thực nghiệm cho thấy rằng việc áp dụng phương pháp này đã cải thiện đáng kể chất lượng bản dịch, đặc biệt trong các miền có đặc thù ngôn ngữ riêng. Điều này chứng tỏ rằng việc tối ưu hóa mô hình dịch theo miền có thể mang lại những cải tiến rõ rệt trong chất lượng dịch máy.