I. Tính cấp thiết của luận án
Nghiên cứu về dịch máy đã trở thành một lĩnh vực quan trọng trong trí tuệ nhân tạo, đặc biệt là trong bối cảnh toàn cầu hóa ngày càng gia tăng. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được áp dụng, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng. SMT được biết đến với khả năng xử lý chính xác các văn bản có cấu trúc rõ ràng, trong khi NMT lại thể hiện được khả năng dịch tự nhiên và trôi chảy hơn. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề lớn khi đối diện với các miền ngữ nghĩa khác nhau, đặc biệt là trong trường hợp thiếu dữ liệu song ngữ. Điều này dẫn đến việc cần thiết phải nghiên cứu về kỹ thuật thích ứng miền để cải thiện chất lượng dịch máy cho các miền đặc thù, như y tế hay pháp luật. Các nghiên cứu trước đây chủ yếu tập trung vào các cặp ngôn ngữ phổ biến, trong khi cặp ngôn ngữ Anh-Việt vẫn còn thiếu sót đáng kể trong lĩnh vực này.
1.1. Vấn đề thiếu tài nguyên song ngữ
Tình trạng thiếu tài nguyên song ngữ cho cặp ngôn ngữ Anh-Việt đã được nhiều nghiên cứu chỉ ra. Các bộ dữ liệu hiện có thường chỉ tập trung vào miền chung, không đủ để phục vụ cho việc huấn luyện các mô hình dịch máy trong các miền chuyên biệt. Việc này không chỉ làm giảm chất lượng bản dịch mà còn gây khó khăn cho việc áp dụng các phương pháp thích ứng miền hiệu quả. Nghiên cứu này nhằm mục đích xây dựng và cải thiện các kỹ thuật để tối ưu hóa quy trình dịch máy cho cặp ngôn ngữ này, từ đó nâng cao chất lượng bản dịch trong các miền cụ thể.
II. Mục tiêu của luận án
Mục tiêu chính của luận án là nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đặc biệt, luận án sẽ tập trung vào việc cải thiện chất lượng bản dịch thông qua hai hướng tiếp cận: (1) Hướng mô hình, nơi mà các phương pháp cải tiến mô hình sẽ được phát triển nhằm tối ưu hóa khả năng dịch trong miền đích; (2) Hướng dữ liệu, trong đó các phương pháp tăng cường dữ liệu sẽ được áp dụng để bổ sung và cải thiện chất lượng dữ liệu huấn luyện. Sự kết hợp giữa hai hướng này sẽ giúp giải quyết các thách thức hiện tại trong dịch máy, đặc biệt là cho các miền đặc thù, từ đó nâng cao độ chính xác và sự tự nhiên của bản dịch.
2.1. Nghiên cứu và phát triển phương pháp
Luận án sẽ tiến hành thu thập và phân tích các tập dữ liệu song ngữ Anh-Việt, đồng thời nghiên cứu các phương pháp dịch máy hiện có để đề xuất các cải tiến phù hợp. Mục tiêu là xây dựng một hệ thống dịch máy có khả năng tự động điều chỉnh và cải thiện chất lượng dịch trong các miền cụ thể, từ đó giảm thiểu sự khác biệt giữa miền nguồn và miền đích. Các phương pháp này sẽ được thử nghiệm và đánh giá để xác định tính hiệu quả và khả năng áp dụng trong thực tế.
III. Đóng góp của luận án
Luận án này đã đóng góp ba phương pháp chính trong việc thích ứng miền cho dịch máy thống kê Anh-Việt. Thứ nhất, phương pháp tinh chỉnh bảng cụm từ nhằm cải thiện xác suất dịch cho các cụm từ trong miền đích. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ nhằm tăng cường kho ngữ liệu cho mô hình dịch máy, đặc biệt là trong các miền thiếu tài nguyên. Cuối cùng, phương pháp cải tiến chất lượng dữ liệu giả song ngữ sinh tự động, giúp giảm nhiễu trong quá trình dịch. Những đóng góp này không chỉ nâng cao chất lượng dịch máy mà còn mở ra hướng đi mới cho nghiên cứu trong lĩnh vực dịch máy, đặc biệt là cho các cặp ngôn ngữ ít tài nguyên.
3.1. Phương pháp tinh chỉnh bảng cụm từ
Đề xuất này tập trung vào việc phân loại miền cho các cụm từ trong bảng dịch, từ đó điều chỉnh xác suất dịch theo hướng ưu tiên cho miền đích. Kết quả từ phương pháp này đã cho thấy sự cải thiện đáng kể về chất lượng dịch, đặc biệt trong các văn bản thuộc miền chuyên biệt. Phương pháp này không chỉ giúp tối ưu hóa quy trình dịch mà còn có thể áp dụng cho các miền khác nhau, mở rộng khả năng ứng dụng của dịch máy thống kê.