Nghiên Cứu Kỹ Thuật Thích Ứng Miền Trong Dịch Máy Thống Kê Anh-Việt

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

1. MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Mục tiêu của luận án

1.3. Đóng góp của luận án

1.4. Cấu trúc của luận án

2. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

2.1. Tổng quan về dịch máy

2.1.1. Khái niệm dịch máy

2.1.2. Lịch sử dịch máy

2.2. Dịch máy thống kê

2.2.1. Dịch máy thống kê dựa vào từ

2.2.2. Dịch máy thống kê dựa vào cụm từ

2.3. Dịch máy mạng nơ-ron

2.3.1. Kiến trúc Encoder-Decoder

2.3.2. Kiến trúc Transformer

2.4. Những thách thức trong dịch máy

2.5. Đánh giá chất lượng mô hình dịch máy

2.5.1. Phương pháp đánh giá chủ quan

2.5.2. Phương pháp đánh giá khách quan

2.6. Thích ứng miền trong dịch máy

2.6.1. Thích ứng miền

2.6.2. Thích ứng miền trong dịch máy

2.7. Ứng dụng dịch tự động Google Translate

2.8. Các nghiên cứu liên quan

2.9. Các tập dữ liệu thử nghiệm

2.10. Kết luận

3. PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ

3.1. Phương pháp tinh chỉnh bảng dịch cụm từ

3.1.1. Bảng dịch cụm từ

3.1.2. Phân loại văn bản

3.1.3. Phương pháp tinh chỉnh bảng dịch cụm từ

3.2. Tập dữ liệu và cài đặt thực nghiệm

3.2.1. Tiền xử lý dữ liệu

3.2.2. Kết quả thực nghiệm

3.2.3. Kết luận

4. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

4.1. Kỹ thuật dịch ngược trong dịch máy

4.2. Phương pháp sinh tự động dữ liệu song ngữ

4.2.1. Tập dữ liệu và cài đặt thực nghiệm

4.2.2. Tiền xử lý dữ liệu

4.2.3. Kết quả thực nghiệm

4.2.4. Phân tích và thảo luận

4.2.5. Kết luận

5. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

5.1. Giới thiệu

5.2. Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ

5.3. Thực nghiệm

5.3.1. Tập dữ liệu và cài đặt thực nghiệm

5.3.2. Cài đặt thực nghiệm

5.3.3. Kết quả thực nghiệm

5.3.4. Kết luận

6. KẾT LUẬN

6.1. Tóm lược các kết quả và đóng góp của luận án

6.2. Hạn chế và hướng phát triển của luận án

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Tính cấp thiết của luận án

Nghiên cứu về dịch máy đã thu hút sự quan tâm lớn từ cộng đồng khoa học, đặc biệt là trong bối cảnh phát triển nhanh chóng của công nghệ thông tin. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được sử dụng. SMT đã được chứng minh là hiệu quả trong nhiều lĩnh vực, nhưng NMT đang dần chiếm ưu thế nhờ khả năng dịch trôi chảy và sát nghĩa hơn. Tuy nhiên, cả hai phương pháp đều gặp phải thách thức lớn khi dữ liệu huấn luyện không đồng nhất với dữ liệu thực tế. Điều này dẫn đến nhu cầu cấp thiết về kỹ thuật thích ứng miền để cải thiện chất lượng dịch. Việc nghiên cứu và phát triển các phương pháp thích ứng miền cho cặp ngôn ngữ Anh-Việt là rất cần thiết, đặc biệt trong các lĩnh vực có tài nguyên ngôn ngữ hạn chế như y tế và pháp luật.

1.1. Mục tiêu của luận án

Luận án này nhằm mục đích nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Các mục tiêu cụ thể bao gồm việc cải thiện chất lượng dịch thông qua việc thu thập và xử lý dữ liệu, cũng như phát triển các mô hình dịch máy phù hợp với đặc thù ngôn ngữ và miền. Đặc biệt, luận án sẽ tập trung vào việc phát triển các phương pháp tinh chỉnh bảng cụm từ và sinh tự động dữ liệu song ngữ để tối ưu hóa quy trình dịch. Những đóng góp này không chỉ giúp nâng cao chất lượng dịch mà còn mở ra hướng nghiên cứu mới trong lĩnh vực dịch máy cho các ngôn ngữ ít tài nguyên.

II. Tổng quan về vấn đề nghiên cứu

Trong phần này, luận án sẽ trình bày tổng quan về dịch máy, bao gồm các khái niệm cơ bản, lịch sử phát triển và các phương pháp chính như dịch máy thống kê và dịch máy mạng nơ-ron. SMT sử dụng các mô hình thống kê để dự đoán bản dịch dựa trên dữ liệu huấn luyện, trong khi NMT áp dụng các mạng nơ-ron để cải thiện độ chính xác và tính tự nhiên của bản dịch. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề khi dữ liệu huấn luyện không đủ hoặc không phù hợp với miền cụ thể. Do đó, thích ứng miền trở thành một vấn đề quan trọng trong nghiên cứu dịch máy, nhằm giảm thiểu sự khác biệt giữa miền nguồn và miền đích.

2.1. Thách thức trong dịch máy

Một trong những thách thức lớn nhất trong dịch máy là việc thiếu dữ liệu song ngữ chất lượng cao cho các miền đặc thù. Các nghiên cứu trước đây đã chỉ ra rằng, khi dữ liệu huấn luyện không đủ phong phú, chất lượng bản dịch sẽ bị ảnh hưởng nghiêm trọng. Điều này đặc biệt đúng với cặp ngôn ngữ Anh-Việt, nơi mà tài nguyên ngôn ngữ còn hạn chế. Việc phát triển các phương pháp thích ứng miền có thể giúp cải thiện chất lượng dịch bằng cách tối ưu hóa dữ liệu huấn luyện và điều chỉnh mô hình dịch cho phù hợp với đặc thù của miền cụ thể.

III. Đóng góp của luận án

Luận án đã đạt được ba đóng góp chính trong nghiên cứu về thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đầu tiên, phương pháp tinh chỉnh bảng cụm từ đã được đề xuất, cho phép điều chỉnh xác suất dịch của các cụm từ theo miền đích, từ đó nâng cao chất lượng bản dịch. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ đã được phát triển, giúp tăng cường dữ liệu huấn luyện cho mô hình dịch máy. Cuối cùng, luận án cũng đề xuất các phương pháp cải tiến chất lượng dữ liệu giả song ngữ, nhằm giảm thiểu nhiễu và cải thiện độ chính xác của bản dịch. Những đóng góp này không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc phát triển các hệ thống dịch máy cho ngôn ngữ ít tài nguyên.

3.1. Phương pháp tinh chỉnh bảng cụm từ

Phương pháp này tập trung vào việc phân loại các cụm từ trong bảng dịch và điều chỉnh xác suất dịch của chúng theo hướng ưu tiên hơn trong miền đích. Kết quả thực nghiệm cho thấy rằng việc áp dụng phương pháp này đã cải thiện đáng kể chất lượng bản dịch, đặc biệt trong các miền có đặc thù ngôn ngữ riêng. Điều này chứng tỏ rằng việc tối ưu hóa mô hình dịch theo miền có thể mang lại những cải tiến rõ rệt trong chất lượng dịch máy.

Luận Án Tiến Sĩ: Nghiên Cứu Kỹ Thuật Thích Ứng Miền Trong Dịch Máy Thống Kê Anh-Việt