Luận án tiến sĩ: Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2023

144
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU. MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Mục tiêu của luận án

1.3. Đóng góp của luận án

1.4. Cấu trúc của luận án

1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Tổng quan về dịch máy

1.1.1. Khái niệm dịch máy

1.1.2. Lịch sử dịch máy

1.1.3. Dịch máy thống kê

1.1.3.1. Dịch máy thống kê dựa vào từ
1.1.3.2. Dịch máy thống kê dựa vào cụm từ

1.1.4. Dịch máy mạng nơ-ron

1.1.4.1. Kiến trúc Encoder-Decoder
1.1.4.2. Kiến trúc Transformer

1.1.5. Những thách thức trong dịch máy

1.1.6. Đánh giá chất lượng mô hình dịch máy

1.1.6.1. Phương pháp đánh giá chủ quan
1.1.6.2. Phương pháp đánh giá khách quan

1.1.7. Thích ứng miền trong dịch máy

1.1.7.1. Thích ứng miền
1.1.7.2. Thích ứng miền trong dịch máy

1.1.8. Ứng dụng dịch tự động Google Translate

1.1.9. Các nghiên cứu liên quan

1.1.10. Các tập dữ liệu thử nghiệm

1.1.11. Kết luận

2. PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ

2.1. Bảng dịch cụm từ

2.2. Phân loại văn bản

2.3. Phương pháp tinh chỉnh bảng dịch cụm từ

2.4. Tập dữ liệu và cài đặt thực nghiệm

2.5. Tiền xử lý dữ liệu

2.6. Kết quả thực nghiệm

2.7. Kết luận

3. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

3.1. Kỹ thuật dịch ngược trong dịch máy

3.2. Phương pháp sinh tự động dữ liệu song ngữ

3.3. Tập dữ liệu và cài đặt thực nghiệm

3.4. Tiền xử lý dữ liệu

3.5. Kết quả thực nghiệm

3.6. Phân tích và thảo luận

3.7. Kết luận

4. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

4.1. Giới thiệu

4.2. Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ

4.3. Thực nghiệm

4.3.1. Tập dữ liệu và cài đặt thực nghiệm

4.3.2. Cài đặt thực nghiệm

4.3.3. Kết quả thực nghiệm

4.3.4. Kết luận

5. KẾT LUẬN

5.1. Tóm lược các kết quả và đóng góp của luận án

5.2. Hạn chế và hướng phát triển của luận án

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tính cấp thiết của luận án

Nghiên cứu về dịch máy đã trở thành một lĩnh vực quan trọng trong trí tuệ nhân tạo, đặc biệt là trong bối cảnh toàn cầu hóa ngày càng gia tăng. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được áp dụng, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng. SMT được biết đến với khả năng xử lý chính xác các văn bản có cấu trúc rõ ràng, trong khi NMT lại thể hiện được khả năng dịch tự nhiên và trôi chảy hơn. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề lớn khi đối diện với các miền ngữ nghĩa khác nhau, đặc biệt là trong trường hợp thiếu dữ liệu song ngữ. Điều này dẫn đến việc cần thiết phải nghiên cứu về kỹ thuật thích ứng miền để cải thiện chất lượng dịch máy cho các miền đặc thù, như y tế hay pháp luật. Các nghiên cứu trước đây chủ yếu tập trung vào các cặp ngôn ngữ phổ biến, trong khi cặp ngôn ngữ Anh-Việt vẫn còn thiếu sót đáng kể trong lĩnh vực này.

1.1. Vấn đề thiếu tài nguyên song ngữ

Tình trạng thiếu tài nguyên song ngữ cho cặp ngôn ngữ Anh-Việt đã được nhiều nghiên cứu chỉ ra. Các bộ dữ liệu hiện có thường chỉ tập trung vào miền chung, không đủ để phục vụ cho việc huấn luyện các mô hình dịch máy trong các miền chuyên biệt. Việc này không chỉ làm giảm chất lượng bản dịch mà còn gây khó khăn cho việc áp dụng các phương pháp thích ứng miền hiệu quả. Nghiên cứu này nhằm mục đích xây dựng và cải thiện các kỹ thuật để tối ưu hóa quy trình dịch máy cho cặp ngôn ngữ này, từ đó nâng cao chất lượng bản dịch trong các miền cụ thể.

II. Mục tiêu của luận án

Mục tiêu chính của luận án là nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đặc biệt, luận án sẽ tập trung vào việc cải thiện chất lượng bản dịch thông qua hai hướng tiếp cận: (1) Hướng mô hình, nơi mà các phương pháp cải tiến mô hình sẽ được phát triển nhằm tối ưu hóa khả năng dịch trong miền đích; (2) Hướng dữ liệu, trong đó các phương pháp tăng cường dữ liệu sẽ được áp dụng để bổ sung và cải thiện chất lượng dữ liệu huấn luyện. Sự kết hợp giữa hai hướng này sẽ giúp giải quyết các thách thức hiện tại trong dịch máy, đặc biệt là cho các miền đặc thù, từ đó nâng cao độ chính xác và sự tự nhiên của bản dịch.

2.1. Nghiên cứu và phát triển phương pháp

Luận án sẽ tiến hành thu thập và phân tích các tập dữ liệu song ngữ Anh-Việt, đồng thời nghiên cứu các phương pháp dịch máy hiện có để đề xuất các cải tiến phù hợp. Mục tiêu là xây dựng một hệ thống dịch máy có khả năng tự động điều chỉnh và cải thiện chất lượng dịch trong các miền cụ thể, từ đó giảm thiểu sự khác biệt giữa miền nguồn và miền đích. Các phương pháp này sẽ được thử nghiệm và đánh giá để xác định tính hiệu quả và khả năng áp dụng trong thực tế.

III. Đóng góp của luận án

Luận án này đã đóng góp ba phương pháp chính trong việc thích ứng miền cho dịch máy thống kê Anh-Việt. Thứ nhất, phương pháp tinh chỉnh bảng cụm từ nhằm cải thiện xác suất dịch cho các cụm từ trong miền đích. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ nhằm tăng cường kho ngữ liệu cho mô hình dịch máy, đặc biệt là trong các miền thiếu tài nguyên. Cuối cùng, phương pháp cải tiến chất lượng dữ liệu giả song ngữ sinh tự động, giúp giảm nhiễu trong quá trình dịch. Những đóng góp này không chỉ nâng cao chất lượng dịch máy mà còn mở ra hướng đi mới cho nghiên cứu trong lĩnh vực dịch máy, đặc biệt là cho các cặp ngôn ngữ ít tài nguyên.

3.1. Phương pháp tinh chỉnh bảng cụm từ

Đề xuất này tập trung vào việc phân loại miền cho các cụm từ trong bảng dịch, từ đó điều chỉnh xác suất dịch theo hướng ưu tiên cho miền đích. Kết quả từ phương pháp này đã cho thấy sự cải thiện đáng kể về chất lượng dịch, đặc biệt trong các văn bản thuộc miền chuyên biệt. Phương pháp này không chỉ giúp tối ưu hóa quy trình dịch mà còn có thể áp dụng cho các miền khác nhau, mở rộng khả năng ứng dụng của dịch máy thống kê.

11/01/2025
Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt

Bạn đang xem trước tài liệu:

Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt

Luận án tiến sĩ mang tựa đề "Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" của tác giả Phạm Nghĩa Luân, dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và TS. Phạm Việt Thắng, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2023. Bài nghiên cứu tập trung vào việc phát triển và cải tiến các kỹ thuật dịch máy, đặc biệt là trong ngữ cảnh dịch giữa tiếng Anh và tiếng Việt. Nó không chỉ giúp nâng cao chất lượng dịch thuật mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực công nghệ thông tin.

Độc giả có thể tìm hiểu thêm về các vấn đề liên quan đến công nghệ thông tin và quản lý giáo dục qua các tài liệu như "Năng lực ứng dụng công nghệ thông tin để dạy học lịch sử và địa lí trong đào tạo giáo viên tiểu học", nơi nghiên cứu ứng dụng công nghệ thông tin trong giảng dạy, hay "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin", cung cấp cái nhìn sâu sắc về quản lý và điều hành trong lĩnh vực công nghệ thông tin. Bên cạnh đó, "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" cũng là một tài liệu hữu ích cho những ai quan tâm đến các kỹ thuật trong xử lý ngôn ngữ tự nhiên. Những tài liệu này không chỉ mở rộng kiến thức mà còn giúp người đọc có cái nhìn toàn diện hơn về các ứng dụng công nghệ trong giáo dục và dịch thuật.