Luận Án Tiến Sĩ: Nghiên Cứu Kỹ Thuật Thích Ứng Miền Trong Dịch Máy Thống Kê Anh-Việt

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án

2023

0
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

1. MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Mục tiêu của luận án

1.3. Đóng góp của luận án

1.4. Cấu trúc của luận án

2. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

2.1. Tổng quan về dịch máy

2.1.1. Khái niệm dịch máy

2.1.2. Lịch sử dịch máy

2.2. Dịch máy thống kê

2.2.1. Dịch máy thống kê dựa vào từ

2.2.2. Dịch máy thống kê dựa vào cụm từ

2.3. Dịch máy mạng nơ-ron

2.3.1. Kiến trúc Encoder-Decoder

2.3.2. Kiến trúc Transformer

2.4. Những thách thức trong dịch máy

2.5. Đánh giá chất lượng mô hình dịch máy

2.5.1. Phương pháp đánh giá chủ quan

2.5.2. Phương pháp đánh giá khách quan

2.6. Thích ứng miền trong dịch máy

2.6.1. Thích ứng miền

2.6.2. Thích ứng miền trong dịch máy

2.7. Ứng dụng dịch tự động Google Translate

2.8. Các nghiên cứu liên quan

2.9. Các tập dữ liệu thử nghiệm

2.10. Kết luận

3. PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ

3.1. Phương pháp tinh chỉnh bảng dịch cụm từ

3.1.1. Bảng dịch cụm từ

3.1.2. Phân loại văn bản

3.1.3. Phương pháp tinh chỉnh bảng dịch cụm từ

3.2. Tập dữ liệu và cài đặt thực nghiệm

3.2.1. Tiền xử lý dữ liệu

3.2.2. Kết quả thực nghiệm

3.2.3. Kết luận

4. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

4.1. Kỹ thuật dịch ngược trong dịch máy

4.2. Phương pháp sinh tự động dữ liệu song ngữ

4.2.1. Tập dữ liệu và cài đặt thực nghiệm

4.2.2. Tiền xử lý dữ liệu

4.2.3. Kết quả thực nghiệm

4.2.4. Phân tích và thảo luận

4.2.5. Kết luận

5. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

5.1. Giới thiệu

5.2. Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ

5.3. Thực nghiệm

5.3.1. Tập dữ liệu và cài đặt thực nghiệm

5.3.2. Cài đặt thực nghiệm

5.3.3. Kết quả thực nghiệm

5.3.4. Kết luận

6. KẾT LUẬN

6.1. Tóm lược các kết quả và đóng góp của luận án

6.2. Hạn chế và hướng phát triển của luận án

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tính cấp thiết của luận án

Nghiên cứu về dịch máy đã thu hút sự quan tâm lớn từ cộng đồng khoa học, đặc biệt là trong bối cảnh phát triển nhanh chóng của công nghệ thông tin. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được sử dụng. SMT đã được chứng minh là hiệu quả trong nhiều lĩnh vực, nhưng NMT đang dần chiếm ưu thế nhờ khả năng dịch trôi chảy và sát nghĩa hơn. Tuy nhiên, cả hai phương pháp đều gặp phải thách thức lớn khi dữ liệu huấn luyện không đồng nhất với dữ liệu thực tế. Điều này dẫn đến nhu cầu cấp thiết về kỹ thuật thích ứng miền để cải thiện chất lượng dịch. Việc nghiên cứu và phát triển các phương pháp thích ứng miền cho cặp ngôn ngữ Anh-Việt là rất cần thiết, đặc biệt trong các lĩnh vực có tài nguyên ngôn ngữ hạn chế như y tế và pháp luật.

1.1. Mục tiêu của luận án

Luận án này nhằm mục đích nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Các mục tiêu cụ thể bao gồm việc cải thiện chất lượng dịch thông qua việc thu thập và xử lý dữ liệu, cũng như phát triển các mô hình dịch máy phù hợp với đặc thù ngôn ngữ và miền. Đặc biệt, luận án sẽ tập trung vào việc phát triển các phương pháp tinh chỉnh bảng cụm từsinh tự động dữ liệu song ngữ để tối ưu hóa quy trình dịch. Những đóng góp này không chỉ giúp nâng cao chất lượng dịch mà còn mở ra hướng nghiên cứu mới trong lĩnh vực dịch máy cho các ngôn ngữ ít tài nguyên.

II. Tổng quan về vấn đề nghiên cứu

Trong phần này, luận án sẽ trình bày tổng quan về dịch máy, bao gồm các khái niệm cơ bản, lịch sử phát triển và các phương pháp chính như dịch máy thống kêdịch máy mạng nơ-ron. SMT sử dụng các mô hình thống kê để dự đoán bản dịch dựa trên dữ liệu huấn luyện, trong khi NMT áp dụng các mạng nơ-ron để cải thiện độ chính xác và tính tự nhiên của bản dịch. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề khi dữ liệu huấn luyện không đủ hoặc không phù hợp với miền cụ thể. Do đó, thích ứng miền trở thành một vấn đề quan trọng trong nghiên cứu dịch máy, nhằm giảm thiểu sự khác biệt giữa miền nguồn và miền đích.

2.1. Thách thức trong dịch máy

Một trong những thách thức lớn nhất trong dịch máy là việc thiếu dữ liệu song ngữ chất lượng cao cho các miền đặc thù. Các nghiên cứu trước đây đã chỉ ra rằng, khi dữ liệu huấn luyện không đủ phong phú, chất lượng bản dịch sẽ bị ảnh hưởng nghiêm trọng. Điều này đặc biệt đúng với cặp ngôn ngữ Anh-Việt, nơi mà tài nguyên ngôn ngữ còn hạn chế. Việc phát triển các phương pháp thích ứng miền có thể giúp cải thiện chất lượng dịch bằng cách tối ưu hóa dữ liệu huấn luyện và điều chỉnh mô hình dịch cho phù hợp với đặc thù của miền cụ thể.

III. Đóng góp của luận án

Luận án đã đạt được ba đóng góp chính trong nghiên cứu về thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đầu tiên, phương pháp tinh chỉnh bảng cụm từ đã được đề xuất, cho phép điều chỉnh xác suất dịch của các cụm từ theo miền đích, từ đó nâng cao chất lượng bản dịch. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ đã được phát triển, giúp tăng cường dữ liệu huấn luyện cho mô hình dịch máy. Cuối cùng, luận án cũng đề xuất các phương pháp cải tiến chất lượng dữ liệu giả song ngữ, nhằm giảm thiểu nhiễu và cải thiện độ chính xác của bản dịch. Những đóng góp này không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc phát triển các hệ thống dịch máy cho ngôn ngữ ít tài nguyên.

3.1. Phương pháp tinh chỉnh bảng cụm từ

Phương pháp này tập trung vào việc phân loại các cụm từ trong bảng dịch và điều chỉnh xác suất dịch của chúng theo hướng ưu tiên hơn trong miền đích. Kết quả thực nghiệm cho thấy rằng việc áp dụng phương pháp này đã cải thiện đáng kể chất lượng bản dịch, đặc biệt trong các miền có đặc thù ngôn ngữ riêng. Điều này chứng tỏ rằng việc tối ưu hóa mô hình dịch theo miền có thể mang lại những cải tiến rõ rệt trong chất lượng dịch máy.

07/02/2025
Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anhviệt

Bạn đang xem trước tài liệu:

Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anhviệt

Bài viết "Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" cung cấp cái nhìn sâu sắc về các phương pháp và kỹ thuật trong việc dịch máy giữa tiếng Anh và tiếng Việt. Tác giả phân tích các thách thức và giải pháp trong việc cải thiện độ chính xác của các hệ thống dịch máy, đặc biệt là trong bối cảnh ngôn ngữ và văn hóa khác nhau. Độc giả sẽ nhận được những thông tin hữu ích về cách thức mà công nghệ có thể hỗ trợ trong việc vượt qua rào cản ngôn ngữ, từ đó nâng cao hiệu quả giao tiếp và hiểu biết lẫn nhau.

Nếu bạn muốn mở rộng kiến thức về ngôn ngữ học và các khía cạnh liên quan, hãy tham khảo thêm bài viết Luận văn thạc sĩ ngôn ngữ học về tham tố đứng sau vị từ trạng thái tiếng việt, nơi bạn có thể tìm hiểu về cấu trúc ngữ pháp và ngữ nghĩa trong tiếng Việt. Ngoài ra, bài viết Luận văn thạc sĩ ngôn ngữ học hành động nhờ trong tiếng việt sẽ giúp bạn khám phá thêm về các hành động ngôn ngữ trong tiếng Việt. Cuối cùng, bài viết Luận văn thạc sĩ ngông ngữ anh a comparative study on complimenting in english and vietnamese conversations sẽ mang đến cho bạn cái nhìn so sánh về cách khen trong hội thoại giữa hai ngôn ngữ này. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về ngôn ngữ học.