Luận án tiến sĩ: Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt

Luận án tiến sĩ kỹ thuật phân tích công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt, xây dựng cơ sở lý luận, kiểm chứng thực nghiệm,

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2023

144

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU. MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Mục tiêu của luận án

1.3. Đóng góp của luận án

1.4. Cấu trúc của luận án

1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Tổng quan về dịch máy

1.1.1. Khái niệm dịch máy

1.1.2. Lịch sử dịch máy

1.1.3. Dịch máy thống kê

1.1.3.1. Dịch máy thống kê dựa vào từ

1.1.3.2. Dịch máy thống kê dựa vào cụm từ

1.1.4. Dịch máy mạng nơ-ron

1.1.4.1. Kiến trúc Encoder-Decoder

1.1.4.2. Kiến trúc Transformer

1.1.5. Những thách thức trong dịch máy

1.1.6. Đánh giá chất lượng mô hình dịch máy

1.1.6.1. Phương pháp đánh giá chủ quan

1.1.6.2. Phương pháp đánh giá khách quan

1.1.7. Thích ứng miền trong dịch máy

1.1.7.1. Thích ứng miền

1.1.7.2. Thích ứng miền trong dịch máy

1.1.8. Ứng dụng dịch tự động Google Translate

1.1.9. Các nghiên cứu liên quan

1.1.10. Các tập dữ liệu thử nghiệm

1.1.11. Kết luận

2. PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ

2.1. Bảng dịch cụm từ

2.2. Phân loại văn bản

2.3. Phương pháp tinh chỉnh bảng dịch cụm từ

2.4. Tập dữ liệu và cài đặt thực nghiệm

2.5. Tiền xử lý dữ liệu

2.6. Kết quả thực nghiệm

2.7. Kết luận

3. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

3.1. Kỹ thuật dịch ngược trong dịch máy

3.2. Phương pháp sinh tự động dữ liệu song ngữ

3.3. Tập dữ liệu và cài đặt thực nghiệm

3.4. Tiền xử lý dữ liệu

3.5. Kết quả thực nghiệm

3.6. Phân tích và thảo luận

3.7. Kết luận

4. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

4.1. Giới thiệu

4.2. Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ

4.3. Thực nghiệm

4.3.1. Tập dữ liệu và cài đặt thực nghiệm

4.3.2. Cài đặt thực nghiệm

4.3.3. Kết quả thực nghiệm

4.3.4. Kết luận

5. KẾT LUẬN

5.1. Tóm lược các kết quả và đóng góp của luận án

5.2. Hạn chế và hướng phát triển của luận án

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tính cấp thiết của luận án

Nghiên cứu về dịch máy đã trở thành một lĩnh vực quan trọng trong trí tuệ nhân tạo, đặc biệt là trong bối cảnh toàn cầu hóa ngày càng gia tăng. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được áp dụng, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng. SMT được biết đến với khả năng xử lý chính xác các văn bản có cấu trúc rõ ràng, trong khi NMT lại thể hiện được khả năng dịch tự nhiên và trôi chảy hơn. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề lớn khi đối diện với các miền ngữ nghĩa khác nhau, đặc biệt là trong trường hợp thiếu dữ liệu song ngữ. Điều này dẫn đến việc cần thiết phải nghiên cứu về kỹ thuật thích ứng miền để cải thiện chất lượng dịch máy cho các miền đặc thù, như y tế hay pháp luật. Các nghiên cứu trước đây chủ yếu tập trung vào các cặp ngôn ngữ phổ biến, trong khi cặp ngôn ngữ Anh-Việt vẫn còn thiếu sót đáng kể trong lĩnh vực này.

1.1. Vấn đề thiếu tài nguyên song ngữ

Tình trạng thiếu tài nguyên song ngữ cho cặp ngôn ngữ Anh-Việt đã được nhiều nghiên cứu chỉ ra. Các bộ dữ liệu hiện có thường chỉ tập trung vào miền chung, không đủ để phục vụ cho việc huấn luyện các mô hình dịch máy trong các miền chuyên biệt. Việc này không chỉ làm giảm chất lượng bản dịch mà còn gây khó khăn cho việc áp dụng các phương pháp thích ứng miền hiệu quả. Nghiên cứu này nhằm mục đích xây dựng và cải thiện các kỹ thuật để tối ưu hóa quy trình dịch máy cho cặp ngôn ngữ này, từ đó nâng cao chất lượng bản dịch trong các miền cụ thể.

II. Mục tiêu của luận án

Mục tiêu chính của luận án là nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đặc biệt, luận án sẽ tập trung vào việc cải thiện chất lượng bản dịch thông qua hai hướng tiếp cận: (1) Hướng mô hình, nơi mà các phương pháp cải tiến mô hình sẽ được phát triển nhằm tối ưu hóa khả năng dịch trong miền đích; (2) Hướng dữ liệu, trong đó các phương pháp tăng cường dữ liệu sẽ được áp dụng để bổ sung và cải thiện chất lượng dữ liệu huấn luyện. Sự kết hợp giữa hai hướng này sẽ giúp giải quyết các thách thức hiện tại trong dịch máy, đặc biệt là cho các miền đặc thù, từ đó nâng cao độ chính xác và sự tự nhiên của bản dịch.

2.1. Nghiên cứu và phát triển phương pháp

Luận án sẽ tiến hành thu thập và phân tích các tập dữ liệu song ngữ Anh-Việt, đồng thời nghiên cứu các phương pháp dịch máy hiện có để đề xuất các cải tiến phù hợp. Mục tiêu là xây dựng một hệ thống dịch máy có khả năng tự động điều chỉnh và cải thiện chất lượng dịch trong các miền cụ thể, từ đó giảm thiểu sự khác biệt giữa miền nguồn và miền đích. Các phương pháp này sẽ được thử nghiệm và đánh giá để xác định tính hiệu quả và khả năng áp dụng trong thực tế.

III. Đóng góp của luận án

Luận án này đã đóng góp ba phương pháp chính trong việc thích ứng miền cho dịch máy thống kê Anh-Việt. Thứ nhất, phương pháp tinh chỉnh bảng cụm từ nhằm cải thiện xác suất dịch cho các cụm từ trong miền đích. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ nhằm tăng cường kho ngữ liệu cho mô hình dịch máy, đặc biệt là trong các miền thiếu tài nguyên. Cuối cùng, phương pháp cải tiến chất lượng dữ liệu giả song ngữ sinh tự động, giúp giảm nhiễu trong quá trình dịch. Những đóng góp này không chỉ nâng cao chất lượng dịch máy mà còn mở ra hướng đi mới cho nghiên cứu trong lĩnh vực dịch máy, đặc biệt là cho các cặp ngôn ngữ ít tài nguyên.

3.1. Phương pháp tinh chỉnh bảng cụm từ

Đề xuất này tập trung vào việc phân loại miền cho các cụm từ trong bảng dịch, từ đó điều chỉnh xác suất dịch theo hướng ưu tiên cho miền đích. Kết quả từ phương pháp này đã cho thấy sự cải thiện đáng kể về chất lượng dịch, đặc biệt trong các văn bản thuộc miền chuyên biệt. Phương pháp này không chỉ giúp tối ưu hóa quy trình dịch mà còn có thể áp dụng cho các miền khác nhau, mở rộng khả năng ứng dụng của dịch máy thống kê.

11/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Tổng quan vé van đề nghiên cứu 11 1.2 được tác giả Bernard Vauquois [124] trình bày, mô tả các phương pháp dịch máy. phân tích sinh Chuyển đổi —— Dịch trực tiếp nguồn Hình 1.2 : Tam giác Vauquois mô tả các phương pháp dịch Hình 1.2 mô tả quá trình dịch văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích theo ba phương pháp khác nhau: 1. Phương pháp dịch trực tiếp, hệ thống sẽ dịch bằng cách thay thế đơn giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằng những từ hoặc cụm từ tương ứng trong ngôn ngữ đích.

Phương pháp dịch chuyển đổi, hệ thống thực hiện theo ba bước, đầu tiên là chuyển đổi văn bản ở ngôn ngữ nguồn thành một dạng biểu diễn trung gian (thường là cây phân tích cú pháp), sau đó thực hiện chuyển các biểu diễn trung gian này thành dạng văn bản tương ứng trong ngôn ngữ đích, cuối cùng là sinh ra văn bản ở ngôn ngữ đích. Phương pháp dịch liên ngữ, hệ thống thực hiện chuyển đổi văn bản từ ngôn ngữ nguồn sang văn ban 6 ngôn ngữ trung gian trước Chương 1. Tổng quan vé van đề nghiên cứu 12 khi thực hiện chuyển văn bản từ ngôn ngữ trung gian thành văn bản ở ngôn ngữ đích. Đầu năm 1990, một bước ngoặt lớn là có sự quan tâm nhiều hơn của nhiều nhà nghiên cứu trong dịch máy dựa vào dit liệu.

Với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng no cùng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của máy tính tăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc phát triển các mô hình dịch tự động trở nên rất cần thiết. Dịch dựa trên ví dụ là một trong những phương pháp tiếp cận sớm được đưa ra trong dịch máy theo hướng dữ liệu [107]. Nó cỗ gắng tim một câu tương tự với đầu vào đã cho trong ví dụ được dịch trước đó. Sau đó, tạo ra những thay đổi thích hợp cho bản dịch được lựa chọn.

Phương pháp này nhanh hơn dựa trên luật nhưng không đảm bảo bản dịch tốt hơn. Do sự gia tăng sức mạnh tính toán và khả năng tiếp cận các dữ liệu lớn, phương pháp thống kê đã được đề xuất để thực hiện phân tích sâu hơn so với các phương pháp tiếp cận dựa trên ví dụ. Năm 1990, Brown và cộng sự đã trình bày mô hình toán học của dịch máy thống kê [97], tới năm 1993 thì các tác giả giới thiệu năm mô hình thống kê được gọi là mô hình IBM và đưa ra các thuật toán để ước lượng các tham số của mô hình [S]. Mặc dù nhóm tác giả nghiên cứu trên một nền tảng toán học vững chắc nhưng vẫn chưa có nhiều nghiên cứu tập trung cho dịch máy.

Năm 1999, nhiều nhà nghiên cứu đã cùng nhau cài đặt lại các mô hình IBM tại hội thao mùa hè tại Dai học Johns Hopkins, nhóm tác giả Al-Onaizan và cộng sự trong sáu tuần tại hội thảo đã cài đặt công cụ dịch máy thống kê (SMT) (gọi là EGYPT) [3] và công cụ GIZA [90] Chương 1. Tổng quan vé van đề nghiên cứu 13 được đề cập trong báo cáo kỹ thuật cho việc gióng từ. Franz Och sau đó mở rộng các công cụ gióng từ thành GIZA++ [57], bổ sung thêm nhiều tính năng cho việc học mô hình dịch thống kê từ dữ liệu văn bản va được cài đặt như trong mô tả của Brown và cộng sự năm 1993 [8], của Vogel và cộng sự năm 1996 [125] và của Och năm 2000 [90, 91]. Từ năm 2013, dịch máy phát triển sang một giai đoạn mới, bắt đầu từ đề xuất kiến trúc mã hóa - giải mã (Encoder - Decoder) cho mô hình dịch máy mạng nơ-ron [59], hiện nay kiến trúc Transformer [123] được đánh giá là hiện đại, tiên tiến nhất (State-Of-The-Art).

Với các phương pháp dịch dựa trên mạng nơ-ron, kỹ thuật khai phá tri thức từ kho ngữ liệu được thực hiện nhờ khả năng tính toán và lưu trữ của máy tính, điều này đã làm thay đổi hoàn toàn các phương pháp dịch truyền thống, mang lại chất lượng cao cho các mô hình dịch. Một số hệ dịch đã được ứng dụng phổ biến, tiêu biểu như hệ dịch tự động Google translate!, Bing Microsoft Translator 2.2 Dịch máy thống kê Dịch máy thống kê (SMT- Statistical Machine Translation) là một phương pháp tiếp cận của dịch máy dựa trên phân tích thống kê tập dữ liệu các cặp câu từ hai ngôn ngữ (ngữ liệu song ngữ). Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy. Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hay ghi nhớ các đoạn giống nhau từ kho ngữ liệu, dịch máy thống kê tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ 1.com/translator Chương 1.

Tổng quan vé van đề nghiên cứu 14 liệu. Chính vì vậy, dịch máy dựa vào thống kê có tính linh hoạt cao, áp dụng được cho bất kỳ cặp ngôn ngữ nào.1 Cơ sở toán hoc Cơ sở toán học của dịch máy thống kê được Brown và cộng sự đề xuất năm 1990 [97], hoạt động được mô tả như Hình 1. Kho ngữ liệu song ngữ đơn ngữ _ Phân tích thống kê - Mô hình dich Mô hình ngôn ngữ Văn bản Bộ giải mã nguồn |: Hệ thông dịch máy thông kê Hình 1.3 : Kiến trúc cơ bản của mô hình dịch máy thống kê Bài toán dịch máy thống kê có thể được mô tả như sau: gọi 5 là câu trong ngôn ngữ nguồn và T là câu trong ngôn ngữ dich, cặp (S, 7) là cặp câu tương đương dịch. Ứng với mỗi câu S$ được cho bat kỳ, ta đi tìm câu 7' hợp lý nhất (là câu được dịch gần đúng nhất của câu nguồn sang câu đích), nghĩa là ta phải đi tìm xác suất P(S, 7) cực đại.

Vì S$ và 7' phụ thuộc lẫn nhau nên theo lý thuyết xác suất có điều kiện: P(S,T) = P(S) + P(T | S) (1. Tổng quan vé van đề nghiên cứu 15 Khi đó bai toán dịch trở thành: argmaxP(S, 7) = argmaxP(S) « P(7 | S) (1.3) P(S) Trong công thức 1.3, mau số không phụ thuộc vào T, do đó bài toán dịch máy trở thành tìm 7 để P(T)P(S | T) đạt giá trị lớn nhất. Gọi P(T) là xác suất mô hình ngôn ngữ và P( | 7) là xác suất mô hình dịch, khi đó một hệ thống dịch máy thống kê đòi hỏi một phương pháp tính toán xác suất mô hình ngôn ngữ, một phương pháp tính toán xác suất mô hình dịch và một phương pháp tìm kiếm câu đích 7 mà có giá trị P(T)P(S | 7) là lớn nhất.2 Dich máy thống kê dựa vào từ Những năm 1990, IBM [8] đã đề xuất giải thuật cho năm mô hình dịch thống kê dựa vào từ (word-based) là IBM1, IBM2, IBM3, IBM4, IBM5. Các mô hình này được sử dụng rộng rãi trong các công trình nghiên cứu về dịch máy thống kê sau này.

Phương pháp này, đơn vị cơ sở được dịch là các từ. Số từ trong câu được dịch là khác nhau phụ thuộc vào các từ ghép, hình thái từ và thành ngữ. Tuy nhiên, tùy vào đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh-Việt cũng giống với cặp ngôn ngữ Anh-Trung, Anh-Nhật,., hệ dịch phải đối mặt với khó Chương 1. Tổng quan vé van đề nghiên cứu 16 khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng khi dịch sang câu tiếng Việt.

Trong quá trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt có thể là 1-1, 1-không, 1-nhiều, nhiéu-1 hoặc nhiều-nhiều. Mô hình dịch dựa trên đơn vị từ không cho kết quả tốt trong trường hợp kết nối nhiều-1, 1-nhiều hoặc nhiều-nhiều với trật từ các từ trong câu tương ứng là khác nhau. Khi đó, phân tích dựa trên đơn vị cụm từ (phrase-based) được đề xuất để giải quyết vấn đề này. Dịch máy thống kê dựa vào cum từ Mô hình này là mở rộng của mô hình dịch máy trên cơ sở từ, nhằm giải quyết những hạn chế của mô hình dịch máy thống kê trên cơ sở từ bang cách dịch các cum từ (phrase-based) [63].

Trong đó độ dài các cụm từ nguồn và cụm từ đích có thể khác nhau. Khái niệm cụm từ ở đây khác với cụm từ trong ngôn ngữ học, nó là một chuỗi các từ liền nhau, được xác định bằng cách sử dụng các phương pháp thống kê để trích rút từ các cặp câu song ngữ. Trong [63], Koehn đã mô tả một cách khái quát quá trình dịch thống kê dựa trên cụm từ như sau: — Câu nguồn được tách thành các cụm từ. — Mỗi cum từ được dịch sang ngôn ngữ đích.

— Các cụm từ đã dịch được sắp xếp theo một thứ tự phù hợp.4 minh họa quá trình dịch thống kê dựa trên đơn vị cụm từ. Ở đây, đầu vào là một câu tiếng Anh được tách thành các cụm từ riêng biệt, mỗi cụm từ này sau đó được dịch lần lượt sang ngôn ngữ đích (ở day là tiếng Việt), các cum từ này có độ dài có thể khác Chương 1. Tổng quan vé van đề nghiên cứu 17 nhau, sau đó thứ tự các cụm từ ở phía ngôn ngữ đích được sắp xếp lại (reorder) cho phù hợp. Input sentence | am living in a peaceful country Output sentence | Tôi đang sống tại một thanh_ bình đất nước Sentence is reordered | = Tdi dang sống tai một đất nước thanh_bình Hình 1.4 : Ví dụ minh họa quá trình dịch dựa vào cụm ttt Trước khi dịch máy mạng nơ-ron [69, 76, 80, 106, 116] phát triển, phương pháp dịch máy thống kê dựa vào cụm từ đã cho thấy đây là phương pháp dịch máy tốt nhất được biết đến, chiếm ưu thế trong nghiên cứu cũng như trong thương mại vì hiệu quả của nó.

Mặc dù chất lượng tốt hơn phương pháp dịch thống kê dựa trên đơn vị từ nhưng phương pháp dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được một số vấn đề như ngữ pháp, khả năng lựa chọn cụm từ với tính chính xác cao, dịch tên riêng, từ vựng có hạn [100].3 Dịch máy mạng nơ-ron Dịch máy mạng no-ron (Neural Machine Translation - NMT) là phương pháp sử dụng mang nơ-ron nhân tao (Artificial Neural Network - NN) để giải quyết bài toán dịch máy (Machine Translation - MT). Như trình bay ở trên, phương pháp dich theo cụm từ (phrase-based) hoạt động theo cách chia nhỏ câu thành các cụm từ riêng biệt và tiến hành dịch từng cụm từ một, sau đó các cụm từ này được ghép lại thành một câu hoàn chỉnh, phương pháp này cho kết quả còn nhiều hạn chế do cách tiếp cận không thực sự giống với cách mà con người sử dụng Chương 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ mang tựa đề "Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" của tác giả Phạm Nghĩa Luân, dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và TS. Phạm Việt Thắng, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2023. Bài nghiên cứu tập trung vào việc phát triển và cải tiến các kỹ thuật dịch máy, đặc biệt là trong ngữ cảnh dịch giữa tiếng Anh và tiếng Việt. Nó không chỉ giúp nâng cao chất lượng dịch thuật mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực công nghệ thông tin.

Độc giả có thể tìm hiểu thêm về các vấn đề liên quan đến công nghệ thông tin và quản lý giáo dục qua các tài liệu như "Năng lực ứng dụng công nghệ thông tin để dạy học lịch sử và địa lí trong đào tạo giáo viên tiểu học", nơi nghiên cứu ứng dụng công nghệ thông tin trong giảng dạy, hay "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin", cung cấp cái nhìn sâu sắc về quản lý và điều hành trong lĩnh vực công nghệ thông tin. Bên cạnh đó, "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" cũng là một tài liệu hữu ích cho những ai quan tâm đến các kỹ thuật trong xử lý ngôn ngữ tự nhiên. Những tài liệu này không chỉ mở rộng kiến thức mà còn giúp người đọc có cái nhìn toàn diện hơn về các ứng dụng công nghệ trong giáo dục và dịch thuật.

#nghiên cứu ngôn ngữ

#xử lý ngôn ngữ tự nhiên

#dịch máy thống kê

#kỹ thuật thích ứng miền

#mô hình dịch máy

#thuật toán dịch tự động

Chủ đề

Nghiên cứu ngôn ngữ học

Học máy và trí tuệ nhân tạo

Công nghệ dịch máy

Ứng dụng của công nghệ trong dịch thuật