Luận án tiến sĩ: Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2023

144
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tính cấp thiết của luận án

Nghiên cứu về dịch máy đã trở thành một lĩnh vực quan trọng trong trí tuệ nhân tạo, đặc biệt là trong bối cảnh toàn cầu hóa ngày càng gia tăng. Dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) là hai phương pháp chính được áp dụng, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng. SMT được biết đến với khả năng xử lý chính xác các văn bản có cấu trúc rõ ràng, trong khi NMT lại thể hiện được khả năng dịch tự nhiên và trôi chảy hơn. Tuy nhiên, cả hai phương pháp đều gặp phải vấn đề lớn khi đối diện với các miền ngữ nghĩa khác nhau, đặc biệt là trong trường hợp thiếu dữ liệu song ngữ. Điều này dẫn đến việc cần thiết phải nghiên cứu về kỹ thuật thích ứng miền để cải thiện chất lượng dịch máy cho các miền đặc thù, như y tế hay pháp luật. Các nghiên cứu trước đây chủ yếu tập trung vào các cặp ngôn ngữ phổ biến, trong khi cặp ngôn ngữ Anh-Việt vẫn còn thiếu sót đáng kể trong lĩnh vực này.

1.1. Vấn đề thiếu tài nguyên song ngữ

Tình trạng thiếu tài nguyên song ngữ cho cặp ngôn ngữ Anh-Việt đã được nhiều nghiên cứu chỉ ra. Các bộ dữ liệu hiện có thường chỉ tập trung vào miền chung, không đủ để phục vụ cho việc huấn luyện các mô hình dịch máy trong các miền chuyên biệt. Việc này không chỉ làm giảm chất lượng bản dịch mà còn gây khó khăn cho việc áp dụng các phương pháp thích ứng miền hiệu quả. Nghiên cứu này nhằm mục đích xây dựng và cải thiện các kỹ thuật để tối ưu hóa quy trình dịch máy cho cặp ngôn ngữ này, từ đó nâng cao chất lượng bản dịch trong các miền cụ thể.

II. Mục tiêu của luận án

Mục tiêu chính của luận án là nghiên cứu và đề xuất các phương pháp thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt. Đặc biệt, luận án sẽ tập trung vào việc cải thiện chất lượng bản dịch thông qua hai hướng tiếp cận: (1) Hướng mô hình, nơi mà các phương pháp cải tiến mô hình sẽ được phát triển nhằm tối ưu hóa khả năng dịch trong miền đích; (2) Hướng dữ liệu, trong đó các phương pháp tăng cường dữ liệu sẽ được áp dụng để bổ sung và cải thiện chất lượng dữ liệu huấn luyện. Sự kết hợp giữa hai hướng này sẽ giúp giải quyết các thách thức hiện tại trong dịch máy, đặc biệt là cho các miền đặc thù, từ đó nâng cao độ chính xác và sự tự nhiên của bản dịch.

2.1. Nghiên cứu và phát triển phương pháp

Luận án sẽ tiến hành thu thập và phân tích các tập dữ liệu song ngữ Anh-Việt, đồng thời nghiên cứu các phương pháp dịch máy hiện có để đề xuất các cải tiến phù hợp. Mục tiêu là xây dựng một hệ thống dịch máy có khả năng tự động điều chỉnh và cải thiện chất lượng dịch trong các miền cụ thể, từ đó giảm thiểu sự khác biệt giữa miền nguồn và miền đích. Các phương pháp này sẽ được thử nghiệm và đánh giá để xác định tính hiệu quả và khả năng áp dụng trong thực tế.

III. Đóng góp của luận án

Luận án này đã đóng góp ba phương pháp chính trong việc thích ứng miền cho dịch máy thống kê Anh-Việt. Thứ nhất, phương pháp tinh chỉnh bảng cụm từ nhằm cải thiện xác suất dịch cho các cụm từ trong miền đích. Thứ hai, phương pháp sinh tự động dữ liệu song ngữ nhằm tăng cường kho ngữ liệu cho mô hình dịch máy, đặc biệt là trong các miền thiếu tài nguyên. Cuối cùng, phương pháp cải tiến chất lượng dữ liệu giả song ngữ sinh tự động, giúp giảm nhiễu trong quá trình dịch. Những đóng góp này không chỉ nâng cao chất lượng dịch máy mà còn mở ra hướng đi mới cho nghiên cứu trong lĩnh vực dịch máy, đặc biệt là cho các cặp ngôn ngữ ít tài nguyên.

3.1. Phương pháp tinh chỉnh bảng cụm từ

Đề xuất này tập trung vào việc phân loại miền cho các cụm từ trong bảng dịch, từ đó điều chỉnh xác suất dịch theo hướng ưu tiên cho miền đích. Kết quả từ phương pháp này đã cho thấy sự cải thiện đáng kể về chất lượng dịch, đặc biệt trong các văn bản thuộc miền chuyên biệt. Phương pháp này không chỉ giúp tối ưu hóa quy trình dịch mà còn có thể áp dụng cho các miền khác nhau, mở rộng khả năng ứng dụng của dịch máy thống kê.

11/01/2025

TÀI LIỆU LIÊN QUAN

Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt
Bạn đang xem trước tài liệu : Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê anh việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận án tiến sĩ mang tựa đề "Nghiên cứu kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" của tác giả Phạm Nghĩa Luân, dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và TS. Phạm Việt Thắng, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2023. Bài nghiên cứu tập trung vào việc phát triển và cải tiến các kỹ thuật dịch máy, đặc biệt là trong ngữ cảnh dịch giữa tiếng Anh và tiếng Việt. Nó không chỉ giúp nâng cao chất lượng dịch thuật mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực công nghệ thông tin.

Độc giả có thể tìm hiểu thêm về các vấn đề liên quan đến công nghệ thông tin và quản lý giáo dục qua các tài liệu như "Năng lực ứng dụng công nghệ thông tin để dạy học lịch sử và địa lí trong đào tạo giáo viên tiểu học", nơi nghiên cứu ứng dụng công nghệ thông tin trong giảng dạy, hay "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin", cung cấp cái nhìn sâu sắc về quản lý và điều hành trong lĩnh vực công nghệ thông tin. Bên cạnh đó, "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" cũng là một tài liệu hữu ích cho những ai quan tâm đến các kỹ thuật trong xử lý ngôn ngữ tự nhiên. Những tài liệu này không chỉ mở rộng kiến thức mà còn giúp người đọc có cái nhìn toàn diện hơn về các ứng dụng công nghệ trong giáo dục và dịch thuật.

Tải xuống (144 Trang - 1.77 MB)