Dịch máy thống kê dựa vào cụm từ hoạt động như thế nào?

Hệ thống trích xuất các cặp cụm từ từ ngữ liệu song ngữ đã được gióng hàng từ. Mỗi cặp cụm từ đi kèm xác suất dịch được lưu trong bảng cụm từ. Khi dịch câu mới, bộ giải mã kết hợp mô hình dịch, mô hình ngôn ngữ và mô hình tái sắp xếp để tìm ra bản dịch có tổng điểm cao nhất.

Tại sao tách từ tiếng Việt là bước quan trọng trong dịch máy thống kê?

Tiếng Việt không có khoảng trắng phân cách từ rõ ràng như tiếng Anh. Nếu không tách từ chính xác, quá trình gióng hàng từ sẽ bị sai lệch dẫn đến bảng dịch cụm từ kém chất lượng. Các phương pháp tách từ phổ biến gồm Maximum Matching, Transformation-based Learning và phương pháp dựa trên thống kê kết hợp thuật toán di truyền.

Chỉ số BLEU dùng để đánh giá chất lượng dịch máy như thế nào?

BLEU (Bilingual Evaluation Understudy) đo lường độ trùng khớp n-gram giữa bản dịch do máy tạo ra và bản dịch tham chiếu của con người. Điểm BLEU dao động từ 0 đến 1, trong đó 1 là bản dịch hoàn hảo. Chỉ số này tính toán precision có điều chỉnh cho độ dài câu, phản ánh mức độ tự nhiên và chính xác của bản dịch.

Luận văn thạc sĩ: Dịch máy thống kê dựa vào cụm từ và ứng dụng dịch Việt-Anh

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan về dịch máy thống kê dựa vào cụm từ

Dịch máy thống kê (Statistical Machine Translation - SMT) là hướng tiếp cận sử dụng các mô hình toán học để dịch tự động giữa hai ngôn ngữ. Phương pháp này dựa trên nguyên lý kênh nguồn do Warren Weaver đề xuất năm 1949. Thay vì xây dựng luật ngữ pháp thủ công, SMT học từ dữ liệu ngôn ngữ thực tế. Dịch máy dựa vào cụm từ (Phrase-Based SMT) là phân nhánh phát triển nhất của SMT. Phương pháp này coi đơn vị dịch cơ bản là cụm từ thay vì từ đơn lẻ. Mỗi cụm từ nguồn được ánh xạ sang cụm từ đích tương ứng. Bảng dịch cụm từ chứa các cặp cụm từ kèm xác suất dịch. Mô hình log-linear kết hợp nhiều tính năng như mô hình dịch, mô hình ngôn ngữ, mô hình gióng hàng. Trọng số các tính năng được tối ưu hóa qua quá trình huấn luyện. Bộ giải mã tìm ra chuỗi đích có điểm số cao nhất. Phương pháp này đạt hiệu quả cao với nhiều cặp ngôn ngữ trên thế giới.

1.1. Khái niệm và lịch sử phát triển dịch máy thống kê

Dịch máy thống kê ra đời từ ý tưởng của Warren Weaver năm 1949, áp dụng lý thuyết thông tin và mật mã học vào bài toán dịch ngôn ngữ. Mô hình kênh nguồn xem câu nguồn được mã hóa thành câu đích qua một kênh nhiễu. IBM giới thiệu năm mô hình dịch đầu tiên vào năm 1990. Các mô hình này hoạt động ở mức từ đơn lẻ. Đến đầu những năm 2000, phương pháp dựa vào cụm từ được phát triển bởi Franz Josef Och và nhiều nhà nghiên cứu khác. Phương pháp mới vượt trội hơn vì nắm bắt được ngữ cảnh cục bộ của từ trong cụm.

1.2. Kiến trúc tổng quan của hệ thống dịch máy cụm từ

Một hệ thống dịch máy dựa vào cụm từ gồm ba thành phần chính. Thứ nhất là mô hình dịch, sử dụng bảng cụm từ để ánh xạ cụm từ nguồn sang cụm từ đích. Thứ hai là mô hình ngôn ngữ đích, đánh giá xác suất của chuỗi từ đích sinh ra. Thứ ba là mô hình tái sắp xếp, điều chỉnh thứ tự các cụm từ trong câu đích. Ba mô hình này được kết hợp trong khung log-linear với các trọng số tương ứng. Bộ giải mã tìm ra bản dịch tốt nhất dựa trên tổng điểm của các mô hình.

II. Phân tích thách thức dịch máy thống kê cho tiếng Việt Anh

Việc áp dụng dịch máy thống kê cho cặp ngôn ngữ Việt - Anh đối mặt nhiều thách thức lớn. Tiếng Việt là ngôn ngữ đơn lập, không có biến đổi hình thái học. Tiếng Anh là ngôn ngữ có biến đổi hình thái, thay đổi dạng từ theo thì, số, ngôi. Sự khác biệt cấu trúc ngữ pháp giữa hai ngôn ngữ rất lớn. Thứ tự từ trong câu cũng khác nhau đáng kể. Tiếng Việt thiếu khoảng trắng phân cách từ rõ ràng. Việc tách từ tiếng Việt là bước tiền xử lý quan trọng. Chất lượng tách từ ảnh hưởng trực tiếp đến kết quả gióng hàng từ. Ngữ liệu song ngữ chất lượng cao cho cặp Việt - Anh còn hạn chế. Các công cụ hỗ trợ chưa được tối ưu hoàn toàn cho tiếng Việt. Bài toán đánh giá chất lượng dịch cũng phức tạp. Hệ thống cần cân bằng giữa độ chính xác và tính tự nhiên của bản dịch.

2.1. Vấn đề tách từ trong tiếng Việt trước khi dịch máy

Tiếng Việt viết liền nhau, không dùng khoảng trắng để phân tách từ đơn lẻ. Một cụm từ có thể gồm nhiều từ ghép hoặc từ láy. Ví dụ 'sinh viên' là hai từ hay một từ ghép vẫn còn tranh luận. Phương pháp Maximum Matching dựa trên từ điển để tách từ theo nguyên tắc khớp tối đa. Phương pháp Transformation-based Learning sử dụng quy tắc chuyển đổi để cải thiện kết quả. Phương pháp IGATEC kết hợp thuật toán di truyền với dữ liệu thống kê từ Internet. Độ chính xác tách từ ảnh hưởng trực tiếp đến chất lượng gióng hàng từ và bảng dịch cụm từ.

2.2. Thách thức về gióng hàng từ và ngữ liệu song ngữ hạn chế

Gióng hàng từ là quá trình tìm mối tương ứng giữa từ trong câu nguồn và câu đích. Công cụ GIZA++ là công cụ phổ biến nhất thực hiện gióng hàng từ hai chiều. Phần giao của hai chiều gióng hàng tạo ra gióng hàng có độ chính xác cao. Tuy nhiên, gióng hàng từ Việt - Anh gặp nhiều lỗi do khác biệt cấu trúc. Ngữ liệu song ngữ chất lượng cao cho cặp ngôn ngữ này còn hạn chế. Kích thước ngữ liệu nhỏ dẫn đến bảng dịch cụm từ nghèo nàn. Mô hình ngôn ngữ đích cũng bị ảnh hưởng bởi dữ liệu huấn luyện hạn chế.

III. Giải pháp xây dựng hệ thống dịch máy thống kê cụm từ

Xây dựng hệ thống dịch máy thống kê dựa vào cụm từ đòi hỏi quy trình nhiều bước có hệ thống. Đầu tiên là chuẩn bị ngữ liệu song ngữ chất lượng. Corpus cần được thu thập, làm sạch và định dạng thống nhất. Bước tiền xử lý bao gồm tách câu, tách từ và chuẩn hóa văn bản. Đối với tiếng Việt, bước tách từ sử dụng phương pháp Maximum Matching kết hợp với kỹ thuật thống kê. Giai đoạn huấn luyện sử dụng công cụ Moses mã nguồn mở. Quá trình bao gồm gióng hàng từ bằng GIZA++, gióng hàng cụm từ và xây dựng bảng dịch. Mô hình ngôn ngữ được xây dựng bằng công cụ SRILM. Trọng số mô hình được tối ưu bằng thuật toán MERT trên tập phát triển. Đánh giá chất lượng sử dụng chỉ số BLEU và NIST. Toàn bộ quy trình cần được lặp lại để cải thiện kết quả liên tục.

3.1. Xây dựng và xử lý ngữ liệu song ngữ Việt Anh

Ngữ liệu song ngữ là yếu tố quyết định chất lượng hệ thống dịch máy. Corpus thô cần được thu thập từ nhiều nguồn như văn bản song ngữ, tài liệu dịch sẵn. Quá trình tạo corpus bao gồm phân đoạn câu, mã hóa ký tự và loại bỏ nhiễu. Corpus song ngữ được căn chỉnh ở mức câu sử dụng công cụ chuyên dụng. Dữ liệu được chia thành tập huấn luyện, tập phát triển và tập kiểm tra. Kích thước và chất lượng ngữ liệu ảnh hưởng trực tiếp đến hiệu suất mô hình dịch.

3.2. Sử dụng phần mềm Moses và tối ưu hóa trọng số mô hình

Moses là hệ thống dịch máy thống kê mã nguồn mở được sử dụng rộng rãi nhất hiện nay. Moses hỗ trợ đầy đủ pipeline từ huấn luyện đến giải mã và đánh giá. Script train-model.perl tự động hóa toàn bộ quá trình huấn luyện. Bộ giải mã của Moses sử dụng thuật toán beam search để tìm bản dịch tốt nhất. Thuật toán MERT tối ưu trọng số mô hình trên tập phát triển. Chỉ số BLEU đo lường độ trùng khớp n-gram giữa bản dịch máy và bản dịch tham chiếu.

IV. Kết luận và ứng dụng của dịch máy thống kê tiếng Việt

Nghiên cứu về dịch máy thống kê dựa vào cụm từ mở ra hướng đi tiềm năng cho tự động hóa dịch thuật tiếng Việt. Phương pháp này đã chứng minh hiệu quả vượt trội so với cách tiếp cận dựa vào từ đơn lẻ. Kết quả thử nghiệm cho thấy hệ thống đạt điểm BLEU khả quan với cặp ngôn ngữ Việt - Anh. Chất lượng dịch phụ thuộc nhiều vào kích thước và chất lượng ngữ liệu huấn luyện. Ứng dụng thực tiễn của công nghệ này rất đa dạng. Dịch tài liệu khoa học kỹ thuật là lĩnh vực có nhu cầu cao. Hỗ trợ dịch thuật trong giáo dục và đào tạo quốc tế. Tích hợp vào hệ thống hỗ trợ người dịch chuyên nghiệp. Phát triển chatbot đa ngôn ngữ phục vụ du lịch và thương mại. Công nghệ dịch máy cũng hỗ trợ người khiếm nghe tiếp cận thông tin. Trong tương lai, kết hợp SMT với mạng nơ-ron sâu sẽ cải thiện đáng kể chất lượng dịch.

4.1. Đánh giá hiệu quả hệ thống dịch máy Việt Anh

Hiệu quả hệ thống được đánh giá bằng chỉ số BLEU và NIST trên tập kiểm tra. BLEU đo lường mức độ trùng khớp n-gram giữa bản dịch máy và bản dịch tham chiếu của con người. NIST bổ sung thêm trọng số cho các n-gram mang tính phân biệt cao. Kết quả đánh giá cho thấy chất lượng dịch cải thiện khi tăng kích thước ngữ liệu huấn luyện. Mô hình gióng hàng ảnh hưởng lớn đến chất lượng bảng dịch cụm từ. Việc tối ưu trọng số MERT giúp cân bằng giữa các thành phần mô hình.

4.2. Hướng phát triển và tiềm năng ứng dụng trong tương lai

Dịch máy thống kê dựa vào cụm từ có thể được nâng cấp bằng nhiều hướng tiếp cận mới. Kết hợp với mô hình nơ-ron sâu tạo ra hệ thống dịch hybrid hiệu quả hơn. Mở rộng ngữ liệu bằng kỹ thuật trích xuất dữ liệu từ Internet. Áp dụng học tăng cường để tối ưu hóa mô hình trực tiếp theo chỉ số đánh giá. Phát triển hệ thống dịch thời gian thực cho ứng dụng di động. Tích hợp công nghệ nhận dạng giọng nói để hỗ trợ dịch nói trực tiếp.

19/05/2026

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng việt sang tiếng anh

Tải đầy đủ

Trích đoạn nội dung tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG BÙI THANH THUỶ NGHIÊN CỨU VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ ỨNG DỤNG DỊCH TỪ TIẾNG VIỆT SANG TIẾNG ANH LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong luận văn này do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện. Trong luận văn tôi có sử dụng một số tài liệu tham khảo nhƣ đã trình bày trong phần tài liệu tham khảo. Ngƣời viết luận văn Bùi Thanh Thủy Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn chân thành đến TS. Nguyễn Văn Vinh đã tận tình hƣớng dẫn, chỉ bảo cho tôi trong suốt quá trình làm luận văn. Em cũng xin cam ơn anh Trần Hồng Việt, nghiên cứu sinh Trƣờng đại học công nghệ, giảng viên Trƣờng Đại học Kinh tế kỹ thuật công nghiệp đã giúp đỡ em trong quá trình làm luận văn Tôi cũng xin gửi lời cảm ơn đến các thầy cô trƣờng Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các thầy cô Viện Công nghệ thông tin đã truyền đạt những kiến thức và giúp đỡ tôi trong suốt quá trình học của mình. Tôi cũng xin gửi lời cảm ơn tới Ban giám hiệu, Phòng Đào tạo, các đồng nghiệp trƣờng Cao đẳng nghề Phú Thọ, gia đình và bạn bè những ngƣời đã động viên tạo mọi điều kiện giúp đỡ tôi để hoàn thành luận văn. Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn MỤC LỤC LỜI CAM ĐOAN………………………………………………………………….Lý do chon đề tài. Hƣớng nghiên cứu của đề tài. Phƣơng pháp nghiên cứu. Ý nghĩa khoa học của đề tài. Cấu trúc luận văn. 3 CHƢƠNG 1 – TỔNG QUAN VỀ DỊCH MÁY…………………………. Khái niệm về hệ dịch máy. Vai trò của dịch máy. Sơ đồ tổng quan của một hệ dịch máy. Dịch máy thống kê là gì?. Tổng quan về dịch thống kê. Mô hình kênh nguồn.2 Cách tiếp cận Maximum và mô hình gióng hàng. Nhiệm vụ trong dịch thống kê.Ƣu điểm của phƣơng pháp dịch thống kê. Phân loại dịch máy thống kê. Dịch máy thống kê dựa vào từ (word-based). Dịch máy thống kê dựa trên cụm từ (phrase-based). Dịch máy thông kê dựa trên cú pháp. Một số công cụ và các nhóm nghiên cứu trên Internet về SMT. 13 CHƢƠNG 2 – MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ VÀ ÁP DỤNG CHO NGÔN NGỮ VIỆT _ ANH…………………………………………………. Giới thiệu mô hình dịch máy dựa trên cụm từ. Kiến trúc của mô hình dịch dựa trên cụm từ.1 Mô hình log-linenear. Mô hình dịch. Mô hình ngôn ngữ. 24 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www. Mô tả thuật toán. Đánh giá chất lƣợng dịch. Phần mềm mã nguồn mở Moses. Quá trình giải mã. Huấn luyện cực tiểu sai số (MERT). Áp dụng với cặp ngôn ngữ Việt – Anh.Xây dựng ngữ liệu (corpus). Tạo corpus thô. Tạo corpus song ngữ. Phân đoạn từ trong corpus tiếng Việt (Segmentation). Phƣơng pháp Maximum Matching. Phƣơng pháp Transformation-based Learning (TBL). Phƣơng pháp dựa trên thống kê từ Internet và thuật giải di truyền. Đánh giá theo dữ liệu huấn luyện. Đánh giá theo mô hình gióng hàng từ trong văn bản. 44 CHƢƠNG3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ………………………. Công cụ tiền xử lý cho hệ dịch. Môi trƣờng triển khai. Chuẩn bị dữ liệu đầu vào cho hệ dịch. Huấn luyện mô hình dịch. Kết quả thực nghiệm. Dữ liệu đầu vào. Quá trình chuẩn bị dữ liệu và huấn luyện. Chuẩn bị dữ liệu.…………53 TÀI LIỆU THAM KHẢO. 54 Tài liệu tiếng Việt. 54 Tài liệu tiếng Anh. 54 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn DANH MỤC CÁC HÌNH Hình 1.1: Sơ đồ tổng quan của hệ dịch máy……………………….2: Chu kì phát triển của hệ thống dịch thống kê…………. Kiến trúc mô hình dịch dựa trên cụm từ……………….2: Ví dụ về mô hình dóng hàng………………………….3: Thuật toán giải mã A* cho dịch máy…………………………….4: Giải thuật tìm kiếm beam sử dụng đa ngăn xếp trong Pharaoh….32 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn 1 MỞ ĐẦU 1.Lý do chon đề tài Trong quá trình phát triển và hội nhập văn hóa, kinh tế thế giới. Quá trình giao lƣu giữa ngƣời Việt Nam và ngƣời nƣớc ngoài ngày càng nhiều dẫn đến khó khăn trong quá trình giao tiếp và sử dụng văn bản tài liệu tiếng Anh. Hiện nay có nhiều hệ thống tự động dịch miễn phí trên mạng nhƣ: google translate, vietgle, vdict, lạc việt,… Những hệ thống này cho phép dịch tự động các văn bản với một cặp ngôn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt). Điều ấy cho thấy sự phát triển của dịch máy càng ngày càng tiến gần hơn đến ngôn ngữ tự nhiên của con ngƣời. Vào những năm gần đây, dịch máy nói chung, dịch máy thống kê nói riêng đƣợc phát triển mạnh và ứng dụng rộng rãi. Kết quả thực tế của hệ thống dịch này rất tốt. Ngôn ngữ của máy dịch ngày càng gần với ngôn ngữ của ngƣời. Ngoài ra cùng với hệ thống dịch máy thống kê, các sản phẩm ứng dụng ngày càng nhiều giúp con ngƣời trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và cùng với nhiều ngôn ngữ hơn. Hiện nay, phƣơng pháp dịch thống kê dựa trên cụm từ là phƣơng pháp cho kết quả dịch tốt nhất hiện nay. Điều này đƣợc thể hiện của qua các hệ dịch máy của Google, Vietgle. Hơn nữa việc dịch giữa tiếng Việt sang tiếng Anh là rất cần thiết khi khối lƣợng văn bản tiếng Anh ngày càng lớn trong thời kỳ Việt Nam hội nhập sâu rộng với quốc tế. Chính vì lý do đó, tôi lựa chọn và thực hiện đề tài “Nghiên cứu về dịch thống kê dựa vào cụm từ và áp dụng cho dịch từ tiếng Việt sang tiếng Anh”. Số hoá bởi Trung tâm Học liệu – ĐHTN http://www. Đối tƣợng và phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Nghiên cứu về các phƣơng pháp, mô hình dịch máy thống kê - Thử nghiệm và đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh Phạm vi nghiên cứu: Đề tài tập trung vào nghiên cứu phƣơng pháp dịch thống kê dựa vào cụm từ và ứng dụng dịch tài liệu, văn bản tiếng Việt, tiếng Anh. Hƣớng nghiên cứu của đề tài - Nghiên cứu, tìm hiểu, phân tích về dịch máy thống kê trên cơ sở cụm từ. - Cài đặt thử nghiệm tối ƣu hóa cụm từ bằng hệ dịch máy thống kế Moses 4. Phƣơng pháp nghiên cứu - Tìm hiểu các hệ dịch tự động đã có để tìm ra các phƣơng pháp dịch máy mà các hệ dịch đang sử dụng. - Nghiên cứu và đánh giá các phƣơng pháp dịch máy, những ƣu điểm và hạn chế, sau đó tìm ra phƣơng pháp có hiệu quả và đề xuất áp dụng cho bài toán đề tài đặt ra. - Nghiên cứu các phƣơng pháp đánh giá chất lƣợng dịch máy để đánh giá hiệu quả dịch cho hệ thống đề tài đã xây dựng. Số hoá bởi Trung tâm Học liệu – ĐHTN http://www. Ý nghĩa khoa học của đề tài Ý nghĩa khoa học: Dịch máy dựa vào cụm từ là một trong những phƣơng pháp dịch máy hiệu quả nhất hiện nay. Hơn nữa dữ liệu văn bản ngày càng lớn và đa dạng. chính vì vậy nghiên cứu về hệ dịch dựa vào cụm từ và ứng dụng cho dịch Việt – Anh có ý nghĩa khoa học cũng nhƣ thực tiễn 6. Cấu trúc luận văn + Chƣơng 1: Tổng quan về dịch máy + Chƣơng 2: Dịch máy thống kê dựa vào cụm từ và áp dụng cho ngôn ngữ Việt _ Anh + Chƣơng 3: Thực nghiêm, đánh giá + Kết luận Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn 4 CHƢƠNG 1 – TỔNG QUAN VỀ DỊCH MÁY 1. Khái niệm về hệ dịch máy 1. Định nghĩa Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiếng khác. Ngôn ngữ của văn bản cần dịch đƣợc gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản đã dịch ra đƣợc gọi là ngôn ngữ đích. Vai trò của dịch máy Hiện nay trên thế giới có khoảng hơn 5000 ngôn ngữ khác nhau, với một số lƣợng ngôn ngữ lớn nhƣ vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin, trong giao tiếp, đồng thời ngăn cản sự phát triển của thƣơng mại và mậu dịch quốc tế. Với những khó khăn nhƣ vậy con ngƣời đã phải dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói, ngôn ngữ từ tiếng nƣớc này sang tiếng nƣớc khác. Những công việc đó mang tính chất thủ công, tỉ mỉ đòi hỏi ngƣời dịch phải làm mất rất nhiều thời gian và công sức, trong khi khối lƣợng văn bản cần dịch ngày càng nhiều. Để khắc phục đƣợc những nhƣợc điểm trên con ngƣời đã nghĩ đến việc thiết kế một mô hình tự động trong công việc dịch ngôn ngữ, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên ( năm 1946) ngƣời ta đã tiến hành nghiên cứu về dịch máy. Việc đƣa ra mô hình tự động cho việc dịch đã và đang đƣợc phát triển, mặc dù chƣa giải quyết đƣợc triệt để lớp ngôn ngữ tự nhiên. Nhƣng sự ra đời của chúng đã khẳng định đƣợc lợi ích to lớn về mặt chiến luợc và phát triển kinh tế, đồng thời các vấn đề liên quan đến dịch máy Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.vn 5 cũng là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến vấn đề xử lí ngôn ngữ tự nhiên, một trong những vấn đề có ý nghĩa nhất mà trí tuệ nhân tạo có khả năng giải quyết. Ngƣời ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại giữa ngƣời-máy, lúc đó con ngƣời không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. Sơ đồ tổng quan của một hệ dịch máy Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ nguồn. Văn bản này có thể thu đƣợc từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói. Sau đó văn bản có thể đƣợc chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trƣớc khi đƣa vào máy dịch. Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngôn ngữ đích. Và cũng qua một bộ chỉnh ra để cuối cùng thu đƣợc một văn bản tƣơng đối hoàn chỉnh. Trong quá trình dịch máy, hệ thống thƣờng xuyên phải truy cập đến một khối lƣợng rất lớn các tri thức dịch.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ: Dịch máy thống kê dựa vào cụm từ và ứng dụng dịch Việt-Anh

I. Tổng quan về dịch máy thống kê dựa vào cụm từ

1.1. Khái niệm và lịch sử phát triển dịch máy thống kê

1.2. Kiến trúc tổng quan của hệ thống dịch máy cụm từ

II. Phân tích thách thức dịch máy thống kê cho tiếng Việt Anh

2.1. Vấn đề tách từ trong tiếng Việt trước khi dịch máy

2.2. Thách thức về gióng hàng từ và ngữ liệu song ngữ hạn chế

III. Giải pháp xây dựng hệ thống dịch máy thống kê cụm từ

3.1. Xây dựng và xử lý ngữ liệu song ngữ Việt Anh

3.2. Sử dụng phần mềm Moses và tối ưu hóa trọng số mô hình

IV. Kết luận và ứng dụng của dịch máy thống kê tiếng Việt

4.1. Đánh giá hiệu quả hệ thống dịch máy Việt Anh

4.2. Hướng phát triển và tiềm năng ứng dụng trong tương lai

THÔNG TIN CHI TIẾT

Tác giả: Bùi Thanh Thủy

Người hướng dẫn: TS. Nguyễn Văn Vinh

Trường học: Đại học Thái Nguyên

Chuyên ngành: Khoa học Máy tính

Đề tài: Nghiên cứu về dịch thống kê dựa vào cụm từ và áp dụng cho dịch từ tiếng Việt sang tiếng Anh

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2015

Địa điểm: Thái Nguyên

Luận văn thạc sĩ: Dịch máy thống kê dựa vào cụm từ và ứng dụng dịch Việt-Anh

I. Tổng quan về dịch máy thống kê dựa vào cụm từ

1.1. Khái niệm và lịch sử phát triển dịch máy thống kê

1.2. Kiến trúc tổng quan của hệ thống dịch máy cụm từ

II. Phân tích thách thức dịch máy thống kê cho tiếng Việt Anh

2.1. Vấn đề tách từ trong tiếng Việt trước khi dịch máy

2.2. Thách thức về gióng hàng từ và ngữ liệu song ngữ hạn chế

III. Giải pháp xây dựng hệ thống dịch máy thống kê cụm từ

3.1. Xây dựng và xử lý ngữ liệu song ngữ Việt Anh

3.2. Sử dụng phần mềm Moses và tối ưu hóa trọng số mô hình

IV. Kết luận và ứng dụng của dịch máy thống kê tiếng Việt

4.1. Đánh giá hiệu quả hệ thống dịch máy Việt Anh

4.2. Hướng phát triển và tiềm năng ứng dụng trong tương lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Bùi Thanh Thủy

Người hướng dẫn: TS. Nguyễn Văn Vinh

Trường học: Đại học Thái Nguyên

Chuyên ngành: Khoa học Máy tính

Đề tài: Nghiên cứu về dịch thống kê dựa vào cụm từ và áp dụng cho dịch từ tiếng Việt sang tiếng Anh

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2015

Địa điểm: Thái Nguyên