Nghiên Cứu Về Cải Tiến Dịch Máy Cho Ngôn Ngữ Thiếu Tài Nguyên

Chuyên ngành

Information Science

Người đăng

Ẩn danh

Thể loại

thesis

2017

115
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

Acknowledgements

Abstract

Table of Contents

1. Introduction

1.2. MT for Low-Resource Languages

1.2.1. Statistical Machine Translation

1.2.2. Phrase-based SMT

1.2.3. Length-Based Methods

1.2.4. Word-Based Methods

1.2.5. Triangulation: The Representative Approach in Pivot Methods

1.2.6. Neural Machine Translation

3. Building Bilingual Corpora

3.1. Dealing with Out-Of-Vocabulary Problem

3.1.1. Word Similarity Models

3.2. Improving Sentence Alignment Using Word Similarity

3.3. Building A Multilingual Parallel Corpus

3.4. Experiments on Machine Translation

4. Pivoting Bilingual Corpora

4.1. Semantic Similarity for Pivot Translation

4.1.1. Semantic Similarity Models

4.1.2. Semantic Similarity for Triangulation

4.1.3. Experiments on Japanese-Vietnamese

4.1.4. Experiments on Southeast Asian Languages

4.2. Grammatical and Morphological Knowledge for Pivot Translation

4.2.1. Grammatical and Morphological Knowledge

4.2.2. Combining Features to Pivot Translation

4.3. Using Other Languages for Pivot

4.4. Rectangulation for Phrase Pivot Translation

5. Combining Additional Resources to Enhance SMT for Low-Resource Languages

5.1. Enhancing Low-Resource SMT by Combining Additional Resources

5.2. Experiments on Japanese-Vietnamese

5.3. Experiments on Southeast Asian Languages

5.4. Experiments on Turkish-English

5.5. Exploiting Informative Vocabulary

6. Neural Machine Translation for Low-Resource Languages

6.1. Neural Machine Translation

6.2. Byte-pair Encoding

6.3. Phrase-based versus Neural-based Machine Translation on Low-Resource Languages

6.4. NMT on Low-Resource Settings

6.5. Improving SMT and NMT Using Comparable Data

6.6. A Discussion on Transfer Learning for Low-Resource Neural Machine Translation

7. Conclusion

Tài liệu "Cải Tiến Dịch Máy Cho Ngôn Ngữ Thiếu Tài Nguyên" tập trung vào việc nâng cao chất lượng dịch máy cho các ngôn ngữ có ít tài nguyên, đặc biệt là tiếng Việt. Tài liệu này trình bày các phương pháp và công nghệ mới nhằm cải thiện độ chính xác và hiệu quả của hệ thống dịch máy, từ đó giúp người dùng có trải nghiệm tốt hơn khi sử dụng các công cụ dịch thuật.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về các thách thức trong việc dịch máy cho ngôn ngữ thiếu tài nguyên và các giải pháp tiềm năng để khắc phục những vấn đề này. Để mở rộng kiến thức, bạn có thể tham khảo thêm các tài liệu liên quan như Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống học sâu tự động thêm dấu cho tiếng việt, nơi bạn sẽ tìm thấy thông tin về việc tự động hóa trong ngôn ngữ tiếng Việt. Ngoài ra, tài liệu Luận văn thạc sĩ enhancing the quality of machine translation system using cross lingual word embedding models cũng sẽ cung cấp cái nhìn sâu sắc về việc cải thiện chất lượng dịch máy thông qua các mô hình nhúng từ đa ngôn ngữ. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực dịch máy và các ứng dụng của nó trong ngôn ngữ thiếu tài nguyên.