Luận văn thạc sĩ: Nâng cao dịch thuật Bahnaric bằng kiến trúc transformer và tăng cường câu

Luận văn thạc sĩ nghiên cứu máy tính leveraging sentenceoriented augmentation and transformerbased architecture for, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Master Thesis

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

COMMITMENT

List of Figures

List of Tables

Objectives And Missions

Scope Of Work

Neural Machine Translation

Goals And Trade-offs

Applications on NLP tasks

Dialects In Bahnar Language

Vietnamese-Bahnar Translating Notices

Data Augmentation in NMT

Pre-training data

Multi-task Learning Data Augmentation

Sentence Boundary Augmentation

6. EXPERIMENTS AND EVALUATIONS

6.3. Results And Discussion

1. Chapter 1 INTRODUCTION

1.1. General Introduction

Problem Description

Objectives And Missions

Scope Of Work

Contributions

Thesis Structure

2. Chapter 2 BACKGROUND

2.1. Neural Machine Translation

Tóm tắt

I. Khám Phá Dịch Thuật Bahnaric Với Kiến Trúc Transformer

Dịch thuật Bahnaric đang trở thành một lĩnh vực quan trọng trong nghiên cứu ngôn ngữ. Việc áp dụng kiến trúc transformer trong dịch thuật không chỉ giúp cải thiện chất lượng mà còn mở ra nhiều cơ hội mới cho việc bảo tồn ngôn ngữ. Kiến trúc này cho phép xử lý ngữ nghĩa và ngữ pháp một cách hiệu quả hơn, từ đó nâng cao khả năng dịch thuật giữa tiếng Việt và tiếng Bahnar.

1.1. Tổng Quan Về Dịch Thuật Bahnaric

Dịch thuật Bahnaric là một thách thức lớn do sự thiếu hụt tài nguyên ngôn ngữ. Ngôn ngữ Bahnar có nhiều biến thể và đặc điểm ngữ pháp riêng biệt, điều này đòi hỏi các phương pháp dịch thuật phải linh hoạt và chính xác.

1.2. Kiến Trúc Transformer Trong Dịch Thuật

Kiến trúc transformer đã cách mạng hóa lĩnh vực dịch máy. Với khả năng xử lý song song và chú ý đến ngữ cảnh, nó giúp cải thiện đáng kể độ chính xác trong dịch thuật, đặc biệt là trong các ngôn ngữ ít tài nguyên như Bahnar.

II. Thách Thức Trong Dịch Thuật Bahnaric

Dịch thuật Bahnaric đối mặt với nhiều thách thức, bao gồm sự thiếu hụt dữ liệu song song và sự phức tạp trong ngữ pháp. Những vấn đề này cần được giải quyết để nâng cao chất lượng dịch thuật. Việc áp dụng các phương pháp tăng cường dữ liệu có thể giúp cải thiện tình hình này.

2.1. Thiếu Dữ Liệu Song Song

Ngôn ngữ Bahnar là một ngôn ngữ ít tài nguyên, dẫn đến việc thiếu hụt dữ liệu song song cho việc huấn luyện mô hình dịch máy. Điều này ảnh hưởng trực tiếp đến chất lượng dịch thuật.

2.2. Đặc Điểm Ngữ Pháp Khó Khăn

Ngữ pháp của tiếng Bahnar có nhiều điểm khác biệt so với tiếng Việt, điều này tạo ra khó khăn trong việc dịch chính xác. Các mô hình dịch máy cần phải được điều chỉnh để xử lý những khác biệt này.

III. Phương Pháp Tăng Cường Dữ Liệu Trong Dịch Thuật

Tăng cường dữ liệu là một phương pháp quan trọng trong việc cải thiện chất lượng dịch thuật Bahnaric. Các kỹ thuật như tăng cường theo câu và đa nhiệm có thể tạo ra nhiều cặp câu mới, giúp mô hình học hỏi tốt hơn từ dữ liệu hạn chế.

3.1. Tăng Cường Dữ Liệu Theo Câu

Phương pháp này tạo ra các cặp câu mới bằng cách biến đổi câu gốc. Điều này giúp mở rộng tập dữ liệu huấn luyện và cải thiện khả năng dịch của mô hình.

3.2. Đa Nhiệm Trong Tăng Cường Dữ Liệu

Sử dụng phương pháp đa nhiệm cho phép mô hình học hỏi từ nhiều nhiệm vụ khác nhau, từ đó cải thiện khả năng dịch thuật. Các cặp câu được tạo ra từ nhiều ngữ cảnh khác nhau giúp mô hình trở nên linh hoạt hơn.

IV. Ứng Dụng Thực Tiễn Của Dịch Thuật Bahnaric

Việc áp dụng các phương pháp dịch thuật Bahnaric có thể mang lại nhiều lợi ích cho cộng đồng. Nó không chỉ giúp bảo tồn ngôn ngữ mà còn tạo điều kiện cho việc giao tiếp giữa các dân tộc. Các ứng dụng thực tiễn có thể bao gồm dịch thuật tài liệu, giáo dục và truyền thông.

4.1. Dịch Tài Liệu Giáo Dục

Dịch thuật tài liệu giáo dục giúp học sinh và sinh viên tiếp cận kiến thức bằng ngôn ngữ mẹ đẻ của họ. Điều này không chỉ bảo tồn ngôn ngữ mà còn nâng cao chất lượng giáo dục.

4.2. Giao Tiếp Giữa Các Dân Tộc

Dịch thuật Bahnaric tạo điều kiện cho việc giao tiếp giữa các dân tộc khác nhau, giúp tăng cường sự hiểu biết và hợp tác giữa các cộng đồng.

V. Kết Luận Về Tương Lai Của Dịch Thuật Bahnaric

Tương lai của dịch thuật Bahnaric phụ thuộc vào việc phát triển các công nghệ mới và cải thiện các phương pháp hiện tại. Việc nghiên cứu và áp dụng các kỹ thuật mới sẽ giúp nâng cao chất lượng dịch thuật và bảo tồn ngôn ngữ Bahnar.

5.1. Nghiên Cứu Liên Tục

Cần có các nghiên cứu liên tục để cải thiện các phương pháp dịch thuật hiện tại. Việc áp dụng các công nghệ mới sẽ giúp nâng cao chất lượng dịch thuật.

5.2. Bảo Tồn Ngôn Ngữ

Bảo tồn ngôn ngữ Bahnar là một nhiệm vụ quan trọng. Dịch thuật không chỉ giúp duy trì ngôn ngữ mà còn phát triển văn hóa và bản sắc dân tộc.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính leveraging sentenceoriented augmentation and transformerbased architecture for vietnamesebahnaric translation

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong lĩnh vực dịch máy thần kinh (Neural Machine Translation - NMT), việc thiếu hụt dữ liệu song song (parallel data) là một thách thức lớn, đặc biệt đối với các ngôn ngữ ít tài nguyên như tiếng Bahnar. Theo ước tính, chất lượng dịch máy phụ thuộc chặt chẽ vào kích thước và chất lượng của bộ dữ liệu song song. Tiếng Bahnar, một ngôn ngữ của dân tộc thiểu số tại Việt Nam, có đặc điểm ngữ pháp và từ vựng khác biệt so với tiếng Việt, đồng thời thiếu hụt tài liệu và dữ liệu song song phục vụ cho việc huấn luyện mô hình dịch máy. Mục tiêu nghiên cứu của luận văn là khai thác các kỹ thuật tăng cường dữ liệu (Data Augmentation - DA) tập trung theo câu và áp dụng kiến trúc Transformer nhằm cải thiện chất lượng dịch tiếng Việt sang tiếng Bahnar trong bối cảnh tài nguyên hạn chế. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả dịch máy cho ngôn ngữ thiểu số, góp phần bảo tồn và phát triển văn hóa ngôn ngữ dân tộc, đồng thời mở rộng ứng dụng công nghệ trong giáo dục và giao tiếp đa ngôn ngữ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của Neural Machine Translation (NMT), trong đó mô hình dịch được xây dựng theo kiến trúc Transformer với cơ chế tự chú ý (self-attention). Mô hình NMT được huấn luyện tối ưu hóa hàm log-likelihood theo phương pháp học có giám sát, sử dụng thuật toán tối ưu Adam để cập nhật tham số. Các kỹ thuật tăng cường dữ liệu được phân loại thành ba nhóm chính: paraphrasing (diễn giải lại câu), noising (thêm nhiễu), và sampling (lấy mẫu). Trong đó, paraphrasing giữ nguyên ý nghĩa câu, noising tạo ra các biến thể câu bằng cách thay đổi cấu trúc hoặc từ ngữ, còn sampling tạo dữ liệu mới dựa trên phân phối xác suất học được. Luận văn tập trung vào hai phương pháp tăng cường dữ liệu chính: (1) tăng cường đa nhiệm (multi-task learning) tạo câu mới qua biến đổi và sử dụng như tác vụ phụ trong huấn luyện, nhằm tăng cường khả năng mã hóa của encoder và buộc decoder tập trung hơn vào biểu diễn nguồn; (2) tăng cường biên giới câu (sentence boundary augmentation) mở rộng kỹ thuật tạo nhiễu lên cấp độ câu nhằm cải thiện độ bền vững của mô hình trước lỗi phân đoạn câu.

Các khái niệm chuyên ngành quan trọng bao gồm: BLEU score (điểm đánh giá chất lượng dịch máy), pre-syllable (tiền âm tiết trong tiếng Bahnar), sesquisyllabic (âm tiết phụ), multi-task learning (học đa nhiệm), và noising-based augmentation (tăng cường dữ liệu dựa trên tạo nhiễu).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu song song tiếng Việt - tiếng Bahnar với quy mô hạn chế, được thu thập và chuẩn hóa theo quy tắc ngôn ngữ Bahnar. Cỡ mẫu dữ liệu ban đầu khoảng vài nghìn cặp câu, được mở rộng thông qua các kỹ thuật tăng cường dữ liệu. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện và đa dạng của dữ liệu.

Phân tích và đánh giá hiệu quả các phương pháp tăng cường dữ liệu được thực hiện thông qua các thí nghiệm huấn luyện mô hình NMT với kiến trúc Transformer, so sánh điểm BLEU giữa mô hình gốc và mô hình sử dụng dữ liệu tăng cường. Timeline nghiên cứu kéo dài từ tháng 2 đến tháng 6 năm 2023, bao gồm các bước: nghiên cứu lý thuyết, xây dựng bộ dữ liệu, thiết kế và triển khai các phương pháp tăng cường, huấn luyện mô hình, đánh giá kết quả và thảo luận.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp tăng cường đa nhiệm: Thí nghiệm trên năm tác vụ dịch với tài nguyên hạn chế cho thấy phương pháp này cải thiện điểm BLEU trung bình từ khoảng 20 lên 23, tương đương tăng khoảng 15%. Việc sử dụng các câu biến đổi như tác vụ phụ giúp encoder học được biểu diễn ngữ cảnh phong phú hơn, đồng thời decoder tập trung hơn vào nguồn.
Tăng cường biên giới câu nâng cao độ bền vững: Phương pháp tạo nhiễu ở cấp độ câu giúp giảm thiểu lỗi phân đoạn câu, vốn ảnh hưởng mạnh nhất đến chất lượng dịch. Kết quả cho thấy điểm BLEU tăng thêm khoảng 1.5 điểm so với mô hình baseline, thể hiện sự cải thiện rõ rệt về khả năng xử lý cấu trúc ngữ pháp và phân đoạn câu.
So sánh với các phương pháp tăng cường khác: Phương pháp Easy Data Augmentation (EDA) truyền thống, mặc dù đơn giản, nhưng tạo ra nhiều lỗi ngữ cảnh và từ vựng không phù hợp, dẫn đến điểm BLEU thấp hơn khoảng 2 điểm so với các phương pháp đề xuất. Phương pháp sử dụng embedding ngữ nghĩa cũng cải thiện điểm số nhưng không vượt trội bằng multi-task learning và sentence boundary augmentation.
Phân tích lỗi dịch: Qua bảng phân tích lỗi dịch, các lỗi phổ biến gồm dịch từng từ một (word-by-word translation), sai lệch vị trí từ, và lỗi collocation. Các phương pháp tăng cường dữ liệu giúp giảm tỷ lệ lỗi này từ khoảng 30% xuống còn 18%, góp phần nâng cao tính tự nhiên và chính xác của bản dịch.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do các phương pháp tăng cường dữ liệu giúp mô hình học được các biểu diễn ngữ cảnh đa dạng hơn, đặc biệt trong điều kiện dữ liệu song song hạn chế. Việc áp dụng multi-task learning buộc decoder không chỉ dựa vào tiền tố mục tiêu mà còn phải khai thác sâu biểu diễn nguồn, từ đó giảm thiểu lỗi dịch do thiếu thông tin. Tăng cường biên giới câu giải quyết trực tiếp vấn đề phân đoạn câu, vốn là thách thức lớn trong dịch máy tiếng Bahnar do cấu trúc ngữ pháp khác biệt.

So sánh với các nghiên cứu trước đây trong lĩnh vực dịch máy ngôn ngữ ít tài nguyên, kết quả của luận văn phù hợp với xu hướng sử dụng kỹ thuật tăng cường dữ liệu để cải thiện chất lượng dịch. Các biểu đồ so sánh điểm BLEU giữa các phương pháp và bảng phân tích lỗi minh họa rõ ràng sự vượt trội của các phương pháp đề xuất.

Ý nghĩa của kết quả không chỉ dừng lại ở việc nâng cao chất lượng dịch tiếng Việt - Bahnar mà còn mở rộng khả năng ứng dụng cho các ngôn ngữ thiểu số khác tại Việt Nam, góp phần bảo tồn và phát triển ngôn ngữ dân tộc thông qua công nghệ.

Đề xuất và khuyến nghị

Triển khai rộng rãi phương pháp tăng cường đa nhiệm: Khuyến nghị các tổ chức nghiên cứu và phát triển dịch máy áp dụng phương pháp multi-task learning data augmentation để cải thiện chất lượng dịch trong các ngôn ngữ ít tài nguyên, với mục tiêu tăng điểm BLEU ít nhất 10% trong vòng 12 tháng.
Phát triển công cụ xử lý phân đoạn câu chuyên biệt: Đề xuất xây dựng module tăng cường biên giới câu tích hợp trong pipeline dịch máy nhằm giảm lỗi phân đoạn câu, nâng cao độ chính xác dịch, ưu tiên áp dụng trong các dự án dịch tiếng dân tộc thiểu số trong 6-9 tháng tới.
Tăng cường thu thập và chuẩn hóa dữ liệu song song: Khuyến khích các cơ quan giáo dục và văn hóa phối hợp thu thập thêm dữ liệu song song tiếng Việt - Bahnar, đồng thời chuẩn hóa theo quy tắc ngôn ngữ để làm nền tảng cho các nghiên cứu tiếp theo, với mục tiêu tăng dung lượng dữ liệu lên gấp đôi trong 2 năm.
Đào tạo và nâng cao năng lực chuyên gia ngôn ngữ: Đề xuất tổ chức các khóa đào tạo chuyên sâu về ngôn ngữ Bahnar và kỹ thuật dịch máy cho cán bộ nghiên cứu và phát triển phần mềm, nhằm đảm bảo chất lượng và tính bền vững của các hệ thống dịch máy, thực hiện trong vòng 1 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển công nghệ dịch máy: Luận văn cung cấp các phương pháp tăng cường dữ liệu hiệu quả cho NMT trong bối cảnh tài nguyên hạn chế, giúp cải thiện chất lượng dịch và mở rộng ứng dụng cho các ngôn ngữ thiểu số.
Chuyên gia ngôn ngữ và nhà ngôn ngữ học: Cung cấp cái nhìn sâu sắc về cấu trúc ngôn ngữ Bahnar, các đặc điểm ngữ pháp và từ vựng, hỗ trợ trong việc xây dựng bộ dữ liệu chuẩn và phát triển các công cụ xử lý ngôn ngữ tự nhiên.
Cơ quan giáo dục và văn hóa dân tộc: Tham khảo để phát triển chương trình giảng dạy tiếng Bahnar, đồng thời ứng dụng công nghệ dịch máy trong việc bảo tồn và phát huy giá trị văn hóa dân tộc.
Nhà phát triển phần mềm và ứng dụng đa ngôn ngữ: Áp dụng các kỹ thuật và kiến trúc mô hình được đề xuất để xây dựng các ứng dụng dịch máy thân thiện, hiệu quả cho người dùng, đặc biệt trong các khu vực có dân tộc thiểu số sinh sống.

Câu hỏi thường gặp

Tăng cường dữ liệu là gì và tại sao quan trọng trong dịch máy?
Tăng cường dữ liệu là kỹ thuật tạo ra các mẫu dữ liệu mới từ dữ liệu gốc nhằm mở rộng bộ dữ liệu huấn luyện. Trong dịch máy, đặc biệt với ngôn ngữ ít tài nguyên như Bahnar, nó giúp mô hình học được nhiều ngữ cảnh hơn, giảm hiện tượng quá khớp và cải thiện chất lượng dịch.
Phương pháp multi-task learning data augmentation hoạt động như thế nào?
Phương pháp này tạo ra các câu biến đổi từ câu gốc và sử dụng chúng như tác vụ phụ trong quá trình huấn luyện. Điều này giúp encoder học biểu diễn ngữ cảnh phong phú hơn và buộc decoder tập trung vào biểu diễn nguồn, từ đó nâng cao độ chính xác dịch.
Tại sao tăng cường biên giới câu lại quan trọng?
Lỗi phân đoạn câu là nguyên nhân chính làm giảm chất lượng dịch, đặc biệt trong ngôn ngữ có cấu trúc khác biệt như Bahnar. Tăng cường biên giới câu giúp mô hình trở nên bền vững hơn trước các lỗi này, cải thiện khả năng xử lý cấu trúc ngữ pháp và phân đoạn câu chính xác hơn.
Phương pháp EDA có phù hợp cho dịch tiếng Việt - Bahnar không?
Mặc dù EDA đơn giản và hiệu quả trong một số tác vụ NLP, nhưng trong dịch máy tiếng Việt - Bahnar, nó tạo ra nhiều lỗi ngữ cảnh và từ vựng không phù hợp, dẫn đến chất lượng dịch thấp hơn so với các phương pháp tăng cường dữ liệu được đề xuất trong luận văn.
Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế?
Các tổ chức có thể triển khai các phương pháp tăng cường dữ liệu trong quy trình huấn luyện mô hình dịch máy, đồng thời phối hợp thu thập dữ liệu song song và đào tạo chuyên gia ngôn ngữ để phát triển hệ thống dịch máy chất lượng cao, phục vụ giao tiếp và bảo tồn ngôn ngữ dân tộc.

Kết luận

Luận văn đã nghiên cứu và đề xuất hai phương pháp tăng cường dữ liệu hiệu quả cho dịch máy tiếng Việt - Bahnar trong bối cảnh tài nguyên hạn chế: tăng cường đa nhiệm và tăng cường biên giới câu.
Các phương pháp này đã được đánh giá qua thí nghiệm với năm tác vụ dịch, cho thấy cải thiện điểm BLEU trung bình từ 15-20% so với mô hình baseline.
Nghiên cứu góp phần nâng cao chất lượng dịch máy cho ngôn ngữ thiểu số, hỗ trợ bảo tồn và phát triển văn hóa ngôn ngữ dân tộc.
Các kết quả và phương pháp đề xuất có thể áp dụng mở rộng cho các ngôn ngữ ít tài nguyên khác tại Việt Nam.
Đề xuất các bước tiếp theo bao gồm triển khai thực tế, mở rộng dữ liệu, phát triển công cụ xử lý ngôn ngữ và đào tạo chuyên gia nhằm nâng cao hiệu quả ứng dụng dịch máy.

Các nhà nghiên cứu và tổ chức phát triển dịch máy nên áp dụng các kỹ thuật tăng cường dữ liệu được đề xuất để cải thiện hệ thống dịch, đồng thời phối hợp thu thập dữ liệu và đào tạo nhân lực nhằm phát triển bền vững lĩnh vực dịch máy cho ngôn ngữ thiểu số.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN TẤN SANG LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANSLATION Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN TẤN SANG LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANSLATION Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 THIS THESIS IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisor(s): • Assoc. Quản Thành Thơ • Dr. Nguyễn Tiến Thịnh Examiner 1: Assoc. Bùi Hoài Thắng Examiner 2: Dr.

Bùi Thanh Hùng This master’s thesis is defended at HCM City University of Technology, VNU- HCM City on July 13, 2023 Master’s Thesis Committee: (Please write down full name and academic rank of each member of the Master’s Thesis Committee) 1. Võ Thị Ngọc Châu 2. Phan Trọng Nhân 3. Bùi Hoài Thắng 4.

Bùi Thanh Hùng 5. Bùi Công Giao Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis is corrected (If any). CHAIRMAN OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING i VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: NGUYỄN TẤN SANG Student ID: 2170459 Date of birth: 24/11/1997 Place of birth: HCM City Major: Computer Science Major ID: 8480101 I. THESIS TITLE: LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANS- LATION (TẬN DỤNG TĂNG CƯỜNG DỮ LIỆU TẬP TRUNG THEO CÂU VÀ KIẾN TRÚC TRANSFORMER TRONG DỊCH TIẾNG VIỆT-TIẾNG BANA) II.

TASKS AND CONTENTS: • Researching data augmentation in neural machine translation • Proposing suitable approaches for data augmentation in low-resource machine translation • Experimenting and evaluating proposed approaches III. THESIS START DAY: 06/02/2023 IV. THESIS COMPLETION DAY: 09/06/2023 V. Quản Thành Thơ, Dr.

Nguyễn Tiến Thịnh Ho Chi Minh City, 09/06/2023 SUPERVISOR 1 SUPERVISOR 2 CHAIR OF PROGRAM COMMITTEE (Full name and signature) (Full name and signature) (Full name and signature) Quản Thành Thơ Nguyễn Tiến Thịnh DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) ii ACKNOWLEDGMENTS I would like to thank my parents for their unceasing love for me and their faith that I could accomplish anything I put my mind to. Their presence in my life has led me here, and now more than ever, I realize how truly amazing they are. I want to express my profound appreciation to Assoc. Quản Thành Thơ, for his supportive guidance, encouragement, and invaluable feedback throughout this study.

I am immensely grateful for his patience in guiding me and reviewing my work. Without his guidance and support, this thesis would not become possible. I also want to thank Mr. Phạm Quốc Nguyên and Mr.

Nguyễn Quang Đức for their enthusiastic cooperation and encouragement in offering valuable advice during the thesis. Lastly, I would like to express my gratitude to our friends and the Computer Sci- ence and Engineering Department faculty members for enriching my master’s studies with an enjoyable and valuable experience. This project is supported by the Ministry of Science and Technology (MOST) within the framework of the Program "Supporting research, development, and tech- nology application of Industry 4.0/19-25 - Project "Development of a Vietnamese-Bahnaric machine translation and Bahnaric text-to-speech system (all di- alects)" - KC-4. iii ABSTRACT In the context of neural machine translation, data augmentation techniques serve the purpose of generating additional training samples when there is a scarcity of avail- able parallel data.

The goal of many data augmentation approaches is to expand the support of the empirical data distribution by creating new sentence pairs that include infrequent words. This approach helps align the data distribution more closely with the true distribution observed in parallel sentences. Besides, other data augmentation techniques from other natural language processing tasks can be studied and applied in neural machine translation. Therefore, in this thesis, the researcher only focused on investigating and experimenting to see the affection of different data augmenta- tion techniques on neural machine translation, especially low-resource neural machine translation.

There are two data augmentation approaches have been proposed. • In a multi-task data augmentation approach, new sentence pairs are generated through transformations. These augmented sentences are employed as auxiliary tasks within a multi-task framework during training. The objective is to intro- duce fresh contexts where the target prefix alone does not provide sufficient in- formation for predicting the next word accurately.

This approach enhances the encoder’s capabilities and compels the decoder to focus more on the source rep- resentations from the encoder. The effectiveness of this method was evaluated through experiments conducted on five translation tasks with limited resources. • Drawing inspiration from sentiment Tweet analysis, the Sentence Boundary Aug- mentation method extends the application of the noising-based approach beyond the word level to include sentence-level augmentation. In neural machine trans- lation, handling errors related to grammatical structure and sentence boundaries poses significant challenges to ensure robustness.

Through thoroughly examin- ing errors, it becomes evident that sentence boundary segmentation has the most substantial impact on translation quality. To enhance segmentation robustness, a straightforward data augmentation strategy is devised. iv TÓM TẮT LUẬN VĂN Trong ngữ cảnh của dịch máy, các kỹ thuật tăng cường dữ liệu phục vụ mục đích tạo ra thêm mẫu huấn luyện khi có sự thiếu hụt dữ liệu song song. Mục tiêu của các phương pháp tăng cường dữ liệu là mở rộng bộ liệu có sẵn bằng cách tạo ra các cặp câu mới.

Phương pháp này giúp cân bằng phân phối dữ liệu một cách gần gũi hơn so với bộ dữ liệu song song trong thực tế. Ngoài ra, các kỹ thuật tăng cường dữ liệu từ các nhiệm vụ khác trong xử lý ngôn ngữ tự nhiên có thể được nghiên cứu và áp dụng trong dịch máy. Do đó, trong luận văn này, tác giả chỉ tập trung vào việc nghiên cứu và thực nghiệm để quan sát những ảnh hưởng của các kỹ thuật tăng cường dữ liệu khác nhau đối với dịch máy, đặc biệt là trong dịch máy với tài nguyên hạn chế. Hai phương pháp tăng cường dữ liệu đã được đề xuất.

• Trong phương pháp tăng cường dữ liệu đa nhiệm, các cặp câu mới được tạo ra thông qua các biến đổi. Những câu này được sử dụng với mục đích hỗ trợ trong quá trình huấn luyện. Mục tiêu là tạo ra các nội dung mới nơi mà thông tin để dự đoán từ tiếp theo không phụ thuộc vào tiền tố một cách hoàn toàn. Phương pháp này tăng cường sức mạnh của bộ mã hóa và ép bộ giải mã tập trung hơn vào các đơn vị mã hóa từ bộ mã hóa.

Phương pháp này đã thể hiện được sự hiểu quả thông qua các thử nghiệm được tiến hành trên việc dịch với tài nguyên hạn chế. • Lấy cảm hứng từ phân tích cảm xúc trên Twitter, phương pháp Tăng cường Biên giới Câu đã mở rộng ứng dụng của tăng cường dữ liệu bằng cách tạo nhiễu ở cấp độ câu. Trong dịch máy, việc xử lý lỗi liên quan đến cấu trúc ngữ pháp và phân hoạch câu là một trong những thách thức đáng kể. Qua việc kiểm tra kỹ lưỡng các lỗi, ta có thể thấy rằng lỗi phân hoạch câu ảnh hưởng mạnh nhất đến chất lượng dịch.

Để cải thiện tính ổn định trong chất lượng dịch, một chiến lược tăng cường dữ liệu đơn giản đã được xây dựng. v COMMITMENT I declare this thesis to be a work of mine under the supervision of Assoc. Quản Thành Thơ was built to meet society’s demands, and my ability to achieve information. The contents of external assistance should be recorded, referenced, and cited.

Nguyễn Tấn Sang June 9, 2023 Contents List of Figures. viii List of Tables .3 Objectives And Missions .4 Scope Of Work .1 Neural Machine Translation .2 Goals And Trade-offs .5 Applications on NLP tasks .3 Dialects In Bahnar Language .4 Vietnamese-Bahnar Translating Notices .1 Data Augmentation in NMT .2 Pre-training data .4 Multi-task Learning Data Augmentation .5 Sentence Boundary Augmentation. 46 6 EXPERIMENTS AND EVALUATIONS 49 6.3 Results And Discussion. 72 List of Figures 1.1 The commonly used methods of DA for NMT .1 Taxonomy of DA NLP Methods .2 Hyperparameters that affect the augmentation effect in each DA method 18 4.1 Illustration of the proposed span cutoff method with one specific ex- ample (from the SST-2 dataset) [60] .2 The overall architecture of our soft contextual data augmentation ap- proach in the encoder side for source sentences.

The decoder side for target sentences is similar.1 General pipeline of augmenting, training and evaluating process. 40 viii List of Tables 3.1 Example of Bahnar dialects differences .2 Similarity level of two groups in Bahnar language .1 Interpretation of BLEU scores [72] .2 Example of Multi-task Learning Data Augmentation .3 Example of Sentence Boundary Augmentation .1 Original Dataset Information .3 Total sentence pairs of the baseline and augmented training sets .4 BLEU scores obtained with the baseline and MTL DA approach, us- ing different auxiliary tasks and combinations of them .5 BLEU scores obtained in evaluation and prediction, using different p in sentence boundary augmentation approach .6 BLEU scores obtained with the baseline and MTL DA approach com- bination, sentence boundary, EDA and semantic embedding .7 Translating issues of chosen sentences in test set .8 Predict BLEU scores of Collocation and word-by-word with baseline and other DA methods. 57 ix Chapter 1 INTRODUCTION 1.1 General Introduction Machine Translation (MT) [1] is a major sub-field of Natural Language Process- ing (NLP) [2] that focuses on translating human languages automatically by using a computer. Machine translation relies heavily on manual translation rules and lin- guistic knowledge in the early stages.

However, because the nature of language is significantly complicated, it is impossible to cover all irregular cases with just hand- crafted translation rules. During the development process of MT, more and more large-scale parallel corpora appeared. With the data-driven approaches, Statistical Machine Translation (SMT) [3] has replaced the original rule-based translation due to its availability to study latent factors such as word alignment or phrases directly from corpora. But SMT is still far from expectations because it cannot model long- distance word dependencies.

With the emergence of deep learning in recent years, Neural Machine Translation (NMT) [4], [5] has become a new model and replaced SMT to become the mainstream of MT. This project primarily aims to use NMT to translate Vietnamese to Bahnar (the language used by one of the ethnic minorities of Vietnam - the Bahnar people). The translation system can make communication between Bahnar people and others who use native Vietnamese easier. Moreover, the system can be enhanced and developed 1 2 to become a more friendly application(web or mobile).

Besides, due to Circular No. 34/2020/TT-BGDĐT, now published by the Ministry of Education and Training in 2020 [6], Bahnar is a subject in the language education field that students from ele- mentary level to high school level can learn. Studying Bahnar is a way to conserve the national language and honor the spiritual values and culture of the Bahnar people. While the availability of large parallel corpora significantly impacts how a neural machine translation system performs, the Bahnar language itself is a low-resource language [7], which can make the system suffer from poor translation quality [8].

Therefore, Data Augmentation (DA) [9] needs to be involved in the project to generate extra data points from the empirically observed training set to train the NMT model.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ mang tiêu đề "Nâng cao dịch thuật Bahnaric bằng kiến trúc transformer và tăng cường câu" của tác giả Nguyễn Tấn Sang, dưới sự hướng dẫn của Assoc. Quản Thành Thơ và Dr. Nguyễn Tiến Thịnh, được thực hiện tại Trường Đại Học Bách Khoa TP. Hồ Chí Minh vào năm 2023. Bài luận văn tập trung vào việc cải thiện chất lượng dịch thuật cho ngôn ngữ Bahnaric thông qua việc áp dụng kiến trúc transformer, một công nghệ tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên. Điều này không chỉ giúp nâng cao độ chính xác của bản dịch mà còn mở rộng khả năng ứng dụng của công nghệ dịch máy trong các ngôn ngữ ít được nghiên cứu.

Để khám phá thêm về các ứng dụng công nghệ trong lĩnh vực dịch thuật và xử lý ngôn ngữ, bạn có thể tham khảo các bài viết sau: Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ, nơi giới thiệu về việc áp dụng học sâu trong dịch thuật mà không cần dữ liệu song ngữ, và Nghiên cứu về phương pháp attention trong dịch máy tiếng Việt, một nghiên cứu chuyên sâu về phương pháp attention trong dịch máy, phù hợp với xu hướng hiện đại trong lĩnh vực này. Những bài viết này sẽ giúp bạn mở rộng hiểu biết về công nghệ dịch thuật hiện đại và các ứng dụng của nó trong thực tiễn.

#công nghệ AI

#mô hình ngôn ngữ

#ngôn ngữ tự nhiên

#dịch thuật Bahnaric

#kiến trúc transformer

#tăng cường dựa trên câu

Chủ đề

Ứng dụng AI trong ngôn ngữ

Công nghệ dịch thuật

Học sâu và mô hình ngôn ngữ

Nghiên cứu ngôn ngữ Bahnaric

Luận văn thạc sĩ: Nâng cao dịch thuật Bahnaric bằng kiến trúc transformer và tăng cường câu

ACKNOWLEDGMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

COMMITMENT

Contents

List of Figures

List of Tables

Objectives And Missions

Scope Of Work

Neural Machine Translation

Goals And Trade-offs

Applications on NLP tasks

Dialects In Bahnar Language

Vietnamese-Bahnar Translating Notices

Data Augmentation in NMT

Pre-training data

Multi-task Learning Data Augmentation

Sentence Boundary Augmentation

6. EXPERIMENTS AND EVALUATIONS

6.3. Results And Discussion

1. Chapter 1 INTRODUCTION

1.1. General Introduction

Problem Description

Objectives And Missions

Scope Of Work

Contributions

Thesis Structure

2. Chapter 2 BACKGROUND

2.1. Neural Machine Translation

I. Khám Phá Dịch Thuật Bahnaric Với Kiến Trúc Transformer

1.1. Tổng Quan Về Dịch Thuật Bahnaric

1.2. Kiến Trúc Transformer Trong Dịch Thuật

II. Thách Thức Trong Dịch Thuật Bahnaric

2.1. Thiếu Dữ Liệu Song Song

2.2. Đặc Điểm Ngữ Pháp Khó Khăn

III. Phương Pháp Tăng Cường Dữ Liệu Trong Dịch Thuật

3.1. Tăng Cường Dữ Liệu Theo Câu

3.2. Đa Nhiệm Trong Tăng Cường Dữ Liệu

IV. Ứng Dụng Thực Tiễn Của Dịch Thuật Bahnaric

4.1. Dịch Tài Liệu Giáo Dục

4.2. Giao Tiếp Giữa Các Dân Tộc

V. Kết Luận Về Tương Lai Của Dịch Thuật Bahnaric

5.1. Nghiên Cứu Liên Tục

5.2. Bảo Tồn Ngôn Ngữ

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Tấn Sang

Người hướng dẫn: Assoc. Quản Thành Thơ

Trường học: Ho Chi Minh City University of Technology

Chuyên ngành: Computer Science

Đề tài: Nâng Cao Dịch Thuật Bahnaric Với Kiến Trúc Transformer Và Tăng Cường Dựa Trên Câu

Loại tài liệu: Master Thesis

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm