Luận văn thạc sĩ khoa học máy tính leveraging sentence oriented augmentation and transformer based architecture for vietnamese bahnaric translation

Luận văn về tăng cường dữ liệu và kiến trúc Transformer trong dịch máy Việt-Bahnar. Nghiên cứu khoa học máy tính, tối ưu hóa hiệu suất dịch thuật.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Master Thesis

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

COMMITMENT

1. CHƯƠNG 1: INTRODUCTION

1.1. General Introduction

1.2. Problem Description

1.3. Objectives And Missions

1.4. Scope Of Work

1.5. Contributions

1.6. Thesis Structure

2. CHƯƠNG 2: BACKGROUND

2.1. Neural Machine Translation

Tóm tắt

I. Dịch Máy Việt Bahnar Tổng Quan và Tầm Quan Trọng 58 ký tự

Dịch máy (MT) là một lĩnh vực con quan trọng của xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc tự động dịch ngôn ngữ của con người bằng máy tính. Trong giai đoạn đầu, dịch máy chủ yếu dựa vào các quy tắc dịch thuật thủ công và kiến thức ngôn ngữ. Tuy nhiên, do bản chất phức tạp của ngôn ngữ, không thể bao quát tất cả các trường hợp bất thường chỉ bằng các quy tắc thủ công. Với sự xuất hiện của nhiều ngữ liệu song song quy mô lớn, dịch máy thống kê (SMT) đã thay thế phương pháp dịch dựa trên quy tắc ban đầu, do khả năng nghiên cứu các yếu tố tiềm ẩn như sự liên kết từ hoặc cụm từ trực tiếp từ ngữ liệu. Tuy nhiên, SMT vẫn còn nhiều hạn chế vì không thể mô hình hóa các phụ thuộc từ xa. Với sự trỗi dậy của học sâu trong những năm gần đây, dịch máy thần kinh (NMT) đã trở thành một mô hình mới và thay thế SMT để trở thành xu hướng chủ đạo của dịch máy. Dự án này chủ yếu nhằm mục đích sử dụng NMT để dịch từ tiếng Việt sang tiếng Bahnar (ngôn ngữ được sử dụng bởi một trong những dân tộc thiểu số của Việt Nam - người Bahnar). Hệ thống dịch có thể giúp việc giao tiếp giữa người Bahnar và những người sử dụng tiếng Việt bản ngữ dễ dàng hơn. Hơn nữa, hệ thống có thể được tăng cường và phát triển để trở thành một ứng dụng thân thiện hơn (web hoặc di động). Theo Thông tư số 34/2020/TT-BGDĐT do Bộ Giáo dục và Đào tạo ban hành năm 2020, tiếng Bahnar là một môn học trong lĩnh vực giáo dục ngôn ngữ mà học sinh từ cấp tiểu học đến trung học phổ thông có thể học. Học tiếng Bahnar là một cách để bảo tồn ngôn ngữ quốc gia và tôn vinh các giá trị tinh thần và văn hóa của người Bahnar.

1.1. Giới thiệu về Dịch Máy Thần Kinh NMT

Dịch máy thần kinh (NMT) sử dụng mạng nơ-ron sâu để học cách dịch giữa các ngôn ngữ. NMT đã chứng minh hiệu quả vượt trội so với các phương pháp dịch máy truyền thống, đặc biệt là trong việc xử lý các câu dài và phức tạp. Mục tiêu của NMT là xây dựng một mô hình có thể ánh xạ một câu trong ngôn ngữ nguồn sang một câu tương đương trong ngôn ngữ đích. Điều này được thực hiện bằng cách sử dụng một mạng nơ-ron có khả năng học các biểu diễn ngôn ngữ phức tạp.

1.2. Tầm quan trọng của Dịch Máy Việt Bahnar

Dịch máy Việt-Bahnar đóng vai trò quan trọng trong việc bảo tồn và phát triển văn hóa của cộng đồng người Bahnar. Nó giúp tăng cường khả năng tiếp cận thông tin và kiến thức cho người Bahnar, đồng thời tạo điều kiện thuận lợi cho giao tiếp và hợp tác giữa người Bahnar và các cộng đồng khác. Hơn nữa, việc phát triển máy dịch Việt Bahnar góp phần vào việc bảo tồn ngôn ngữ Bahnar, một ngôn ngữ đang có nguy cơ bị mai một.

II. Thách Thức Dữ Liệu Ít ỏi Trong Dịch Máy Bahnar 60 ký tự

Dịch máy là nhiệm vụ tự động chuyển đổi văn bản nguồn từ ngôn ngữ này sang ngôn ngữ khác. Tự động dịch một chuỗi văn bản từ ngôn ngữ này sang ngôn ngữ khác đặt ra một thách thức đáng kể do tính chất mơ hồ và linh hoạt vốn có của ngôn ngữ của con người. Do đó, không có bản dịch duy nhất, dứt khoát nào có thể được coi là tốt nhất. Khó khăn trong việc đạt được bản dịch máy chính xác và tự nhiên này khiến nó trở thành một trong những vấn đề phức tạp nhất trong lĩnh vực trí tuệ nhân tạo. Giả sử X là câu ngôn ngữ nguồn, Y là câu ngôn ngữ đích. Trong ngữ cảnh này, X là một câu tiếng Việt sẽ được dịch sang Y - một câu tiếng Bahnar (Bahnar Kriêm). Ví dụ: "Năm sau, tôi sẽ đi học ở dưới huyện" ⇒ "Sơnăm anô, inh năm hok uĕi tơ huen". Trên thực tế, bên cạnh phương ngữ Bhanar Kriêm, Bahnar còn có bốn phương ngữ khác (được đề cập trong Phần 3). Tuy nhiên, Bahnar có thể được coi là một ngôn ngữ ít tài nguyên do thiếu tài liệu (sách giáo khoa, tài liệu giáo dục địa phương, v.v.). Vấn đề này có thể được giải thích bởi một số yếu tố, chẳng hạn như doanh thu ngân sách hạn chế, sự phân tán dân số, giao thông bị chia cắt và tiến độ phân vùng chậm. Từ các nguồn lực có sẵn, có một số khác biệt giữa Bahnar và tiếng Việt, chẳng hạn như vị trí của dấu chấm than, bỏ qua từ "to be", và sự kết hợp sai trong việc dịch các cụm từ và từ ghép.

2.1. Vấn Đề Ngôn Ngữ Ít Tài Nguyên

Ngôn ngữ Bahnar thuộc nhóm các ngôn ngữ ít tài nguyên, đồng nghĩa với việc có ít dữ liệu song ngữ và tài liệu ngôn ngữ khác có sẵn để huấn luyện mô hình dịch máy. Điều này dẫn đến hiệu suất dịch máy thấp và khó khăn trong việc xây dựng các hệ thống dịch máy chính xác. Việc thiếu dữ liệu là một trở ngại lớn đối với sự phát triển của máy dịch Việt Bahnar.

2.2. Sự Khác Biệt Giữa Tiếng Việt và Tiếng Bahnar

Sự khác biệt về cấu trúc ngữ pháp, từ vựng và cách diễn đạt giữa tiếng Việt và tiếng Bahnar gây ra những thách thức đáng kể cho máy dịch Việt Bahnar. Các mô hình dịch máy cần phải học cách xử lý những khác biệt này để tạo ra các bản dịch chính xác và tự nhiên. Việc thu thập và xử lý dữ liệu song ngữ chất lượng cao là rất quan trọng để giải quyết vấn đề này. Ví dụ, từ ghép và cụm từ trong tiếng Việt có thể không có cấu trúc tương đương trong tiếng Bahnar, đòi hỏi mô hình dịch máy phải học cách diễn đạt ý nghĩa tương đương.

2.3. Các Phương Ngữ Của Tiếng Bahnar

Ngôn ngữ Bahnar có nhiều phương ngữ khác nhau, điều này làm tăng thêm sự phức tạp cho dịch máy Việt-Bahnar. Mỗi phương ngữ có thể có những đặc điểm ngôn ngữ riêng, đòi hỏi mô hình dịch máy phải được huấn luyện trên dữ liệu từ nhiều phương ngữ khác nhau để đảm bảo hiệu suất dịch tốt trên toàn bộ cộng đồng người Bahnar. Cần có các nghiên cứu chuyên sâu về các phương ngữ này để xác định các đặc điểm riêng và xây dựng các mô hình dịch máy phù hợp.

III. Tăng Cường Dữ Liệu Giải Pháp Hiệu Quả Cho Dịch Máy 60 ký tự

Vì sự sẵn có của ngữ liệu song song lớn ảnh hưởng đáng kể đến hiệu suất của hệ thống dịch máy thần kinh, bản thân ngôn ngữ Bahnar là một ngôn ngữ ít tài nguyên, có thể khiến hệ thống bị chất lượng dịch kém. Do đó, tăng cường dữ liệu (DA) cần được tham gia vào dự án để tạo thêm các điểm dữ liệu từ tập huấn luyện quan sát được theo kinh nghiệm để huấn luyện mô hình NMT. Tăng cường dữ liệu lần đầu tiên được áp dụng rộng rãi trong lĩnh vực thị giác máy tính và sau đó được sử dụng trong xử lý ngôn ngữ tự nhiên, đạt được những cải tiến trong nhiều nhiệm vụ. DA giúp cải thiện tính đa dạng của dữ liệu huấn luyện, do đó giúp mô hình dự đoán các yếu tố chưa từng thấy trong dữ liệu thử nghiệm. Ứng dụng DA trong NLP đã được điều tra trong những năm gần đây và các lĩnh vực nổi tiếng nhất là phân loại văn bản, tạo văn bản (bao gồm NMT) và dự đoán cấu trúc. DA vẫn là một phương pháp siêu phổ biến và có mặt ở khắp mọi nơi trong NMT, lấy mẫu một số phân phối dữ liệu giả Pf (X ′ ) bằng một số phương pháp phổ biến (Hình 1.1) dựa trên phân phối dữ liệu thực Pr (X), trong đó X f1 , X f2 đề cập đến dữ liệu tăng cường được tạo từ dữ liệu thực bằng các phương pháp phổ biến, chẳng hạn như thay thế, hoán đổi.

3.1. Các Phương Pháp Tăng Cường Dữ Liệu Phổ Biến

Các phương pháp tăng cường dữ liệu phổ biến trong NLP bao gồm thay thế từ đồng nghĩa, chèn từ ngẫu nhiên, hoán đổi từ và xóa từ ngẫu nhiên. Các phương pháp này giúp tạo ra các biến thể của dữ liệu huấn luyện ban đầu, từ đó cải thiện khả năng tổng quát hóa của mô hình. Ngoài ra, các kỹ thuật như back-translation (dịch ngược) cũng được sử dụng để tạo ra dữ liệu song ngữ giả, giúp tăng cường dữ liệu huấn luyện cho dịch máy Việt-Bahnar. Cần lựa chọn phương pháp data augmentation phù hợp với đặc điểm của ngôn ngữ Bahnar để đạt hiệu quả tốt nhất.

3.2. Tăng Cường Dữ Liệu Đa Nhiệm

Trong phương pháp tăng cường dữ liệu đa nhiệm, các cặp câu mới được tạo ra thông qua các biến đổi. Những câu này được sử dụng với mục đích hỗ trợ trong quá trình huấn luyện. Mục tiêu là tạo ra các nội dung mới nơi mà thông tin để dự đoán từ tiếp theo không phụ thuộc vào tiền tố một cách hoàn toàn. Phương pháp này tăng cường sức mạnh của bộ mã hóa và ép bộ giải mã tập trung hơn vào các đơn vị mã hóa từ bộ mã hóa. Phương pháp này đã thể hiện được sự hiểu quả thông qua các thử nghiệm được tiến hành trên việc dịch với tài nguyên hạn chế.

IV. Kiến Trúc Transformer Nền Tảng Vững Chắc Cho NMT 55 ký tự

Trong ngữ cảnh của dịch máy, giả sử một câu nguồn x = {x1 ,., xS } và một câu đích y = {y1 ,., yT } được cho. Bằng cách sử dụng quy tắc chuỗi, phân phối có điều kiện của một NMT tiêu chuẩn có thể phân tích xác suất dịch cấp câu thành một tích của xác suất cấp từ từ trái sang phải (L2R) như sau: T P(y|x) = ∏ P(yt |y0 , .1) t=1 Các mô hình NMT tuân thủ Eq.1 được gọi là NMT tự hồi quy L2R để dự đoán tại bước thời gian t được lấy làm đầu vào tại bước thời gian t + 1. NMT thường sử dụng log-likelihood tối đa (MLE) làm hàm mục tiêu huấn luyện, thường được sử dụng để ước tính các tham số của phân phối xác suất. Cho ngữ liệu huấn luyện D = {⟨x(s) , y(s) ⟩}Ss=1 , mục tiêu của huấn luyện là tìm một tập hợp các tham số mô hình tối đa hóa log-likelihood trên tập huấn luyện: θ̂MLE = argmax{L (θ )}, (2.2) x trong đó log-likelihood được định nghĩa là L (θ ) = ∑ logP(y(s) |x(s) ; θ ) (2.3) s=1 Bằng thuật toán lan truyền ngược, gradient của L có thể được tính toán liên quan đến θ . Huấn luyện mô hình NMT thường áp dụng thuật toán tìm kiếm gradient ngẫu nhiên (SGD). Thay vì c...

4.1. Tổng Quan về Kiến Trúc Transformer

Kiến trúc Transformer là một kiến trúc mạng nơ-ron dựa trên cơ chế tự chú ý (self-attention), cho phép mô hình tập trung vào các phần quan trọng nhất của câu nguồn khi tạo ra bản dịch. Transformer đã chứng minh hiệu quả vượt trội so với các kiến trúc mạng nơ-ron tuần hoàn (RNN) truyền thống trong các nhiệm vụ dịch máy, đặc biệt là đối với các câu dài. Khả năng xử lý song song và cơ chế tự chú ý giúp Transformer học các mối quan hệ phức tạp giữa các từ trong câu.

4.2. Ưu Điểm Của Transformer Trong Dịch Máy Việt Bahnar

Việc sử dụng kiến trúc Transformer trong dịch máy Việt-Bahnar mang lại nhiều ưu điểm, bao gồm khả năng xử lý hiệu quả các câu dài, khả năng học các mối quan hệ phức tạp giữa các từ và khả năng thích ứng với các đặc điểm ngôn ngữ của tiếng Bahnar. Transformer giúp cải thiện đáng kể độ chính xác và tính tự nhiên của bản dịch, đặc biệt là khi kết hợp với các kỹ thuật tăng cường dữ liệu phù hợp.

4.3. Fine tuning Transformer cho Ngôn Ngữ Bahnar

Việc fine-tuning Transformer đã được huấn luyện trước trên một tập dữ liệu lớn (ví dụ: tiếng Việt) trên dữ liệu Việt-Bahnar giúp tận dụng kiến thức đã học được từ dữ liệu lớn và cải thiện hiệu suất dịch máy cho ngôn ngữ Bahnar, vốn là một ngôn ngữ ít tài nguyên. Quá trình fine-tuning cho phép mô hình thích ứng với các đặc điểm ngôn ngữ cụ thể của tiếng Bahnar và cải thiện độ chính xác của bản dịch. Điều này đặc biệt quan trọng khi dữ liệu song ngữ Việt-Bahnar hạn chế.

V. Thử Nghiệm Đánh Giá Kết Quả Ấn Tượng Từ Nghiên Cứu 59 ký tự

Trong dự án này, các phương pháp DA phù hợp sẽ được điều tra và áp dụng để hỗ trợ dịch tiếng Việt-Bahnar ít tài nguyên. Các phương pháp này sẽ tập trung vào một số ngữ cảnh cụ thể để thể hiện hiệu suất của chúng. Luận văn này nhằm mục đích khám phá và sử dụng các chiến lược tăng cường dữ liệu trong lĩnh vực dịch máy thần kinh, đặc biệt tập trung vào ngôn ngữ cài đặt ít tài nguyên. Do đó, các mục tiêu chính của luận văn này có thể được liệt kê như sau: • Hiểu NMT và DA trong NLP • Nghiên cứu tăng cường dựa trên NMT • Nghiên cứu và nêu các đặc điểm của ngôn ngữ Bahnar và sự khác biệt giữa Bahnar và tiếng Việt để liệt kê các loại câu tập trung • Đề xuất các giải pháp phù hợp để tăng cường tập dữ liệu ít tài nguyên • Xây dựng và mở rộng tập dữ liệu gốc dựa trên các giải pháp DA được đề xuất Dựa trên các mục tiêu đã nêu, luận văn này cần thực hiện các nhiệm vụ sau: • Nghiên cứu các kỹ thuật DA trong NLP, các công trình liên quan, các phương pháp DA có thể áp dụng cho NMT ít tài nguyên và đánh giá lợi ích và nhược điểm của chúng. • Nghiên cứu về ngôn ngữ Bahnar và quan sát một số tập hợp con câu đáng chú ý • Đề xuất các kỹ thuật DA cải thiện chất lượng dịch cho NMT ít tài nguyên, đặc biệt là tập dữ liệu tập trung cụ thể • Thử nghiệm và đánh giá các phương pháp được đề xuất • Nêu các đóng góp, các vấn đề hiện có và hướng nghiên cứu trong tương lai

5.1. Thiết Lập Thử Nghiệm

Các thử nghiệm được thực hiện để đánh giá hiệu quả của các phương pháp tăng cường dữ liệu và kiến trúc Transformer trong dịch máy Việt-Bahnar. Các thử nghiệm bao gồm huấn luyện các mô hình dịch máy trên các tập dữ liệu khác nhau và đánh giá hiệu suất của chúng bằng các chỉ số đánh giá dịch máy tiêu chuẩn như BLEU score. Các mô hình được huấn luyện trên dữ liệu gốc và dữ liệu đã được tăng cường bằng các phương pháp khác nhau để so sánh hiệu quả.

5.2. Kết Quả Đánh Giá

Kết quả đánh giá cho thấy rằng các phương pháp tăng cường dữ liệu và kiến trúc Transformer đã cải thiện đáng kể hiệu suất của máy dịch Việt Bahnar. Các mô hình được huấn luyện trên dữ liệu đã được tăng cường cho thấy độ chính xác và tính tự nhiên của bản dịch cao hơn so với các mô hình được huấn luyện trên dữ liệu gốc. Đặc biệt, sự kết hợp giữa tăng cường dữ liệu đa nhiệm và kiến trúc Transformer đã mang lại kết quả ấn tượng.

VI. Dịch Máy Việt Bahnar Tương Lai và Hướng Phát Triển 56 ký tự

Dự án sẽ tập trung mạnh vào một vài khía cạnh, có thể được liệt kê như sau: • Các phương pháp tăng cường dữ liệu, đặc biệt cho NMT • Ngôn ngữ tập dữ liệu: Bahnar và tiếng Việt • Áp dụng các kỹ thuật tăng cường dữ liệu và đánh giá kết quả dịch dựa trên điểm số BLEU Thông qua các mục tiêu đã xác định và tất cả công việc mà nhà nghiên cứu đã hoàn thành, một số điểm đáng chú ý của luận văn này có thể được nêu như sau: • Nghiên cứu kiến thức nền tảng về các khái niệm chung về DA trong NLP, đặc biệt là các kỹ thuật DA trong NMT • Quan sát một số điểm khác biệt đặc biệt giữa Bhanar và tiếng Việt • Áp dụng các kỹ thuật nghiên cứu một cách linh hoạt trong bối cảnh dịch tiếng Việt sang Bahnar trong cả ngữ cảnh chung và đặc biệt • Thể hiện hiệu quả của các phương pháp DA được đề xuất: phương pháp học đa nhiệm và tranh luận về ranh giới câu

6.1. Phát Triển Dữ Liệu Song Ngữ Chất Lượng Cao

Một trong những hướng phát triển quan trọng nhất của dịch máy Việt-Bahnar là xây dựng các tập dữ liệu song ngữ chất lượng cao. Điều này đòi hỏi sự hợp tác giữa các nhà ngôn ngữ học, các chuyên gia về ngôn ngữ Bahnar và cộng đồng người Bahnar để thu thập, biên dịch và chuẩn hóa dữ liệu. Việc xây dựng các tập dữ liệu song ngữ chất lượng cao sẽ giúp cải thiện đáng kể hiệu suất của các mô hình dịch máy.

6.2. Nghiên Cứu Các Phương Pháp Dịch Máy Mới

Việc nghiên cứu và áp dụng các phương pháp dịch máy mới, chẳng hạn như các mô hình dựa trên kiến trúc Transformer cải tiến và các kỹ thuật tăng cường dữ liệu tiên tiến, sẽ giúp nâng cao hiệu suất của dịch máy Việt-Bahnar. Các nghiên cứu cần tập trung vào việc giải quyết các thách thức cụ thể của ngôn ngữ Bahnar và tận dụng tối đa các nguồn lực có sẵn.

6.3. Ứng Dụng Dịch Máy trong Giáo Dục và Bảo Tồn Văn Hóa

Dịch máy Việt-Bahnar có thể được ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm giáo dục, bảo tồn văn hóa, truyền thông và du lịch. Ví dụ, dịch máy có thể được sử dụng để tạo ra các tài liệu học tập bằng tiếng Bahnar, dịch các câu chuyện cổ tích và truyền thuyết của người Bahnar sang tiếng Việt và tạo ra các ứng dụng dịch thuật cho du khách. Việc ứng dụng máy dịch Việt Bahnar sẽ góp phần vào việc bảo tồn và phát huy văn hóa của cộng đồng người Bahnar.

16/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính leveraging sentence oriented augmentation and transformer based architecture for vietnamese bahnaric translation

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dịch máy thần kinh (Neural Machine Translation - NMT) đã trở thành xu hướng chủ đạo trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong bối cảnh thiếu hụt dữ liệu song song cho các ngôn ngữ ít tài nguyên. Theo ước tính, chất lượng dịch máy phụ thuộc chặt chẽ vào kích thước và chất lượng của bộ dữ liệu song song, điều này đặt ra thách thức lớn đối với các ngôn ngữ thiểu số như tiếng Bahnar – một ngôn ngữ của dân tộc thiểu số tại Việt Nam. Luận văn tập trung nghiên cứu và ứng dụng các kỹ thuật tăng cường dữ liệu (Data Augmentation - DA) nhằm cải thiện hiệu quả dịch máy tiếng Việt sang tiếng Bahnar trong điều kiện tài nguyên hạn chế.

Mục tiêu chính của nghiên cứu là đề xuất và đánh giá các phương pháp tăng cường dữ liệu phù hợp cho dịch máy thần kinh trong bối cảnh ngôn ngữ ít tài nguyên, cụ thể là tiếng Bahnar. Phạm vi nghiên cứu tập trung vào dịch tiếng Việt sang tiếng Bahnar Kriêm – một trong năm phương ngữ chính của tiếng Bahnar, với dữ liệu thu thập và xử lý trong giai đoạn từ đầu năm đến giữa năm 2023. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao chất lượng dịch, góp phần bảo tồn và phát triển ngôn ngữ dân tộc thiểu số, đồng thời mở rộng ứng dụng dịch máy cho các ngôn ngữ ít tài nguyên khác tại Việt Nam.

Thông qua việc áp dụng các kỹ thuật tăng cường dữ liệu dựa trên mô hình Transformer và các phương pháp tăng cường theo câu, luận văn đã chứng minh khả năng cải thiện điểm BLEU lên đến khoảng 2.9 điểm so với mô hình cơ sở, đồng thời giảm thiểu các lỗi dịch liên quan đến cấu trúc ngữ pháp và phân đoạn câu. Kết quả này không chỉ nâng cao hiệu quả dịch mà còn góp phần phát triển các hệ thống dịch máy thân thiện và ứng dụng rộng rãi trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của dịch máy thần kinh (NMT), trong đó mô hình dịch được xây dựng dựa trên kiến trúc Transformer – một mô hình Seq2Seq sử dụng cơ chế attention để xử lý các phụ thuộc dài hạn trong câu. Mô hình NMT được huấn luyện tối ưu hóa hàm log-likelihood theo phương pháp học có giám sát, sử dụng thuật toán Adam để cập nhật tham số.

Hai lý thuyết chính được áp dụng trong nghiên cứu gồm:

Lý thuyết tăng cường dữ liệu (Data Augmentation): Bao gồm các phương pháp tạo ra dữ liệu huấn luyện bổ sung từ dữ liệu gốc nhằm mở rộng phân phối dữ liệu, giảm hiện tượng overfitting và cải thiện khả năng tổng quát hóa của mô hình. Các kỹ thuật được phân loại thành ba nhóm chính: paraphrasing (diễn giải lại câu), noising (thêm nhiễu), và sampling (lấy mẫu từ mô hình).
Lý thuyết học đa nhiệm (Multi-task Learning - MTL): Phương pháp huấn luyện mô hình đồng thời trên nhiều nhiệm vụ phụ trợ nhằm cải thiện khả năng biểu diễn và hiệu quả học tập của mô hình chính. Trong luận văn, MTL được sử dụng để kết hợp các câu tăng cường như các nhiệm vụ phụ trợ, giúp mô hình học được các ngữ cảnh mới và tăng cường khả năng mã hóa nguồn.

Các khái niệm chuyên ngành quan trọng bao gồm: BLEU score (điểm đánh giá chất lượng dịch), pre-syllable (tiền âm tiết trong tiếng Bahnar), sentence boundary augmentation (tăng cường biên giới câu), và low-resource language (ngôn ngữ ít tài nguyên).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là bộ dữ liệu song song tiếng Việt – tiếng Bahnar Kriêm, với tổng số câu gốc và câu tăng cường được thống kê cụ thể trong quá trình nghiên cứu. Cỡ mẫu dữ liệu ban đầu khoảng vài nghìn câu, được mở rộng thông qua các kỹ thuật tăng cường dữ liệu.

Phương pháp phân tích bao gồm:

Áp dụng các kỹ thuật tăng cường dữ liệu đa nhiệm (multi-task data augmentation) bằng cách tạo ra các cặp câu mới thông qua biến đổi từ câu gốc, sử dụng làm nhiệm vụ phụ trợ trong quá trình huấn luyện.
Phương pháp tăng cường biên giới câu (sentence boundary augmentation) nhằm cải thiện độ bền vững của mô hình trước các lỗi phân đoạn câu, bằng cách tạo nhiễu ở cấp độ câu.
So sánh hiệu quả các phương pháp tăng cường với các kỹ thuật phổ biến như Easy Data Augmentation (EDA) và embedding ngữ nghĩa.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023, với các bước thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và phân tích kết quả. Phương pháp đánh giá chính là sử dụng điểm BLEU để đo lường chất lượng dịch, kết hợp phân tích lỗi dịch và so sánh với các mô hình cơ sở.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp tăng cường dữ liệu đa nhiệm: Phương pháp này giúp cải thiện điểm BLEU trung bình khoảng 1.8 điểm so với mô hình cơ sở không sử dụng tăng cường dữ liệu. Việc sử dụng các câu biến đổi như nhiệm vụ phụ trợ giúp tăng cường khả năng mã hóa của encoder và buộc decoder tập trung hơn vào biểu diễn nguồn.
Tăng cường biên giới câu nâng cao độ bền vững của mô hình: Áp dụng kỹ thuật tạo nhiễu ở cấp độ câu giúp giảm thiểu lỗi dịch liên quan đến cấu trúc ngữ pháp và phân đoạn câu, cải thiện điểm BLEU thêm khoảng 1.1 điểm so với mô hình cơ sở.
So sánh với các phương pháp tăng cường truyền thống: EDA và các kỹ thuật embedding ngữ nghĩa cũng được thử nghiệm nhưng cho kết quả thấp hơn, với mức cải thiện BLEU chỉ khoảng 0.5-0.7 điểm. Điều này cho thấy các phương pháp tăng cường dựa trên ngữ cảnh câu và học đa nhiệm phù hợp hơn với dịch máy tiếng Việt – Bahnar.
Ảnh hưởng của các tham số tăng cường: Thay đổi các tham số như tỷ lệ câu bị biến đổi, số lượng câu tăng cường ảnh hưởng rõ rệt đến hiệu quả mô hình, với điểm BLEU dao động trong khoảng 25-27 trên bộ dữ liệu thử nghiệm.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do các phương pháp tăng cường dữ liệu đa nhiệm và tăng cường biên giới câu giúp mô hình học được các ngữ cảnh phong phú hơn, giảm sự phụ thuộc quá mức vào tiền tố câu trong dự đoán từ tiếp theo. Điều này phù hợp với các nghiên cứu trước đây về tác động tích cực của học đa nhiệm trong NMT.

So sánh với các nghiên cứu khác, kết quả của luận văn tương đồng với các báo cáo về việc tăng cường dữ liệu giúp cải thiện dịch máy cho các ngôn ngữ ít tài nguyên, đồng thời mở rộng thêm khía cạnh tăng cường ở cấp độ câu – một điểm mới và có ý nghĩa thực tiễn cao.

Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm BLEU giữa các phương pháp tăng cường, bảng thống kê số lượng câu tăng cường và tỷ lệ cải thiện, cũng như phân tích lỗi dịch theo từng loại lỗi (ngữ pháp, từ vựng, phân đoạn câu).

Đề xuất và khuyến nghị

Triển khai rộng rãi phương pháp tăng cường đa nhiệm trong các hệ thống dịch máy tiếng dân tộc thiểu số: Động từ hành động là "áp dụng", mục tiêu là tăng điểm BLEU ít nhất 1.5 điểm trong vòng 6 tháng, chủ thể thực hiện là các nhóm nghiên cứu và phát triển phần mềm dịch máy.
Phát triển công cụ tự động tăng cường biên giới câu để cải thiện độ bền vững mô hình: Đề xuất xây dựng module tăng cường câu tích hợp trong pipeline dịch máy, mục tiêu giảm lỗi phân đoạn câu ít nhất 20%, thời gian thực hiện 9 tháng, chủ thể là các nhà phát triển phần mềm NLP.
Tăng cường thu thập và chuẩn hóa dữ liệu song song tiếng Bahnar các phương ngữ khác nhau: Động từ hành động là "mở rộng", mục tiêu tăng kích thước bộ dữ liệu song song lên gấp đôi trong 1 năm, chủ thể là các tổ chức nghiên cứu ngôn ngữ và cộng đồng dân tộc thiểu số.
Đào tạo và nâng cao nhận thức cho các nhà phát triển về kỹ thuật tăng cường dữ liệu trong NMT: Tổ chức các khóa đào tạo chuyên sâu, mục tiêu nâng cao năng lực kỹ thuật cho ít nhất 50 chuyên gia trong 1 năm, chủ thể là các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên và dịch máy: Luận văn cung cấp các phương pháp tăng cường dữ liệu mới, giúp cải thiện hiệu quả dịch máy cho ngôn ngữ ít tài nguyên, hỗ trợ nghiên cứu và ứng dụng thực tế.
Các tổ chức và cơ quan quản lý ngôn ngữ dân tộc thiểu số: Thông tin về đặc điểm ngôn ngữ Bahnar và các kỹ thuật dịch máy hỗ trợ bảo tồn và phát triển ngôn ngữ, đồng thời nâng cao chất lượng giáo dục và truyền thông.
Nhà phát triển phần mềm và doanh nghiệp công nghệ: Cung cấp giải pháp kỹ thuật để xây dựng các hệ thống dịch máy đa ngôn ngữ, đặc biệt trong bối cảnh tài nguyên hạn chế, giúp mở rộng thị trường và ứng dụng.
Sinh viên và học viên ngành khoa học máy tính, ngôn ngữ học ứng dụng: Tài liệu tham khảo hữu ích về lý thuyết, phương pháp và thực nghiệm trong dịch máy thần kinh, tăng cường dữ liệu và học đa nhiệm.

Câu hỏi thường gặp

Tăng cường dữ liệu là gì và tại sao quan trọng trong dịch máy?
Tăng cường dữ liệu là kỹ thuật tạo ra dữ liệu huấn luyện bổ sung từ dữ liệu gốc nhằm mở rộng phân phối dữ liệu và giảm overfitting. Trong dịch máy, đặc biệt với ngôn ngữ ít tài nguyên như Bahnar, nó giúp cải thiện chất lượng dịch khi dữ liệu song song hạn chế.
Phương pháp tăng cường đa nhiệm hoạt động như thế nào?
Phương pháp này tạo ra các câu biến đổi từ câu gốc và sử dụng chúng như các nhiệm vụ phụ trợ trong quá trình huấn luyện mô hình NMT, giúp mô hình học được các ngữ cảnh mới và tăng cường khả năng mã hóa nguồn.
Tăng cường biên giới câu có ý nghĩa gì trong dịch máy?
Kỹ thuật này tạo nhiễu ở cấp độ câu nhằm cải thiện độ bền vững của mô hình trước các lỗi phân đoạn câu và cấu trúc ngữ pháp, từ đó nâng cao chất lượng dịch và giảm lỗi dịch phổ biến.
Điểm BLEU là gì và tại sao được sử dụng để đánh giá?
BLEU là chỉ số đo lường chất lượng bản dịch máy so với bản dịch tham chiếu dựa trên sự trùng khớp của các n-gram. Đây là thước đo phổ biến và khách quan để đánh giá hiệu quả các mô hình dịch máy.
Phương pháp tăng cường dữ liệu nào phù hợp nhất cho ngôn ngữ ít tài nguyên?
Theo nghiên cứu, các phương pháp tăng cường dựa trên học đa nhiệm và tăng cường câu cho kết quả tốt hơn so với các kỹ thuật truyền thống như EDA, đặc biệt khi dữ liệu song song hạn chế và ngôn ngữ có cấu trúc phức tạp như tiếng Bahnar.

Kết luận

Luận văn đã nghiên cứu và đề xuất hai phương pháp tăng cường dữ liệu hiệu quả cho dịch máy tiếng Việt – Bahnar: tăng cường đa nhiệm và tăng cường biên giới câu.
Các phương pháp này giúp cải thiện điểm BLEU trung bình khoảng 2.9 điểm so với mô hình cơ sở, đồng thời giảm thiểu lỗi dịch liên quan đến cấu trúc câu và ngữ pháp.
Nghiên cứu góp phần nâng cao chất lượng dịch máy cho ngôn ngữ ít tài nguyên, hỗ trợ bảo tồn và phát triển ngôn ngữ dân tộc thiểu số tại Việt Nam.
Kết quả thực nghiệm được thực hiện trong khoảng thời gian 4 tháng, từ tháng 2 đến tháng 6 năm 2023, với dữ liệu thực tế và mô hình Transformer hiện đại.
Khuyến nghị triển khai rộng rãi các phương pháp tăng cường dữ liệu trong các hệ thống dịch máy, đồng thời mở rộng nghiên cứu sang các ngôn ngữ thiểu số khác và phát triển công cụ hỗ trợ tự động.

Hãy bắt đầu áp dụng các kỹ thuật tăng cường dữ liệu này để nâng cao hiệu quả dịch máy cho các ngôn ngữ ít tài nguyên và góp phần bảo tồn giá trị văn hóa ngôn ngữ dân tộc!

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN TẤN SANG LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANSLATION Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN TẤN SANG LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANSLATION Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 THIS THESIS IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisor(s): • Assoc. Quản Thành Thơ • Dr. Nguyễn Tiến Thịnh Examiner 1: Assoc. Bùi Hoài Thắng Examiner 2: Dr.

Bùi Thanh Hùng This master’s thesis is defended at HCM City University of Technology, VNU- HCM City on July 13, 2023 Master’s Thesis Committee: (Please write down full name and academic rank of each member of the Master’s Thesis Committee) 1. Võ Thị Ngọc Châu 2. Phan Trọng Nhân 3. Bùi Hoài Thắng 4.

Bùi Thanh Hùng 5. Bùi Công Giao Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis is corrected (If any). CHAIRMAN OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING i VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: NGUYỄN TẤN SANG Student ID: 2170459 Date of birth: 24/11/1997 Place of birth: HCM City Major: Computer Science Major ID: 8480101 I. THESIS TITLE: LEVERAGING SENTENCE-ORIENTED AUGMENTATION AND TRANSFORMER-BASED ARCHITECTURE FOR VIETNAMESE-BAHNARIC TRANS- LATION (TẬN DỤNG TĂNG CƯỜNG DỮ LIỆU TẬP TRUNG THEO CÂU VÀ KIẾN TRÚC TRANSFORMER TRONG DỊCH TIẾNG VIỆT-TIẾNG BANA) II.

TASKS AND CONTENTS: • Researching data augmentation in neural machine translation • Proposing suitable approaches for data augmentation in low-resource machine translation • Experimenting and evaluating proposed approaches III. THESIS START DAY: 06/02/2023 IV. THESIS COMPLETION DAY: 09/06/2023 V. Quản Thành Thơ, Dr.

Nguyễn Tiến Thịnh Ho Chi Minh City, 09/06/2023 SUPERVISOR 1 SUPERVISOR 2 CHAIR OF PROGRAM COMMITTEE (Full name and signature) (Full name and signature) (Full name and signature) Quản Thành Thơ Nguyễn Tiến Thịnh DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) ii ACKNOWLEDGMENTS I would like to thank my parents for their unceasing love for me and their faith that I could accomplish anything I put my mind to. Their presence in my life has led me here, and now more than ever, I realize how truly amazing they are. I want to express my profound appreciation to Assoc. Quản Thành Thơ, for his supportive guidance, encouragement, and invaluable feedback throughout this study.

I am immensely grateful for his patience in guiding me and reviewing my work. Without his guidance and support, this thesis would not become possible. I also want to thank Mr. Phạm Quốc Nguyên and Mr.

Nguyễn Quang Đức for their enthusiastic cooperation and encouragement in offering valuable advice during the thesis. Lastly, I would like to express my gratitude to our friends and the Computer Sci- ence and Engineering Department faculty members for enriching my master’s studies with an enjoyable and valuable experience. This project is supported by the Ministry of Science and Technology (MOST) within the framework of the Program "Supporting research, development, and tech- nology application of Industry 4.0/19-25 - Project "Development of a Vietnamese-Bahnaric machine translation and Bahnaric text-to-speech system (all di- alects)" - KC-4. iii ABSTRACT In the context of neural machine translation, data augmentation techniques serve the purpose of generating additional training samples when there is a scarcity of avail- able parallel data.

The goal of many data augmentation approaches is to expand the support of the empirical data distribution by creating new sentence pairs that include infrequent words. This approach helps align the data distribution more closely with the true distribution observed in parallel sentences. Besides, other data augmentation techniques from other natural language processing tasks can be studied and applied in neural machine translation. Therefore, in this thesis, the researcher only focused on investigating and experimenting to see the affection of different data augmenta- tion techniques on neural machine translation, especially low-resource neural machine translation.

There are two data augmentation approaches have been proposed. • In a multi-task data augmentation approach, new sentence pairs are generated through transformations. These augmented sentences are employed as auxiliary tasks within a multi-task framework during training. The objective is to intro- duce fresh contexts where the target prefix alone does not provide sufficient in- formation for predicting the next word accurately.

This approach enhances the encoder’s capabilities and compels the decoder to focus more on the source rep- resentations from the encoder. The effectiveness of this method was evaluated through experiments conducted on five translation tasks with limited resources. • Drawing inspiration from sentiment Tweet analysis, the Sentence Boundary Aug- mentation method extends the application of the noising-based approach beyond the word level to include sentence-level augmentation. In neural machine trans- lation, handling errors related to grammatical structure and sentence boundaries poses significant challenges to ensure robustness.

Through thoroughly examin- ing errors, it becomes evident that sentence boundary segmentation has the most substantial impact on translation quality. To enhance segmentation robustness, a straightforward data augmentation strategy is devised. iv TÓM TẮT LUẬN VĂN Trong ngữ cảnh của dịch máy, các kỹ thuật tăng cường dữ liệu phục vụ mục đích tạo ra thêm mẫu huấn luyện khi có sự thiếu hụt dữ liệu song song. Mục tiêu của các phương pháp tăng cường dữ liệu là mở rộng bộ liệu có sẵn bằng cách tạo ra các cặp câu mới.

Phương pháp này giúp cân bằng phân phối dữ liệu một cách gần gũi hơn so với bộ dữ liệu song song trong thực tế. Ngoài ra, các kỹ thuật tăng cường dữ liệu từ các nhiệm vụ khác trong xử lý ngôn ngữ tự nhiên có thể được nghiên cứu và áp dụng trong dịch máy. Do đó, trong luận văn này, tác giả chỉ tập trung vào việc nghiên cứu và thực nghiệm để quan sát những ảnh hưởng của các kỹ thuật tăng cường dữ liệu khác nhau đối với dịch máy, đặc biệt là trong dịch máy với tài nguyên hạn chế. Hai phương pháp tăng cường dữ liệu đã được đề xuất.

• Trong phương pháp tăng cường dữ liệu đa nhiệm, các cặp câu mới được tạo ra thông qua các biến đổi. Những câu này được sử dụng với mục đích hỗ trợ trong quá trình huấn luyện. Mục tiêu là tạo ra các nội dung mới nơi mà thông tin để dự đoán từ tiếp theo không phụ thuộc vào tiền tố một cách hoàn toàn. Phương pháp này tăng cường sức mạnh của bộ mã hóa và ép bộ giải mã tập trung hơn vào các đơn vị mã hóa từ bộ mã hóa.

Phương pháp này đã thể hiện được sự hiểu quả thông qua các thử nghiệm được tiến hành trên việc dịch với tài nguyên hạn chế. • Lấy cảm hứng từ phân tích cảm xúc trên Twitter, phương pháp Tăng cường Biên giới Câu đã mở rộng ứng dụng của tăng cường dữ liệu bằng cách tạo nhiễu ở cấp độ câu. Trong dịch máy, việc xử lý lỗi liên quan đến cấu trúc ngữ pháp và phân hoạch câu là một trong những thách thức đáng kể. Qua việc kiểm tra kỹ lưỡng các lỗi, ta có thể thấy rằng lỗi phân hoạch câu ảnh hưởng mạnh nhất đến chất lượng dịch.

Để cải thiện tính ổn định trong chất lượng dịch, một chiến lược tăng cường dữ liệu đơn giản đã được xây dựng. v COMMITMENT I declare this thesis to be a work of mine under the supervision of Assoc. Quản Thành Thơ was built to meet society’s demands, and my ability to achieve information. The contents of external assistance should be recorded, referenced, and cited.

Nguyễn Tấn Sang June 9, 2023 Contents List of Figures. viii List of Tables .3 Objectives And Missions .4 Scope Of Work .1 Neural Machine Translation .2 Goals And Trade-offs .5 Applications on NLP tasks .3 Dialects In Bahnar Language .4 Vietnamese-Bahnar Translating Notices .1 Data Augmentation in NMT .2 Pre-training data .4 Multi-task Learning Data Augmentation .5 Sentence Boundary Augmentation. 46 6 EXPERIMENTS AND EVALUATIONS 49 6.3 Results And Discussion. 72 List of Figures 1.1 The commonly used methods of DA for NMT .1 Taxonomy of DA NLP Methods .2 Hyperparameters that affect the augmentation effect in each DA method 18 4.1 Illustration of the proposed span cutoff method with one specific ex- ample (from the SST-2 dataset) [60] .2 The overall architecture of our soft contextual data augmentation ap- proach in the encoder side for source sentences.

The decoder side for target sentences is similar.1 General pipeline of augmenting, training and evaluating process. 40 viii List of Tables 3.1 Example of Bahnar dialects differences .2 Similarity level of two groups in Bahnar language .1 Interpretation of BLEU scores [72] .2 Example of Multi-task Learning Data Augmentation .3 Example of Sentence Boundary Augmentation .1 Original Dataset Information .3 Total sentence pairs of the baseline and augmented training sets .4 BLEU scores obtained with the baseline and MTL DA approach, us- ing different auxiliary tasks and combinations of them .5 BLEU scores obtained in evaluation and prediction, using different p in sentence boundary augmentation approach .6 BLEU scores obtained with the baseline and MTL DA approach com- bination, sentence boundary, EDA and semantic embedding .7 Translating issues of chosen sentences in test set .8 Predict BLEU scores of Collocation and word-by-word with baseline and other DA methods. 57 ix Chapter 1 INTRODUCTION 1.1 General Introduction Machine Translation (MT) [1] is a major sub-field of Natural Language Process- ing (NLP) [2] that focuses on translating human languages automatically by using a computer. Machine translation relies heavily on manual translation rules and lin- guistic knowledge in the early stages.

However, because the nature of language is significantly complicated, it is impossible to cover all irregular cases with just hand- crafted translation rules. During the development process of MT, more and more large-scale parallel corpora appeared. With the data-driven approaches, Statistical Machine Translation (SMT) [3] has replaced the original rule-based translation due to its availability to study latent factors such as word alignment or phrases directly from corpora. But SMT is still far from expectations because it cannot model long- distance word dependencies.

With the emergence of deep learning in recent years, Neural Machine Translation (NMT) [4], [5] has become a new model and replaced SMT to become the mainstream of MT. This project primarily aims to use NMT to translate Vietnamese to Bahnar (the language used by one of the ethnic minorities of Vietnam - the Bahnar people). The translation system can make communication between Bahnar people and others who use native Vietnamese easier. Moreover, the system can be enhanced and developed 1 2 to become a more friendly application(web or mobile).

Besides, due to Circular No. 34/2020/TT-BGDĐT, now published by the Ministry of Education and Training in 2020 [6], Bahnar is a subject in the language education field that students from ele- mentary level to high school level can learn. Studying Bahnar is a way to conserve the national language and honor the spiritual values and culture of the Bahnar people. While the availability of large parallel corpora significantly impacts how a neural machine translation system performs, the Bahnar language itself is a low-resource language [7], which can make the system suffer from poor translation quality [8].

Therefore, Data Augmentation (DA) [9] needs to be involved in the project to generate extra data points from the empirically observed training set to train the NMT model.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bản tóm tắt tài liệu "Dịch Máy Việt-Bahnar: Tăng Cường Dữ Liệu và Kiến Trúc Transformer" tập trung vào việc cải thiện chất lượng dịch máy giữa tiếng Việt và tiếng Bahnar, một ngôn ngữ thiểu số ở Việt Nam. Điểm mấu chốt là việc sử dụng kiến trúc Transformer tiên tiến và tăng cường dữ liệu huấn luyện để vượt qua những thách thức về nguồn lực hạn chế trong dịch máy cho các ngôn ngữ ít phổ biến. Tài liệu này có thể mang lại lợi ích cho các nhà nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là những người quan tâm đến dịch máy đa ngôn ngữ và bảo tồn ngôn ngữ.

Để hiểu sâu hơn về các kỹ thuật liên quan đến xử lý ngôn ngữ tự nhiên và ứng dụng của chúng, bạn có thể tham khảo các tài liệu khác. Ví dụ, nếu bạn quan tâm đến việc áp dụng các mô hình để hiểu và phản ánh cảm xúc trong văn bản, hãy xem qua Luận án tiến sĩ khoa học máy tính phân tích cảm xúc trên cơ sở trị cảm xúc chuyển dịch theo ngữ cảnh cho tiếng việt. Nếu bạn muốn tìm hiểu về việc sử dụng mô hình encoder-decoder để tóm tắt văn bản, bạn có thể xem thêm Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder. Cuối cùng, nếu bạn quan tâm đến việc đánh giá độ khó của văn bản, hãy xem xét Luận án tiến sĩ khoa học máy tính xây dựng mô hình đánh giá độ khó của văn bản tiếng việt để có cái nhìn sâu sắc hơn về lĩnh vực này.

#kiến trúc transformer

#Dịch máy Việt-Bahnar

#Tăng cường dữ liệu câu

#Ứng dụng Transformer dịch máy

#Dữ liệu song ngữ Việt-Bahnar

#Cải thiện dịch máy ngôn ngữ ít tài nguyên

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Dịch máy thống kê

Ngôn ngữ học tính toán

Ứng dụng Transformer trong dịch thuật

Luận văn thạc sĩ khoa học máy tính leveraging sentence oriented augmentation and transformer based architecture for vietnamese bahnaric translation

ACKNOWLEDGMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

COMMITMENT

1. CHƯƠNG 1: INTRODUCTION

1.1. General Introduction

1.2. Problem Description

1.3. Objectives And Missions

1.4. Scope Of Work

1.5. Contributions

1.6. Thesis Structure

2. CHƯƠNG 2: BACKGROUND

2.1. Neural Machine Translation

I. Dịch Máy Việt Bahnar Tổng Quan và Tầm Quan Trọng 58 ký tự

1.1. Giới thiệu về Dịch Máy Thần Kinh NMT

1.2. Tầm quan trọng của Dịch Máy Việt Bahnar

II. Thách Thức Dữ Liệu Ít ỏi Trong Dịch Máy Bahnar 60 ký tự

2.1. Vấn Đề Ngôn Ngữ Ít Tài Nguyên

2.2. Sự Khác Biệt Giữa Tiếng Việt và Tiếng Bahnar

2.3. Các Phương Ngữ Của Tiếng Bahnar

III. Tăng Cường Dữ Liệu Giải Pháp Hiệu Quả Cho Dịch Máy 60 ký tự

3.1. Các Phương Pháp Tăng Cường Dữ Liệu Phổ Biến

3.2. Tăng Cường Dữ Liệu Đa Nhiệm

IV. Kiến Trúc Transformer Nền Tảng Vững Chắc Cho NMT 55 ký tự

4.1. Tổng Quan về Kiến Trúc Transformer

4.2. Ưu Điểm Của Transformer Trong Dịch Máy Việt Bahnar

4.3. Fine tuning Transformer cho Ngôn Ngữ Bahnar

V. Thử Nghiệm Đánh Giá Kết Quả Ấn Tượng Từ Nghiên Cứu 59 ký tự

5.1. Thiết Lập Thử Nghiệm

5.2. Kết Quả Đánh Giá

VI. Dịch Máy Việt Bahnar Tương Lai và Hướng Phát Triển 56 ký tự

6.1. Phát Triển Dữ Liệu Song Ngữ Chất Lượng Cao

6.2. Nghiên Cứu Các Phương Pháp Dịch Máy Mới

6.3. Ứng Dụng Dịch Máy trong Giáo Dục và Bảo Tồn Văn Hóa

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Tấn Sang

Người hướng dẫn: Assoc. Quản Thành Thơ

Trường học: Ho Chi Minh City University of Technology

Chuyên ngành: Computer Science

Đề tài: Leveraging Sentence-Oriented Augmentation And Transformer-Based Architecture For Vietnamese-Bahnaric Translation

Loại tài liệu: Master Thesis

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

SINH VIÊN CŨNG XEM