Dịch Máy Tiếng Việt – Ba Na Bằng Phương Pháp Attention

Luận văn thạc sĩ về dịch máy tiếng Việt sang Ba Na sử dụng phương pháp Attention. Nghiên cứu khoa học máy tính, ứng dụng học sâu trong dịch thuật ngôn ngữ.

Trường đại học

Trường Đại Học Bách Khoa – ĐHQG -HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2021

Phí lưu trữ

30 Point

Tóm tắt

I. Dịch Máy Việt Ba Na Tổng Quan và Tầm Quan Trọng 55 ký tự

Ngày nay, với sự phát triển của công nghệ và trí tuệ nhân tạo, dịch máy đóng vai trò quan trọng trong việc phá vỡ rào cản ngôn ngữ. Điều này giúp mọi người tiết kiệm thời gian khi tiếp xúc với ngôn ngữ mới. Luận văn này tập trung vào dịch máy tiếng Việt sang tiếng Ba Na bằng phương pháp attention. Đây là một nỗ lực để bảo tồn và phát huy bản sắc văn hóa của đồng bào Ba Na. Mục tiêu là xây dựng một hệ thống dịch máy hiệu quả, góp phần vào việc dạy và học tiếng Ba Na và tiếng Việt ở vùng đồng bào, thúc đẩy giao lưu văn hóa và phát triển kinh tế - xã hội. Luận văn dựa trên các nghiên cứu về học sâu, ứng dụng các phương pháp mới nhất, đặc biệt là mô hình sequence to sequence, kỹ thuật Attention, và kiến trúc Transformer đã thành công trong dịch thuật Anh-Đức. Dù dữ liệu hạn chế, hy vọng nghiên cứu này mang lại tính khả thi, giúp truyền tải nội dung chính phủ đến đồng bào Ba Na nhanh chóng.

1.1. Tại sao Dịch Máy Việt Ba Na Quan Trọng

Việc phát triển một hệ thống dịch máy tiếng Việt - Ba Na có ý nghĩa to lớn trong việc bảo tồn và phát huy giá trị văn hóa của cộng đồng người Ba Na. Như đã nêu trong tài liệu, tiếng nói và chữ viết đại diện cho đời sống tinh thần, nguyện vọng, văn hóa của mọi dân tộc. Trong bối cảnh hội nhập quốc tế, việc thu hẹp khoảng cách ngôn ngữ giúp đồng bào Ba Na tiếp cận thông tin, kiến thức một cách dễ dàng hơn. Điều này thúc đẩy sự phát triển kinh tế - xã hội và nâng cao chất lượng cuộc sống. Việc có thể dịch nhanh chóng các văn bản hành chính, giáo dục và thông tin quan trọng đến người dân Ba Na sẽ tạo điều kiện cho họ tham gia đầy đủ hơn vào đời sống xã hội và nhận được những hỗ trợ cần thiết từ chính phủ.

1.2. Mục Tiêu Cụ Thể của Nghiên Cứu này

Mục tiêu chính của nghiên cứu là xây dựng một hệ thống dịch máy tự động từ tiếng Việt sang tiếng Ba Na, dựa trên các tiến bộ của học sâu và mô hình attention. Hệ thống này hướng đến việc chuyển tải nội dung các văn bản hành chính một cách nhanh chóng và chính xác đến đồng bào Ba Na. Bên cạnh đó, nghiên cứu cũng tập trung vào việc tìm hiểu sâu hơn về đặc điểm ngôn ngữ tiếng Ba Na, xây dựng bộ dữ liệu song ngữ, và phát triển các thuật toán dịch máy phù hợp. Thành công của dự án sẽ tạo tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực xử lý ngôn ngữ tự nhiên và dịch máy cho các ngôn ngữ thiểu số khác ở Việt Nam.

II. Thách Thức Dịch Máy Việt Ba Na và Hướng Giải Quyết 59 ký tự

Việc xây dựng một hệ thống dịch máy tiếng Việt - Ba Na đối mặt với nhiều thách thức. Dữ liệu song ngữ còn hạn chế là một trong những vấn đề lớn nhất. Thêm vào đó, sự khác biệt về cấu trúc ngữ pháp giữa hai ngôn ngữ, cũng như sự phức tạp của tiếng Ba Na, gây khó khăn cho việc phát triển các thuật toán dịch máy hiệu quả. Luận văn này đề xuất sử dụng mô hình sequence to sequence kết hợp kỹ thuật attention để giải quyết những thách thức này. Phương pháp attention cho phép mô hình tập trung vào các phần quan trọng của câu nguồn khi dịch, giúp cải thiện độ chính xác. Ngoài ra, việc áp dụng các kỹ thuật học sâu như mạng nơ-ron và word embedding giúp mô hình hiểu sâu hơn về ngữ nghĩa của hai ngôn ngữ.

2.1. Thiếu Dữ Liệu Song Ngữ Việt Ba Na Vấn Đề Cốt Lõi

Sự khan hiếm của dữ liệu song ngữ là một rào cản lớn đối với bất kỳ dự án dịch máy nào. Để huấn luyện một mô hình học sâu hiệu quả, cần có một lượng lớn dữ liệu song ngữ chất lượng cao. Tuy nhiên, do đặc thù của tiếng Ba Na, việc thu thập và xây dựng dữ liệu song ngữ gặp nhiều khó khăn. Nghiên cứu này đã nỗ lực thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm các văn bản hành chính, tài liệu giáo dục, và nội dung phát thanh. Tuy nhiên, cần có thêm nhiều nỗ lực trong việc xây dựng và chia sẻ dữ liệu song ngữ để thúc đẩy sự phát triển của lĩnh vực dịch máy tiếng Việt - Ba Na.

2.2. Ngữ Pháp Khác Biệt Làm Sao để Vượt Qua

Tiếng Việt và tiếng Ba Na thuộc về hai ngữ hệ khác nhau, dẫn đến sự khác biệt đáng kể về cấu trúc ngữ pháp. Điều này đòi hỏi các thuật toán dịch máy phải có khả năng xử lý các cấu trúc câu phức tạp và chuyển đổi giữa hai ngôn ngữ một cách chính xác. Kỹ thuật attention đóng vai trò quan trọng trong việc giải quyết vấn đề này. Nó cho phép mô hình tập trung vào các phần quan trọng của câu nguồn khi dịch, giúp đảm bảo rằng các mối quan hệ ngữ pháp được giữ nguyên trong bản dịch. Nghiên cứu cũng sử dụng các kỹ thuật word embedding để biểu diễn từ vựng của hai ngôn ngữ trong một không gian vector chung, giúp mô hình hiểu được sự tương đồng và khác biệt giữa các từ.

III. Mô Hình Attention Giải Pháp Dịch Máy Việt Ba Na 60 ký tự

Luận văn tập trung vào sử dụng mô hình attention trong dịch máy tiếng Việt - Ba Na. Attention mechanism giúp mô hình tập trung vào các phần quan trọng của câu nguồn khi tạo ra bản dịch. Cụ thể, mô hình sử dụng kiến trúc sequence to sequence, trong đó bộ mã hóa (encoder) xử lý câu tiếng Việt và bộ giải mã (decoder) tạo ra câu tiếng Ba Na. Attention được sử dụng để kết nối bộ mã hóa và bộ giải mã, cho phép bộ giải mã truy cập thông tin từ tất cả các trạng thái ẩn của bộ mã hóa. Điều này giúp mô hình tạo ra bản dịch chính xác và tự nhiên hơn. Nghiên cứu này cũng khám phá các biến thể khác nhau của attention mechanism để tìm ra cấu hình tốt nhất cho dịch máy tiếng Việt - Ba Na.

3.1. Cơ Chế Hoạt Động của Attention trong Dịch Máy

Attention mechanism cho phép mô hình dịch máy tự động học cách tập trung vào các phần quan trọng của câu nguồn khi tạo ra bản dịch. Khi dịch một từ, mô hình sẽ tính toán một tập hợp các trọng số (attention weights) cho tất cả các từ trong câu nguồn. Các trọng số này cho biết mức độ liên quan của mỗi từ trong câu nguồn đến từ hiện tại đang được dịch. Sau đó, mô hình sử dụng các trọng số này để kết hợp các trạng thái ẩn của bộ mã hóa thành một vector ngữ cảnh (context vector). Vector ngữ cảnh này chứa thông tin về các phần quan trọng của câu nguồn và được sử dụng để tạo ra từ tiếp theo trong bản dịch.

3.2. Ưu Điểm Vượt Trội của Mô Hình Sequence to Sequence

Mô hình sequence to sequence là một kiến trúc phổ biến trong dịch máy thần kinh (NMT). Nó bao gồm hai thành phần chính: bộ mã hóa (encoder) và bộ giải mã (decoder). Bộ mã hóa xử lý câu nguồn và tạo ra một biểu diễn vector của câu đó. Bộ giải mã sau đó sử dụng biểu diễn vector này để tạo ra câu đích. Sequence to sequence cho phép mô hình xử lý các câu có độ dài khác nhau và học các mối quan hệ phức tạp giữa các từ trong hai ngôn ngữ. Kết hợp với Attention mechanism, nó là một công cụ mạnh mẽ cho dịch máy tiếng Việt - Ba Na.

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Dịch Máy 58 ký tự

Luận văn trình bày kết quả thực nghiệm của mô hình dịch máy tiếng Việt - Ba Na sử dụng attention. Mô hình được huấn luyện trên một tập dữ liệu song ngữ thu thập từ nhiều nguồn khác nhau. Hiệu suất của mô hình được đánh giá bằng các chỉ số như BLEU score. Kết quả cho thấy mô hình đạt được độ chính xác đáng kể trong việc dịch các câu đơn giản. Tuy nhiên, hiệu suất giảm xuống đối với các câu phức tạp hơn. Phân tích lỗi cho thấy mô hình gặp khó khăn trong việc xử lý các từ hiếm và các cấu trúc ngữ pháp phức tạp. Nghiên cứu này cũng đề xuất các hướng cải tiến mô hình, bao gồm tăng cường dữ liệu huấn luyện, sử dụng các kỹ thuật tiền xử lý dữ liệu nâng cao, và khám phá các kiến trúc attention phức tạp hơn.

4.1. Tiêu Chí Đánh Giá Chất Lượng Bản Dịch BLEU

BLEU (Bilingual Evaluation Understudy) là một chỉ số phổ biến để đánh giá chất lượng của bản dịch máy. Nó so sánh bản dịch được tạo ra bởi mô hình với một hoặc nhiều bản dịch tham khảo do con người tạo ra. BLEU tính toán số lượng n-gram (chuỗi n từ) trùng khớp giữa bản dịch máy và bản dịch tham khảo, và sau đó kết hợp các kết quả này để tạo ra một điểm số tổng thể. Điểm BLEU cao hơn cho thấy bản dịch máy có chất lượng tốt hơn. Tuy nhiên, BLEU không phải là một chỉ số hoàn hảo và có một số hạn chế. Nó không thể đo lường được tính trôi chảy và tự nhiên của bản dịch, và nó có thể bị ảnh hưởng bởi sự khác biệt về phong cách viết giữa các bản dịch.

4.2. Kết Quả Thực Nghiệm và Phân Tích Lỗi Chi Tiết

Kết quả thực nghiệm cho thấy mô hình dịch máy tiếng Việt - Ba Na đạt được kết quả khả quan trên tập dữ liệu thử nghiệm. Điểm BLEU cho thấy mô hình có thể dịch chính xác một số câu đơn giản. Tuy nhiên, phân tích lỗi cho thấy mô hình gặp khó khăn với các câu phức tạp, đặc biệt là những câu có nhiều mệnh đề quan hệ hoặc sử dụng các từ hiếm. Điều này cho thấy cần có thêm nhiều nghiên cứu để cải thiện khả năng xử lý các cấu trúc ngữ pháp phức tạp và các từ hiếm của mô hình. Các hướng cải tiến có thể bao gồm việc sử dụng các kỹ thuật tăng cường dữ liệu để tạo ra nhiều dữ liệu huấn luyện hơn, và việc sử dụng các mô hình ngôn ngữ lớn được huấn luyện trước trên một lượng lớn văn bản để cung cấp thông tin ngữ cảnh tốt hơn cho mô hình dịch máy.

V. Hướng Phát Triển Dịch Máy Việt Ba Na với AI 56 ký tự

Nghiên cứu này đã đóng góp vào lĩnh vực dịch máy tiếng Việt - Ba Na. Tuy nhiên, vẫn còn nhiều hướng phát triển tiềm năng. Trong tương lai, có thể sử dụng các mô hình Transformer phức tạp hơn, như BERT, để cải thiện khả năng hiểu ngữ cảnh của mô hình. Bên cạnh đó, việc tích hợp các nguồn thông tin khác, như hình ảnh và âm thanh, có thể giúp mô hình tạo ra bản dịch phong phú hơn. Cuối cùng, việc phát triển các ứng dụng dịch máy tiếng Việt - Ba Na trên điện thoại di động có thể giúp người dùng tiếp cận thông tin một cách dễ dàng hơn. Nghiên cứu về xử lý ngôn ngữ tự nhiên (NLP) và học máy (machine learning) sẽ tiếp tục đóng vai trò quan trọng trong việc phát triển các hệ thống dịch máy hiệu quả cho các ngôn ngữ ít tài nguyên.

5.1. Ứng Dụng BERT và Các Mô Hình Ngôn Ngữ Lớn

BERT (Bidirectional Encoder Representations from Transformers) là một mô hình ngôn ngữ lớn được huấn luyện trước trên một lượng lớn văn bản. BERT có khả năng hiểu ngữ cảnh tốt hơn so với các mô hình truyền thống, và nó có thể được sử dụng để cải thiện hiệu suất của các hệ thống dịch máy. Trong tương lai, việc sử dụng BERT và các mô hình ngôn ngữ lớn khác có thể giúp cải thiện đáng kể chất lượng của dịch máy tiếng Việt - Ba Na. Điều này đặc biệt quan trọng đối với các ngôn ngữ ít tài nguyên, nơi mà việc thu thập dữ liệu song ngữ có thể rất khó khăn.

5.2. Tích Hợp Dữ Liệu Đa Phương Tiện Hướng Đi Mới

Ngoài văn bản, việc tích hợp các nguồn thông tin khác, như hình ảnh và âm thanh, có thể giúp mô hình dịch máy tạo ra bản dịch phong phú hơn. Ví dụ, nếu mô hình biết rằng một từ cụ thể thường xuất hiện trong một bối cảnh hình ảnh nhất định, nó có thể sử dụng thông tin này để chọn bản dịch phù hợp hơn. Việc tích hợp dữ liệu đa phương tiện là một hướng đi đầy hứa hẹn cho dịch máy tiếng Việt - Ba Na. Nó có thể giúp tạo ra các ứng dụng dịch máy trực quan và dễ sử dụng hơn, và nó có thể giúp người dùng hiểu rõ hơn về văn hóa và ngôn ngữ của người Ba Na.

16/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính dịch máy tiếng việt ba na bằng phương pháp attention

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 giới thiệu khái quát về đề tài. Chương 2 giới thiệu các công trình nghiên cứu liên quan về dịch máy, tìm hiểu ngôn ngữ tiếng Ba Na, các hướng giải quyết cho bài toán, Chương 3 cung cấp một số cơ sở lý thuyết đặt nền móng cho các mô hình được đề xuất trong chương 4. Chương 5 là các kết quả thực nghiệm các chỉ tiêu đánh giá, kết quả đánh giá của các phương pháp và phân 2 tích, nhận xét các kết quả đó. Phần cuối cùng là phần kết luận về luận văn và trình bày hướng phát triển trong tương lai.

3 CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN Luận văn nghiên cứu các công trình hiện nay về các mô hình dịch máy, đặc trưng của ngôn ngữ Ba Na để xác phương pháp ứng dụng cho đề tài.1 Các mô hình dịch máy Hiện nay, dịch máy được phân chia thành một số phương pháp như: dịch máy trên cơ sở luật, dịch máy thống kê (Statistical Machine Translation – SMT), dịch máy trên cơ sở ví dụ và dịch máy bằng nơ-ron (Neural Machine Translation). Do những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên nên chất lượng cũng như phạm vi ứng dụng còn nhiều hạn chế.1 Dịch máy trên cơ sở luật Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ dụng,. Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi.2 Dịch máy thống kê (SMT) SMT là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ.

Ý tưởng đằng sau dịch máy thống kê đến từ lý thuyết thông tin. Tài liệu được dịch theo phân bố xác suất p(e|f) trong đó e là ngôn ngữ đích (ví dụ, Tiếng Việt) dịch từ f là ngôn ngữ nguồn (ví dụ, Tiếng Anh). Ưu điểm vượt trội của phương pháp này là thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch tự động thiết lập các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu. Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng được cho bất kỳ cặp ngôn ngữ nào.

Dịch máy thống kê hiện nay đi theo 3 hướng tiếp cận chính, đó là dịch máy thống kê dựa trên đơn vị từ; dựa trên đơn vị cụm từ và dựa trên cú pháp. Trong đó dịch máy thống kê dựa trên đơn vị cụm từ hiện đang là cách tiếp cận thu hút được nhiều sự quan tâm nhất của giới nghiên cứu dịch máy. 4 Tuy nhiên, cách tiếp cận thống kê nói chung vẫn phải đối mặt với những hạn chế do sự thiếu hụt về thông tin ngôn ngữ. Mô hình dịch thống kê vẫn chưa giải quyết được một số vấn đề cơ bản của dịch máy như trật tự từ, khả năng lựa chọn cụm từ phù hợp, và vấn đề về dữ liệu thưa.

Các cải tiến làm tăng chất lượng dịch bằng cách tích hợp các thông tin ngôn ngữ vào các bước tiền xử lý, hậu xử lý hay tích hợp trực tiếp vào mô hình dịch đã được đề xuất [7]. Với sự xuất hiện của phương pháp dịch máy thống kê kết hợp thông tin ngôn ngữ, những hạn chế trên đã được cải thiện đáng kể.3 Dịch máy nơ-ron (NMT) Đây là phương pháp dịch sử dụng mạng nơ-ron nhân tạo và học sâu – deep learning. Với cách dịch thông thường, các câu được chia nhỏ và dịch thành từng phần, nhưng bằng cách sử dụng NMT, việc dịch sử dụng cách thức học mạng nơ-ron để chuyển đổi từ ngôn ngữ nguồn → diễn đạt trung gian → ngôn ngữ kết quả dựa trên toàn bộ câu nguồn, nên kết quả dịch tự nhiên hơn. Đây được coi là một hệ dịch cho chất lượng dịch vượt trội so với các phương pháp truyền thống trước đây.

Hiện tại, Google Dịch đang sử dụng phương pháp này. Thông thường, hệ dịch được huấn luyện trên lượng lớn dữ liệu song ngữ và dữ liệu đơn ngữ của ngôn ngữ đích đối với dịch máy thống kê và dữ liệu song ngữ đối với dịch máy nơ-ron, trong bản thân những dữ liệu huấn luyện này có thể bao gồm các chủ đề đồng nhất hoặc không đồng nhất và thường thì mỗi chủ đề đó sẽ có tập các từ thuật ngữ riêng biệt. Chất lượng của bản dịch phụ thuộc rất lớn vào dữ liệu huấn luyện, nếu miền dữ liệu huấn luyện và miền thử nghiệm giống nhau hoặc có sự tương đồng càng lớn thì chất lượng bản dịch thu được sẽ càng tốt so với việc miền dữ liệu dùng để huấn luyện và miền thử nghiệm đặc biệt khác nhau hoặc có ít sự tương đồng hơn. Với phương pháp này, người ta chỉ cần huấn luyện một hệ thống duy nhất trên tập văn bản nguồn và văn bản đích (end-to-end system), không cần phải xây dựng một pipeline gồm các hệt thống chuyên biệt giống như SMT, không cần phải có nhiều kiến thức chuyên môn về ngôn ngữ, nhờ vậy mà có thể áp dụng cho các cặp ngôn ngữ khác nhau khá dễ dàng.

5 Các mô hình dịch máy nơ-ron thường là bộ mã hóa – giải mã (encoders – decoders), mã hóa một câu đầu vào thành một vector có chiều dài cố định mà từ đó bộ giải mã tạo ra một bản dịch. Trước khi Google công bố bài báo về Transformers (Attention Is All You Need), hầu hết các tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy (Machine Translation) sử dụng kiến trúc Recurrent Neural Networks (RNNs). Điểm yếu của phương pháp này là rất khó bắt được sự phụ thuộc xa giữa các từ trong câu và tốc độ huấn luyện chậm do phải xử lý input tuần tự. Transformers sinh ra để giải quyết 2 vấn đề này; và các biến thể của nó như BERT, GPT-2 tạo ra state-of-the-art mới cho các tác vụ liên quan đến NLP.

Các bài báo nghiên cứu về NMT gần đây càng nhiều [9] chứng tỏ sự mới mẻ, quan tâm cũng như hiệu quả của dịch máy nơ-ron đã thu hút các nhà khoa học là khá lớn. Cùng với sự phát triển của khoa học kỹ thuật, các máy tính với cấu hình phần cứng mạnh mẽ ra đời ngày càng nhiều thì vấn đề phần cứng cũng phần nào được giải quyết, cũng bởi vì không cần nhiều kiến thức chuyên sâu về ngôn ngữ nhiều, chúng tôi quyết định chọn mô hình dịch máy nơ-ron với các phương pháp kỹ thuật Transformer để áp dụng vào bài toán dịch máy từ tiếng Việt và tiếng Ba Na.2 Ngôn ngữ Ba Na Người Ba Na cư trú ở các tỉnh Kon Tum, Gia Lai, Bình Ðịnh và Phú Yên với tổng dân số là 174. Tại Kontum, người Ba Na cư trú tập trung tại 15 làng xung quanh thị xã Kontum như Kon Hơ ngo, Kon Rơ Bang, Kon Rơ Pắt, Kon Rơ Hai, Kon Kơ Lo. Ở Gia Lai, người Ba Na tập trung tại Măng Giang, An Khê (Kơ Bang), Giang Trung, Giang Nam, Bơ Goong.

Tại tỉnh Bình Ðịnh, người Ba Na cư trú tập trung tại các xã huyện Vĩnh Thạnh và một số xã thuộc huyện Vân Canh, An Lão và Hoài Ân [2]. Người Ba Na thuộc nhóm Môn Khơ me. Về mặt dân tộc học, người Ba Na phân thành các nhánh Gơ la, Tơ Lô, Giơ Lâng, Kon Kơđeh, A La Kông, Kơ Pơng Kông, Kriêm. Về mặt ngôn ngữ, tiếng Ba Na về cơ bản thống nhất trong cơ cấu ngữ âm, ngữ pháp.

Tuy nhiên, do quá trình biến đổi lịch sử, do tiếp xúc với các ngôn ngữ khác nhau, tiếng nói của mỗi nhóm địa phương có sự khác biệt về cách phát âm, và một số về từ vựng. Các phương ngữ chính tiếng Ba Na gồm: Ba Na Kon Tum, Ba Na An Khê, và Ba Na Tơ lo, Ba Na Kon Kơ Ðeh, Ba Na Kriêm; giữa các phương ngữ trên, tìm thấy sự khác biệt rõ rệt giữa Ba Na Kon tum, Ba Na Gia lai (An Khê) và Ba Na 6 Bình Ðịnh (Ba Na Kriêm). Người Ba Na ở Vĩnh Thạnh còn giữ được nhiều nét văn hoá tộc người đặc thù hơn cả. Người Ba Na ở Vĩnh Thạnh, An Lão, một số xã ở Hoài Ân, thuộc nhóm Ba Na Kriêm.

Theo đồng bào Ba Na ở Vĩnh Thạnh, tên gọi Kriêm, ban đầu là tên con sông Ðăc Kriêm; người Ba Na Kriêm – người Ba Na sống quanh con sông Kriêm, ở vùng thấp. Người dân Ba Na Kriêm cũng cho rằng, về nguồn gốc, Ba Na Kriêm vốn từ khu vực Gia Lai chuyển đến [2]. Từ những nguồn trên, nghiên cứu xoay quanh ngôn ngữ Ba Na Kriêm gồm từ điển, các câu hội thoại cũng như nội dung phát thanh của truyền hình Vĩnh Thạnh.1 Từ điển Ba Na Kriem Hình 2.1: Bảng chữ cái tiếng Ba Na Kriem Dấu: “'” – (dấu “phẩy trên”) và dấu “ ̆ ” (dấu “vành trăng khuyết”) Cách ghi các nguyên âm: a, ă, e, ĕ, ê, ê̆, i, ĭ, o, ŏ, ô, ô̆, ơ, ơ̆, u, ŭ, ư, ư̆, ươ Cách ghi các phụ âm đơn: b, 'b, ch, d, đ, g, h, i, j, k, kh, l, m, n, nh, ng, p, ph, r, s, t, th, u, w, y. Cách ghi các phụ âm kép: hm, hnh, 'm, 'n, 'ng, hk, kl, kr, br, li, pi, su, pu, ih, hngl, hri, 'ng, Các nguyên âm đôi: ia, iă, ie, iĕ, iô, iô̆, ua, uă, ue, uĕ, uê, uê̆ 7 Tiếng Ba Na còn hạn chế khi chưa có nhiều từ vựng, nên khi dịch từ tiếng Việt sang, với những từ không có trong từ điển tiếng Ba Na sẽ mượn từ tiếng Việt, bỏ các dấu không có trong tiếng Ba Na như sắc, hỏi, ngã, nặng.2 Một số quy luật của tiếng Ba Na Theo nghiên cứu của chúng tôi ở các đoạn hội thoại từ cuốn từ điển Ba Na Kriem, tiếng Ba Na không có các thể bị động, chia các thì quá khứ, hiện tại hay tương lai như tiếng Anh.3 Kiến trúc Transformer Được đề xuất ở bài báo “Attention is all you need” [5], sử dụng cơ chế tập trung.

Kiến trúc này song song hóa bằng cách học chuỗi hồi tiếp với cơ chế tập trung, đồng thời mã hóa vị trí của từng phần tử trong chuỗi. Kết quả là ta có một mô hình tương thích với thời gian huấn luyện ngắn hơn đáng kể. Tương tự như mô hình Sequence to sequence (seq2seq), Transformer cũng dựa trên kiến trúc mã hóa-giải mã.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng Attention trong dịch máy

Dịch máy thống kê cho ngôn ngữ ít tài nguyên

Dịch máy Việt Ba Na cho cộng đồng

Dịch Máy Tiếng Việt – Ba Na Bằng Phương Pháp Attention

I. Dịch Máy Việt Ba Na Tổng Quan và Tầm Quan Trọng 55 ký tự

1.1. Tại sao Dịch Máy Việt Ba Na Quan Trọng

1.2. Mục Tiêu Cụ Thể của Nghiên Cứu này

II. Thách Thức Dịch Máy Việt Ba Na và Hướng Giải Quyết 59 ký tự

2.1. Thiếu Dữ Liệu Song Ngữ Việt Ba Na Vấn Đề Cốt Lõi

2.2. Ngữ Pháp Khác Biệt Làm Sao để Vượt Qua

III. Mô Hình Attention Giải Pháp Dịch Máy Việt Ba Na 60 ký tự

3.1. Cơ Chế Hoạt Động của Attention trong Dịch Máy

3.2. Ưu Điểm Vượt Trội của Mô Hình Sequence to Sequence

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Dịch Máy 58 ký tự

4.1. Tiêu Chí Đánh Giá Chất Lượng Bản Dịch BLEU

4.2. Kết Quả Thực Nghiệm và Phân Tích Lỗi Chi Tiết

V. Hướng Phát Triển Dịch Máy Việt Ba Na với AI 56 ký tự

5.1. Ứng Dụng BERT và Các Mô Hình Ngôn Ngữ Lớn

5.2. Tích Hợp Dữ Liệu Đa Phương Tiện Hướng Đi Mới

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Sư Phước

Người hướng dẫn: PGS. Quản Thành Thơ

Trường học: Trường Đại Học Bách Khoa – ĐHQG -HCM

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Dịch Máy Tiếng Việt – Ba Na Bằng Phương Pháp Attention

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2021

Địa điểm: Tp. Hồ Chí Minh

Dịch Máy Tiếng Việt – Ba Na Bằng Phương Pháp Attention

I. Dịch Máy Việt Ba Na Tổng Quan và Tầm Quan Trọng 55 ký tự

1.1. Tại sao Dịch Máy Việt Ba Na Quan Trọng

1.2. Mục Tiêu Cụ Thể của Nghiên Cứu này

II. Thách Thức Dịch Máy Việt Ba Na và Hướng Giải Quyết 59 ký tự

2.1. Thiếu Dữ Liệu Song Ngữ Việt Ba Na Vấn Đề Cốt Lõi

2.2. Ngữ Pháp Khác Biệt Làm Sao để Vượt Qua

III. Mô Hình Attention Giải Pháp Dịch Máy Việt Ba Na 60 ký tự

3.1. Cơ Chế Hoạt Động của Attention trong Dịch Máy

3.2. Ưu Điểm Vượt Trội của Mô Hình Sequence to Sequence

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Dịch Máy 58 ký tự

4.1. Tiêu Chí Đánh Giá Chất Lượng Bản Dịch BLEU

4.2. Kết Quả Thực Nghiệm và Phân Tích Lỗi Chi Tiết

V. Hướng Phát Triển Dịch Máy Việt Ba Na với AI 56 ký tự

5.1. Ứng Dụng BERT và Các Mô Hình Ngôn Ngữ Lớn

5.2. Tích Hợp Dữ Liệu Đa Phương Tiện Hướng Đi Mới

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Sư Phước

Người hướng dẫn: PGS. Quản Thành Thơ

Trường học: Trường Đại Học Bách Khoa – ĐHQG -HCM

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Dịch Máy Tiếng Việt – Ba Na Bằng Phương Pháp Attention

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2021

Địa điểm: Tp. Hồ Chí Minh

Có thể bạn quan tâm