Luận Văn Thạc Sĩ Gióng Hàng Văn Bản Song Ngữ Anh-Việt

Nghiên cứu thạc sĩ Văn bản song ngữ anh-việt phân tích chuyên sâu, đề xuất giải pháp khả thi cho vấn đề thực tiễn ngành tại Việt Nam

Trường đại học

Đại Học Quốc Gia Hà Nội

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giới thiệu về dịch máy

1.2. Bài toán gióng hàng văn bản song ngữ cho SMT

1.3. Mục tiêu của luận văn

1.4. Phạm vi của luận văn

1.5. Kết cấu của luận văn

2. CHƯƠNG 2: DỊCH MÁY THỐNG KÊ

2.1. Các cách tiếp cận cổ điển cho hệ dịch máy

2.2. Các thành phần của hệ dịch máy

2.3. Mô hình dịch

2.4. Sự gióng hàng (alignment)

3. CHƯƠNG 3: BÀI TOÁN GIÓNG HÀNG VĂN BẢN SONG NGỮ

3.1. Các bộ ngữ liệu song ngữ lớn

3.2. Khối Châu Âu

3.3. Khối Đông Nam Á

3.4. Các phương pháp gióng hàng hiện tại

3.5. Vấn đề sai thứ tự và thiếu câu trong gióng hàng

4. CHƯƠNG 4: GIÓNG HÀNG ĐOẠN VĂN

4.1. Bài toán gióng hàng đoạn văn

4.2. Thuật toán quy hoạch động

4.3. Giải thuật Needleman - Wunsch

4.4. Giải thuật Smith – Waterman

4.5. Thuật toán đề xuất

5. CHƯƠNG 5: THỰC NGHIỆM

5.1. Chuẩn bị dữ liệu

5.2. Xác định tham số

5.3. So sánh với thuật toán Champollion

5.4. Áp dụng và đánh giá trên hệ dịch máy Moses

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về luận văn thạc sĩ

Luận văn thạc sĩ về văn bản song ngữ Anh-Việt tập trung vào việc nghiên cứu và phát triển các phương pháp dịch máy, đặc biệt là trong lĩnh vực nghiên cứu song ngữ. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về các hệ thống dịch máy hiện có mà còn phân tích các vấn đề liên quan đến việc gióng hàng văn bản song ngữ. Mục tiêu chính của luận văn là xây dựng một mô hình dịch máy hiệu quả, có khả năng xử lý các văn bản song ngữ với độ chính xác cao. Đặc biệt, luận văn sẽ khảo sát các đặc trưng của ngữ liệu song ngữ và đề xuất các phương pháp gióng hàng văn bản phù hợp với ngữ cảnh tiếng Việt.

1.1. Tầm quan trọng của văn bản song ngữ

Văn bản song ngữ đóng vai trò quan trọng trong việc nâng cao khả năng giao tiếp giữa các nền văn hóa khác nhau. Việc sử dụng tiếng Anh và tiếng Việt trong các văn bản song ngữ không chỉ giúp người học cải thiện kỹ năng ngôn ngữ mà còn tạo điều kiện thuận lợi cho việc trao đổi thông tin. Các nghiên cứu về văn học so sánh và ngôn ngữ học đối chiếu cho thấy rằng việc phân tích các văn bản song ngữ có thể giúp phát hiện ra những điểm tương đồng và khác biệt giữa hai ngôn ngữ, từ đó nâng cao hiểu biết về ngôn ngữ và văn hóa của mỗi bên.

II. Phương pháp nghiên cứu

Luận văn áp dụng phương pháp nghiên cứu song ngữ để phân tích và gióng hàng các văn bản. Phương pháp này bao gồm việc thu thập và xử lý dữ liệu từ các nguồn tài liệu khác nhau, bao gồm sách điện tử và các tài liệu học thuật. Các phương pháp dịch máy thống kê (SMT) sẽ được sử dụng để xây dựng mô hình dịch, với mục tiêu tối ưu hóa độ chính xác của việc dịch thuật. Luận văn cũng sẽ khảo sát các thuật toán hiện có và đề xuất các cải tiến nhằm nâng cao hiệu suất của hệ thống dịch máy. Việc áp dụng các phương pháp này không chỉ giúp cải thiện chất lượng dịch mà còn tạo ra một nguồn ngữ liệu phong phú cho các nghiên cứu sau này.

2.1. Các thuật toán gióng hàng

Luận văn sẽ phân tích các thuật toán gióng hàng hiện có, bao gồm thuật toán Gale-Church và Champollion. Những thuật toán này đã được chứng minh là hiệu quả trong việc gióng hàng các câu và đoạn văn song ngữ. Tuy nhiên, luận văn cũng chỉ ra rằng các thuật toán này còn tồn tại một số hạn chế, đặc biệt là trong việc xử lý các ngôn ngữ có cấu trúc ngữ pháp khác biệt như tiếng Việt. Do đó, việc phát triển các thuật toán mới, kết hợp giữa phương pháp thống kê và ngôn ngữ học, sẽ là một hướng đi tiềm năng cho nghiên cứu trong tương lai.

III. Kết quả nghiên cứu và ứng dụng

Kết quả nghiên cứu từ luận văn cho thấy rằng việc áp dụng các phương pháp gióng hàng văn bản song ngữ có thể cải thiện đáng kể độ chính xác của hệ thống dịch máy. Các mô hình được phát triển trong luận văn đã được thử nghiệm và đánh giá trên các tập dữ liệu thực tế, cho thấy hiệu suất vượt trội so với các phương pháp truyền thống. Hệ thống dịch máy được xây dựng không chỉ có thể áp dụng cho các văn bản văn học mà còn có thể mở rộng ra nhiều lĩnh vực khác nhau như giáo dục và thương mại. Điều này chứng tỏ rằng nghiên cứu về văn bản song ngữ không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn cao.

3.1. Ứng dụng trong giáo dục

Luận văn cũng nhấn mạnh tầm quan trọng của việc ứng dụng các kết quả nghiên cứu vào giáo dục. Việc sử dụng các văn bản song ngữ trong giảng dạy không chỉ giúp học viên nâng cao kỹ năng ngôn ngữ mà còn tạo điều kiện cho việc tiếp cận văn hóa và tri thức của các nền văn hóa khác. Các tài liệu học tập được xây dựng từ các nghiên cứu này có thể được sử dụng trong các khóa học tiếng Anh và tiếng Việt, giúp học viên phát triển toàn diện hơn trong việc học ngôn ngữ.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ gióng hàng văn bản song ngữ anh việt 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh toàn cầu hóa và hội nhập quốc tế, nhu cầu trao đổi thông tin đa ngôn ngữ ngày càng tăng cao, đặc biệt là giữa tiếng Anh và tiếng Việt. Theo ước tính, hiện nay trên thế giới có hơn 5000 ngôn ngữ khác nhau, gây ra nhiều khó khăn trong giao tiếp và trao đổi thông tin. Dịch máy thống kê (Statistical Machine Translation - SMT) đã trở thành một hướng nghiên cứu quan trọng nhằm giải quyết vấn đề này, với mục tiêu tự động hóa quá trình dịch thuật dựa trên các mô hình thống kê từ dữ liệu song ngữ. Tuy nhiên, để xây dựng hệ thống SMT hiệu quả, việc có được nguồn ngữ liệu song ngữ chuẩn, đặc biệt là các cặp câu, đoạn văn được gióng hàng chính xác, là vô cùng cần thiết.

Luận văn tập trung nghiên cứu bài toán gióng hàng đoạn văn trong văn bản song ngữ Anh – Việt, một bước trung gian quan trọng giữa gióng hàng câu và gióng hàng văn bản toàn bộ. Mục tiêu cụ thể là khảo sát đặc trưng của tập dữ liệu sách văn học dịch, mô hình hóa bài toán gióng hàng đoạn văn, đề xuất phương pháp gióng hàng dựa trên thuật toán quy hoạch động kết hợp độ đo tương tự mới, và đánh giá hiệu suất so với các thuật toán hiện có như Gale – Church và Champollion. Phạm vi nghiên cứu tập trung vào sách điện tử song ngữ Anh – Việt, với dữ liệu thu thập trong giai đoạn trước năm 2015 tại Việt Nam.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao chất lượng dữ liệu huấn luyện cho hệ thống dịch máy thống kê, từ đó cải thiện độ chính xác và tính tự nhiên của bản dịch. Đồng thời, kết quả cũng góp phần phát triển các công cụ xử lý ngôn ngữ tự nhiên cho các ngôn ngữ Đông Nam Á, vốn còn nhiều thách thức do đặc thù ngữ pháp và cấu trúc khác biệt so với các ngôn ngữ châu Âu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính:

Dịch máy thống kê (SMT): SMT sử dụng mô hình kênh nhiễu (noisy channel model) để tìm câu dịch tối ưu dựa trên xác suất thống kê từ dữ liệu song ngữ. Các mô hình dịch phổ biến gồm mô hình dịch dựa trên từ, cụm từ và cú pháp. SMT đòi hỏi nguồn ngữ liệu song ngữ lớn và chính xác để huấn luyện mô hình dịch và mô hình ngôn ngữ (Language Model - LM). Mô hình LM thường được xây dựng dựa trên mô hình n-gram, trong đó xác suất xuất hiện của một từ phụ thuộc vào một số từ liền trước (bậc của n-gram).
Bài toán gióng hàng văn bản song ngữ: Gióng hàng là quá trình xác định các thành phần tương ứng (từ, câu, đoạn) trong hai văn bản song ngữ. Đặc biệt, bài toán gióng hàng đoạn văn được xem là bài toán nhận dạng mẫu, tương đương với việc tìm sự tương ứng giữa hai chuỗi đối tượng. Luận văn áp dụng mô hình siêu đồ thị hai phía để biểu diễn mối quan hệ giữa các đoạn văn trong hai ngôn ngữ, đồng thời sử dụng thuật toán quy hoạch động để tìm giải pháp gióng hàng tối ưu dựa trên ma trận điểm tương tự.

Các khái niệm chính bao gồm:

Ngữ liệu song ngữ (bilingual corpus): tập hợp các văn bản song song, bản dịch của nhau.
Độ đo tương tự đoạn văn: kết hợp giữa độ dài đoạn và mức độ giao nhau của từ trong đoạn.
Thuật toán quy hoạch động: kỹ thuật tối ưu hóa giải bài toán gióng hàng đoạn văn bằng cách chia nhỏ thành các bài toán con độc lập.
Thuật toán gióng hàng Needleman-Wunsch và Smith-Waterman: thuật toán gióng hàng toàn cục và địa phương, được sử dụng để tính toán ma trận điểm và tìm chuỗi gióng hàng tối ưu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các cặp sách điện tử song ngữ Anh – Việt, bao gồm các đoạn văn bản được dịch cẩn thận, có độ chính xác cao. Dữ liệu được chuẩn bị qua các bước tiền xử lý như phân đoạn đoạn văn, loại bỏ ký tự không cần thiết và chuẩn hóa văn bản.

Phương pháp phân tích bao gồm:

Xây dựng ma trận điểm tương tự giữa các đoạn văn dựa trên độ đo kết hợp độ dài và mức độ giao nhau của từ.
Áp dụng thuật toán quy hoạch động để tìm kiếm cách gióng hàng đoạn văn tối ưu, đảm bảo các ràng buộc về thứ tự và liên tục.
So sánh hiệu suất thuật toán đề xuất với các thuật toán gióng hàng câu cơ bản như Gale – Church và Champollion thông qua các chỉ số đánh giá như độ chính xác và độ phủ.
Áp dụng kết quả gióng hàng đoạn để hỗ trợ gióng hàng câu, từ đó tạo tập ngữ liệu huấn luyện cho hệ thống SMT.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2014 đến 2015 tại Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ. Cỡ mẫu dữ liệu thử nghiệm gồm hàng nghìn đoạn văn từ các cuốn sách dịch song ngữ, được lựa chọn ngẫu nhiên nhằm đảm bảo tính đại diện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán quy hoạch động trong gióng hàng đoạn văn: Thuật toán đề xuất đạt độ chính xác khoảng 85% trong việc xác định các cặp đoạn tương ứng, cao hơn 10% so với thuật toán Gale – Church và 7% so với Champollion khi áp dụng ở mức câu. Việc gióng hàng đoạn giúp giới hạn không gian tìm kiếm, tăng hiệu quả và độ chính xác của gióng hàng câu.
Độ đo tương tự kết hợp độ dài và giao nhau từ cải thiện kết quả: Sử dụng độ đo mới kết hợp giữa tỷ lệ độ dài đoạn và mức độ giao nhau của từ trong đoạn giúp tăng độ chính xác gióng hàng lên khoảng 12% so với chỉ dựa vào độ dài. Điều này cho thấy việc kết hợp thông tin ngữ nghĩa và thống kê là cần thiết.
Không có hiện tượng đảo đoạn trong gióng hàng đoạn văn: Kết quả thực nghiệm cho thấy thứ tự đoạn văn trong sách dịch được bảo toàn tốt, giúp thuật toán quy hoạch động hoạt động hiệu quả hơn so với gióng hàng câu, nơi hiện tượng đảo thứ tự thường xảy ra.
Ứng dụng vào hệ thống dịch máy thống kê: Tập ngữ liệu câu được sinh ra từ kết quả gióng hàng đoạn giúp cải thiện điểm BLEU của hệ thống SMT lên khoảng 15% so với sử dụng tập dữ liệu câu gióng hàng thủ công hoặc tự động truyền thống.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc gióng hàng đoạn văn tận dụng được đặc điểm thống kê của đoạn dài hơn câu, giúp giảm nhiễu và sai lệch do dịch không sát nghĩa từng câu. So với các nghiên cứu trước đây chủ yếu tập trung vào gióng hàng câu, luận văn đã mở rộng phạm vi nghiên cứu lên mức đoạn, phù hợp với đặc thù ngôn ngữ Việt Nam và các ngôn ngữ Đông Nam Á khác.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về gióng hàng văn bản song ngữ, trong đó việc kết hợp thông tin ngữ nghĩa và thống kê được đánh giá là hướng đi hiệu quả. Việc áp dụng thuật toán quy hoạch động giúp giải quyết bài toán tối ưu tổng trọng số gióng hàng, đảm bảo tính liên tục và thứ tự của đoạn văn, điều mà các phương pháp dựa trên độ dài đơn thuần khó đạt được.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các thuật toán gióng hàng, bảng thống kê điểm BLEU của hệ thống SMT trước và sau khi áp dụng tập dữ liệu gióng hàng đoạn, giúp minh họa rõ ràng hiệu quả của phương pháp đề xuất.

Đề xuất và khuyến nghị

Triển khai rộng rãi thuật toán gióng hàng đoạn trong xây dựng ngữ liệu song ngữ: Các tổ chức nghiên cứu và phát triển dịch máy nên áp dụng thuật toán quy hoạch động kết hợp độ đo tương tự đề xuất để xây dựng tập ngữ liệu song ngữ chuẩn, đặc biệt với các cặp ngôn ngữ có cấu trúc khác biệt như Anh – Việt. Thời gian thực hiện: 6-12 tháng.
Phát triển công cụ tiền xử lý dữ liệu tự động: Tăng cường các kỹ thuật phân đoạn đoạn văn, chuẩn hóa văn bản và loại bỏ nhiễu nhằm nâng cao chất lượng dữ liệu đầu vào cho quá trình gióng hàng. Chủ thể thực hiện: các nhóm nghiên cứu NLP và doanh nghiệp công nghệ ngôn ngữ.
Kết hợp gióng hàng đoạn với gióng hàng câu để tạo tập huấn luyện đa cấp: Sử dụng kết quả gióng hàng đoạn để giới hạn không gian tìm kiếm cho gióng hàng câu, từ đó tạo ra tập dữ liệu huấn luyện chất lượng cao cho SMT. Mục tiêu cải thiện điểm BLEU ít nhất 10% trong vòng 1 năm.
Mở rộng nghiên cứu sang các ngôn ngữ Đông Nam Á khác: Áp dụng và điều chỉnh thuật toán cho các ngôn ngữ có đặc thù tương tự tiếng Việt như Thái, Khmer để phát triển hệ thống dịch máy đa ngôn ngữ khu vực. Thời gian nghiên cứu: 2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển dịch máy: Luận văn cung cấp phương pháp gióng hàng đoạn văn hiệu quả, giúp cải thiện chất lượng dữ liệu huấn luyện và nâng cao hiệu suất hệ thống SMT.
Chuyên gia xử lý ngôn ngữ tự nhiên (NLP): Các kỹ thuật và mô hình được trình bày có thể áp dụng cho các bài toán tương tự như phân đoạn văn bản, nhận dạng mẫu và dịch thuật tự động.
Doanh nghiệp công nghệ ngôn ngữ: Các công ty phát triển phần mềm dịch máy, công cụ dịch thuật và xử lý văn bản song ngữ có thể ứng dụng kết quả nghiên cứu để nâng cao sản phẩm.
Giảng viên và sinh viên ngành khoa học máy tính, ngôn ngữ học máy tính: Luận văn là tài liệu tham khảo quý giá cho các khóa học về dịch máy, xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

Câu hỏi thường gặp

Bài toán gióng hàng đoạn văn khác gì so với gióng hàng câu?
Gióng hàng đoạn văn xử lý các đoạn dài hơn câu, giúp giảm nhiễu do dịch không sát nghĩa từng câu và bảo toàn thứ tự đoạn, trong khi gióng hàng câu dễ gặp hiện tượng đảo thứ tự và khó xử lý các câu ghép hoặc tách.
Tại sao lại sử dụng thuật toán quy hoạch động cho bài toán gióng hàng đoạn?
Thuật toán quy hoạch động giúp tìm giải pháp tối ưu tổng trọng số gióng hàng trong không gian lớn, đảm bảo các ràng buộc về thứ tự và liên tục, phù hợp với đặc điểm bài toán gióng hàng đoạn.
Độ đo tương tự đoạn văn được xây dựng như thế nào?
Độ đo kết hợp tỷ lệ độ dài đoạn (số từ) và mức độ giao nhau của từ giữa hai đoạn, giúp đánh giá chính xác hơn mức độ tương đồng so với chỉ dựa vào độ dài hoặc ngữ nghĩa riêng lẻ.
Kết quả gióng hàng đoạn có ảnh hưởng thế nào đến hệ thống dịch máy?
Tập dữ liệu câu được sinh ra từ kết quả gióng hàng đoạn giúp cải thiện điểm BLEU của hệ thống SMT lên khoảng 15%, nâng cao chất lượng bản dịch và tính tự nhiên của ngôn ngữ đích.
Phương pháp này có thể áp dụng cho các ngôn ngữ khác không?
Có thể áp dụng cho các ngôn ngữ có đặc thù tương tự tiếng Việt, đặc biệt các ngôn ngữ Đông Nam Á, tuy nhiên cần điều chỉnh tham số và độ đo tương tự phù hợp với đặc điểm ngôn ngữ đó.

Kết luận

Luận văn đã đề xuất thành công phương pháp gióng hàng đoạn văn song ngữ Anh – Việt dựa trên thuật toán quy hoạch động và độ đo tương tự kết hợp độ dài và giao nhau từ.
Thuật toán đạt độ chính xác khoảng 85%, vượt trội so với các phương pháp gióng hàng câu truyền thống.
Kết quả gióng hàng đoạn hỗ trợ tạo tập dữ liệu huấn luyện chất lượng cao cho hệ thống dịch máy thống kê, cải thiện điểm BLEU lên 15%.
Nghiên cứu mở ra hướng phát triển mới cho xử lý ngôn ngữ tự nhiên và dịch máy cho các ngôn ngữ Đông Nam Á.
Các bước tiếp theo bao gồm mở rộng áp dụng cho các ngôn ngữ khác, phát triển công cụ tiền xử lý tự động và tích hợp vào hệ thống dịch máy thương mại.

Hành động ngay hôm nay: Các nhà nghiên cứu và doanh nghiệp công nghệ ngôn ngữ nên xem xét áp dụng phương pháp gióng hàng đoạn để nâng cao chất lượng dịch máy và phát triển các sản phẩm dịch thuật đa ngôn ngữ hiệu quả hơn.

Trích đoạn nội dung tài liệu

chương 1 ccủa luận văn  Mô hình dịch: ch: Cho bi biết xác suất của câu ngôn ngữ nguồnn là bbản dịch từ câu ngôn ngữ đích.  Bộ giải mã: Tìm kiếếm tất cả các câu ngôn ngữ đích e có thể có ttừ câu ngôn ngữ nguồn f.4: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 2. Mô hình dịch Mô hình dịch có 3 hướng tiếp cận chính:  Mô hình dịch dựa trên từ (word-based)  Mô hình dịch dựa trên cụm từ (phrase-based)  Mô hình dịch dựa trên cú pháp (syntax-based) Cả 3 hướng tiếp cận trên đều dựa trên một tư tưởng. Đó là sự tương ứng giữa hai câu (alignment).

Sự gióng hàng (alignment) Tất cả các mô hình dịch thống kê đều dựa trên sự tương ứng của từ. Sự tương ứng của từ ở đây chính là một ánh xạ giữa một hay nhiều từ của ngôn ngữ nguồn với một hay nhiều từ của ngôn ngữ đích trong tập hợp các câu văn bản song ngữ. Theo nguyên tắc, chúng ta có thể có mối liên hệ tùy ý giữa các từ của ngôn ngữ nguồn với các từ của ngôn ngữ đích. Tuy nhiên, để cho đơn giản, mô hình dịch máy dựa trên từ (word-based) đưa ra một giả định: mỗi từ của ngôn ngữ đích chỉ tương ứng với một từ của ngôn ngữ nguồn.

Nếu áp dụng giả định này, chúng ta có thể biểu diễn một sự tương ứng từ bằng chỉ số của các từ trong ngôn ngữ nguồn tương ứng với từ trong ngôn ngữ đích. Như trong ví dụ ở hình 2.5 dưới đây có thể biểu diễn một tương ứng từ giữa tiếng Pháp và tiếng Anh bởi một dãy các chỉ số như sau: A = 1,2, 3, 4, 5, 6.5: Sự tương ứng một – một giữa câu tiếng Anh và câu tiếng Pháp Trong thực tế, có rất nhiều từ ở ngôn ngữ đích không tương ứng với từ nào trong ngôn ngữ nguồn. Để cho tổng quát, ta thêm một từ vô giá trị (null) vào đầu câu ngôn ngữ nguồn và những từ ở ngôn ngữ đích không tương ứng với từ nào sẽ được ánh xạ với từ vô giá trị đó.6 ở dưới thể hiện một tương ứng từ giữa hai câu tiếng Anh và tiếng Tây Ban Nha khi cho thêm từ vô giá trị vào đầu câu tiếng Anh.6: Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh Trong khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch dựa trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia và nhiều từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia.8 ở dưới minh họa các tương ứng nói trên.7: Sự tương ứng một – nhiều giữa câu tiếng Anh với câu tiếng Pháp z 17 Hình 2.8: Sự tương ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp 2. Mô hình dịch dựa trên từ (Word-based) Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê và được nghiên cứu và phát triển bởi IBM.

Như đã trình bày ở phần trước, mô hình dịch này dựa trên sự tương ứng của các từ theo tương ứng một một (một từ của ngôn ngữ này chỉ tương ứng với một từ của ngôn ngữ kia và ngược lại). Cụ thể hơn, giả sử câu ngôn ngữ nguồn là … và câu ngôn ngữ đích là … , khi đó mỗi từ chỉ tương ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là không tương ứng với từ nào. Do đó, một sự tương ứng giữa các từ của câu ngôn ngữ nguồn và câu ngôn ngữ đích có thể biểu diễn bằng một dãy số: { , ,…, } trong đó là chỉ số của từ trong ngôn ngữ nguồn tương ứng với từ của ngôn ngữ đích( nhận các giá trị từ 1 đến l). Với mô hình IBM thứ nhất, giả định rằng mỗi biến là độc lập, khi đó tương ứng tối ưu nhất chính là: = arg max ( )∗ ( | ) Như vậy, theo mô hình IBM thứ nhất, chúng ta có thể tính xác suất ( | ) theo công thức sau: ( | )= ( )∗ ( | ) Tuy nhiên trên thực tế, mô hình IBM thứ nhất này có chất lượng dịch không cao.

Ở các mô hình IBM tiếp theo, người ta cải tiến các công thức và đưa ra những tương ứng, cũng như tính lại xác suất ( | ) một cách tốt hơn. Tuy nhiên, do tiếp cận theo hướng tương ứng một một giữa các từ, nên mô hình dịch dựa trên từ nóichung và các mô hình dịch IBM nói riêng đã không còn phổ biến. Hiện nay, các mô hình dịch theo hướng cụm từ được sử dụng rộng rãi và dần trở nên phổ biến hơn. Mô hình dịch dựa a trên cụm c từ (Phrase-based) Hình 2.9: Minh họa h dịch máy thống kê dựa vào cụm từ Trong dịch dựaa trên ccụm, một chuỗi các từ liên tiếp (cụm) đượcc dịch d sang ngôn ngữ đích, với độ dài cụmm ngôn ngữ ng nguồn và đích có thể khác nhau.9 minh họa phương pháp dịch cụm:m: câu vào được đư chia thành một số cụm; từng ng cụm c một được dịch sang ngôn ngữ đích; và sau đó các cụm c được đảo trật tự theo mộtt cách nào đó rồi r ghép với nhau.

Cuốii cùng ta thu được đư câu dịch trong ngôn ngữ đích. Giả sử ta gọi ngôn ngữ ữ nguồn là và ngôn ngữ đích là , chúng ta sẽ s cố gắng tối đa hóa xác suất ( | ) vớ ới mong muốn có được bản dịch tốt nhất. Th Thực tế là tồn tại rất nhiều bản dịch ch đúng cho cùng một m câu, mục đích củaa ta là tìm ra câu ngôn ng ngữ phù hợp nhất khi cho trướcc câu ngôn ngữ ng nguồn. Dịch dựa vào cụụm sử dụng mô hình kênh nhiễu, áp dụng ng công thức th Bayes ta có: arg max ( | ) ( ) arg max ( | ) = ( ) Do ( ) là không đổii đối đ với , vấn đề trở thành việc tìm câu nhằm nh tối đa hóa ( \ ) ( ).

Việc xây dựng ng mô hình ngôn ngữ ng cần sử dụng một ngữ liệệu đơn ngữ lớn, trong khi đó mô hình dịch ch lại l cần đến ngữ liệu song ngữ tốt. Bộ giảii mã được sử dụng để chia câu nguồnn thành các cụm c và sinh ra các khả năng dịch có thể cho m mỗi cụm nhờ sự trợ giúp của bảng cụm m (phrase table). Để sinh ra đượcc câu dịch, d câu nguồn được chia thành cụm m liên ti tiếp. Chúng ta giả sử rằng phân phốii xác suất su là như nhau đối với các cụm m này.

Mỗi M cụm trong được dịch thành cụm m tương ứng trong ngôn ngữ đích. Các cụm m trong ngôn ngữ ng đích có thể đảo o ví trí cho nhau. Quá trình dịch d cụm đượcc mô hình hóa bbởi phân phối xác suất ∅( | ). z 19 Việc đảo ví trí (reodering) của các cụm đầu ra được mô hình bởi phân phối xác suất ( − ), trong đó đại diện cho vị trí bắt đầu của cụm trong câu nguồn được dịch thành cụm thứ trong câu đích, và là ký hiệu chỉ vị trí kết thúc của cụm trong câu nguồn được dịch thành cụm ( − 1) trong câu đích.

Ở đây chúng ta sử dụng mô hình đảo cụm rất đơn giản như sau: | | ( − )= với giá trị thích hợp cho tham số. Để xác định độ dài thích hợp của câu dịch, chúng ta đưa thêm vào thừa số khi sinh ra câu trong ngôn ngữ đích. Thừa số này sẽ được tối ưu qua quá trình tìm kiếm câu dịch tối ưu. Thừa số này càng lớn hơn 1 thì độ dài của câu trong ngôn ngữ đích càng dài.

Nói tóm lại, câu dịch tốt nhất được sinh ra từ câu nguồn là: ( ) = arg max ( | ) = arg max ( | ) ( ) ở đây ( | ) được phân tích thành: ( | )= ( | ) ( − ) 2. Mô hình dịch dựa trên cú pháp (Syntax-based) Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tương ứng và ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ pháp, hình thái của cả hai câu. Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu. Với mô hình dịch này, một câu ngôn ngữ nguồn sẽ được phân tích thành cây cú pháp.

Cây cú pháp này sẽ được sắp xếp lại để phù hợp với cú pháp của câu ngôn ngữ đích. Sau đó, một số từ mới có thể được chèn vào cây hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ đích. Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn sẽ được dịch sang ngôn ngữ đích và ta thu được câu ngôn ngữ đích từ cây cú pháp trên.10 dưới đây mô tả các bước làm việc của một mô hình dịch dựa trên cú pháp từ tiếng Anh sang tiếng Nhật.10: Mô hình dịch dựa trên cây cú pháp 2. Bộ giải mã Như đã trình bày ở các phần ph trên, nhiệm vụ của bộ giảii mã chính là: cho tr trước câu ngôn ngữ nguồn , tìm câu ngôn ng ngữ đích tốt nhất được dịch từ.

Câu ngôn ngữ đích tr ( | ) ∗ ( ) là lớn nhất. tốt nhấtt chính là câu làm cho giá trị Bộ giải mã đượcc phát tri triển đầu tiên cho mô hình dịch cụm từ đượợc giới thiệu bởi Marcu và Wong, sử dụngng các phương pháp leo đồi. đ Do không gian an tìm ki kiếm là rất lớn, nên bộ giảii mã trong mô hình dịch d máy thống kê thường áp dụngng các thu thuật toán tìm kiếm tối ưu. ∗ Thuật toán mà bộ giảii mã thường th áp dụng có tên là , là mộtt trong các phương ∗ pháp tìm kiếm tốt nhất –đầu u tiên.Gi thuật có thể tóm tắt như sau: tạại mỗi bước mở rộng không gian tìm kiếm,m, ta sử s dụng các hàm ước lượng, đánh giá trọng ng ssố để kết quả tìm được luôn là tốt nhấtt có thể th và là kết quả tìm thấy đầu tiên.

Ngữ liệu u sau khi qua 2 mô hình ngôn ngữ ng và mô hình dịch ta đượ ợc bảng xác suất cho từng thông số tương ứng. Vấn đề tìm ra tích số ( ) ( | ) lớn nhấất.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận Văn Thạc Sĩ Gióng Hàng Văn Bản Song Ngữ Anh-Việt" của tác giả Nguyễn Duy Cường, dưới sự hướng dẫn của PGS.TS Lê Anh Cường, được thực hiện tại Đại Học Quốc Gia Hà Nội vào năm 2015. Bài viết tập trung vào việc nghiên cứu và phát triển các phương pháp gióng hàng văn bản song ngữ giữa tiếng Anh và tiếng Việt, nhằm cải thiện khả năng dịch thuật và hiểu biết ngôn ngữ cho người học. Những điểm chính của luận văn bao gồm phân tích các kỹ thuật gióng hàng, ứng dụng trong giảng dạy và học tập, cũng như lợi ích của việc sử dụng tài liệu song ngữ trong việc nâng cao kỹ năng ngôn ngữ.

Để mở rộng thêm kiến thức về các khía cạnh liên quan đến việc học và giảng dạy tiếng Anh, bạn có thể tham khảo bài viết "Động lực học tiếng Anh của sinh viên không chuyên tại Đại học Quy Nhơn", nơi nghiên cứu về động lực học tiếng Anh của sinh viên, hay "Khó khăn trong việc nói tiếng Anh của sinh viên trưởng thành: Nghiên cứu trường hợp tại Đại học Thủ Dầu Một", bài viết này phân tích những thách thức mà sinh viên gặp phải trong việc giao tiếp bằng tiếng Anh. Cuối cùng, bạn cũng có thể tìm hiểu thêm về "Nâng cao khả năng nói tiếng Anh cho học sinh lớp 10 thông qua kỹ thuật phỏng vấn tại Bắc Giang", một nghiên cứu về phương pháp giảng dạy nhằm cải thiện kỹ năng nói cho học sinh. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các phương pháp và thách thức trong việc học và giảng dạy tiếng Anh.

#Luận văn Thạc sĩ

#nghiên cứu ngôn ngữ

#văn bản song ngữ

#văn học so sánh

Chủ đề

Giáo dục và đào tạo thạc sĩ

Nghiên cứu ngôn ngữ và văn hóa

Dịch thuật và biên dịch

Văn học và văn bản song ngữ