Luận Văn Thạc Sĩ: Cải Tiến Thuật Toán Gióng Từ Thông Qua Phân Tích Hình Thái

Luận văn thạc sĩ VNU UET trình bày cải tiến thuật toán gióng từ thông qua phân tích hình thái, mang lại hiệu quả cao trong nghiên cứu.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ

1.1. Dịch máy

1.2. Sơ đồ tổng quan của một hệ dịch máy

1.3. Các phương pháp dịch máy

1.4. Dịch máy thống kê

1.5. Mô hình dịch máy thống kê

1.6. Mô hình ngôn ngữ

1.7. Mô hình dịch

2. GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ

3. PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN

4. THỬ NGHIỆM

5. KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Cải Tiến Thuật Toán Gióng Từ Trong Dịch Máy

Cải tiến thuật toán gióng từ trong dịch máy là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin. Nghiên cứu này không chỉ giúp nâng cao chất lượng dịch mà còn mở ra nhiều cơ hội mới cho việc phát triển các ứng dụng dịch máy. Việc cải tiến này tập trung vào việc tối ưu hóa các mô hình dịch máy hiện có, đặc biệt là mô hình gióng hàng IBM. Mục tiêu chính là giảm thiểu các lỗi dịch và nâng cao độ chính xác của hệ thống.

1.1. Khái Niệm Cơ Bản Về Dịch Máy

Dịch máy là quá trình tự động chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác. Các hệ thống dịch máy hiện nay chủ yếu dựa vào các mô hình thống kê và học máy để cải thiện độ chính xác và hiệu quả.

1.2. Vai Trò Của Thuật Toán Gióng Từ

Thuật toán gióng từ đóng vai trò quan trọng trong việc xác định mối quan hệ giữa các từ trong ngôn ngữ nguồn và ngôn ngữ đích. Việc cải tiến thuật toán này giúp nâng cao chất lượng dịch máy, đặc biệt trong các ngữ cảnh phức tạp.

II. Vấn Đề Và Thách Thức Trong Cải Tiến Thuật Toán Gióng Từ

Mặc dù có nhiều tiến bộ trong lĩnh vực dịch máy, nhưng vẫn tồn tại nhiều thách thức lớn. Các vấn đề như độ chính xác thấp, sự khác biệt ngữ nghĩa giữa các ngôn ngữ và khả năng xử lý ngữ cảnh vẫn là những trở ngại lớn. Đặc biệt, ngôn ngữ tiếng Việt với cấu trúc đơn giản hơn tiếng Anh gây khó khăn cho việc áp dụng các mô hình gióng hàng cổ điển.

2.1. Độ Chính Xác Thấp Trong Dịch Máy

Một trong những vấn đề lớn nhất là độ chính xác của các bản dịch. Nhiều hệ thống dịch máy vẫn gặp khó khăn trong việc hiểu ngữ cảnh và ý nghĩa của câu, dẫn đến các bản dịch không chính xác.

2.2. Sự Khác Biệt Ngữ Nghĩa Giữa Các Ngôn Ngữ

Sự khác biệt về ngữ nghĩa và cấu trúc giữa các ngôn ngữ gây ra nhiều khó khăn trong việc dịch chính xác. Điều này đặc biệt đúng với các ngôn ngữ có cấu trúc khác nhau như tiếng Anh và tiếng Việt.

III. Phương Pháp Cải Tiến Thuật Toán Gióng Từ Trong Dịch Máy

Để cải tiến thuật toán gióng từ, nhiều phương pháp đã được đề xuất. Các phương pháp này bao gồm việc tích hợp tri thức ngôn ngữ vào mô hình dịch máy, sử dụng các kỹ thuật học sâu và cải tiến quy trình tiền xử lý dữ liệu. Những cải tiến này không chỉ giúp nâng cao chất lượng dịch mà còn giảm thiểu thời gian xử lý.

3.1. Tích Hợp Tri Thức Ngôn Ngữ

Việc tích hợp tri thức ngôn ngữ vào mô hình dịch máy giúp cải thiện độ chính xác của các bản dịch. Các thông tin về hình thái từ và cú pháp có thể được sử dụng để tối ưu hóa quá trình dịch.

3.2. Sử Dụng Kỹ Thuật Học Sâu

Kỹ thuật học sâu đã được áp dụng để cải tiến các mô hình dịch máy. Các mạng nơ-ron sâu có khả năng học hỏi từ dữ liệu lớn, giúp nâng cao chất lượng dịch máy.

IV. Ứng Dụng Thực Tiễn Của Cải Tiến Thuật Toán Gióng Từ

Cải tiến thuật toán gióng từ không chỉ có ý nghĩa lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các hệ thống dịch máy hiện đại đã được áp dụng trong nhiều lĩnh vực như giáo dục, thương mại điện tử và truyền thông. Những cải tiến này giúp nâng cao trải nghiệm người dùng và tiết kiệm thời gian trong việc dịch thuật.

4.1. Ứng Dụng Trong Giáo Dục

Các hệ thống dịch máy cải tiến có thể hỗ trợ học sinh và sinh viên trong việc học ngoại ngữ. Chúng giúp người dùng hiểu rõ hơn về ngữ pháp và từ vựng của ngôn ngữ đích.

4.2. Ứng Dụng Trong Thương Mại Điện Tử

Trong thương mại điện tử, các hệ thống dịch máy giúp các doanh nghiệp mở rộng thị trường ra quốc tế. Việc dịch các mô tả sản phẩm và thông tin khách hàng trở nên dễ dàng hơn.

V. Kết Luận Về Cải Tiến Thuật Toán Gióng Từ Trong Dịch Máy

Cải tiến thuật toán gióng từ trong dịch máy là một lĩnh vực đầy tiềm năng. Những nghiên cứu và cải tiến trong lĩnh vực này không chỉ giúp nâng cao chất lượng dịch mà còn mở ra nhiều cơ hội mới cho việc phát triển công nghệ dịch máy. Tương lai của dịch máy sẽ phụ thuộc vào khả năng tích hợp tri thức ngôn ngữ và áp dụng các công nghệ mới.

5.1. Tương Lai Của Dịch Máy

Tương lai của dịch máy sẽ được định hình bởi sự phát triển của các công nghệ mới và khả năng tích hợp tri thức ngôn ngữ. Các hệ thống dịch máy sẽ ngày càng trở nên thông minh và chính xác hơn.

5.2. Những Hướng Nghiên Cứu Tiếp Theo

Các nghiên cứu tiếp theo sẽ tập trung vào việc cải tiến các mô hình dịch máy hiện có và phát triển các phương pháp mới để nâng cao chất lượng dịch. Việc áp dụng các công nghệ mới như trí tuệ nhân tạo sẽ là một xu hướng quan trọng.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet cải tiến thuật toán gióng từ thông qua phân tích hình thái 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dịch máy thống kê (Statistical Machine Translation - SMT) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên, đóng vai trò thiết yếu trong việc tự động chuyển đổi ngôn ngữ, đặc biệt trong bối cảnh toàn cầu hóa và phát triển công nghệ thông tin. Trên thế giới hiện có khoảng 5.650 ngôn ngữ, điều này tạo ra thách thức lớn trong việc trao đổi thông tin đa ngôn ngữ. Luận văn tập trung nghiên cứu cải tiến thuật toán gióng hàng từ trong mô hình dịch máy thống kê, đặc biệt cho cặp ngôn ngữ Anh - Việt, nhằm nâng cao chất lượng dịch.

Mục tiêu chính của nghiên cứu là phân tích hình thái ngôn ngữ để đề xuất phương pháp cải tiến thuật toán gióng hàng từ truyền thống, từ đó tăng hiệu quả dịch máy. Phạm vi nghiên cứu tập trung vào ngữ liệu song ngữ Anh - Việt, với các lớp hình thái phổ biến như danh từ + (s), động từ + (ED), động từ + (ING). Nghiên cứu được thực hiện trong giai đoạn 2014-2015 tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.

Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện điểm BLEU – chỉ số đánh giá chất lượng dịch máy, giúp giảm lỗi dịch và tăng độ chính xác trong dịch tự động. Kết quả dự kiến sẽ hỗ trợ phát triển các hệ thống dịch máy thống kê hiệu quả hơn, góp phần thúc đẩy giao tiếp đa ngôn ngữ và ứng dụng trong nhiều lĩnh vực như dịch thuật, giáo dục, thương mại điện tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình dịch máy thống kê (SMT): Bao gồm ba thành phần chính là mô hình ngôn ngữ (language model), mô hình dịch (translation model) và bộ giải mã (decoder). Mô hình SMT sử dụng xác suất thống kê để tìm câu dịch có xác suất cao nhất dựa trên dữ liệu song ngữ.
Mô hình gióng hàng từ IBM: Là nền tảng cho việc xác định liên kết giữa các từ trong câu nguồn và câu đích. Mô hình IBM 1 đến IBM 5 lần lượt mở rộng các tham số để mô tả mối quan hệ dịch từ, vị trí từ và số lượng từ dịch.
Phân tích hình thái học: Tập trung vào việc tách từ tiếng Anh thành các thành phần hình thái như gốc từ và phụ tố (ví dụ: “books” thành “book” + “s”), từ đó cải thiện việc gióng hàng từ và giảm dữ liệu thưa.

Các khái niệm chính bao gồm: gióng hàng từ (word alignment), mô hình ngôn ngữ n-gram (trigram), thuật toán tối đa hóa kỳ vọng (EM), điểm BLEU (đánh giá chất lượng dịch máy), và các lớp hình thái từ (danh từ, động từ với các hậu tố).

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng tập ngữ liệu song ngữ Anh - Việt với kích thước đủ lớn để huấn luyện mô hình SMT. Dữ liệu được tiền xử lý bao gồm phân đoạn từ, gán nhãn từ loại và tách hình thái từ tiếng Anh.
Phương pháp phân tích: Áp dụng mô hình IBM 1 cải tiến bằng cách tích hợp phân tích hình thái từ để tách các hình vị trong từ tiếng Anh, từ đó xây dựng bảng dịch từ và gióng hàng từ chính xác hơn. Thuật toán EM được sử dụng để ước lượng tham số gióng hàng.
Thời gian nghiên cứu: Nghiên cứu được thực hiện trong năm 2015, với các giai đoạn thu thập dữ liệu, tiền xử lý, huấn luyện mô hình, thử nghiệm và đánh giá kết quả.
Phương pháp đánh giá: Sử dụng điểm BLEU làm chỉ số chính để so sánh chất lượng dịch giữa mô hình cải tiến và mô hình cơ sở. Các thử nghiệm được thực hiện trên các bộ dữ liệu kiểm thử chuẩn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện chất lượng gióng hàng từ: Việc tách hình thái từ tiếng Anh thành các thành phần nhỏ hơn giúp tăng độ chính xác gióng hàng từ với tiếng Việt. Ví dụ, từ “solvable” được phân tích thành “solve” + “able”, từ đó gióng hàng chính xác với các từ tiếng Việt tương ứng như “giải” và “được”. Kết quả thử nghiệm cho thấy độ chính xác gióng hàng tăng khoảng 5-7% so với mô hình IBM 1 truyền thống.
Giảm dữ liệu thưa: Phân tích hình thái giúp giảm số lượng từ hiếm trong ngữ liệu huấn luyện, từ đó cải thiện khả năng học của mô hình. Tỉ lệ từ chưa gặp giảm khoảng 8-9%, góp phần nâng cao hiệu quả dịch.
Tăng điểm BLEU: Mô hình cải tiến đạt điểm BLEU cao hơn từ 3-4% so với mô hình cơ sở trên các bộ dữ liệu thử nghiệm, thể hiện sự nâng cao rõ rệt về chất lượng bản dịch.
Tăng tính nhất quán trong dịch: Việc sử dụng thông tin hình thái giúp mô hình dịch máy thống kê xử lý tốt hơn các trường hợp dịch nhiều từ tiếng Việt tương ứng với một từ tiếng Anh phức tạp, giảm lỗi dịch sai lệch và cải thiện trật tự từ trong câu dịch.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do mô hình mới khai thác tri thức ngôn ngữ ở mức độ hình thái, giúp mô hình SMT hiểu rõ hơn cấu trúc từ tiếng Anh và mối quan hệ với từ tiếng Việt. So với các nghiên cứu trước đây chỉ dựa trên từ nguyên bản, việc tách hình thái làm phong phú dữ liệu huấn luyện và giảm hiện tượng dữ liệu thưa.

Kết quả phù hợp với các nghiên cứu quốc tế về tích hợp tri thức ngôn ngữ vào SMT, đồng thời khẳng định tính hiệu quả của phương pháp cho cặp ngôn ngữ có đặc điểm khác biệt lớn như Anh - Việt. Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm BLEU giữa mô hình cơ sở và mô hình cải tiến, cũng như bảng thống kê tỉ lệ từ hiếm và độ chính xác gióng hàng.

Đề xuất và khuyến nghị

Triển khai tiền xử lý hình thái tự động: Áp dụng công cụ tách hình thái từ tiếng Anh tự động để chuẩn hóa dữ liệu đầu vào, giúp giảm dữ liệu thưa và tăng độ chính xác gióng hàng. Chủ thể thực hiện: nhóm phát triển hệ thống dịch máy; Thời gian: 6 tháng.
Tích hợp mô hình cải tiến vào hệ thống dịch máy thương mại: Đưa mô hình cải tiến vào các ứng dụng dịch máy thực tế để nâng cao chất lượng dịch, đặc biệt trong các lĩnh vực dịch thuật chuyên ngành. Chủ thể: doanh nghiệp công nghệ; Thời gian: 1 năm.
Mở rộng nghiên cứu sang các cặp ngôn ngữ khác: Áp dụng phương pháp phân tích hình thái và cải tiến gióng hàng cho các cặp ngôn ngữ có đặc điểm hình thái khác biệt, nhằm đánh giá tính tổng quát của mô hình. Chủ thể: các viện nghiên cứu ngôn ngữ; Thời gian: 1-2 năm.
Phát triển bộ dữ liệu song ngữ chất lượng cao: Tăng cường thu thập và chuẩn hóa dữ liệu song ngữ có phân tích hình thái chi tiết để hỗ trợ huấn luyện mô hình SMT hiệu quả hơn. Chủ thể: cộng đồng nghiên cứu; Thời gian: liên tục.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Khoa học máy tính: Nắm bắt kiến thức về dịch máy thống kê, mô hình gióng hàng IBM và phương pháp cải tiến dựa trên phân tích hình thái.
Chuyên gia phát triển hệ thống dịch máy: Áp dụng các kỹ thuật cải tiến thuật toán gióng hàng từ để nâng cao chất lượng dịch trong các sản phẩm dịch tự động.
Người làm công tác dịch thuật và biên tập: Hiểu rõ các giới hạn và ưu điểm của dịch máy thống kê, từ đó phối hợp hiệu quả với công nghệ dịch tự động.
Các tổ chức nghiên cứu ngôn ngữ và trí tuệ nhân tạo: Tham khảo phương pháp tích hợp tri thức ngôn ngữ vào mô hình thống kê, phục vụ phát triển các ứng dụng xử lý ngôn ngữ tự nhiên.

Câu hỏi thường gặp

Phân tích hình thái từ giúp gì cho dịch máy thống kê?
Phân tích hình thái giúp tách từ phức tạp thành các thành phần nhỏ hơn, giảm dữ liệu thưa và tăng độ chính xác gióng hàng từ, từ đó cải thiện chất lượng dịch.
Mô hình gióng hàng IBM có hạn chế gì khi áp dụng cho tiếng Anh - Việt?
Mô hình chỉ cho phép một từ đích gióng với một từ nguồn, trong khi tiếng Anh có từ phức tạp có thể tương ứng với nhiều từ tiếng Việt, gây khó khăn trong gióng hàng chính xác.
Điểm BLEU là gì và tại sao được sử dụng?
Điểm BLEU là chỉ số đánh giá chất lượng bản dịch tự động dựa trên sự tương đồng với bản dịch tham chiếu, được sử dụng phổ biến vì tính khách quan và nhanh chóng.
Thuật toán EM được dùng như thế nào trong nghiên cứu?
Thuật toán EM được sử dụng để ước lượng tham số gióng hàng từ dữ liệu song ngữ, giúp tìm ra phân phối xác suất dịch từ tối ưu.
Phương pháp cải tiến có thể áp dụng cho các ngôn ngữ khác không?
Có, phương pháp phân tích hình thái và tích hợp tri thức ngôn ngữ có thể mở rộng cho các cặp ngôn ngữ khác, đặc biệt là những cặp có sự khác biệt về hình thái từ.

Kết luận

Luận văn đã đề xuất phương pháp cải tiến thuật toán gióng hàng từ trong dịch máy thống kê bằng cách tích hợp phân tích hình thái từ tiếng Anh.
Phương pháp giúp giảm dữ liệu thưa, tăng độ chính xác gióng hàng và cải thiện điểm BLEU từ 3-4% so với mô hình cơ sở.
Kết quả thử nghiệm trên ngữ liệu song ngữ Anh - Việt cho thấy tính hiệu quả và khả năng ứng dụng thực tiễn cao.
Nghiên cứu mở ra hướng phát triển mới cho dịch máy thống kê, đặc biệt với các cặp ngôn ngữ có đặc điểm hình thái khác biệt.
Đề xuất các bước tiếp theo bao gồm triển khai tự động hóa tiền xử lý hình thái, mở rộng nghiên cứu sang các ngôn ngữ khác và phát triển bộ dữ liệu song ngữ chất lượng cao.

Các nhà nghiên cứu và phát triển hệ thống dịch máy nên áp dụng và thử nghiệm phương pháp cải tiến này để nâng cao chất lượng dịch tự động, đồng thời tiếp tục nghiên cứu mở rộng để khai thác tri thức ngôn ngữ sâu hơn.

Trích đoạn nội dung tài liệu

Đặt vấn đề Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới.

Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn đang là một thách thức lớn. Hiện nay trên thế giới có khoảng 5.650 ngôn ngữ khác nhau, với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin.Với những khó khăn như vậy người ta đã phải dùng đến một đội ngũ phiên dịch viên khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác.

Để khắc phục những nhược điểm trên con người đã nghĩ đến việc thiết kế một mô hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy. Công việc đưa ra mô hình tự động cho việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt để lớp ngôn ngữ tự nhiên. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều hướng tiếp cận khác nhau, và do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào.

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ. Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ.

Kết quả trung gian của hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch sẽ càng hiệu quả. Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch.

Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này. Tuy nhiên trong quá trình phát triển một hệ thống dịch máy, với đặc thù ngôn ngữ tiếng Việt có tính hình thái đơn giản hơn các ngôn ngữ khác như tiếng Anh, tiếng Đức … rất nhiều, do vậy việc sử dụng các mô hình cổ điển như mô hình gióng hàng IBM chưa đem lại một kết quả thực sự tốt.

Do vậy luận văn này ngoài việc tiếp cận và giới thiệu về một hệ dịch máy thống kê còn tập trung vào việc phân tích, cải tiến thuật toán gióng hàng từ, cụ thể là thông qua việc phân tích hình thái của ngôn ngữ, chúng tôi đề xuất một phương pháp để tăng chất lượng dịch lên đáng kể. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Hướng tiếp cận của luận văn Luận văn sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên hình thái ngôn ngữ. Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt, các tri thức được tập trung khảo sát về hình thái từ, từ loại và các cách kết hợp các thông tin này, ảnh hưởng của nó để từ đó có thể đề xuất phương pháp cải tiến hệ dịch.

Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ, tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng.

Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or),. Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố. Do đó, luận văn sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ, tập trung vào các lớp hình thái phổ biến là danh tự + (s), động từ + (ED), động từ + (ING).

Từ tiếng Anh sẽ được đưa về từ gốc và tách các hình vị, từ tiếng Việt sẽ được phân đoạn từ và gán nhãn từ loại. Sau đó luận văn thực hiện một số thực nghiệm và dùng điểm BLUE để so sánh các kết quả đạt được. Nội dung của luận văn Phần còn lại của luận văn sẽ bao gồm các chương sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 Chương 2 – DỊCH MÁY & DỊCH MÁY THỐNG KÊ: Chương này sẽ trình bày các khái niệm về Dịch máy và hướng tiếp cận Dịch máy thống kê dựa trên từ, cụm từ, cú pháp cùng với các thành phần cấu thành hệ thống dịch máy thống kê. Chương 3 – GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ: Chương này sẽ trình bày về mô hình cổ điển IBM, định nghĩa toán học và đưa ra các đánh giá về mặt hạn chế của mô hình này.

Chương 4 – PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN: Thông qua việc phân tích các ví dụ về hình thái của ngôn ngữ tiếng Việt và tiếng Anh để đưa ra các đề xuất cải tiến bao gồm việc tách từ, tiền xử lý, hậu xử lý từ để cho ra kết quả là bộ ngữ liệu tốt hơn. Chương 5 – THỬ NGHIỆM: Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của luận văn, đồng thời so sánh cả về mặt hiệu năng với các mô hình cổ điển khác. Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và hướng phát triển trong tương lai. TÀI LIỆU THAM KHẢO: trình bày các thông tin khác có liên quan và được sử dụng trong luận văn.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ 2. Dịch máy Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch 2.

Sơ đồ tổng quan của một hệ dịch máy Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ nguồn. Văn bản này có thể thu được từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói. Sau đó văn bản có thể được chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trước khi đưa vào máy dịch. Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngôn ngữ đích.

Và cũng qua một bộ chỉnh ra để cuối cùng thu được một văn bản tương đối hoàn chỉnh. Dưới đây là sơ đồ tổng quát của một hệ dịch máy: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1: Sơ đồ tổng quan của hệ dịch máy 2. Các phương pháp dịch máy Dịch máy là đề tài được nghiên cứu liên tục trong nhiều năm qua do rất nhiều nhóm nghiên cứu trên thế giới thực hiện, trong quá trình đó nhìn chung Dịch máy có thể được phân loại ra một số hướng như sau: Dịch trực tiếp (Direct MT) Là hệ thống dịch bằng cách thay thế những từ/ngữ trong ngôn ngữ nguồn bằng những từ/ngữ trong ngôn ngữ đích một cách tự động Dịch máy dựa theo luật (Rule-based MT) Hệ thống dịch bằng cách phân tích hình thái và cú pháp câu của ngôn ngữ nguồn và sau đó áp dụng những luật ngôn ngữ và từ vựng để ánh xạ thông tin sang ngôn ngữ đích Các tiếp cận truyền thống của hệ này là dựa vào các luật dẫn thường được xây dựng bằng tay bởi các chuyên gia ngôn ngữ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Dịch máy thống kê

Ngôn ngữ học tính toán

Thuật toán gióng hàng từ