Luận Văn Thạc Sĩ Về Mô Hình Cực Đại Entropy Và Học Luật Chuyển Đổi Trong Gán Nhãn Từ Loại

Luận văn thạc sĩ VNU UET nghiên cứu kết hợp mô hình cực đại entropy và học luật chuyển đổi trong gán nhãn từ loại, mang lại kết quả khả quan.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI

1.1. Bài toán gán nhãn từ loại

1.2. Các ứng dụng của gán nhãn từ loại

1.3. Các nghiên cứu liên quan

2. CHƯƠNG 2: KIẾN THỨC CƠ SỞ

2.1. Một số khái niệm cơ sở

2.2. Ngữ liệu Penn Treebank

2.3. Quá trình gán nhãn từ loại

2.4. Ngữ liệu Viet Treebank

2.5. Một số phương pháp học máy

2.6. Mô hình cực đại hóa Entropy

2.6.1. Khái niệm MEM

2.6.2. Nguyên lý cực đại hóa Entropy

2.6.3. Mô hình xác suất

2.6.4. Hạn chế của mô hình MEM

2.7. Mô hình học luật chuyển đổi

2.7.1. Sơ đồ của giải thuật TBL

2.7.2. Mô tả các giải thuật trong mô hình

2.7.3. Trình bày giải thuật

2.7.4. Giải thuật TBL nguyên thuỷ

3. CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH GÁN NHÃN TỪ LOẠI

3.1. Đề xuất mô hình

3.2. Mô hình cơ sở

3.3. Huấn luyện hệ thống

3.4. Quá trình gán nhãn

3.5. Mô hình kết hợp

3.6. Quá trình huấn luyện mô hình kết hợp

3.7. Quá trình kiểm tra

3.8. Mô hình ngôn ngữ

3.9. Biểu diễn ngữ cảnh

3.10. Lựa chọn đặc trưng

3.11. Lựa chọn tập mẫu

3.12. Tiếp cận xây dựng bộ gán nhãn từ loại

3.13. Xử lý dữ liệu

3.14. Cấu hình để thực hiện

3.15. Gán nhãn từ loại

4. CHƯƠNG 4: MÔ TẢ THỰC NGHIỆM

4.1. Dữ liệu thực nghiệm

4.2. Phương pháp thực nghiệm

4.3. Kết quả thực nghiệm

4.4. Các tham số đánh giá thực nghiệm

4.5. Phương pháp Holdout

4.6. Phương pháp K-Fold Cross-Validation

DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mô hình cực đại entropy trong gán nhãn từ loại

Mô hình cực đại entropy (Maximum Entropy Model - MEM) là một trong những phương pháp tiên tiến trong gán nhãn từ loại. Mô hình này dựa trên nguyên lý xác suất, cho phép xây dựng các mô hình ngôn ngữ với độ chính xác cao. Việc áp dụng MEM trong gán nhãn từ loại giúp cải thiện đáng kể độ chính xác so với các phương pháp truyền thống. Mô hình này không chỉ đơn thuần dựa vào các quy tắc ngữ pháp mà còn kết hợp nhiều yếu tố khác nhau từ ngữ cảnh, giúp xử lý các trường hợp nhập nhằng từ loại hiệu quả hơn.

1.1. Khái niệm về mô hình cực đại entropy

Mô hình cực đại entropy là một phương pháp thống kê trong học máy, được sử dụng để dự đoán xác suất của các sự kiện. Mô hình này tối ưu hóa xác suất dựa trên các đặc trưng của dữ liệu đầu vào, giúp cải thiện độ chính xác trong gán nhãn từ loại.

1.2. Nguyên lý hoạt động của mô hình cực đại entropy

Nguyên lý hoạt động của mô hình cực đại entropy dựa trên việc tối đa hóa entropy, tức là tìm kiếm phân phối xác suất sao cho không có thông tin nào bị bỏ sót. Điều này giúp mô hình có khả năng tổng quát tốt hơn và giảm thiểu hiện tượng overfitting.

II. Thách thức trong gán nhãn từ loại và học luật chuyển đổi

Gán nhãn từ loại gặp nhiều thách thức, đặc biệt là trong ngôn ngữ tiếng Việt với cấu trúc ngữ pháp phức tạp. Hiện tượng nhập nhằng từ loại là một trong những vấn đề chính, khi một từ có thể thuộc nhiều loại khác nhau. Học luật chuyển đổi (Transformation-Based Learning - TBL) là một phương pháp giúp giải quyết vấn đề này bằng cách sử dụng các quy tắc để điều chỉnh nhãn đã gán.

2.1. Hiện tượng nhập nhằng từ loại trong tiếng Việt

Nhập nhằng từ loại trong tiếng Việt thường xảy ra do sự đa dạng trong cách sử dụng từ. Một từ có thể mang nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh, điều này làm cho việc gán nhãn trở nên khó khăn hơn.

2.2. Vai trò của học luật chuyển đổi trong gán nhãn

Học luật chuyển đổi giúp cải thiện độ chính xác của quá trình gán nhãn bằng cách áp dụng các quy tắc sửa sai cho các nhãn đã gán. Phương pháp này cho phép mô hình học từ các lỗi trước đó và điều chỉnh nhãn cho phù hợp hơn.

III. Phương pháp kết hợp mô hình cực đại entropy và học luật chuyển đổi

Việc kết hợp mô hình cực đại entropy với học luật chuyển đổi tạo ra một phương pháp mạnh mẽ cho bài toán gán nhãn từ loại. Mô hình kết hợp này tận dụng ưu điểm của cả hai phương pháp, giúp cải thiện độ chính xác và khả năng tổng quát. Kết quả thực nghiệm cho thấy mô hình kết hợp đạt được độ chính xác cao hơn so với từng phương pháp riêng lẻ.

3.1. Cấu trúc mô hình kết hợp

Mô hình kết hợp bao gồm hai phần chính: phần mô hình cực đại entropy làm cơ sở và phần học luật chuyển đổi để điều chỉnh nhãn. Cấu trúc này cho phép tối ưu hóa quá trình gán nhãn từ loại.

3.2. Quy trình huấn luyện mô hình kết hợp

Quy trình huấn luyện mô hình kết hợp bao gồm việc thu thập dữ liệu, xác định đặc trưng ngôn ngữ và áp dụng các quy tắc học luật chuyển đổi. Điều này giúp mô hình học từ các lỗi và cải thiện độ chính xác trong gán nhãn.

IV. Ứng dụng thực tiễn của mô hình kết hợp trong gán nhãn từ loại

Mô hình kết hợp giữa cực đại entropy và học luật chuyển đổi đã được áp dụng thành công trong nhiều ứng dụng thực tiễn. Đặc biệt, trong lĩnh vực xử lý ngôn ngữ tự nhiên, mô hình này giúp cải thiện độ chính xác trong các hệ thống dịch máy, phân tích cú pháp và trích xuất thông tin.

4.1. Ứng dụng trong dịch máy

Mô hình kết hợp giúp cải thiện chất lượng dịch máy bằng cách cung cấp thông tin chính xác về từ loại, từ đó nâng cao khả năng dịch chính xác giữa các ngôn ngữ.

4.2. Ứng dụng trong phân tích cú pháp

Trong phân tích cú pháp, mô hình kết hợp giúp xác định cấu trúc câu chính xác hơn, từ đó cải thiện độ chính xác của các hệ thống phân tích ngữ nghĩa.

V. Kết luận và hướng phát triển tương lai của mô hình kết hợp

Mô hình kết hợp giữa cực đại entropy và học luật chuyển đổi đã chứng minh được hiệu quả trong gán nhãn từ loại. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, đặc biệt là trong việc mở rộng mô hình cho các ngôn ngữ khác. Hướng phát triển tương lai có thể bao gồm việc áp dụng các kỹ thuật học sâu để cải thiện độ chính xác và khả năng tổng quát của mô hình.

5.1. Đánh giá hiệu quả mô hình kết hợp

Đánh giá hiệu quả của mô hình kết hợp cho thấy độ chính xác cao trong gán nhãn từ loại, đặc biệt là trong các ngữ liệu chưa đầy đủ như tiếng Việt.

5.2. Hướng nghiên cứu tiếp theo

Hướng nghiên cứu tiếp theo có thể tập trung vào việc áp dụng các phương pháp học sâu và mở rộng mô hình cho các ngôn ngữ khác, nhằm nâng cao khả năng tổng quát và độ chính xác.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Gán nhãn từ loại (Part-of-Speech Tagging - POS Tagging) là một bài toán cơ bản trong xử lý ngôn ngữ tự nhiên, đóng vai trò tiền xử lý quan trọng cho các ứng dụng như phân tích cú pháp, phân tích ngữ nghĩa và dịch máy. Theo ước tính, tiếng Việt là ngôn ngữ phổ biến thứ 12 trên thế giới với hơn 85% dân số Việt Nam sử dụng, tuy nhiên các nghiên cứu về gán nhãn từ loại tiếng Việt vẫn còn hạn chế và độ chính xác chưa cao so với các ngôn ngữ như tiếng Anh hay tiếng Trung. Mục tiêu của luận văn là đề xuất một mô hình kết hợp giữa mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) và mô hình học luật chuyển đổi (Transformation-Based Learning - TBL) nhằm nâng cao độ chính xác gán nhãn từ loại cho tiếng Việt và tiếng Anh.

Phạm vi nghiên cứu tập trung trên hai kho ngữ liệu tiêu biểu: Penn Treebank cho tiếng Anh với hơn 4.5 triệu từ và Viet Treebank cho tiếng Việt với hơn 10.000 câu chú giải cú pháp. Nghiên cứu thực nghiệm cho thấy mô hình kết hợp đạt độ chính xác khoảng 95.18% cho tiếng Việt và 97.12% cho tiếng Anh, vượt trội hơn so với mô hình MEM đơn lẻ. Kết quả này có ý nghĩa quan trọng trong việc cải thiện chất lượng các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt với các ngôn ngữ có kho dữ liệu chưa đầy đủ như tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình học máy điển hình:

Mô hình cực đại hóa Entropy (MEM): Dựa trên nguyên lý chọn phân phối xác suất đồng đều nhất thỏa mãn các ràng buộc từ dữ liệu huấn luyện. MEM sử dụng các đặc trưng ngữ cảnh để ước lượng xác suất gán nhãn từ loại cho từng từ trong câu. Mô hình này có ưu điểm về độ chính xác và khả năng tái sử dụng, nhưng gặp hạn chế như vấn đề "label bias" khi các trạng thái có ít đường đi ra.
Mô hình học luật chuyển đổi (TBL): Là giải thuật học giám sát, bắt đầu với nhãn cơ sở (có thể là kết quả của MEM), sau đó áp dụng các luật chuyển đổi để sửa lỗi gán nhãn dựa trên ngữ cảnh. TBL có tính kế thừa, trực quan và dễ kiểm soát, giúp cải thiện kết quả gán nhãn bằng cách sửa các lỗi ngoại lệ mà MEM chưa xử lý tốt.

Các khái niệm chính bao gồm: ngữ liệu (corpus), ngữ liệu chuẩn (golden corpus), hình vị (morpheme), từ (word), và kho ngữ liệu Treebank (Penn Treebank và Viet Treebank). Đặc trưng ngữ cảnh được biểu diễn trong cửa sổ từ -3 đến +3 xung quanh từ cần gán nhãn, bao gồm các từ và nhãn từ loại lân cận.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các kho ngữ liệu Penn Treebank (tiếng Anh) và Viet Treebank (tiếng Việt). Phương pháp nghiên cứu gồm:

Phân chia dữ liệu: Kho ngữ liệu được chia thành hai phần Mcorpus (70%) dùng để huấn luyện mô hình MEM và Bcorpus (30%) dùng để học luật chuyển đổi TBL.
Huấn luyện mô hình MEM: Sử dụng thuật toán Generalized Iterative Scaling (GIS) để tìm các tham số trọng số αi cho các đặc trưng, xây dựng mô hình xác suất gán nhãn từ loại.
Huấn luyện mô hình TBL: Dựa trên kết quả gán nhãn của MEM trên Bcorpus, xác định các lỗi gán nhãn và sinh ra các luật chuyển đổi từ các mẫu luật định nghĩa trước. Luật có điểm số cao nhất được chọn và áp dụng lặp lại cho đến khi không còn luật cải thiện.
Kiểm tra mô hình kết hợp: Áp dụng mô hình MEM để gán nhãn cơ sở cho dữ liệu kiểm tra, sau đó sử dụng các luật TBL để sửa lỗi, đánh giá độ chính xác so với nhãn chuẩn.

Timeline nghiên cứu kéo dài trong năm 2014, với các bước từ thu thập dữ liệu, xây dựng mô hình, huấn luyện, đến thực nghiệm và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác mô hình kết hợp: Mô hình kết hợp MEM và TBL đạt độ chính xác khoảng 95.18% trên ngữ liệu Viet Treebank và 97.12% trên Penn Treebank, cao hơn đáng kể so với mô hình MEM đơn lẻ (khoảng 92-93% cho tiếng Việt).
Hiệu quả sửa lỗi của TBL: TBL giúp sửa hơn 400 lỗi ngoại lệ trong hơn 300 câu của Viet Treebank, cải thiện đáng kể chất lượng gán nhãn so với mô hình cơ sở.
Ảnh hưởng của đặc trưng ngữ cảnh: Việc lựa chọn đặc trưng ngữ cảnh trong cửa sổ 5 từ xung quanh từ cần gán nhãn giúp mô hình MEM có khả năng dự đoán chính xác hơn, đặc biệt với các từ đa nhãn.
Khả năng áp dụng đa ngôn ngữ: Mô hình kết hợp cho thấy tính linh hoạt khi áp dụng cho cả tiếng Việt và tiếng Anh, trong đó tiếng Việt có kho dữ liệu hạn chế vẫn đạt kết quả khả quan.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do mô hình TBL tận dụng được tính kế thừa và khả năng sửa lỗi dựa trên luật chuyển đổi, khắc phục hạn chế của MEM trong việc xử lý các trường hợp ngoại lệ và từ chưa biết. So với các nghiên cứu trước đây chỉ sử dụng MEM hoặc TBL riêng lẻ, mô hình kết hợp cho thấy ưu thế vượt trội.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về gán nhãn từ loại đa ngôn ngữ, trong đó việc kết hợp các phương pháp học máy và luật chuyển đổi được đánh giá là hướng đi hiệu quả. Biểu đồ so sánh độ chính xác giữa các mô hình trên hai ngôn ngữ có thể minh họa rõ nét sự khác biệt này.

Ngoài ra, việc phát hiện và chỉnh sửa lỗi trong kho ngữ liệu Viet Treebank góp phần nâng cao chất lượng dữ liệu đầu vào cho các nghiên cứu xử lý ngôn ngữ tự nhiên tiếp theo như phân tích cú pháp và dịch máy.

Đề xuất và khuyến nghị

Phát triển mô hình kết hợp đa ngôn ngữ: Khuyến nghị mở rộng áp dụng mô hình kết hợp MEM và TBL cho các ngôn ngữ khác có kho dữ liệu hạn chế, nhằm tận dụng ưu điểm của từng phương pháp.
Tăng cường xây dựng và làm sạch kho ngữ liệu: Đề xuất tiếp tục hoàn thiện và hiệu chỉnh các kho ngữ liệu Treebank, đặc biệt là Viet Treebank, để nâng cao chất lượng huấn luyện và kiểm thử mô hình.
Mở rộng tập đặc trưng ngữ cảnh: Khuyến khích nghiên cứu thêm các đặc trưng ngữ cảnh phức tạp hơn như mô hình n-gram dài, đặc trưng hình thái, và thông tin ngữ nghĩa để cải thiện khả năng dự đoán.
Ứng dụng mô hình trong các hệ thống xử lý ngôn ngữ tự nhiên: Đề xuất tích hợp mô hình kết hợp vào các ứng dụng thực tế như dịch máy, trích xuất thông tin, và tổng hợp tiếng nói với mục tiêu nâng cao hiệu quả và độ chính xác.

Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, phối hợp giữa các nhóm nghiên cứu và các đơn vị phát triển công nghệ ngôn ngữ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về mô hình kết hợp MEM và TBL, giúp các nhà nghiên cứu phát triển các mô hình gán nhãn từ loại chính xác hơn.
Phát triển phần mềm dịch máy và phân tích cú pháp: Các kỹ sư và nhà phát triển có thể áp dụng mô hình kết hợp để cải thiện chất lượng dịch máy và phân tích cú pháp, đặc biệt với ngôn ngữ tiếng Việt.
Giảng viên và sinh viên ngành công nghệ thông tin, khoa học máy tính: Tài liệu chi tiết về phương pháp học máy và học luật chuyển đổi là nguồn tham khảo quý giá cho các khóa học và nghiên cứu chuyên sâu.
Các tổ chức xây dựng kho ngữ liệu ngôn ngữ: Luận văn cung cấp hướng dẫn về quy trình xây dựng, hiệu chỉnh và sử dụng kho ngữ liệu Treebank, giúp nâng cao chất lượng dữ liệu phục vụ nghiên cứu.

Câu hỏi thường gặp

Mô hình cực đại hóa Entropy là gì và tại sao được chọn?
MEM là mô hình học máy dựa trên nguyên lý chọn phân phối xác suất đồng đều nhất thỏa mãn các ràng buộc từ dữ liệu. Nó được chọn vì khả năng xử lý tốt các đặc trưng ngữ cảnh và đạt độ chính xác cao trong gán nhãn từ loại.
TBL khác gì so với các phương pháp học máy khác?
TBL là phương pháp học luật chuyển đổi dựa trên việc sửa lỗi từ nhãn cơ sở, có tính kế thừa và trực quan, giúp cải thiện kết quả bằng cách xử lý các trường hợp ngoại lệ mà mô hình học máy thống kê chưa giải quyết tốt.
Tại sao cần kết hợp MEM và TBL?
MEM có ưu điểm về mô hình xác suất nhưng gặp hạn chế với các trường hợp ngoại lệ và từ chưa biết. TBL có khả năng sửa lỗi dựa trên luật chuyển đổi, do đó kết hợp hai mô hình tận dụng ưu điểm của cả hai, nâng cao độ chính xác tổng thể.
Mô hình kết hợp có áp dụng được cho ngôn ngữ khác không?
Có, mô hình kết hợp có tính linh hoạt và đã được chứng minh hiệu quả trên tiếng Anh và tiếng Việt, có thể mở rộng cho các ngôn ngữ khác, đặc biệt là những ngôn ngữ có kho dữ liệu hạn chế.
Làm thế nào để cải thiện thêm độ chính xác của mô hình?
Có thể mở rộng tập đặc trưng ngữ cảnh, tăng kích thước và chất lượng kho ngữ liệu huấn luyện, áp dụng các kỹ thuật học sâu hoặc kết hợp thêm các mô hình ngôn ngữ phức tạp hơn như CRF hoặc mạng nơ-ron.

Kết luận

Đề xuất thành công mô hình kết hợp MEM và TBL cho bài toán gán nhãn từ loại, đạt độ chính xác 95.18% cho tiếng Việt và 97.12% cho tiếng Anh.
Mô hình TBL giúp sửa hơn 400 lỗi ngoại lệ trong kho ngữ liệu Viet Treebank, nâng cao chất lượng gán nhãn.
Phương pháp kết hợp tận dụng ưu điểm của mô hình học máy thống kê và học luật chuyển đổi, phù hợp với các ngôn ngữ có kho dữ liệu hạn chế.
Kết quả nghiên cứu có ý nghĩa thực tiễn cao, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên như dịch máy, phân tích cú pháp và trích xuất thông tin.
Đề xuất các hướng nghiên cứu tiếp theo bao gồm mở rộng đặc trưng, phát triển kho ngữ liệu và ứng dụng mô hình trong các hệ thống thực tế.

Các nhà nghiên cứu và phát triển công nghệ ngôn ngữ nên áp dụng và mở rộng mô hình kết hợp này, đồng thời tiếp tục hoàn thiện kho ngữ liệu và đặc trưng để nâng cao hiệu quả xử lý ngôn ngữ tự nhiên.

Trích đoạn nội dung tài liệu

Đặt vấn đề Như đã trình bày ở trên, cách tiếp cận học máy thống kê đã cho thấy những ưu điểm của nó so với các cách tiếp cận dựa trên tiếp cận luật. Cách tiếp cận học máy có thể giải LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 quyết vấn đề này trên quy mô lớn mà không phải quan tâm nhiều đến khía cạnh ngôn ngữ. Tuy nhiên, các phương pháp tiếp cận học máy thường yêu cầu bộ dữ liệu đã gán nhãn trước để xây dựng lên mô hình. Dữ liệu huấn luyện càng nhiều thì mô hình thống kê càng đầy đủ, thiếu ngữ liệu huấn luyện là khó khăn lớn nhất trong cách tiếp cận này dẫn đến những sai số nhất định trong kết quả thực nghiệm.

Đối với tiếng Anh thì bài toán gán nhãn từ loại đã được giải quyết khá tốt với độ chính xác khá cao >97% [47]. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái Lan … cũng như đối với các ngôn ngữ kho dữ liệu chưa “đầy đủ” như tiếng Việt thì bài toán gán nhãn từ loại vẫn là một thách thức lớn [23]. Các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng ngôn ngữ.

Các nghiên cứu tại mục 1.3 cho thấy, vẫn còn những trường hợp mà mô hình học máy thống kê chưa giải quyết được. Tuy nhiên những trường hợp sai điển hình đó lại có thể được giải quyết bởi mô hình học luật chuyển đổi (TBL) bởi tính kế thừa của mô hình này. Trong luận văn này, chúng tôi tập trung nghiên cứu tìm hiểu đặc trưng của một số ngôn ngữ như tiếng Anh, tiếng Việt dựa trên các tập ngữ liệu có sẵn như Peen Treebank, Viet Treebank, đồng thời đề xuất mô kết hợp để cải thiện chất lượng gán nhãn của mô hình học máy thống kê. Mục tiêu của đề tài Luận văn này đề xuất xây dựng một mô hình kết hợp mô hình cực đại hóa Entropy với mô hình học luật chuyển đổi thích hợp để gán nhãn từ loại.

Mô hình học luật chuyển đổi được sử dụng để giải quyết các trường hợp bị lỗi từ loại nhằm nâng cao độ chính xác của mô hình học máy thống kê đối với bài toán gán nhãn từ loại. Mô hình đề xuất cũng được sử dụng để tiến hành thực nghiệm trên tiếng Anh và tiếng Việt. Đối tượng và phương pháp nghiên cứu Đối tượng nghiên cứu của luận văn gồm: Một số mô hình học máy thống kê và mô hình học dựa trên luật chuyển mà được sử dụng để giải quyết bài toán khử nhập nhằng từ loại. Trong đó chúng tôi tập trung vào mô hình học máy cực đại hóa Entropy và mô hình học dựa trên luật chuyển đổi.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 Phương pháp nghiên cứu của luận văn: Đề xuất mô hình mới về mặt lý thuyết, sau đó tiến hành sử dụng các công cụ gán nhãn có sẵn được xây dựng trên nền tảng mô hình cực đại hóa Entropy cho Tiếng Anh và Tiếng Việt kết hợp với mô hình học luật chuyển đổi thành một công cụ duy nhất phục vụ quá trình thực nghiệm. Qua đó chứng minh tính hiệu quả của mô hình mới mà chúng tôi đề xuất so với các mô hình đã có trước đó. Những đóng góp của luận văn Thứ nhất, đề xuất tập mẫu luật chuyển phù hợp trong phương pháp học dựa trên luật chuyển để thu được các luật chuyển có chất lượng tốt. Qua đó giúp cho việc sửa các lỗi của mô hình học máy thống kê tốt hơn.

Thứ hai, phát triển và xây dựng hoàn thành công cụ gán nhãn từ loại tiếng Việt dựa trên mô hình kết hợp trên ngôn ngữ lập trình JAVA. Thứ ba, thông qua quá trình thực nghiệm, chúng tôi phát hiện và chỉnh sửa trên gần 300 câu trong kho ngữ liệu Viet TreeBank với hơn 400 lỗi ngoại lệ. Thứ tư, đề xuất một mô hình kết hợp dựa trên mô hình học máy thống kê và mô hình học luật chuyển đổi để giải quyết bài toán gán nhãn từ loại. Mô hình mới này cho phép sửa được các lỗi sai của mô hình cơ sở, mô hình kết hợp đạt được độ chính xác tốt hơn khi so sánh với các mô hình thành phần, và các mô hình học máy khác mà chúng tôi đã khảo sát.

Hơn nữa, mô hình này mà chúng tôi đề xuất có thể áp dụng để giải quyết nhiều bài toán khác của xử lý ngôn ngữ tự nhiên. Bố cục của luận văn Trong phần này, chúng tôi sẽ trình bày chi tiết cách tổ chức luận văn và thông tin tóm tắt của từng chương. Luận văn được tổ chức thành 4 chương, ngoài chương 1 đã được trình bày, các chương còn lại được tổ chức như sau:  Chương 2: Kiến thức cơ sở  Chương 3: Đề xuất mô hình gán nhãn từ loại  Chương 4: Thực nghiệm  Kết luận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 CHƯƠNG 2. KIẾN THỨC CƠ SỞ  Chương này được chia thành hai phần.

Trong phần đầu, chúng tôi giới thiệu một số khái niệm cơ bản về ngôn ngữ, nghiên cứu một số đặc trưng ngôn ngữ. Phần hai, giới thiệu một số phương pháp học máy được áp dụng thành công cho bài toán gán nhãn từ loại cho nhiều ngôn ngữ. Luận văn lựa chọn hai trong số những phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt đối với tiếng Việt, đó là mô hình cực đại hóa Entropy (Maximum Entropy Model – MEM) và học luật chuyển đổi (Transformation Based Learning - TBL). Cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần xây dựng mô hình kết hợp và phần thực nghiệm gán nhãn từ loại trong chương sau.

Một số khái niệm cơ sở + Ngữ liệu (Corpus): Ngữ liệu là khái niệm dùng để chỉ tập hợp các câu dưới dạng tiếng nói hay văn bản, trong đó chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý ngôn ngữ tự nhiên. Trong bài toán gán nhãn từ loại thì ngữ liệu là các câu bao gồm các từ và các nhãn từ loại tương ứng. + Ngữ liệu chuẩn (Golden Corpus): là một dạng ngữ liệu trong đó có chứa thông tin về từ và nhãn từ loại chính xác của từ. + Ngữ liệu huấn luyện (Training Corpus): là ngữ liệu đã được gán nhãn đúng, được sử dụng cho quá trình huấn luyện để xây dựng mô hình.

+ Hình vị (Morpheme): là đơn vị ngôn ngữ nhỏ nhất có nghĩa, còn được gọi là “từ tố - token”. Hình vị thường có hình thức cấu tạo một âm tiết, tức là mỗi hình vị trùng với âm tiết, trên chữ viết mỗi hình vị được viết thành một chữ. Hình vị trong tiếng Việt có thể một mình đóng vai trò như một từ cũng có thể làm thành tố cấu tạo từ, nhưng nó chỉ được phân xuất ra nhờ phân tích bản thân các từ. + Tiếng (Âm tiết): là do một hay nhiều âm phát ra cùng một lúc tạo thành.

Tiếng trong tiếng Việt thường được hiểu là âm tiết, về mặt ngữ pháp tiếng là đơn vị có nghĩa, dùng trong chuỗi lời nói. Khi phát âm, mỗi tiếng bao giờ cũng phát ra một hơi, có mang một thanh điệu nhất định. Tuy nhiên, trong lời nói hàng ngày, thường người ta nói đến tiếng nhiều hơn là âm tiết. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 + Từ (Word): Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn chỉnh.

Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ phức có từ ghép và từ láy (hay láy âm). + Treebank: là một kho ngữ liệu trong đó mỗi câu đều có cấu trúc cú pháp thường ở dạng cây. Treebank thường được xây dựng dựa vào tập ngữ liệu đã gán nhãn, đôi khi các thông tin về ngôn ngữ hoặc ngữ nghĩa cũng được đưa vào cấu trúc cú pháp nhằm tăng chất lượng của Treebank. Việc xây dựng Treebank có thể được thực hiện hoàn toàn thủ công hoặc bán tự động, sau khi chú thích dữ liệu có thể cần được kiểm tra đôi khi phải hiệu chỉnh lại nó.

Công việc này có thể kéo dài đến hàng năm. Ngữ liệu Penn Treebank Penn treebank do đại học Pennsylvania phát triển, chứa khoảng 4.5 triệu từ Anh – Mỹ. Trong ba năm đầu từ 1989 đến 1992, người ta thực hiện việc gán nhãn từ loại cho các câu. Ngữ liệu này được cung cấp miễn phí và có thể được tìm thấy trên website: http://www.

Phần tiếp theo, chúng tôi sẽ trình bày về cấu trúc và đặc điểm ngữ liệu Penn Treebank. Miêu tả Ngữ liệu Brown được coi là kho ngữ liệu đầu tiên trên thế giới, sau nó xuất hiện thêm nhiều kho ngữ liệu khác. Trong kho ngữ liệu Brown bao gồm 87 nhãn từ loại cơ bản và cho phép thực hiện việc ghép những nhãn từ loại với nhau tạo ra một nhãn từ loại mới. Khối ngữ liệu này khá đồ sộ với 135 nhãn từ loại, một số ngữ liệu sau này cũng có số lượng nhãn từ loại tương đương.

Tuy nhiên, khác hẳn với các ngữ liệu trước đây, tập nhãn từ loại của Penn Treebank ít hơn rất nhiều so với các khối ngữ liệu khác. Mặc dù dựa trên tập nhãn cơ sở là các nhãn trong khối ngữ liệu Brown, nhưng nhóm xây dựng Penn Treebank sử dụng thông tin cú pháp và thông tin từ vựng trong việc làm giảm tập nhãn cú pháp. Ngoài ra, việc kích thước tập nhãn cú pháp cũng làm tăng tính nhất quán trong ngữ liệu. Một ví dụ đơn giản ở đây đó là nếu hai cụm từ hay câu về cú pháp có một sự tương đồng nhưng được gán nhãn hoàn toàn khác nhau là điều không thích hợp.

Trong Penn Treebank, nhóm xây dựng ngữ liệu đã đưa thêm thông tin liên quan đến ngữ cảnh vào để thực hiện việc gán nhãn, qua đó tăng độ chính xác của ngữ liệu. Một đặc điểm riêng nữa của Penn Treebank đó là tính đa dạng. Không như các ngữ liệu khác, việc gán nhãn không nhất thiết là một nhãn duy nhất mà nó còn có thể có nhiều loại nhãn khác nhau. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Học máy và mô hình thống kê

gán nhãn chuỗi và phân loại văn bản