Luận văn thạc sĩ nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35

Luận văn thạc sĩ nghiên cứu phương pháp gán nhãn từ loại cho văn bản tiếng Việt bằng học máy không có hướng dẫn, mang lại nhiều ứng dụng thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Bảo đảm toán học cho máy tính và hệ thống tính toán

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2012

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI NÓI ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Bài toán gán nhãn từ loại

1.2. Tổng quan về cách tiếp cận giải bài toán

1.2.1. Quá trình gán nhãn từ loại

1.2.2. Ngữ liệu

1.2.3. Các tiếp cận giải bài toán

1.2.3.1. Gán nhãn dựa trên luật

1.2.3.2. Gán nhãn thống kê

1.2.3.3. Các từ chưa biết

1.3. Bài toán gán nhãn từ loại tiếng Việt

2. CHƯƠNG 2: CƠ SỞ TOÁN HỌC

2.1. Định lý Bayes

2.2. Thuật toán cực đại hóa kỳ vọng (EM)

2.3. Mô hình Markov ẩn

2.3.1. Ba bài toán cơ bản của HMM

2.4. Mô hình n-gram

2.5. Khái niệm phân cụm

2.5.1. Các yêu cầu của phân cụm

2.5.2. Các phương pháp phân cụm

2.6. Phân tích giá trị kỳ dị

3. CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƯỚNG DẪN CHO GÁN NHÃN TỪ LOẠI

3.1. Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

3.1.1. Huấn luyện mô hình Trigram

3.1.2. Kết quả thử nghiệm với tiếng Anh

3.1.3. Các thí nghiệm cơ bản

3.2. Gán nhãn từ loại bằng kỹ thuật phân cụm

3.2.1. Suy luận gán nhãn

3.2.2. Suy luận dựa trên từ loại

3.2.3. Suy luận dựa trên loại từ và ngữ cảnh

3.2.4. Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá

3.3. Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn từ loại tiếng Việt

LỜI CẢM ƠN

Tóm tắt

I. Tổng quan về gán nhãn từ loại tiếng Việt bằng học máy không có hướng dẫn

Gán nhãn từ loại là một trong những vấn đề quan trọng trong xử lý ngôn ngữ tự nhiên. Việc xác định từ loại cho mỗi từ trong văn bản giúp cải thiện độ chính xác trong các ứng dụng như dịch máy, phân tích cú pháp và tìm kiếm thông tin. Trong tiếng Việt, bài toán này gặp nhiều thách thức do sự đa dạng và phức tạp của ngôn ngữ. Phương pháp học máy không có hướng dẫn đang được nghiên cứu để giải quyết vấn đề này mà không cần xây dựng kho ngữ liệu lớn.

1.1. Khái niệm gán nhãn từ loại trong tiếng Việt

Gán nhãn từ loại là quá trình xác định chức năng ngữ pháp của từ trong câu. Mỗi từ có thể thuộc nhiều loại khác nhau, và việc xác định chính xác từ loại là rất quan trọng để hiểu nghĩa của câu. Ví dụ, từ 'đá' có thể là danh từ hoặc động từ tùy thuộc vào ngữ cảnh.

1.2. Tầm quan trọng của gán nhãn từ loại trong xử lý ngôn ngữ

Gán nhãn từ loại hỗ trợ cho nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên, như phân tích cú pháp, dịch máy và tìm kiếm thông tin. Việc xác định chính xác từ loại giúp cải thiện độ chính xác của các hệ thống này, từ đó nâng cao hiệu quả trong việc xử lý văn bản.

II. Thách thức trong gán nhãn từ loại tiếng Việt

Bài toán gán nhãn từ loại tiếng Việt gặp nhiều khó khăn do sự đa dạng trong cách sử dụng từ và thiếu sự thống nhất trong việc phân loại từ loại. Các nhà ngôn ngữ học chưa đạt được sự đồng thuận về tập từ loại, dẫn đến việc xây dựng kho dữ liệu gán nhãn gặp nhiều trở ngại.

2.1. Sự đa dạng và phức tạp của từ loại tiếng Việt

Tiếng Việt có nhiều từ có thể thuộc nhiều loại khác nhau, gây khó khăn trong việc xác định từ loại chính xác. Ví dụ, từ 'mới' có thể là tính từ hoặc trạng từ tùy thuộc vào ngữ cảnh sử dụng.

2.2. Thiếu sự thống nhất trong phân loại từ loại

Các nhà nghiên cứu chưa thống nhất về tập từ loại tiếng Việt, dẫn đến việc xây dựng các bộ gán nhãn khác nhau. Điều này gây khó khăn trong việc so sánh và đánh giá các phương pháp gán nhãn từ loại.

III. Phương pháp học máy không có hướng dẫn cho gán nhãn từ loại

Phương pháp học máy không có hướng dẫn cho phép gán nhãn từ loại mà không cần xây dựng kho ngữ liệu lớn. Các phương pháp này sử dụng các thuật toán tự động để phân nhóm từ và xác định nhãn từ loại dựa trên ngữ cảnh.

3.1. Kỹ thuật cực đại hóa kỳ vọng EM trong gán nhãn

Kỹ thuật EM được sử dụng để tối ưu hóa mô hình gán nhãn từ loại. Phương pháp này giúp cải thiện độ chính xác của việc gán nhãn bằng cách tối ưu hóa các tham số của mô hình dựa trên dữ liệu đầu vào.

3.2. Mô hình Markov ẩn HMM trong gán nhãn từ loại

Mô hình Markov ẩn là một trong những phương pháp phổ biến trong gán nhãn từ loại. HMM sử dụng xác suất để dự đoán nhãn từ loại dựa trên các từ trước đó trong câu, giúp cải thiện độ chính xác của việc gán nhãn.

IV. Ứng dụng thực tiễn của gán nhãn từ loại tiếng Việt

Gán nhãn từ loại có nhiều ứng dụng thực tiễn trong các hệ thống xử lý ngôn ngữ tự nhiên. Các công cụ gán nhãn từ loại giúp cải thiện độ chính xác trong dịch máy, phân tích cú pháp và tìm kiếm thông tin, từ đó nâng cao hiệu quả của các ứng dụng này.

4.1. Gán nhãn từ loại trong dịch máy

Trong dịch máy, việc gán nhãn từ loại giúp xác định cấu trúc ngữ pháp của câu, từ đó cải thiện độ chính xác của bản dịch. Các hệ thống dịch máy hiện đại thường sử dụng gán nhãn từ loại để phân tích cú pháp trước khi thực hiện dịch.

4.2. Gán nhãn từ loại trong phân tích cú pháp

Gán nhãn từ loại là bước quan trọng trong phân tích cú pháp. Việc xác định chính xác từ loại giúp các hệ thống phân tích cú pháp hiểu rõ hơn về cấu trúc ngữ pháp của câu, từ đó cải thiện độ chính xác trong việc phân tích.

V. Kết luận và tương lai của gán nhãn từ loại tiếng Việt

Gán nhãn từ loại tiếng Việt bằng phương pháp học máy không có hướng dẫn là một lĩnh vực nghiên cứu đầy tiềm năng. Mặc dù còn nhiều thách thức, nhưng việc áp dụng các phương pháp học máy hiện đại có thể giúp cải thiện độ chính xác trong gán nhãn từ loại, từ đó nâng cao hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên.

5.1. Tương lai của nghiên cứu gán nhãn từ loại

Nghiên cứu gán nhãn từ loại tiếng Việt sẽ tiếp tục phát triển với sự hỗ trợ của các công nghệ học máy hiện đại. Việc áp dụng các phương pháp mới có thể giúp giải quyết các vấn đề còn tồn tại trong việc xác định từ loại.

5.2. Cơ hội và thách thức trong nghiên cứu

Mặc dù có nhiều cơ hội để phát triển, nhưng nghiên cứu gán nhãn từ loại tiếng Việt vẫn đối mặt với nhiều thách thức, bao gồm sự đa dạng trong cách sử dụng từ và thiếu sự thống nhất trong phân loại từ loại. Việc hợp tác giữa các nhà nghiên cứu sẽ giúp giải quyết những vấn đề này.

16/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Gán nhãn từ loại (Part-of-Speech Tagging) là một bước nền tảng trong xử lý ngôn ngữ tự nhiên, giúp xác định chức năng ngữ pháp của từng từ trong văn bản. Theo báo cáo của ngành, việc xác định chính xác từ loại đóng vai trò quan trọng trong các ứng dụng như tìm kiếm thông tin, tổng hợp tiếng nói, nhận dạng tiếng nói và dịch máy. Tuy nhiên, bài toán gán nhãn từ loại tiếng Việt vẫn còn nhiều thách thức do chưa có sự thống nhất về bộ nhãn từ loại và khó khăn trong xây dựng kho dữ liệu huấn luyện. Mục tiêu nghiên cứu của luận văn là đề xuất và phát triển phương pháp gán nhãn từ loại tiếng Việt bằng học máy không có hướng dẫn, nhằm giảm thiểu sự phụ thuộc vào kho dữ liệu đã gán nhãn thủ công, tiết kiệm thời gian và chi phí. Nghiên cứu tập trung trong phạm vi tiếng Việt, sử dụng các kỹ thuật học máy không có hướng dẫn như thuật toán cực đại hóa kỳ vọng (EM) và phân cụm, với dữ liệu thu thập từ các kho văn bản tiếng Việt phổ biến. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác gán nhãn từ loại, góp phần phát triển các công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt, đồng thời mở rộng khả năng ứng dụng trong các hệ thống ngôn ngữ thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy chủ yếu sau:

Mô hình Markov ẩn (Hidden Markov Model - HMM): Mô hình thống kê dùng để mô phỏng chuỗi trạng thái ẩn (nhãn từ loại) dựa trên chuỗi quan sát (các từ trong văn bản). HMM cho phép tính xác suất chuỗi nhãn tối ưu dựa trên xác suất chuyển tiếp giữa các nhãn và xác suất xuất hiện từ với nhãn tương ứng.
Thuật toán cực đại hóa kỳ vọng (Expectation Maximization - EM): Thuật toán lặp nhằm ước lượng tham số mô hình HMM khi dữ liệu nhãn chưa được biết trước, bao gồm các bước đánh giá kỳ vọng (E-step) và tối đa hóa (M-step).
Mô hình n-gram: Mô hình Markov bậc n-1 dùng để ước lượng xác suất xuất hiện của một nhãn dựa trên n-1 nhãn trước đó, giúp cải thiện độ chính xác trong dự đoán chuỗi nhãn.
Phân cụm (Clustering): Kỹ thuật phân nhóm các từ dựa trên đặc trưng ngữ cảnh, nhằm xây dựng các nhóm từ loại mà không cần dữ liệu nhãn. Các phương pháp phân cụm như k-means, phân cụm mờ (Fuzzy C-means) được sử dụng để xử lý dữ liệu nhiều chiều.
Phân tích giá trị kỳ dị (Singular Value Decomposition - SVD): Phương pháp giảm số chiều dữ liệu véc tơ ngữ cảnh, giúp tăng hiệu quả và độ chính xác trong việc tính toán độ tương tự giữa các từ.

Các khái niệm chính bao gồm: từ loại, nhãn từ loại, véc tơ ngữ cảnh trái và phải, độ đo cosin, tập nhãn, và kho dữ liệu huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm các kho văn bản tiếng Việt chưa gán nhãn, tập hợp 250 từ xuất hiện nhiều nhất trong kho dữ liệu, và các bảng băm lưu trữ tần suất xuất hiện từ và láng giềng ngữ cảnh. Phương pháp phân tích gồm:

Tiền xử lý dữ liệu: loại bỏ dấu câu và các từ có tần suất thấp dưới 10 lần.
Tính toán véc tơ ngữ cảnh trái và phải cho mỗi từ dựa trên tần suất xuất hiện của các từ láng giềng trong kho dữ liệu.
Áp dụng SVD để giảm số chiều véc tơ ngữ cảnh từ hàng nghìn chiều xuống còn khoảng 50 chiều, nhằm giảm thiểu ảnh hưởng của dữ liệu thưa thớt.
Tính độ tương tự giữa các từ dựa trên độ đo cosin của véc tơ ngữ cảnh đã giảm chiều.
Sử dụng thuật toán phân cụm mờ (Fuzzy C-means) để phân nhóm các từ thành các cụm tương ứng với các nhãn từ loại tiềm năng.
Xây dựng tập nhãn từ loại dựa trên kết quả phân cụm, làm cơ sở để xây dựng kho dữ liệu gán nhãn thủ công.
Áp dụng mô hình HMM với thuật toán huấn luyện khả năng cực đại (Maximum Likelihood - ML) để gán nhãn cho văn bản tiếng Việt dựa trên kho dữ liệu gán nhãn thủ công nhỏ.

Quá trình nghiên cứu được thực hiện theo timeline gồm: thu thập và xử lý dữ liệu (3 tháng), xây dựng mô hình và thuật toán (4 tháng), thử nghiệm và đánh giá kết quả (3 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán EM trong gán nhãn từ loại tiếng Anh: Thí nghiệm trên dữ liệu Penn Treebank với khoảng 42,186 câu đã gán nhãn cho thấy, khi sử dụng huấn luyện tần số quan hệ (RF) với tập dữ liệu huấn luyện tăng lên, hệ số nội suy λ tăng và độ chính xác gán nhãn cải thiện rõ rệt. Ví dụ, với 5,000 câu huấn luyện, độ chính xác đạt trên 90%, trong khi huấn luyện khả năng cực đại (ML) cho phép cải thiện khi dữ liệu huấn luyện nhỏ nhưng giảm hiệu quả khi dữ liệu lớn hơn 5,000 câu.
Phân cụm véc tơ ngữ cảnh giúp xây dựng tập nhãn từ loại: Sử dụng véc tơ ngữ cảnh trái và phải, kết hợp với phân tích giá trị kỳ dị (SVD) và phân cụm mờ, đã phân loại được các từ thành các nhóm tương ứng với nhãn từ loại. Kết quả cho thấy phân cụm dựa trên véc tơ ngữ cảnh tổng quát hóa đạt độ chính xác cao hơn so với chỉ dựa trên từ loại hoặc ngữ cảnh đơn lẻ, với tỷ lệ chính xác đạt khoảng 75-80% trên tập dữ liệu thử nghiệm.
Khó khăn trong gán nhãn từ loại tiếng Việt: Do chưa có bộ nhãn thống nhất và kho dữ liệu gán nhãn thủ công còn hạn chế, các phương pháp có hướng dẫn gặp khó khăn trong việc áp dụng trực tiếp. Phương pháp không có hướng dẫn, đặc biệt là phân cụm véc tơ ngữ cảnh, giúp giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn nhưng độ chính xác hiện tại còn thấp hơn so với phương pháp có hướng dẫn.
Đề xuất phương pháp gán nhãn không có hướng dẫn cho tiếng Việt: Luận văn đề xuất quy trình gồm loại bỏ dấu câu và từ xuất hiện dưới 10 lần, tính toán véc tơ ngữ cảnh trái và phải dựa trên 250 từ phổ biến nhất, áp dụng SVD để giảm chiều, tính độ tương tự cosin và phân cụm mờ để xây dựng tập nhãn. Phương pháp này giúp tiết kiệm thời gian và chi phí xây dựng kho dữ liệu gán nhãn thủ công, đồng thời giải quyết vấn đề nhập nhằng tập nhãn trong tiếng Việt.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt về độ chính xác giữa các phương pháp là do tính chất đặc thù của tiếng Việt với nhiều từ ghép và sự đa nghĩa cao, khiến việc phân loại từ loại phức tạp hơn so với tiếng Anh. Việc sử dụng véc tơ ngữ cảnh trái và phải tổng quát hóa giúp khắc phục phần nào vấn đề dữ liệu thưa thớt và tăng khả năng nhận diện các từ nhập nhằng. So sánh với các nghiên cứu trước đây, phương pháp phân cụm không có hướng dẫn cho tiếng Việt là một hướng đi mới, phù hợp với điều kiện thiếu hụt dữ liệu gán nhãn chuẩn. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các phương pháp huấn luyện RF và ML, cũng như biểu đồ phân bố các cụm từ loại sau phân cụm. Ý nghĩa của nghiên cứu là mở ra hướng tiếp cận mới cho bài toán gán nhãn từ loại tiếng Việt, góp phần phát triển các công cụ xử lý ngôn ngữ tự nhiên hiệu quả hơn.

Đề xuất và khuyến nghị

Triển khai hệ thống phân cụm véc tơ ngữ cảnh cho tiếng Việt: Thực hiện quy trình tính toán véc tơ ngữ cảnh trái và phải dựa trên 250 từ phổ biến nhất, áp dụng SVD và phân cụm mờ để xây dựng tập nhãn từ loại. Mục tiêu nâng cao độ chính xác gán nhãn lên trên 80% trong vòng 12 tháng, do nhóm nghiên cứu ngôn ngữ và kỹ thuật thực hiện.
Xây dựng kho dữ liệu gán nhãn thủ công dựa trên tập nhãn phân cụm: Sử dụng kết quả phân cụm để tạo bộ nhãn chuẩn, giảm thiểu thời gian và chi phí so với xây dựng kho dữ liệu truyền thống. Dự kiến hoàn thành trong 6 tháng, phối hợp giữa các nhà ngôn ngữ học và kỹ sư dữ liệu.
Áp dụng mô hình HMM với huấn luyện khả năng cực đại (ML) cho gán nhãn tự động: Sử dụng kho dữ liệu gán nhãn thủ công nhỏ để huấn luyện mô hình HMM, nhằm đạt độ chính xác cao hơn trong gán nhãn từ loại tiếng Việt. Thời gian thực hiện 6 tháng, do nhóm kỹ thuật đảm nhiệm.
Phát triển công cụ hỗ trợ tiền xử lý và loại bỏ từ không cần thiết: Tự động loại bỏ dấu câu và từ có tần suất thấp dưới 10 lần để giảm nhiễu trong dữ liệu, nâng cao hiệu quả phân cụm và gán nhãn. Thời gian phát triển 3 tháng, do nhóm phát triển phần mềm thực hiện.
Tổ chức đào tạo và hội thảo chia sẻ kết quả: Tăng cường trao đổi giữa các nhà nghiên cứu ngôn ngữ và kỹ thuật để hoàn thiện bộ nhãn và phương pháp gán nhãn, dự kiến tổ chức định kỳ hàng năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở lý thuyết và phương pháp mới trong gán nhãn từ loại tiếng Việt, giúp họ phát triển các công cụ và thuật toán phù hợp với đặc thù ngôn ngữ.
Chuyên gia phát triển phần mềm ngôn ngữ: Các kỹ sư phần mềm có thể ứng dụng quy trình phân cụm và mô hình HMM để xây dựng hệ thống gán nhãn tự động, cải thiện hiệu suất và độ chính xác của sản phẩm.
Giảng viên và sinh viên ngành ngôn ngữ học và khoa học máy tính: Tài liệu là nguồn tham khảo quý giá cho việc giảng dạy và nghiên cứu về học máy không có hướng dẫn và xử lý ngôn ngữ tiếng Việt.
Các tổ chức phát triển công nghệ ngôn ngữ Việt Nam: Hỗ trợ trong việc xây dựng kho dữ liệu ngôn ngữ chuẩn, phát triển các ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên phục vụ cộng đồng.

Câu hỏi thường gặp

Phương pháp học máy không có hướng dẫn là gì?
Là kỹ thuật học máy không cần dữ liệu đã gán nhãn trước, sử dụng các thuật toán như phân cụm hoặc EM để tự động phát hiện cấu trúc ẩn trong dữ liệu. Ví dụ, phân cụm véc tơ ngữ cảnh giúp nhóm các từ có chức năng ngữ pháp tương tự mà không cần nhãn thủ công.
Tại sao tiếng Việt khó gán nhãn từ loại hơn tiếng Anh?
Tiếng Việt có nhiều từ ghép, đa nghĩa và chưa có bộ nhãn thống nhất, cùng với đặc điểm phân tách từ không dựa hoàn toàn vào dấu cách, gây khó khăn trong việc xác định ranh giới từ và nhãn chính xác.
SVD giúp gì trong việc gán nhãn từ loại?
SVD giảm số chiều của véc tơ ngữ cảnh, loại bỏ dữ liệu thưa thớt và nhiễu, giúp tăng hiệu quả tính toán độ tương tự giữa các từ, từ đó cải thiện chất lượng phân cụm và gán nhãn.
Phân cụm mờ (Fuzzy C-means) khác gì so với phân cụm truyền thống?
Phân cụm mờ cho phép một từ thuộc về nhiều cụm với các mức độ thành viên khác nhau, phù hợp với tính đa nghĩa của từ trong ngôn ngữ tự nhiên, giúp mô hình linh hoạt hơn.
Làm thế nào để xây dựng kho dữ liệu gán nhãn thủ công hiệu quả?
Bắt đầu từ tập nhãn được xây dựng qua phân cụm không có hướng dẫn, sau đó các nhà ngôn ngữ học hiệu chỉnh và gán nhãn chính xác cho các từ trong tập dữ liệu nhỏ, giảm thiểu thời gian và chi phí so với gán nhãn toàn bộ dữ liệu thủ công.

Kết luận

Luận văn đã tổng quan và phân tích các phương pháp gán nhãn từ loại, đặc biệt là học máy không có hướng dẫn, áp dụng cho tiếng Việt.
Trình bày cơ sở toán học và mô hình học máy như HMM, EM, phân cụm và SVD làm nền tảng cho nghiên cứu.
Đánh giá thực nghiệm trên tiếng Anh và đề xuất phương pháp phân cụm véc tơ ngữ cảnh cho tiếng Việt nhằm giải quyết khó khăn về dữ liệu và bộ nhãn chưa thống nhất.
Đề xuất quy trình chi tiết gồm tiền xử lý, tính toán véc tơ ngữ cảnh, giảm chiều, phân cụm và xây dựng kho dữ liệu gán nhãn thủ công.
Hướng phát triển tiếp theo là thực hiện thử nghiệm cụ thể với phương pháp đề xuất, hoàn thiện kho dữ liệu và nâng cao độ chính xác gán nhãn từ loại tiếng Việt.

Mời các nhà nghiên cứu và chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên cùng hợp tác phát triển và ứng dụng kết quả nghiên cứu này để thúc đẩy công nghệ ngôn ngữ Việt Nam.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ------------ Trần Thu Trang NGHIÊN CỨU GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC MÁY KHÔNG CÓ HƯỚNG DẪN Chuyên nghành: Bảo đảm toán học cho máy tính và hệ thống tính toán Mã số: 60 46 35 TÓM TẮT LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN THỊ MINH HUYỀN Hà Nội – Năm 2012 1 TIEU LUAN MOI download : skknchat@gmail.com Mục lục LỜI NÓI ĐẦU. 5 Chƣơng 1 - TỔNG QUAN .1 Bài toán gán nhãn từ loại .2 Tổng quan về cách tiếp cận giải bài toán .1 Quá trình gán nhãn từ loại.3 Các tiếp cận giải bài toán .5 Gán nhãn dựa trên luật .6 Gán nhãn thống kê .7 Các từ chƣa biết.3 Bài toán gán nhãn từ loại tiếng Việt. 13 Chƣơng 2 - CƠ SỞ TOÁN HỌC .2 Thuật toán cực đại hóa kỳ vọng (EM) .3 Mô hình Markov ẩn.1 Ba bài toán cơ bản của HMM .2 Mô hình n-gram .1 Khái niệm phân cụm .2 Các yêu cầu của phân cụm .3 Các phƣơng pháp phân cụm.

26 2 TIEU LUAN MOI download : skknchat@gmail.5 Phân tích giá trị kỳ dị. 27 Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI .1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng .1 Huấn luyện mô hình Trigram .2 Kết quả thử nghiệm với tiếng Anh.3 Các thí nghiệm cơ bản.2 Gán nhãn từ loại bằng kỹ thuật phân cụm .1 Suy luận gán nhãn .2 Suy luận dựa trên từ loại .3 Suy luận dựa trên loại từ và ngữ cảnh .4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá .3 Đề xuất phƣơng pháp không hƣớng dẫn cho bài toán gán nhãn từ loại tiếng Việt. 48 3 TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy cô giáo trong khoa Toán–Cơ–Tin học đã dạy dỗ và truyền đạt cho em rất nhiều kiến thức trong những năm học vừa qua. Đặc biệt em xin gửi lời cảm ơn tới TS.

Nguyễn Thị Minh Huyền đã tận tình chỉ bảo và truyền đạt những kiến thức chuyên ngành trong quá trình em thực hiện luận văn này. Cuối cùng em xin gửi những lời chúc tốt đẹp nhất tới các thầy cô giáo trong khoa, cô Nguyễn Thị Minh Huyền, gia đình và bạn bè những ngƣời đã ủng hộ em trong thời gian vừa qua. 4 TIEU LUAN MOI download : skknchat@gmail.com LỜI NÓI ĐẦU Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tƣơng ứng với một lớp từ giữ một vai trò ngữ pháp nhất định.

Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó đƣợc xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong một văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể. Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Công cụ gán nhãn từ loại có thể đƣợc ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng nhƣ trong các hệ thống dịch máy. Công cụ này cũng hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống rút trích thông tin hƣớng đến ngữ nghĩa, v.v… Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã đƣợc giải quyết tốt bằng phƣơng pháp học máy có hƣớng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại. Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã đƣợc một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phƣơng pháp học máy có hƣớng dẫn, nhƣng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các nhà ngôn ngữ học vẫn còn chƣa thống nhất về tập từ loại tiếng Việt nên các nhóm tự định nghĩa tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho 5 TIEU LUAN MOI download : skknchat@gmail.com dữ liệu đã gán nhãn và xây dựng tập luật khác nhau. Công việc này mất rất nhiều thời gian, tiền của và công sức của các nhà nghiên cứu.

Một cách tiếp cận khác cho bài toán gán nhãn từ loại là sử dụng phƣơng pháp học máy không có hƣớng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại, mặt khác tiết kiệm công sức xây dựng tập huấn luyện. Đề tài này nghiên cứu một số phƣơng pháp gán nhãn từ loại không có hƣớng dẫn, trên cơ sở đó đƣa ra một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt bằng cách tiếp cận này. Cấu trúc luận văn Cấu trúc luận văn chia làm 3 chƣơng: Chƣơng I: Tổng quan Trong chƣơng này sẽ trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận. Chƣơng này cũng trình bày hiện trạng cùng các phƣơng pháp đã đƣợc dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt, khó khăn chƣa khắc phục đƣợc.

Chƣơng II: Cơ sở toán học Chƣơng này sẽ trình bày các kiến thức toán học, các mô hình học máy đƣợc sử dụng trong luận văn. Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán nhãn từ loại Chƣơng này sẽ trình bày một số phƣơng pháp học máy không có hƣớng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này. 6 TIEU LUAN MOI download : skknchat@gmail.com Chƣơng 1 - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp. Đây là bƣớc cơ bản trƣớc khi phân tích cú pháp hay các vấn đề xử lý ngôn ngữ phức tạp khác.

Thông thƣờng, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”, cùng một từ “đá” nhƣng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh từ, nhƣng từ thứ hai lại là động từ trong câu. Gán nhãn từ loại là mức thấp nhất của phân tích ngữ nghĩa. Xác định từ loại hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hƣớng đến ngữ nghĩa, v. Ví dụ1: John/ NNP saw/ VBD the/ DT saw/NN and/CC decided/VBD to/TO take/VB it/PRP to/IN the/DT table/N.

Ví dụ 2: Loan/Np muốn/V đi/V du lịch/V Huế/Np. Trong đó các nhãn NNP, Np, NN, N: danh từ. VBD, V: động từ. DT: từ hạn đinh.

IN, TO: giới từ.2 Tổng quan về cách tiếp cận giải bài toán 1.1 Quá trình gán nhãn từ loại Gán nhãn từ loại là một quá trình gồm 3 bƣớc xử lý:[2] - Bƣớc 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ. Giai đoạn này có thể phức tạp hay đơn giản tuỳ theo ngôn ngữ và từng 7 TIEU LUAN MOI download : skknchat@gmail.com đơn vị từ vựng. Chẳng hạn với tiếng Anh và tiếng Pháp, việc phân tách từ chủ yếu dựa vào ký tự trắng. Tuy nhiên vẫn có những cụm từ ghép hay những cụm từ công cụ gây tranh cãi về cách xử lý.

Trong khi đó với tiếng Việt thì dấu trắng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép là rất cao. - Bƣớc 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu đƣợc từ cơ sở dữ liệu từ điển hoặc từ kho văn bản đã gán nhãn bằng tay. Đối với một từ mới chƣa xuất hiện trong cơ sở dữ liệu thì có thể sử dụng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn.

Trong các ngôn ngữ biến đổi hình thái ngƣời ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại của từ đang xét. - Bƣớc 3: Quyết định kết quả gán nhãn. Giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm.2 Ngữ liệu Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là: - Từ điển và các văn phạm loại bỏ nhập nhằng. - Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay.

- Kho văn bản chƣa gán nhãn, có kèm theo các thông tin ngôn ngữ nhƣ là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố. - Kho văn bản chƣa gán nhãn, với tập từ loại cũng đƣợc xây dựng tự động nhờ các tính toán thống kê. Trong trƣờng hợp này khó có thể dự đoán trƣớc về tập từ loại. 8 TIEU LUAN MOI download : skknchat@gmail.3 Các tiếp cận giải bài toán Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19] - Tiếp cận có hƣớng dẫn.

- Tiếp cận không hƣớng dẫn. Bộ gán nhãn có hƣớng dẫn có đặc thù là dựa trên kho ngữ liệu đã đƣợc gán nhãn cho việc tạo ra các công cụ đƣợc sử dụng cho quá trình gán nhãn. Ví dụ nhƣ là Từ điển bộ gán nhãn, các tần suất từ/nhãn, các xác suất chuỗi nhãn, tập các luật. Các mô hình không hƣớng dẫn không yêu cầu kho ngữ liệu đã gán nhãn nhƣng lại sử dụng các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35

LỜI NÓI ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Bài toán gán nhãn từ loại

1.2. Tổng quan về cách tiếp cận giải bài toán

1.2.1. Quá trình gán nhãn từ loại

1.2.2. Ngữ liệu

1.2.3. Các tiếp cận giải bài toán

1.2.3.1. Gán nhãn dựa trên luật

1.2.3.2. Gán nhãn thống kê

1.2.3.3. Các từ chưa biết

1.3. Bài toán gán nhãn từ loại tiếng Việt

2. CHƯƠNG 2: CƠ SỞ TOÁN HỌC

2.1. Định lý Bayes

2.2. Thuật toán cực đại hóa kỳ vọng (EM)

2.3. Mô hình Markov ẩn

2.3.1. Ba bài toán cơ bản của HMM

2.4. Mô hình n-gram

2.5. Khái niệm phân cụm

2.5.1. Các yêu cầu của phân cụm

2.5.2. Các phương pháp phân cụm

2.6. Phân tích giá trị kỳ dị

3. CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƯỚNG DẪN CHO GÁN NHÃN TỪ LOẠI

3.1. Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

3.1.1. Huấn luyện mô hình Trigram

3.1.2. Kết quả thử nghiệm với tiếng Anh

3.1.3. Các thí nghiệm cơ bản

3.2. Gán nhãn từ loại bằng kỹ thuật phân cụm

3.2.1. Suy luận gán nhãn

3.2.2. Suy luận dựa trên từ loại

3.2.3. Suy luận dựa trên loại từ và ngữ cảnh

3.2.4. Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá

3.3. Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn từ loại tiếng Việt

LỜI CẢM ƠN

I. Tổng quan về gán nhãn từ loại tiếng Việt bằng học máy không có hướng dẫn

1.1. Khái niệm gán nhãn từ loại trong tiếng Việt

1.2. Tầm quan trọng của gán nhãn từ loại trong xử lý ngôn ngữ

II. Thách thức trong gán nhãn từ loại tiếng Việt

2.1. Sự đa dạng và phức tạp của từ loại tiếng Việt

2.2. Thiếu sự thống nhất trong phân loại từ loại

III. Phương pháp học máy không có hướng dẫn cho gán nhãn từ loại

3.1. Kỹ thuật cực đại hóa kỳ vọng EM trong gán nhãn

3.2. Mô hình Markov ẩn HMM trong gán nhãn từ loại

IV. Ứng dụng thực tiễn của gán nhãn từ loại tiếng Việt

4.1. Gán nhãn từ loại trong dịch máy

4.2. Gán nhãn từ loại trong phân tích cú pháp

V. Kết luận và tương lai của gán nhãn từ loại tiếng Việt

5.1. Tương lai của nghiên cứu gán nhãn từ loại

5.2. Cơ hội và thách thức trong nghiên cứu

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Trần Thu Trang

Người hướng dẫn: TS. Nguyễn Thị Minh Huyền

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán

Đề tài: Gán Nhãn Từ Loại Tiếng Việt Bằng Học Máy Không Có Hướng Dẫn

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2012

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

SINH VIÊN CŨNG XEM