Luận văn Thạc sĩ VNU: Xử lý nhập nhằng nghĩa từ bằng học máy không giám sát

Luận văn thạc sĩ VNU UET nghiên cứu xử lý nghĩa nhập nhằng của từ bằng học máy không giám sát, mang lại giải pháp hiệu quả cho ngôn ngữ.

Trường đại học

Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sỹ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG I: GIỚI THIỆU

1.1. WSI và WSD

1.2. Phương pháp tiếp cận cho WSD

1.3. Phương pháp tiếp cận cho WSI

1.4. Phương pháp phân cụm

1.5. Đồ thị xuất hiện đồng thời (Co-occurrence graphs)

1.6. Mục tiêu đề tài

1.7. Ứng dụng của đề tài

2. CHƯƠNG II: BÀI TOÁN MÔ HÌNH CHỦ ĐỀ VÀ CÁC TIẾP CẬN ĐIỂN HÌNH

2.1. Tổng quan về mô hình chủ đề

2.2. Ứng dụng của mô hình chủ đề

2.3. Sử dụng mô hình chủ đề trong WSI

2.4. Ngữ cảnh địa phương và ngữ cảnh toàn cục

2.5. Xem bài toán WSI như một bài toán mô hình chủ đề

3. CHƯƠNG III: SỬ DỤNG PHƯƠNG PHÁP HDP CHO WSI

3.1. Tổng quan về HDP

3.2. Sử dụng phương pháp HDP cho WSI

3.3. WSI dựa vào phương pháp Bayes

3.4. So sánh phương pháp HDP với LDA và CTM

4. CHƯƠNG IV: ĐÁNH GIÁ VÀ KẾT QUẢ THỰC NGHIỆM

4.1. Mô tả dữ liệu

4.2. Tập dữ liệu huấn luyện

4.3. Tập dữ liệu thử nghiệm

4.4. Phương pháp đánh giá

4.5. Đánh giá không giám sát

4.6. Đánh giá giám sát

4.7. Tiền xử lý dữ liệu

4.8. Phương pháp huấn luyện và thử nghiệm

4.9. Xử lý dữ liệu đầu ra

4.10. Kết quả và so sánh

4.11. Hiệu suất của hệ thống

4.12. Kết quả đánh giá không giám sát

4.13. Kết quả đánh giá giám sát

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET xử lý nhập nhằng nghĩa của từ

Luận văn thạc sĩ của Trần Thị Hiền tại VNU UET tập trung vào việc xử lý nhập nhằng nghĩa của từ bằng phương pháp học máy không giám sát. Nghiên cứu này nhằm giải quyết một trong những thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên, đó là xác định nghĩa của từ trong các ngữ cảnh khác nhau. Bằng cách áp dụng mô hình Bayes phi tham số, luận văn đã chỉ ra những ưu điểm vượt trội của phương pháp này so với các phương pháp truyền thống.

1.1. Giới thiệu về xử lý nhập nhằng nghĩa của từ

Xử lý nhập nhằng nghĩa của từ là một vấn đề quan trọng trong xử lý ngôn ngữ tự nhiên. Nhiều từ có thể mang nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh. Việc xác định nghĩa chính xác không chỉ giúp cải thiện khả năng hiểu ngôn ngữ của máy mà còn nâng cao chất lượng của các ứng dụng như dịch máy và tìm kiếm thông tin.

1.2. Mục tiêu và ý nghĩa của nghiên cứu

Mục tiêu của nghiên cứu là phát triển một hệ thống WSI (Word Sense Induction) hiệu quả, giúp tự động xác định nghĩa của từ mà không cần dữ liệu gán nhãn. Nghiên cứu này không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn trong nhiều lĩnh vực như phân tích ngữ nghĩa và phát triển các ứng dụng ngôn ngữ.

II. Vấn đề và thách thức trong xử lý nhập nhằng nghĩa của từ

Xử lý nhập nhằng nghĩa của từ gặp nhiều thách thức, đặc biệt là trong việc phân biệt các nghĩa khác nhau của từ trong các ngữ cảnh khác nhau. Các phương pháp truyền thống thường yêu cầu dữ liệu gán nhãn, điều này gây khó khăn trong việc áp dụng cho các ngôn ngữ hoặc miền mới. Hơn nữa, việc xác định số lượng nghĩa của từ cũng là một vấn đề phức tạp.

2.1. Những khó khăn trong việc gán nhãn dữ liệu

Việc xây dựng tập dữ liệu gán nhãn cho các hệ thống WSD (Word Sense Disambiguation) thường tốn kém và mất thời gian. Điều này làm cho việc áp dụng các hệ thống này cho các ngôn ngữ mới trở nên khó khăn và tốn kém.

2.2. Sự phức tạp trong việc xác định nghĩa của từ

Nhiều từ có thể có nhiều nghĩa khác nhau, và việc xác định nghĩa chính xác trong một ngữ cảnh cụ thể là một thách thức lớn. Các hệ thống WSD thường không thể phát hiện các nghĩa mới không có trong từ điển, trong khi các hệ thống WSI có thể điều chỉnh số lượng nghĩa một cách linh hoạt.

III. Phương pháp học máy không giám sát trong xử lý ngữ nghĩa

Phương pháp học máy không giám sát đã trở thành một giải pháp tiềm năng cho vấn đề xử lý nhập nhằng nghĩa của từ. Bằng cách phân cụm các trường hợp xuất hiện của từ trong văn bản, phương pháp này cho phép xác định các nghĩa khác nhau mà không cần dữ liệu gán nhãn. Luận văn đã áp dụng mô hình Hierarchical Dirichlet Process (HDP) để thực hiện điều này.

3.1. Giới thiệu về mô hình HDP

Mô hình HDP là một mô hình Bayes phi tham số cho phép xác định số lượng nghĩa của từ một cách tự động. Mô hình này đã cho thấy hiệu quả cao trong việc phân cụm các ngữ cảnh của từ, từ đó xác định nghĩa một cách chính xác.

3.2. So sánh giữa HDP và các phương pháp khác

Luận văn đã so sánh mô hình HDP với các phương pháp khác như LDA (Latent Dirichlet Allocation) và CTM (Correlated Topic Model). Kết quả cho thấy HDP vượt trội hơn về khả năng xác định nghĩa và linh hoạt trong việc điều chỉnh số lượng nghĩa.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu

Kết quả nghiên cứu cho thấy mô hình HDP có khả năng xác định nghĩa của từ một cách chính xác và hiệu quả. Các thí nghiệm được thực hiện trên tập dữ liệu từ cuộc thi SemEval - 2010 đã chứng minh rằng mô hình này có thể đạt được hiệu suất cao hơn so với các phương pháp truyền thống.

4.1. Kết quả thực nghiệm trên tập dữ liệu SemEval

Các thí nghiệm cho thấy mô hình HDP đạt được độ chính xác cao trong việc xác định nghĩa của từ. Kết quả này được so sánh với các phương pháp khác và cho thấy sự vượt trội của HDP trong việc xử lý nhập nhằng nghĩa.

4.2. Ứng dụng của mô hình trong thực tiễn

Mô hình HDP có thể được áp dụng trong nhiều lĩnh vực như dịch máy, tìm kiếm thông tin và phân tích ngữ nghĩa. Việc sử dụng mô hình này giúp cải thiện chất lượng của các ứng dụng ngôn ngữ và nâng cao khả năng hiểu ngữ nghĩa của máy.

V. Kết luận và hướng phát triển tương lai

Luận văn đã chỉ ra rằng phương pháp học máy không giám sát, đặc biệt là mô hình HDP, có thể giải quyết hiệu quả vấn đề xử lý nhập nhằng nghĩa của từ. Kết quả nghiên cứu mở ra hướng đi mới cho các nghiên cứu tiếp theo trong lĩnh vực này.

5.1. Tóm tắt kết quả nghiên cứu

Nghiên cứu đã chứng minh rằng mô hình HDP có khả năng xác định nghĩa của từ một cách tự động và chính xác. Kết quả này có ý nghĩa quan trọng trong việc phát triển các hệ thống xử lý ngôn ngữ tự nhiên.

5.2. Đề xuất hướng nghiên cứu tiếp theo

Hướng nghiên cứu tiếp theo có thể tập trung vào việc cải thiện mô hình HDP và áp dụng nó cho các ngôn ngữ khác nhau. Ngoài ra, việc kết hợp các phương pháp học máy khác cũng có thể mang lại kết quả tốt hơn trong việc xử lý nhập nhằng nghĩa của từ.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU Xử lý nhập nhằng ngữ nghĩa của từ là một trong những vấn đề đƣợc rất nhiều nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến. Vì vậy có nhiều cách tiếp cận khác nhau để giải quyết vấn đề xử lý nhập nhằng ngữ nghĩa chẳng hạn nhƣ các phƣơng pháp dựa vào tri thức (knowledge-based methods) [1] và các phƣơng pháp dựa vào kho ngữ liệu (corpus-based methods). Đối với phƣơng pháp thứ hai, phƣơng pháp có thể sử dụng là học có giám sát, học không có giám sát và kết hợp của hai phƣơng pháp này. Nói chung, các phƣơng pháp học có giám sát cho ra kết quả với độ chính xác cao hơn nhƣng nhƣợc điểm của phƣơng pháp này đòi hỏi tiêu tốn công sức trong việc xây dựng tập dữ liệu gán nhãn, nó lại không nhận biết đƣợc nghĩa của từ trong trƣờng hợp mới.

Trong khi đó phƣơng pháp không giám sát khắc phục đƣợc hai nhƣợc điểm này. Do đó, phƣơng pháp học không giám sát là một hƣớng đi rất đƣợc chú ý để giải quyết vấn đề này. Nó sẽ phân cụm các trƣờng hợp xuất hiện của từ trong văn bản, mỗi cụm thể hiện một nghĩa. WSI (Word Sense Induction) là một hƣớng tiếp cận không giám sát cho vấn đề này, WSI đã cho thấy lợi thế của nó cho việc xử lý nhập nhằng nghĩa của từ trong một số lĩnh vực mà dữ liệu huấn luyện đƣợc chú thích không có sẵn hoặc số lƣợng nghĩa của các từ khác nhau phụ thuộc vào mục đích khác nhau.

Trong khi có nhiều phƣơng pháp cho WSI, thì phân cụm theo ngữ cảnh là một trong những giải pháp hiệu quả nhất và đƣợc sử dụng rộng rãi. Luận văn tập trung vào việc áp dụng một mô hình Bayes phi tham số (Nonparametric Bayesian model) - Hierarchical Dirichlet Process ( HDP) cho bài toán WSI. Kết quả đƣợc thể hiện thông qua việc so sánh với phƣơng pháp Latent Dirichlet Allocation (LDA) - một mô hình Bayes có tham số của Blei và Jordan [3] cho vấn đề này, và còn đƣợc so sánh với phƣơng pháp của Blei và Lafferty [2] đó là Correlated Topic Model (CTM) với cùng một tập dữ liệu ở bài toán số 14 trong cuộc thi SemEval - 2010. Ta thấy rằng mô hình HDP vƣợt trội về chất lƣợng xác định nghĩa và có ƣu điểm là xác định một cách tự động số lƣợng nghĩa biến đổi trên một từ thì LDA, CTM lại cần một số nghĩa cố định trƣớc đƣợc xây dựng bằng tay.

Đó là sự vƣợt trội hơn của cách tiếp cận WSI dựa trên HDP so với các cách tiếp cận khác. Ngoài phần kết luận, luận văn đƣợc trình bày thành 4 chƣơng với nội dung đƣợc trình bày nhƣ sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Chƣơng 1: Giới thiệu về WSI, WSD và các phƣơng pháp tiếp cận cho WSI, WSD, đồng thời giới thiệu về mục tiêu và kết quả sẽ trình bày trong luận văn. Chƣơng 2: Bài toán mô hình chủ đề và các tiếp cận điển hình Ở chƣơng này trình bày tổng quan về mô hình chủ đề, các tiếp cận điển hình nhƣ: LDA, CTM (mô hình Bayes có tham số ), HDP (mô hình Bayes phi tham số) và cách sử dụng chúng trong WSI. Chƣơng 3: Sử dụng phƣơng pháp HDP cho WSI Với tính linh hoạt trong việc xác định nghĩa của từ một cách tự động.

Trong khuôn khổ luận văn quan tâm đến việc xác định nghĩa của từ dựa vào phƣơng pháp HDP. Ở chƣơng này trình bày sâu hơn về phƣơng pháp HDP và so sánh với phƣơng pháp LDA và CTM. Chúng ta sẽ thấy rõ hơn về ƣu, nhƣợc điểm của phƣơng pháp này thông qua kết quả thực nghiệm ở chƣơng 4. Chƣơng 4: Đánh giá và kết quả thực nghiệm Trong phần này đƣa ra chi tiết về phƣơng pháp đƣợc sử dụng để đánh giá hệ thống WSI, mô tả dữ liệu ở bài toán số 14 của cuộc thi SemEval - 2010 đƣợc sử dụng để huấn luyện, thử nghiệm trong hệ thống này và mô tả chi tiết thực nghiệm xây dựng hệ thống WSI của ta.

Tiếp theo là kết quả công việc bao gồm hiệu suất của hệ thống trên tập dữ liệu ở bài toán số 14 của cuộc thi SemEval – 2010 và so sánh kết quả với hai phƣơng pháp CTM, LDA. Cuối cùng là kết luận, hƣớng phát triển, tài liệu tham khảo và phụ lục. Phần kết luận trình bày tóm tắt kết quả thu đƣợc và đề xuất hƣớng nghiên cứu tiếp theo. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 CHƢƠNG I: GIỚI THIỆU Nội dung của chƣơng này giới thiệu về WSI và WSD, qua đó phân biệt đƣợc sự khác nhau giữa chúng.

Đồng thời giới thiệu một số phƣơng pháp tiếp cận cho WSI, WSD và mục tiêu của đề tài. WSI và WSD Hiểu đƣợc nghĩa của từ một cách chính xác là điều cần thiết để giao tiếp, đặc biệt là thông tin liên lạc tự động. Tuy nhiên một từ có thể có nhiều nghĩa, việc xác định ý nghĩa đang đƣợc sử dụng không phải lúc nào cũng dễ dàng cho cả con ngƣời và máy tính. Ví dụ: Xét nghĩa của từ “access” trong hai câu sau đây: The police gained access through a broken window.

You need a password to get access to the computer system. Nhƣ vậy ở câu thứ nhất từ “access” có nghĩa là sự tiếp cận, cách vào , quyền vào một nơi nào đó. Còn ở câu thứ hai có nghĩa là quyền sử dụng, truy cập. Trong ví dụ trên, chúng ta khá dễ dàng phân biệt các từ “access” , tuy nhiên trong một số trƣờng hợp, nhiệm vụ phân biệt là một thách thức cho các nhà nghiên cứu từ ngữ học thậm chí là ngƣời có kinh nghiệm.

WSI và WSD là hai cách tiếp cận khác nhau cho bài toán nhận dạng tự động nghĩa của từ. Hệ thống WSD thƣờng theo cách tiếp cận giám sát – yêu cầu ngữ liệu đƣợc gắn nhãn thủ công cho giai đoạn huấn luyện. Ngƣợc lại, các hệ thống WSI là không giám sát; chúng chỉ cần văn bản thô, điều này có sẵn “miễn phí” trên internet và nhiều nguồn khác. Kết quả là, việc chuyển hệ thống WSD tới miền dữ liệu hoặc ngôn ngữ mới là một công việc tốn kém bởi vì chúng ta phải cung cấp một dữ liệu đƣợc chú giải mới và kiến thức về ngôn ngữ /miền cụ thể.

Việc chuyển một hệ thống WSI thì dễ hơn vì trong hầu hết các trƣờng hợp, chúng ta chỉ cần huấn luyện lại hệ thống trên dữ liệu “miễn phí ” mới. Các hệ thống WSD thƣờng dựa trên các danh sách cố định chứa các nghĩa đƣợc xác định trƣớc. Từ các danh sách này, nghĩa thích hợp nhất đƣợc chọn và gắn cho từ. Do đó số lƣợng nghĩa không thể thay đổi đƣợc trong hệ thống WSD.

Điều này dẫn đến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 một số khó khăn khi triển khai hệ thống với các lĩnh vực khác nhau và với các mục đích khác nhau. Trong một số ứng dụng, các ngữ nghĩa đƣợc xử lý thô có thể là hữu ích hơn các ngữ nghĩa đã làm mịn, và trong một số ứng dụng khác, lại đòi hỏi ngữ nghĩa đã đƣợc làm mịn. Các hệ thống WSI cho phép số lƣợng nghĩa của một từ thay đổi. Hơn nữa hệ thống WSD không thể phát hiện các nghĩa mà không xuất hiện trong “từ điển” của chúng.

Bài toán này có thể đƣợc giải quyết dễ dàng trong hệ thống WSI; chúng ta chỉ cần cung cấp dữ liệu có chứa các nghĩa mới và điều chỉnh số lƣợng nghĩa nếu cần thiết. Mặc dù WSI có nhiều lợi thế hơn WSD, nhƣng các hệ thống WSD thƣờng có hiệu suất tốt hơn. Vì vậy, WSI không thể thay thế WSD trong tất cả các trƣờng hợp nhƣng nó lại đang rất đƣợc quan tâm. Xây dựng một hệ thống WSI là mục tiêu chính của luận văn này, nó dựa trên phƣơng pháp phân cụm ngữ cảnh, trong đó các ngữ cảnh của từ đƣợc nhóm lại thành các cụm đại diện cho các nghĩa.

Tổng quan về cách tiếp cận cho bài toán WSD và WSI đƣợc đƣa ra trong phần tiếp theo của chƣơng. Phƣơng pháp tiếp cận cho WSD Phƣơng pháp để xử lý nhập nhằng ngữ nghĩa thƣờng đƣợc phân loại theo nguồn tri thức chính để phân biệt các nghĩa (thƣờng đƣợc dùng bởi các chuyên gia ngôn ngữ học). Các phƣơng pháp này chủ yếu dựa vào từ điển chuyên ngành, tri thức về từ vựng, và không sử dụng bất cứ một thông tin ngữ liệu nào, đƣợc gọi dƣới thuật ngữ chuyên ngành là các phƣơng pháp dựa vào từ điển hay dựa vào tri thức. Điểm yếu của phƣơng pháp này là bộ cơ sở tri thức thƣờng sẽ rất lớn, hơn nữa với sự phức tạp của ngôn ngữ tự nhiên thì việc dùng các luật để xử lý nhập nhằng cũng chỉ đạt đƣợc độ chính xác có giới hạn.

Ngƣời ta còn sử dụng phƣơng pháp học máy để giải quyết nhập nhằng ngữ nghĩa. Wilks và Stevenson báo cáo vài thử nghiệm về giải quyết nhập nhằng nghĩa của từ bằng cách sử dụng những thông tin thu đƣợc từ quá trình học tập trên ngữ liệu mẫu [15]. Phƣơng pháp này có thể phân loại nhƣ sau: Học không giám sát (unsupervised training): thông tin đƣợc tập hợp từ tập ngữ liệu thô chƣa đƣợc gán nhãn. Học có giám sát (supervised training): thông tin đƣợc tập hợp từ tập ngữ liệu đã đƣợc gán nhãn để huấn luyện hoặc lấy làm dữ liệu cho quá trình trích chọn.

Và kết hợp cả hai phƣơng pháp trên là bán giám sát (semi-supervised). Đặc điểm của phƣơng pháp học máy không giám sát là phân cụm các trƣờng hợp xuất hiện của từ trong văn bản. WSI là một hƣớng tiếp cận cho vấn đề này. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Phƣơng pháp tiếp cận cho WSI Một phƣơng pháp thay thế để tiếp cận WSD chính là WSI [10]. WSI nhằm mục đích xác định tự động nghĩa của từ một cách trực tiếp từ ngữ liệu, WSI thƣờng đƣợc xem nhƣ một bài toán phân cụm không giám sát. Đầu vào cho thuật toán phân cụm là các ví dụ của từ mục tiêu với những bối cảnh đi kèm nó và đầu ra là một phép phân cụm các ví dụ này thành các lớp tƣơng ứng với các nghĩa suy diễn. Nói cách khác, các ngữ cảnh đƣợc nhóm cùng nhau trong cùng một lớp biểu diễn một nghĩa đặc trƣng [12].

Từ đây rất nhiều phƣơng pháp phân cụm đƣợc sử dụng, ta đi xét ba phƣơng pháp điển hình:  Phân cụm theo ngữ cảnh.  Phân cụm theo từ.  Đồ thị xuất hiện đồng thời (Co-occurrence graphs ). Hai phƣơng pháp tiếp cận đầu tiên có mối liên quan chặt chẽ và đƣợc bắt nguồn từ ý tƣởng tƣơng tự nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học máy và trí tuệ nhân tạo

xử lý ngôn ngữ tự nhiên và ngữ nghĩa

công nghệ phần mềm ứng dụng