TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA CỦA TỪ DỰA TRÊN HỌC MÁY THỐNG KÊ

Trường đại học

Trường Đại Học Yale

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Án Tiến Sĩ

154

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

1. MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Bài toán xác định quan hệ ngữ nghĩa của từ

1.3. Hướng tiếp cận và phương pháp

1.4. Đóng góp của luận án

1.5. Cấu trúc của luận án

2. KIẾN THỨC CƠ SỞ VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Một số khái niệm cơ bản về từ

2.2. Từ và nghĩa của từ

2.3. Ngữ nghĩa từ vựng

2.4. Quan hệ ngữ nghĩa giữa các từ

2.5. Một số giả thuyết ngữ nghĩa cơ bản

2.6. Mô hình ngữ nghĩa phân phối

2.7. Mô hình nhúng từ

2.7.1. Lịch sử của các mô hình nhúng từ

2.7.2. Một số mô hình nhúng từ tổng quát

2.7.3. Một số mô hình nhúng từ chuyên biệt

2.8. Một số mô hình nhúng từ theo ngữ cảnh

2.9. Mạng nơ-ron hồi quy

2.10. Quan hệ bao thuộc

2.11. Một số nghiên cứu liên quan

2.12. Quan hệ đồng nghĩa - trái nghĩa

2.13. Một số nghiên cứu liên quan

2.14. Đo lường độ tương tự ngữ nghĩa giữa các từ

2.15. Một số nghiên cứu liên quan

2.16. Tóm tắt chương

3. XÁC ĐỊNH QUAN HỆ BAO THUỘC DỰA TRÊN MÔ HÌNH NHÚNG TỪ CHUYÊN BIỆT

3.1. Ý tưởng chính

3.2. Phân tích hạn chế của mô hình DWN

3.3. Đề xuất mô hình LERC

3.3.1. Mô hình DWN cải tiến

3.3.2. Tích hợp đặc trưng ngữ nghĩa mức dưới từ

3.3.3. Mô hình phân lớp quan hệ bao thuộc có giám sát

3.3.4. Phân tích ưu nhược điểm và tính mới của mô hình

3.4. Xây dựng bộ dữ liệu tiếng Việt DtVLE-999, DrVLE-999, DetVLE-999

3.4.1. Lựa chọn các cặp từ ứng viên

3.4.2. Đánh giá dữ liệu

3.4.3. Thống kê dữ liệu

3.5. Bộ dữ liệu đánh giá

3.6. Huấn luyện các mô hình nhúng từ

3.7. Đánh giá mô hình

3.8. Phân tích thống kê

3.9. Tóm tắt chương

4. PHÂN TÁCH QUAN HỆ ĐỒNG NGHĨA – TRÁI NGHĨA DỰA TRÊN NGỮ CẢNH ĐỒNG HIỆN VÀ MẪU CẤU TRÚC TỪ

4.1. Ý tưởng chính

4.2. Các mẫu cấu trúc từ tiếng Việt

4.2.1. Mẫu cấu trúc từ trái nghĩa

4.2.2. Mẫu cấu trúc từ đồng nghĩa

4.3. Đề xuất mô hình DVASNet

4.3.1. Các đặc trưng tĩnh

4.3.2. Mô hình DVASNet

4.4. Xây dựng bộ dữ liệu ASC tiếng Việt

4.4.1. Các mô hình cơ sở

4.4.2. Cài đặt thực nghiệm

4.4.3. Kết quả thực nghiệm

4.5. Tóm tắt chương

5. ĐO LƯỜNG ĐỘ TƯƠNG TỰ NGỮ NGHĨA CỦA CẶP TỪ

5.1. Ý tưởng chính

5.2. Đề xuất độ đo tương tự

5.2.1. Độ đo tương tự ExtLeskSim

5.2.2. Kỹ thuật GraphSim

5.3. Xây dựng bộ dữ liệu tiếng Việt

5.3.1. Dịch bộ dữ liệu SimLex-999 sang tiếng Việt

5.3.2. Đánh giá độ tương tự của cặp từ

5.3.3. Một số thống kê trên bộ dữ liệu

5.4. Thực nghiệm với mô hình ExtLeskSim

5.5. Thực nghiệm với mô hình GraphSim

5.6. Tóm tắt chương

6. KẾT LUẬN

6.1. Các đóng góp của luận án

6.2. Hướng phát triển

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Tự Động Xác Định Quan Hệ Ngữ Nghĩa của Từ

Xử lý ngôn ngữ tự nhiên (NLP) ngày càng trở nên quan trọng, với nhiều ứng dụng thực tiễn như nhận dạng tiếng nói, dịch máy, và tìm kiếm thông tin. Trong đó, bài toán tự động xác định quan hệ ngữ nghĩa của từ (LSRD) là một trong những thách thức lớn. Các mô hình LSRD đóng vai trò then chốt trong xây dựng cơ sở tri thức từ vựng, phân tích quan điểm, và hệ thống hỏi đáp. Theo tài liệu gốc, việc tích hợp thêm các mô hình xác định quan hệ ngữ nghĩa của từ là một trong các cách tiếp cận để vượt qua những thách thức của NLP khi xử lý dữ liệu ít, dữ liệu nhiễu hoặc hiểu được các thủ pháp nghệ thuật.

1.1. Tầm Quan Trọng Của Quan Hệ Ngữ Nghĩa Trong NLP

Quan hệ ngữ nghĩa đóng vai trò then chốt trong việc giúp máy tính hiểu được ý nghĩa sâu sắc của văn bản. Nó không chỉ giúp xác định mối liên hệ giữa các từ, mà còn hỗ trợ các ứng dụng như dịch máy, phân tích văn bản và xây dựng mạng ngữ nghĩa. Việc xác định chính xác các quan hệ này là yếu tố quyết định để nâng cao hiệu quả của các hệ thống NLP.

1.2. Các Tiếp Cận Phổ Biến trong Xác Định Quan Hệ Ngữ Nghĩa

Có hai hướng tiếp cận chính: tiếp cận mẫu từ vựng - cú pháp và tiếp cận phân phối. Tiếp cận mẫu sử dụng các mẫu từ vựng - cú pháp để đoán nhận quan hệ. Tiếp cận phân phối khai thác thông tin phân phối của từ trong ngữ liệu. Tiếp cận này chia thành hai nhóm: không giám sát (dựa trên biểu diễn từ (word embedding)) và có giám sát (dùng mạng nơ-ron để phân lớp). Luận án này tập trung vào tiếp cận có giám sát, sử dụng mô hình học máy để xác định quan hệ bao thuộc, đồng nghĩa, trái nghĩa, và tương đồng.

II. Thách Thức Xác Định Quan Hệ Ngữ Nghĩa Chính Xác Hiệu Quả

Mặc dù NLP đã có bước tiến lớn nhờ học sâu, việc xử lý dữ liệu ít, nhiễu, hoặc hiểu các thủ pháp nghệ thuật vẫn còn là thách thức. Các mô hình NLP cần phải xử lý tốt ngữ cảnh và tính toán ngữ nghĩa để hiểu ý nghĩa của từ. Điều này đòi hỏi các thuật toán phải có khả năng học từ một lượng lớn dữ liệu, đồng thời phải có khả năng suy luận và khái quát hóa.

2.1. Hạn Chế Của Các Mô Hình NLP Hiện Tại

Các mô hình NLP hiện tại vẫn còn gặp nhiều khó khăn trong việc xử lý ngôn ngữ một cách linh hoạt và tự nhiên như con người. Một trong những hạn chế lớn nhất là khả năng hiểu được quan hệ ngữ nghĩa phức tạp giữa các từ, đặc biệt là trong các tình huống có ngữ cảnh đa dạng hoặc khi sử dụng các thủ pháp tu từ như ẩn dụ, hoán dụ. Để giải quyết vấn đề này, cần phải có các phương pháp tiếp cận mới, có khả năng kết hợp thông tin ngữ nghĩa từ nhiều nguồn khác nhau.

2.2. Vấn Đề Thiếu Dữ Liệu Huấn Luyện Chất Lượng Cao

Một thách thức khác là sự thiếu hụt datasets đủ lớn và chất lượng cao để huấn luyện các mô hình NLP. Đặc biệt, đối với các ngôn ngữ ít phổ biến như tiếng Việt, việc thu thập và gán nhãn dữ liệu ngữ nghĩa là một quá trình tốn kém và mất nhiều thời gian. Điều này đặt ra yêu cầu phải phát triển các kỹ thuật học máy có khả năng hoạt động hiệu quả với dữ liệu hạn chế, hoặc sử dụng các phương pháp học chuyển giao (transfer learning) để tận dụng kiến thức từ các ngôn ngữ khác.

III. Phương Pháp Mô Hình Nhúng Từ Chuyên Biệt và Đặc Trưng SSF

Luận án đề xuất mô hình mạng nơ-ron học vector nhúng từ chuyên biệt từ các bộ ba (từ bao, từ thuộc, ngữ cảnh). Các vector này phù hợp hơn cho bài toán HR so với các mô hình Word2vec, fastText, GloVe. Luận án cũng khai thác đặc trưng về quan hệ ngữ nghĩa giữa các thành phần của từ ghép (Subword Semantic Feature - SSF). Thuật toán trích chọn SSF mã hóa quan hệ ngữ nghĩa và thông tin vị trí trong vector đặc trưng.

3.1. Mô Hình Mạng Nơ ron Học Vector Nhúng Từ Chuyên Biệt

Luận án tập trung vào việc phát triển một mô hình mạng nơ-ron có khả năng học vector nhúng từ chuyên biệt, được tối ưu hóa cho bài toán xác định quan hệ bao thuộc. Mô hình này được huấn luyện trên các bộ ba dữ liệu, bao gồm từ bao, từ thuộc và ngữ cảnh đồng xuất hiện của chúng. Nhờ đó, các vector nhúng từ học được có khả năng biểu diễn chính xác hơn mối quan hệ giữa các từ, so với các mô hình nhúng từ tổng quát như Word2vec, fastText hay GloVe.

3.2. Thuật Toán Trích Chọn Đặc Trưng Ngữ Nghĩa Mức Dưới Từ SSF

Để tận dụng thông tin ngữ nghĩa từ các thành phần cấu tạo của từ ghép, luận án đề xuất một thuật toán trích chọn đặc trưng ngữ nghĩa mức dưới từ (Subword Semantic Feature - SSF). Thuật toán này không chỉ mã hóa được quan hệ ngữ nghĩa giữa các thành phần của cặp từ, mà còn nắm bắt được cả thông tin vị trí của chúng trong các vector đặc trưng. Điều này giúp cho mô hình có khả năng phân biệt tốt hơn giữa các quan hệ ngữ nghĩa khác nhau, đặc biệt là trong trường hợp các từ ghép có cấu trúc phức tạp.

IV. Giải Pháp DVASNet Phân Tách Đồng Nghĩa Trái Nghĩa Hiệu Quả

Luận án đề xuất mô hình DVASNet, một mô hình mạng nơ-ron khai thác thông tin ngữ cảnh đồng xuất hiện của cặp từ và đặc trưng riêng của tiếng Việt (thông tin tương hỗ, quan hệ ngữ nghĩa giữa các thành phần). Kết quả thực nghiệm cho thấy DVASNet có hiệu năng cao hơn từ 14% đến 17% so với các mô hình trước đây. Luận án cũng đề xuất mô hình xác định quan hệ trái nghĩa dựa trên mô hình nhúng từ chuyên biệt.

4.1. Khai Thác Thông Tin Ngữ Cảnh Đồng Xuất Hiện Với DVASNet

Mô hình DVASNet được thiết kế để tận dụng tối đa thông tin ngữ cảnh đồng xuất hiện của cặp từ, từ đó nâng cao khả năng phân tách giữa quan hệ đồng nghĩa và quan hệ trái nghĩa. Mô hình này không chỉ xem xét thông tin ngữ nghĩa phân phối của các từ, mà còn khai thác thông tin ngữ cảnh trong đó hai từ xuất hiện cùng nhau. Điều này giúp cho mô hình có thể hiểu được mối quan hệ giữa các từ một cách sâu sắc hơn.

4.2. Ứng Dụng DVASNet Cho Tiếng Việt Đặc Trưng Riêng

Mô hình DVASNet được điều chỉnh để phù hợp với đặc trưng riêng của tiếng Việt, bao gồm thông tin tương hỗ giữa các từ và quan hệ ngữ nghĩa giữa các thành phần của từ. Bằng cách tích hợp các đặc trưng này, mô hình có thể tận dụng những đặc điểm ngôn ngữ độc đáo của tiếng Việt để cải thiện hiệu năng phân tách quan hệ đồng nghĩa và quan hệ trái nghĩa.

V. Ứng Dụng Đo Lường Độ Tương Tự Ngữ Nghĩa Với ExtLeskSim

Luận án đề xuất kỹ thuật ExtLeskSim để đo lường độ tương tự ngữ nghĩa sử dụng thông tin định nghĩa của từ. Kết quả cho thấy ExtLeskSim đạt hiệu năng cao đối với tiếng Việt. Luận án cũng đề xuất lược đồ GraphSim để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa dựa trên mạng từ. Kết quả cho thấy GraphSim đã nâng cao đáng kể hiệu năng cho các kỹ thuật WSM.

5.1. ExtLeskSim Đo Lường Dựa Trên Thông Tin Định Nghĩa Của Từ

Kỹ thuật ExtLeskSim được đề xuất trong luận án sử dụng thông tin định nghĩa của từ để đo lường độ tương tự ngữ nghĩa giữa các từ. Bằng cách so sánh các định nghĩa của hai từ, kỹ thuật này có thể xác định mức độ tương đồng về ý nghĩa giữa chúng. ExtLeskSim đã được chứng minh là đạt hiệu năng cao đối với tiếng Việt, cho thấy khả năng ứng dụng rộng rãi của nó trong các bài toán xử lý ngôn ngữ.

5.2. GraphSim Nâng Cao Hiệu Năng Đo Lường Với Mạng Từ

Luận án cũng đề xuất lược đồ GraphSim, một phương pháp tiếp cận mới để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa dựa trên mạng từ. GraphSim tận dụng cấu trúc đồ thị của mạng từ để khám phá các mối quan hệ gián tiếp giữa các từ, từ đó cải thiện độ chính xác của việc đo lường độ tương tự ngữ nghĩa. Kết quả thực nghiệm cho thấy GraphSim đã nâng cao đáng kể hiệu năng cho các kỹ thuật WSM (Word Similarity Measurement) được áp dụng.

VI. Kết Luận Hướng Phát Triển Xác Định Quan Hệ Ngữ Nghĩa

Luận án đã đóng góp vào việc nâng cao hiệu năng của các mô hình tự động xác định quan hệ ngữ nghĩa của từ, đặc biệt là trong tiếng Việt. Các kết quả nghiên cứu này có thể được ứng dụng trong nhiều lĩnh vực của NLP. Hướng phát triển tiếp theo có thể tập trung vào việc tích hợp thêm các nguồn tri thức bên ngoài, xử lý ngôn ngữ đa dạng hơn và xây dựng các mô hình có khả năng suy luận ngữ nghĩa tốt hơn.

6.1. Tích Hợp Tri Thức Nền Để Nâng Cao Độ Chính Xác

Một trong những hướng phát triển tiềm năng là tích hợp thêm các nguồn tri thức nền vào các mô hình học máy. Ví dụ, có thể sử dụng các graph tri thức hoặc từ điển ngữ nghĩa để cung cấp thêm thông tin về quan hệ ngữ nghĩa giữa các từ. Việc kết hợp tri thức nền có thể giúp cho các mô hình học máy hiểu được ngôn ngữ một cách sâu sắc hơn và đưa ra các quyết định chính xác hơn.

6.2. Xử Lý Ngôn Ngữ Đa Dạng Và Suy Luận Ngữ Nghĩa

Hướng phát triển khác là tập trung vào việc xử lý ngôn ngữ đa dạng hơn, bao gồm cả các ngôn ngữ ít phổ biến và các dạng văn bản không chuẩn như tin nhắn, bình luận trên mạng xã hội. Đồng thời, cần phải xây dựng các mô hình có khả năng suy luận ngữ nghĩa tốt hơn, tức là có thể hiểu được ý nghĩa ẩn ý và các thông điệp phức tạp trong văn bản. Điều này đòi hỏi các phương pháp tiếp cận mới, có khả năng kết hợp thông tin từ nhiều nguồn khác nhau và sử dụng các kỹ thuật suy luận tiên tiến.

15/05/2025

Bạn đang xem trước tài liệu:

Tự động xác định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê

Tải đầy đủ

Tài liệu TỰ ĐỘNG XÁC ĐỊNH QUAN HỆ NGỮ NGHĨA CỦA TỪ DỰA TRÊN HỌC MÁY THỐNG KÊ trình bày phương pháp hiện đại trong xử lý ngôn ngữ tự nhiên, tập trung vào việc tự động nhận diện các quan hệ ngữ nghĩa giữa từ vựng thông qua kỹ thuật học máy thống kê. Nghiên cứu này mang lại giá trị thiết thực trong xây dựng hệ thống hiểu ngôn ngữ, phân tích văn bản và tổ chức tri thức theo cấu trúc ontology. Các mô hình thống kê được áp dụng giúp giảm thiểu can thiệp thủ công, đồng thời tăng độ chính xác khi phân loại quan hệ từ vựng như đồng nghĩa, trái nghĩa, bao hàm và liên kết ngữ nghĩa. Đây là tài liệu tham khảo quan trọng cho sinh viên và nhà nghiên cứu ngôn ngữ học tính toán. Những ai muốn mở rộng ứng dụng sang bài toán tiếng Việt có thể tham khảo thêm công trình về kiểm lỗi chính tả ngữ cảnh tiếng Việt để hiểu rõ hơn cách NLP được triển khai thực tế.

#xử lý ngôn ngữ tự nhiên