Luận Văn Thạc Sĩ: Ứng Dụng Adaboost cho Bài Toán Gán Nhãn Ngữ Nghĩa Nông

Luận văn thạc sĩ toán học nghiên cứu ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông 04, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ GÁN NHÃN VAI TRÒ NGỮ NGHĨA

1.1. Giới thiệu

1.2. Các phương pháp tiếp cận bài toán gán nhãn vai trò ngữ nghĩa

1.2.1. Tiếp cận theo luật

1.2.2. Tiếp cận theo phương pháp thống kê

1.3. Tổng quan về hệ thống gán nhãn vai trò ngữ nghĩa

1.3.1. Định nghĩa gán nhãn vai trò ngữ nghĩa nông

1.3.2. Kho ngữ liệu PropBank

1.3.3. Kiến trúc tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa

1.3.4. Ứng dụng của gán nhãn vai trò ngữ nghĩa trong xử lý ngôn ngữ tự nhiên

1.3.4.1. Trích rút thông tin

1.3.4.2. Hệ thống hỏi đáp

1.3.5. Kết luận chương 1

2. CHƯƠNG 2: PHƯƠNG PHÁP HỌC MÁY ADABOOST

2.1. Tổng quan về bài toán phân loại

2.2. Bài toán phân loại

2.3. Một số phương pháp phân loại nổi tiếng

2.4. Phương pháp mô hình AdaBoost

2.4.1. Phương pháp Boosting

2.4.2. Phương pháp Adaboost

2.5. Kết luận chương 2

3. CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP ADABOOST CHO BÀI TOÁN GÁN NHÃN VAI TRÒ NGỮ NGHĨA

3.1. Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông

3.2. Thu thập và chuẩn bị dữ liệu

3.3. Công cụ Swirl

3.4. Huấn luyện và Kiểm tra

3.5. Kết quả và thảo luận

3.6. Kết luận chương 3

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Adaboost và gán nhãn ngữ nghĩa

Phương pháp Adaboost là một trong những thuật toán học máy nổi bật, được sử dụng rộng rãi trong nhiều bài toán phân loại. Đặc biệt, trong lĩnh vực gán nhãn ngữ nghĩa, Adaboost đã chứng minh được hiệu quả của mình trong việc cải thiện độ chính xác của các mô hình phân loại. Gán nhãn ngữ nghĩa nông là quá trình xác định và gán nhãn các vai trò ngữ nghĩa cho các thành phần trong câu, giúp máy tính hiểu rõ hơn về ngữ cảnh và ý nghĩa của câu. Việc áp dụng Adaboost trong gán nhãn ngữ nghĩa nông không chỉ giúp tăng cường khả năng phân loại mà còn tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên. Theo nghiên cứu, việc sử dụng Adaboost cho phép kết hợp nhiều mô hình yếu thành một mô hình mạnh, từ đó cải thiện đáng kể hiệu suất gán nhãn.

1.1 Tầm quan trọng của gán nhãn ngữ nghĩa

Gán nhãn ngữ nghĩa đóng vai trò quan trọng trong việc hiểu ngôn ngữ tự nhiên. Nó giúp xác định các cấu trúc đối-vị tố trong câu, từ đó cung cấp thông tin cần thiết cho các ứng dụng như trích rút thông tin và hệ thống hỏi đáp. Việc áp dụng Adaboost trong gán nhãn ngữ nghĩa nông cho phép cải thiện độ chính xác của các nhãn được gán, từ đó nâng cao khả năng hiểu ngữ nghĩa của máy tính. Nghiên cứu cho thấy rằng, với sự hỗ trợ của Adaboost, các mô hình gán nhãn có thể đạt được hiệu suất cao hơn so với các phương pháp truyền thống, nhờ vào khả năng học từ các mẫu dữ liệu lớn và đa dạng.

II. Phương pháp Adaboost trong gán nhãn ngữ nghĩa

Phương pháp Adaboost hoạt động dựa trên nguyên tắc kết hợp nhiều mô hình phân loại yếu để tạo ra một mô hình mạnh. Trong bối cảnh gán nhãn ngữ nghĩa, Adaboost được sử dụng để cải thiện độ chính xác của việc gán nhãn các vai trò ngữ nghĩa cho các thành phần trong câu. Quá trình này bao gồm việc huấn luyện nhiều mô hình phân loại trên các đặc trưng khác nhau của dữ liệu, từ đó kết hợp các dự đoán của chúng để đưa ra kết quả cuối cùng. Việc sử dụng Adaboost giúp giảm thiểu sai sót trong gán nhãn, đồng thời tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên. Theo nghiên cứu, các mô hình gán nhãn sử dụng Adaboost đã cho thấy sự cải thiện đáng kể về độ chính xác so với các phương pháp gán nhãn truyền thống.

2.1 Cấu trúc và hoạt động của Adaboost

Cấu trúc của Adaboost bao gồm một chuỗi các mô hình phân loại, mỗi mô hình được huấn luyện trên một tập con của dữ liệu. Mỗi mô hình yếu sẽ được gán trọng số dựa trên độ chính xác của nó, và các mô hình này sẽ được kết hợp để tạo ra một mô hình mạnh hơn. Quá trình này cho phép Adaboost tập trung vào các mẫu dữ liệu khó phân loại, từ đó cải thiện độ chính xác tổng thể của mô hình. Việc áp dụng Adaboost trong gán nhãn ngữ nghĩa nông không chỉ giúp tăng cường khả năng phân loại mà còn tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên, nhờ vào khả năng học từ các mẫu dữ liệu lớn và đa dạng.

III. Kết quả và thảo luận

Kết quả từ việc áp dụng Adaboost trong gán nhãn ngữ nghĩa nông cho thấy sự cải thiện rõ rệt về độ chính xác so với các phương pháp truyền thống. Các mô hình gán nhãn sử dụng Adaboost đã đạt được tỷ lệ chính xác cao hơn, nhờ vào khả năng học từ các mẫu dữ liệu lớn và đa dạng. Điều này chứng tỏ rằng Adaboost không chỉ là một công cụ mạnh mẽ trong lĩnh vực học máy mà còn có thể được áp dụng hiệu quả trong các bài toán gán nhãn ngữ nghĩa. Việc sử dụng Adaboost trong gán nhãn ngữ nghĩa nông mở ra nhiều cơ hội mới cho các nghiên cứu và ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

3.1 Ứng dụng thực tiễn của Adaboost

Việc áp dụng Adaboost trong gán nhãn ngữ nghĩa nông không chỉ mang lại lợi ích về mặt lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các hệ thống gán nhãn ngữ nghĩa sử dụng Adaboost có thể được áp dụng trong các lĩnh vực như trích rút thông tin, hệ thống hỏi đáp, và phân tích ngữ nghĩa. Điều này cho thấy rằng Adaboost có thể đóng góp tích cực vào việc phát triển các ứng dụng thông minh trong xử lý ngôn ngữ tự nhiên, từ đó nâng cao khả năng hiểu và tương tác của máy tính với con người.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng adaboost cho bài toán gán nhãn ngữ nghĩa nông 04

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Gán nhãn vai trò ngữ nghĩa (Semantic Role Labeling - SRL) là một bài toán trọng yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), nhằm xác định các thành phần ngữ nghĩa trong câu như ai làm gì với ai, khi nào, ở đâu, tại sao và như thế nào. Theo báo cáo của ngành, việc tự động gán nhãn vai trò ngữ nghĩa giúp nâng cao hiệu quả của nhiều ứng dụng như trích rút thông tin, hệ thống hỏi đáp và tóm tắt văn bản. Mục tiêu nghiên cứu của luận văn là ứng dụng mô hình học máy AdaBoost để giải quyết bài toán gán nhãn vai trò ngữ nghĩa nông, tập trung vào việc phân đoạn và gán nhãn chuỗi dữ liệu ngôn ngữ tiếng Anh. Nghiên cứu sử dụng dữ liệu từ kho ngữ liệu PropBank, dựa trên bộ dữ liệu chuẩn CoNLL 2004, với phạm vi thời gian nghiên cứu từ năm 2014 đến 2015 tại Đại học Công nghệ - Đại học Quốc gia Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác gán nhãn vai trò ngữ nghĩa, góp phần phát triển các hệ thống xử lý ngôn ngữ tự nhiên có khả năng hiểu sâu sắc hơn về ngữ cảnh và ý nghĩa câu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết gán nhãn vai trò ngữ nghĩa nông và mô hình học máy AdaBoost. Gán nhãn vai trò ngữ nghĩa nông tập trung vào việc xác định các cụm từ trong câu và gán nhãn ngữ nghĩa theo định dạng BIO (B-X, I-X, O), trong đó X là nhãn vai trò ngữ nghĩa như A0 (Agent), A1 (Patient), A2,... và các nhãn chức năng như AM-TMP (temporal), AM-LOC (location). Mô hình AdaBoost là một thuật toán học máy mạnh, kết hợp nhiều bộ phân loại yếu để tạo thành bộ phân loại mạnh, bằng cách điều chỉnh trọng số các mẫu huấn luyện qua các vòng lặp nhằm tập trung cải thiện các mẫu khó phân loại. Các khái niệm chính bao gồm: bộ phân loại yếu (weak classifier), trọng số mẫu, lỗi phân loại, và bộ phân loại mạnh (strong classifier). AdaBoost được đánh giá cao trong các bài toán phân loại chuỗi và gán nhãn dữ liệu tuần tự.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là kho ngữ liệu PropBank, bổ sung cho Penn Treebank với các chú thích ngữ nghĩa, cùng bộ dữ liệu chuẩn CoNLL 2004 gồm 8042 câu huấn luyện và 1000 câu kiểm thử. Dữ liệu bao gồm các thông tin từ, nhãn từ loại (PoS tag), cụm từ (chunks), nhãn mệnh đề và nhãn danh từ riêng. Phương pháp phân tích sử dụng công cụ Swirl, một phần mềm mã nguồn mở hỗ trợ mô hình AdaBoost cho bài toán gán nhãn chuỗi. Quá trình nghiên cứu gồm các bước: chuẩn bị dữ liệu theo định dạng BIO, huấn luyện mô hình AdaBoost trên tập huấn luyện, kiểm thử trên tập test và đánh giá kết quả bằng các chỉ số Precision, Recall và F-score. Cỡ mẫu huấn luyện là 8042 câu, kiểm thử 1000 câu, được chọn ngẫu nhiên từ kho dữ liệu. Phương pháp phân tích tập trung vào đánh giá hiệu suất mô hình qua các chỉ số chuẩn và phân tích chi tiết các nhãn vai trò ngữ nghĩa phổ biến.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Mô hình AdaBoost đạt độ chính xác trung bình (accuracy) 80.15% trên bộ test gồm 2416 câu và 5267 mệnh đề, với Precision đạt 75.36% và F-score đạt 77.68%. Đây là mức hiệu quả đáng kể trong bài toán gán nhãn vai trò ngữ nghĩa nông.
Đối với các nhãn vai trò ngữ nghĩa phổ biến như A0 (Agent) và A1 (Patient), mô hình đạt F1 lần lượt là 84.13% và 77.68%, cho thấy khả năng nhận dạng chính xác các vai trò quan trọng trong câu.
Nhãn A2 có tần suất xuất hiện thấp hơn, do đó F1 chỉ đạt 44.97%, phản ánh thách thức trong việc gán nhãn các vai trò ít phổ biến hoặc phức tạp hơn.
Việc sử dụng các đặc trưng đơn giản trong mô hình vẫn cho kết quả chấp nhận được, tuy nhiên, việc bổ sung các đặc trưng cú pháp phức tạp hơn có thể nâng cao hiệu suất.

Thảo luận kết quả

Kết quả cho thấy mô hình AdaBoost phù hợp và hiệu quả trong việc gán nhãn vai trò ngữ nghĩa nông, đặc biệt với các nhãn có tần suất xuất hiện cao như A0 và A1. Nguyên nhân là do AdaBoost tập trung cải thiện các mẫu khó phân loại qua việc điều chỉnh trọng số, giúp tăng độ chính xác tổng thể. So sánh với các nghiên cứu trước đây sử dụng SVM hay Maximum Entropy, AdaBoost thể hiện tính cạnh tranh và có thể được kết hợp với các đặc trưng phong phú hơn để cải thiện thêm. Biểu đồ so sánh Precision, Recall và F-score cho từng nhãn vai trò ngữ nghĩa sẽ minh họa rõ sự khác biệt hiệu suất giữa các nhãn. Ngoài ra, việc sử dụng công cụ Swirl giúp tối ưu hóa quá trình huấn luyện và kiểm thử, tiết kiệm bộ nhớ và thời gian tính toán. Tuy nhiên, hạn chế của nghiên cứu là chưa khai thác hết các đặc trưng cú pháp sâu và chưa áp dụng trên các ngôn ngữ khác ngoài tiếng Anh.

Đề xuất và khuyến nghị

Mở rộng tập đặc trưng: Đề xuất bổ sung các đặc trưng cú pháp sâu hơn như cây phân tích cú pháp đầy đủ, các đặc trưng ngữ nghĩa bổ sung để nâng cao độ chính xác gán nhãn, đặc biệt cho các nhãn ít phổ biến như A2 trở lên. Thời gian thực hiện dự kiến 6-12 tháng, do nhóm nghiên cứu NLP đảm nhiệm.
Áp dụng mô hình kết hợp: Kết hợp AdaBoost với các mô hình học sâu (deep learning) như BiLSTM hoặc Transformer để khai thác ngữ cảnh rộng hơn, cải thiện khả năng nhận dạng vai trò ngữ nghĩa phức tạp. Thời gian triển khai 12-18 tháng, phù hợp cho các trung tâm nghiên cứu công nghệ thông tin.
Phát triển hệ thống đa ngôn ngữ: Mở rộng nghiên cứu sang các ngôn ngữ khác như tiếng Việt, tiếng Trung, sử dụng kho ngữ liệu tương ứng để đánh giá tính khả thi và hiệu quả của mô hình AdaBoost trong môi trường đa ngôn ngữ. Thời gian thực hiện 18-24 tháng, do các nhóm nghiên cứu ngôn ngữ phối hợp thực hiện.
Tối ưu hóa công cụ Swirl: Cải tiến công cụ Swirl để hỗ trợ xử lý dữ liệu lớn hơn, tăng tốc độ huấn luyện và kiểm thử, đồng thời tích hợp giao diện người dùng thân thiện hơn. Thời gian thực hiện 6 tháng, do nhóm phát triển phần mềm đảm nhận.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu NLP và học máy: Có thể áp dụng mô hình AdaBoost và phương pháp gán nhãn vai trò ngữ nghĩa nông trong các dự án nghiên cứu và phát triển hệ thống xử lý ngôn ngữ tự nhiên.
Sinh viên và học viên cao học ngành Công nghệ Thông tin: Tham khảo để hiểu rõ về ứng dụng mô hình học máy trong bài toán gán nhãn ngữ nghĩa, từ đó phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống trích rút thông tin và hỏi đáp: Sử dụng kết quả nghiên cứu để cải thiện độ chính xác và hiệu quả của các hệ thống trích rút thông tin tự động và hệ thống hỏi đáp dựa trên ngữ nghĩa.
Doanh nghiệp công nghệ và phần mềm: Áp dụng mô hình và công cụ trong các sản phẩm xử lý ngôn ngữ tự nhiên, đặc biệt trong các ứng dụng phân tích văn bản, chatbot và trợ lý ảo.

Câu hỏi thường gặp

AdaBoost là gì và tại sao được chọn cho bài toán gán nhãn vai trò ngữ nghĩa?
AdaBoost là một thuật toán học máy kết hợp nhiều bộ phân loại yếu thành bộ phân loại mạnh bằng cách điều chỉnh trọng số các mẫu huấn luyện. Nó được chọn vì khả năng tập trung cải thiện các mẫu khó phân loại, phù hợp với bài toán gán nhãn chuỗi phức tạp như SRL.
Dữ liệu huấn luyện và kiểm thử được chuẩn bị như thế nào?
Dữ liệu lấy từ kho PropBank và bộ dữ liệu CoNLL 2004, gồm 8042 câu huấn luyện và 1000 câu kiểm thử. Dữ liệu được tiền xử lý theo định dạng BIO, bao gồm từ, nhãn từ loại, cụm từ, nhãn mệnh đề và nhãn danh từ riêng.
Hiệu suất mô hình được đánh giá bằng các chỉ số nào?
Sử dụng các chỉ số chuẩn trong phân loại như Precision (độ chính xác), Recall (độ bao phủ) và F-score (trung bình điều hòa của Precision và Recall) để đánh giá hiệu quả gán nhãn vai trò ngữ nghĩa.
Mô hình AdaBoost có thể áp dụng cho ngôn ngữ khác ngoài tiếng Anh không?
Có thể, tuy nhiên cần có kho ngữ liệu chú thích vai trò ngữ nghĩa tương ứng cho ngôn ngữ đó và điều chỉnh các đặc trưng phù hợp. Nghiên cứu mở rộng sang các ngôn ngữ khác là hướng phát triển tiềm năng.
Công cụ Swirl có những ưu điểm gì?
Swirl là phần mềm mã nguồn mở, tiêu tốn ít bộ nhớ, hỗ trợ định nghĩa lại tập đặc trưng và phù hợp cho các bài toán gán nhãn chuỗi như nhận dạng thực thể, trích xuất thông tin và gán nhãn vai trò ngữ nghĩa.

Kết luận

Nghiên cứu đã ứng dụng thành công mô hình AdaBoost cho bài toán gán nhãn vai trò ngữ nghĩa nông, đạt độ chính xác trung bình 80.15% và F-score 77.68%.
Các nhãn vai trò ngữ nghĩa phổ biến như A0 và A1 được gán nhãn với độ chính xác cao, thể hiện hiệu quả của mô hình.
Việc sử dụng công cụ Swirl giúp tối ưu hóa quá trình huấn luyện và kiểm thử, tiết kiệm tài nguyên tính toán.
Nghiên cứu mở ra hướng phát triển mô hình kết hợp và mở rộng sang các ngôn ngữ khác, đồng thời nâng cao tập đặc trưng để cải thiện hiệu suất.
Đề xuất các bước tiếp theo bao gồm mở rộng tập đặc trưng, áp dụng mô hình học sâu, phát triển hệ thống đa ngôn ngữ và tối ưu hóa công cụ hỗ trợ.

Để tiếp tục phát triển nghiên cứu, các nhà khoa học và kỹ sư công nghệ thông tin được khuyến khích áp dụng và mở rộng mô hình AdaBoost trong các bài toán xử lý ngôn ngữ tự nhiên, đồng thời tham gia vào việc phát triển các công cụ hỗ trợ hiệu quả hơn.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ GÁN NHÃN VAI TRÒ NGỮ NGHĨA Nội dung chính của chương là giới thiệu bài toán gán nhãn vai trò ngữ nghĩa theo các hướng tiếp cận khác nhau, đưa ra mô hình tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa, ứng dụng của hệ thống trong xử lý ngôn ngữ tự nhiên.1 Giới thiệu Thông thường, gán nhãn vai trò ngữ nghĩa là quá trình gán một cấu trúc đơn giản: WHO did WHAT to WHOM, WHEN, WHERE, WHY, HOW,. cho một câu trong văn bản. (Ai? đã làm gì? với ai? khi nào? ở đâu? tại sao? như thếnào?. Ví dụ: (i) Mary hit Jack with a ball yesterday.

(ii) Jack was hit by Mary yesterday with a ball. Ta có thể thấy rằng “Mary, Jack, a ball, yesterday” đóng các vai trò ngữ nghĩa sau: “Người đánh, vật bị đánh, dụng cụ, thời gian” trong cả hai câu. Nhiệm vụ của gán nhãn vai trò ngữ nghĩa là gán các nhãn ngữ nghĩa đã được xác định trước cho những cụm từ này mà không quan tâm tới sự xuất hiện của chúng trong các nhận dạng cú pháp khác nhau. Lớp thông tin này rất cần thiết để hiểu một cách đầy đủ ý nghĩa của cả hai câu.

Tổng quát hơn, ví dụ trong nghiên cứu của (Levin 1993 [2]) đã minh họa hiện tượng thay thế một lớp động từ. Phép thay thế này trong nhận dạng cú pháp của argument ngữ nghĩa có phạm vi trải rộng, ảnh hưởng tới hầu hết các động từ trong tiếng Anh, và các thành phần được biểu thị bởi các động từ cụ thể, khá đa dạng. Trong những năm gần đây, những tiến bộ vượt bậc của các kỹ thuật phân tích cú pháp đã có ảnh hưởng z không nhỏ đến các ứng dụng trong xử lý ngôn ngữ tự nhiên, tuy vậy, việc đi từ phân tích cú pháp tới hiểu đầy đủ ý nghĩa của một câu vẫn còn là một chặng đường dài để nghiên cứu. Điều này đã thôi thúc các nhà nghiên cứu phát triển một kỹ thuật tự động và chính xác cho vấn đề phân tích cú pháp lớp ngữ nghĩa, và đặt một bước tiến quan trọng hướng tới mục đích hiểu ngôn ngữ.

Gán nhãn vai trò ngữ nghĩa là một bài toán đã được định nghĩa tốt trong nhiều framework khác nhau, thu hút sự quan tâm của nhiều nhà nghiên cứu. Gán nhãn vai trò ngữ nghĩa hướng tới việc xác định và gán nhãn tất cả argument (hoặc vai trò ngữ nghĩa) cho mỗi vị tố xuất hiện trong câu. Cụ thể hơn, nhiệm vụ này bao gồm việc xác định các thành phần biểu diễn các argument của vị tố và gán nhãn các vai trò ngữ nghĩa cho các thành phần đó. Sau đây là một số ví dụ về các nhãn vai trò ngữ nghĩa: (i) [Agent Mary]hit [Theme Jack][Instrument with a ball][Temporal yesterday].

Trong các ví dụ này, thông tin được mô tả biễu diễn các nhãn vai trò ngữ nghĩa mà được gán cho các argument của vị tố (in nghiêng). Hai ví dụ đầu được phân tích sử dụng chú thích FrameNet, hai ví dụ còn lại được phân tích sử dụng kho ngữ liệu PropBank.2 Các phương pháp tiếp cận bài toán gán nhãn vai trò ngữ nghĩa 1.1 Tiếp cận theo luật Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật phát sinh trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo (AI = Artificial Intelligence). Thông thường các hệ luật này được xây dựng bằng tay bởi các chuyên gia xử lý ngôn ngữ tự nhiên. z Nhiều nghiên cứu trước đó được thực hiện bởi Hirst (1987) [17] sử dụng một phép phân tích cú pháp dựa trên luật và biểu diễn tri thức dựa trên frame, tương tự như nghiên cứu của Fillmore (1976) [14], Hirst đã sử dụng phương pháp ánh xạ để kết nối các thành phần cú pháp tới các vị trí frame tương ứng của chúng và biểu diễn ngữ nghĩa của câu được xây dựng lần lượt từng thành phần.

Các nhóm tác giả Pustejovsky (1995) [30], Copestake và Flickinger (2000) [10] cũng đã có những nghiên cứu tương tự về các lớp từ vựng và ngữ pháp được xây dựng thủ công. Những nghiên cứu trước đây tập trung vào việc xác định các cấu trúc argument danh nghĩa sử dụng các cách tiếp cận tương tự như trên. Ví dụ, Dahl và cộng sự (1987) [3] đã sử dụng tập các quy tắc kết hợp các thành phần cú pháp với các vai trò ngữ nghĩa cho các vị tố danh nghĩa. Xét ví dụ sau của Dahl và cộng sự: Investigation revealed [Instrument metal] [Predicate contamination] in [Theme the filter].

Hệ thống tạo bởi Dahl và cộng sự sử dụng các luật sau để xác định các chất gây ô nhiễm (metal) và thực thể bị ô nhiễm (the filter): 1. Instrument là danh từ đứng trước vị tố contamination. Theme là đối tượng của cụm giới từ theo sau contamination. Các luật được định nghĩa trên cho phép hệ thống xác định đúng các lớp vai trò ngữ nghĩa trong ví dụ trên.

Hệ thống này không được đánh giá một cách chính thức nhưng hoàn toàn có cơ sở tin rằng các quy tắc trên có thể đúng khi được áp dụng. Các quy tắc trong nghiên cứu của Dahl và cộng sự đã cho thấy những ưu điểm và hạn chế thường gặp đối với các hệ thống gán nhãn ngữ nghĩa dựa trên hệ luật. Một mặt, nếu một luật chính xác cho ra một dự đoán, thì dự đoán đó gần như là đúng (ví dụ như việc xác định các nhãn Instrument và Theme bên trên). Hơn nữa, các hệ luật được xây dựng đầy đủ vì bất cứ một phép suy diễn nào z cũng đều có thể được giải thích theo các luật đã tạo ra nó.

Tuy nhiên, các hệ thống được mô tả như trên có xu hướng dễ dàng bị phá vỡ đặc biệt khi được áp dụng trong các loại văn bản mà chưa được dự đoán trước. Đây là kết quả của bản chất “all or nothing” của việc giải thích ngữ nghĩa và cú pháp dựa trên hệ luật. Với tính linh hoạt, đa dạng của ngôn ngữ, chúng ta không ngạc nhiên, trong nhiều trường hợp, một tập giới hạn các quy tắc (luật) gặp thất bại khi áp dụng vào một câu trong ngôn ngữ tự nhiên. Vấn đề thực sự nảy sinh khi các nghiên cứu đòi hỏi cần mở rộng quy mô để bao quát hết các hiện tượng của ngôn ngữ.

Ban đầu, người ta cho rằng để mở rộng quy mô của hệ khử nhập nhằng ngữ nghĩa thì ta cứ việc thêm nhiều luật vào, nhưng thực tế đã cho thấy khi số luật tăng lên thì bản thân người thiết kế sẽ khó mà kiểm soát được tính hợp lý và tương thích của các bộ luật do mình đưa vào vì thế, sẽ xuất hiện nhiều luật mâu thuẫn nhau. Việc xây dựng một hệ luật như thế đòi hỏi công sức rất lớn và thường không bao quát hết mọi trường hợp, mặc dù, trong một số miền hẹp thì chúng tỏ ra hiệu quả. Kết quả là những hệ thống gán nhãn ngữ nghĩa được xây dựng trên luật sẽ có nguy cơ bị sụp đổ bởi chính sức nặng của chúng.2 Tiếp cận theo phương pháp thống kê Sự ra đời của các kho ngữ liệu lớn như FrameNet và PropBank đã cải tiến việc xử lý ngữ nghĩa dựa trên hệ luật sang phương pháp hướng ngữ liệu. Nghiên cứu của Gildea và Jurafsky (2002) [15] đã giải quyết bài toán SRL như một bài toán học máy có giám sát và sử dụng kho ngữ liệu FrameNet làm dữ liệu huấn luyện.

Gildea và Jurafsky đã sử dụng phương pháp thống kê cực đại hóa likelihood cho các đặc trưng cú pháp và từ vựng khác nhau để vừa phân biệt được các biên của phần tử frame bên trong văn bản vừa gán các nhãn vai trò ngữ nghĩa cho các phần tử được xác định. Mỗi ví dụ huấn luyện được phân tích thành một cây cú pháp sử dụng bộ phân tích cú pháp Collin (Collin, 1997 [9]) và một tập các đặc trưng cú pháp và từ vựng, như loại cụm từ của mỗi thành phần, z vị trí của nó,. được trích rút. Những đặc trưng này được kết hợp với các tri thức về vị tố, cũng như các thông tin về xác suất ưu tiên của các cách kết hợp khác nhau của vai trò ngữ nghĩa.

Nghiên cứu này đã đặt nền móng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay. Gán nhãn ngữ nghĩa là một nhiệm vụ khá phức tạp, được phân tách thành các bài toán nhỏ hơn với các chiến lược gán nhãn khác nhau để có thể áp dụng được các phương pháp học máy. Vấn đề đầu tiên phải kể đến đó là việc chú thích cho các mệnh đề trong câu. Hầu hết các nhóm nghiên cứu tham dự CoNLL 2004 đều xác định việc chú thích vai trò ngữ nghĩa cho mỗi động từ vị ngữ trong câu là một nhiệm vụ độc lập.

Tuy nhiên hệ thống của Carreras và cộng sự (2004) [4] thực hiện chú thích đồng thời cho tất cả các mệnh đề. Do vậy, nhóm đầu tiên coi bài toán SRL tương tự với việc nhận dạng các cấu trúc dạng chuỗi (ví dụ bài toán chunking), trong khi đó, nhóm còn lại chỉ ra một cấu trúc phân cấp được hình thành bởi các argument của tất cả các mệnh đề. Các nghiên cứu này cũng đã chỉ ra ba chiến lược gán nhãn chủ yếu được sử dụng. Chiến lược đầu tiên xác định các ai trò một cách trực tiếp dựa vào việc gán nhãn chuỗi có định dạng BIO.

Chiến lược thứ hai bao gồm việc chia bài toán thành hai giai đoạn độc lập: giai đoạn nhận dạng (identification) các argument và giai đoạn gán nhãn (labelling). Chiến lược thứ ba cũng tiến hành dựa trên hai quá trình: quá trình lọc (filtering) quyết định tập argument và quá trình gán nhãn (labeling), trong đó, tập các argument tối ưu được rút ra từ tập ban đầu. Tốc độ phát triển nhanh chóng của các kỹ thuật học máy đã có nhiều đóng góp trong việc giải quyết bài toán gán nhãn vai trò ngữ nghĩa. Hacioglu và cộng sự tại hội nghị CoNLL 2004 [16] đã lựa chọn SVMs để thực hiện phân lớp vai trò ngữ nghĩa.

Động cơ khi chọn bộ phân lớp này là khả năng xử lý một số lượng cực lớn các đặc trưng tương tác hoặc đặc trưng chồng chéo với tính khái quát hóa cao. Cùng giải quyết bài toán này, Lim và cộng sự [21] đã đề xuất phương pháp gán nhãn sử dụng mô hình entropy cực đại (Maximum Entropy). z Ban đầu, để xây dựng mô hình, các tác giả này đã sử dụng các thông tin về cú pháp của việc biểu diễn vai trò ngữ nghĩa trong một mệnh đề: các argument của một vị tố được đặt trong mệnh đề hoặc các mệnh đề bên trên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận Văn Thạc Sĩ: Ứng Dụng Adaboost cho Bài Toán Gán Nhãn Ngữ Nghĩa Nông" của tác giả Nguyễn Quang Hiệp, dưới sự hướng dẫn của TS. Nguyễn Văn Vinh, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2015. Bài viết tập trung vào việc áp dụng thuật toán Adaboost trong việc gán nhãn ngữ nghĩa cho các dữ liệu nông, một vấn đề quan trọng trong lĩnh vực công nghệ thông tin và xử lý ngôn ngữ tự nhiên. Bằng cách sử dụng Adaboost, tác giả đã chứng minh được hiệu quả của phương pháp này trong việc cải thiện độ chính xác của các mô hình gán nhãn, từ đó mở ra hướng đi mới cho các nghiên cứu và ứng dụng trong lĩnh vực này.

Để mở rộng thêm kiến thức về các ứng dụng trong công nghệ thông tin, bạn có thể tham khảo bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi nghiên cứu về việc sử dụng Active Learning trong lựa chọn dữ liệu gán nhãn, hay bài viết "Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ", nghiên cứu về nhận dạng giọng nói tiếng Việt thông qua các phương pháp học sâu. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các kỹ thuật gán nhãn và ứng dụng trong lĩnh vực công nghệ thông tin.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#phân loại văn bản

#mô hình học máy

#Gán nhãn ngữ nghĩa

#Ứng dụng AI trong nông nghiệp

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

công nghệ thông tin trong nông nghiệp

Học máy và ứng dụng

Nghiên cứu và phát triển trong AI