Chương 1 Tổng quan về xác định đồng sở chỉ Để hiểu được một văn bản, một trong những yêu cầu đầu tiên là phải xác định được sự vật, sự việc được nói tới trong văn bản. Tuy nhiên, một văn bản thường nhắc tới rất nhiều sự vật, sự việc và mỗi sự vật, sự việc lại có thể được đề cập nhiều lần ở nhiều vị trí khác nhau. Ngoài ra, khi muốn nói về một sự vật, sự việc đã được nhắc đến ở trước đó, người ta thường dùng các cụm từ ngắn gọn hơn so với cụm từ đã được dùng trước đó. Ví dụ: • [Bộ trưởng Bộ Giáo dục Đào tạo] về thăm trường tiểu học Võ Thị Sáu.
[Bộ trưởng] đã có một buổi nói chuyện hết sức ý nghĩa với các học sinh.(1) • [Người đàn ông mặc đồ đen] tiến vào trong ngôi nhà. [Hắn] mang theo một cây gậy sắt.(2) Trong ví dụ (1), [Bộ trưởng] nhắc lại về [Bộ trưởng Bộ Giáo dục Đào tạo] nhưng đã rút gọn lại chứ không nhắc lại nguyên vẹn cả chuỗi. Hiện tượng các cụm từ trong văn bản cùng chỉ tới một thực thể (sự vật, sự việc, .) được gọi là đồng sở chỉ. Xác định đồng sở chỉ là một trong những bước đầu tiên để phân tích và hiểu ngữ nghĩa văn bản.
Chương này sẽ trình bày tổng quan về bài toán xác định đồng sở chỉ cho văn bản. 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Bài toán xác định đồng sở chỉ Xác định đồng sở chỉ là quá trình tìm tất cả các cụm từ trong văn bản cùng tham chiếu tới một thực thể. Một cụm từ trong văn bản tham chiếu tới một thực thể gọi là một (sự) đề cập. Ví dụ: Linh đến trường bằng xe buýt.
Cô ấy thường đi chuyến xe số 22. Trong đó, • [Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập. • [Linh] và [cô ấy] cùng chỉ đến thực thể là cô gái tên là Linh. Hay có thể nói, [cô ấy] và [Linh] có quan hệ đồng sở chỉ.
Bài toán xác định đồng sở chỉ là một bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Đây là một trong các bước nền tảng cho quá trình phân tích và hiểu ngữ nghĩa văn bản. Quá trình xác định đồng sở chỉ có thể là bước tiền xử lý cho nhiều hệ thống như: hệ thống tóm tắt văn bản [1], hệ thống hỏi đáp [12],. Xác định đồng sở chỉ là một bài toán phức tạp, bởi lẽ việc xác định này không chỉ phụ thuộc vào cấu trúc ngữ pháp mà đôi khi còn phụ thuộc cả vào ngữ nghĩa.
Trong giao tiếp, việc xác định đồng sở chỉ còn phụ thuôc cả vào các 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tín hiệu nhấn giọng, âm điệu,. Trong một số trường hợp, người ta còn cần cả các tri thức bên ngoài để xác định đồng sở chỉ. Ví dụ: Chàng trai tặng cô gái một bông hồng. Cô ấy rất vui.
Các đề cập trong ví dụ trên là: [Chàng trai], [cô gái], [một bông hồng], [Cô ấy]. Nếu chia cặp các đề cập để kiểm tra hai đề cập có quan hệ đồng sở chỉ không, ta sẽ có 6 cặp. Trong đó, nếu muốn kiểm tra [cô ấy] chỉ đến thực thể nào hay nói cách khác [cô ấy] là nhắc lại cho cụm nào xuát hiện trước đó ta sẽ phải kiểm tra 3 cặp: ([Cô ấy],[Chàng trai]), ([Cô ấy], [cô gái]), ([Cô ấy], [một bông hồng]). Tuy nhiên, với việc xác định cô ấy là chỉ người, giới tính nữ, ta có thể bỏ qua [một bông hồng] và [chàng trai].
Ví dụ: • Linh nói với Hằng rằng cô ấy đang gặp nguy hiểm. (1) • Linh cảnh báo Hằng rằng cô ấy đang gặp nguy hiểm. (2) Ở ví dụ đầu, Cô ấy có thể phù hợp với cả Linh và Hằng, tùy từng ngữ cảnh khác nhau có thể là Linh và Hằng. Ví dụ sau ví dụ đầu nhưng do sắc thái ý nghĩa của từ cảnh báo, Cô ấy ở đây tham chiếu tới Hằng.
Ví dụ: Tổng thống Obama gặp Nelson Maldela. Cháu gái của người đàn ông già nua ấy bị dính líu đến một tai nạn. Ở đây, để xác định người đàn ông già nua tham chiếu đến Obama hay Nelson Maldela có thể cần thêm cả tri thức về thế giới: Nelson Maldela lớn tuổi hơn Obama và có độ tuổi phù hợp để được nhắc đến như là người đàn ông già nua hơn Obama. Ngoài ra, bài toán đồng sở chỉ không chỉ xuất hiện trong một văn bản mà có thể có phạm vi trong nhiều văn bản.
Ví dụ: Hai bài báo cùng nói về một sự việc, sẽ có nhiều đề cập ở hai bài báo cùng tham chiếu tới một thực thể. Các đề cập trong văn bản thông thường là cụm danh từ nhưng cũng có trường hợp là cụm động từ, tính từ,. Ví dụ: Anh ấy đi siêu thị. Anh ấy làm việc đó với các bạn anh ấy.
Trong ví dụ này, việc đó và đi siêu thị cùng trỏ đến việc đi siêu thị trong thực tế. 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong phạm vi của luận văn này, chúng tôi chỉ xét tới hiện tượng đồng sở chỉ với đề cập là các cụm danh từ từ và trong phạm vi một văn bản.2 Cách giải quyết bài toán xác định đồng sở chỉ Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước: • Xác định các đề cập: các đề cập thường là các cụm danh từ. • Xác định quan hệ đồng sở chỉ giữa các đề cập.1 Xác định các đề cập Với việc chỉ quan tâm tới các đề cập là các cụm danh từ, việc đầu tiên để xác định xác đề cập là đi tìm tất cả các cụm danh từ trong văn bản. Việc này có thể thực hiện thông qua phân tích cú pháp thành phần.
Ví dụ: Mảnh đấy của đạn bom không còn người nghèo. Câu trên khi được tiến hành phân tích cú pháp thành phần sẽ thu được kết quả như hình 1. Các cụm danh từ là các thành phần được gán nhãn NP [16]. Trong câu này, ta sẽ thu được các cụm danh từ là: [Mảnh đất của đạn bom], [đạn bom], [người nghèo] S-STL NP-SUB VP Nc-H N PP R V-H NP-DOB.
Mảnh đất E-H NP không còn N-H A. của N-H N-H người nghèo đạn bom Hình 1.1: Phân tích cú pháp thành phần của một câu trong tiếng Việt Tuy nhiên, trong một số trường hợp, không phải tất cả các cụm danh từ thu được từ việc phân tích cú pháp đều có thể được coi là các đề cập. Ví dụ: Căn nhà màu xanh được xây kiên cố kia là của họ. 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nếu tiến hành phân tích cú pháp sẽ thu được [Căn nhà], [Căn nhà màu xanh], [Căn nhà màu xanh được xây kiên cố kia], [họ] đều là các cụm danh từ, và hiển nhiên, cả 3 cụm danh từ này đều chỉ chung một thực thể.
Tuy nhiên, việc xét cả ba cụm danh từ này không có ý nghĩa, các cụm danh từ [Căn nhà], [Căn nhà màu xanh] sẽ phải bị loại bỏ và chỉ xét một đề cập là [Căn nhà màu xanh được xây kiên cố kia]. Các trường hợp một cụm danh từ không được coi là một đề cập: • Loại bỏ các cụm danh từ nếu có một cụm danh từ khác lớn hơn có cùng từ chính; • Loại bỏ các thực thể số đếm như tỷ lệ phần trăm, số lượng.; • Loại bỏ các thực thể có các biểu thức lượng hoá. Ví dụ: tất cả 100 sinh viên, không ai trong số họ, hàng triệu người, .; • Loại bỏ các từ thừa; • Loại bỏ các dạng tính từ của tên các tên quốc gia hoặc từ viết tắt tên quốc gia; • Loại bỏ các từ dừng.2 Xác định quan hệ đồng sở chỉ Có hai hướng tiếp cận để xác định quan hệ đồng sở chỉ: • Phân lớp các cặp đề cập; • Phân cụm các đề cập. Để xác định đồng sở chỉ, vào năm 2001, Soon và cộng sự đã đưa ra tập hợp 12 đặc trưng [21], và đến năm 2002, Ng và Cardie bổ sung thêm thành 52 đặc trưng bao gồm vị trí, hình thái, từ vựng, cú pháp, ngữ nghĩa và thậm chí cả thông tin thực tế [14].
Hầu hết các hệ thống hiện nay được xây dựng trên bộ đặc trưng này với một vài thay đổi và bổ sung nhỏ.2 chứa danh sách các đặc trưng này. 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1: Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy Đặc trưng Mô tả Đặc trưng vị trí *Span Trong các cụm danh từ lồng nhau, một cụm NP mở rộng một cụm khác mà nói rằng chúng là các thực thể khác nhau. Distance Số lượng các từ, các danh từ hoặc các câu giữa hai cụm danh từ. Đặc trưng hình thái *Gender Giống đực, giống cái, trung tính *Number Số ít, số đôi (dual), số nhiều Animacy Chỉ người, động vật, cây đối, lực lượng tự nhiên hay cái khác String matching Hai chuỗi khớp hoàn toàn hay khớp bộ phận.
Alias Là tên viết tắt: IBM thay cho International Business Machines Corp Minimum edit dis- Khoảng cách chỉnh sửa Wagner and Fischer là một đặc trưng hiệu tance quả cho xác định đồng sở chỉ trong tiếng Đức Part-of-speech Loại cụm danh từ: đại từ, danh từ riêng, cụm danh từ có đại từ chỉ định (this car ), cụm danh từ có mạo từ xác định (the car ), cụm danh từ có mạo từ bất định (a car). Đặc trưng cú pháp *Apposition Hai đề cập đặt cạnh nhau *Predicate nominal Hai cụm danh từ form a predicate nominal construction. construction *Binding Hai cụm danh từ làm cho phù hợp với nguyên lý B và C trong Binding Theory (Chomsky 1981). *Contra-indices Các cụm danh từ không thể được đánh cùng chỉ số dựa trên một phương pháp heuristics đơn giản.
Ví dụ, trong “CMU in Pitts- burgh”, CMU và Pittsburgh phải là hai thực thể khác nhau. Maximal NP pro- Hai cụm danh từ có chung một cụm danh từ ngoài cùng. jection Parse tree similar- Sự tương đồng giữa các cây con bao phủ tiền đề và sự nhắc lại. ity (Yang et al., 2006) Collocation Match Hai cụm danh từ đứng trước hoặc theo sau bởi cùng một động từ.
Syntactic paral- Hai cụm danh từ có cùng một vai trò ngữ pháp. lelism Đặc trưng ngữ nghĩa Named Entity class Phân lớp theo NER bao gồm người, tổ chức, địa danh, phương tiện và các thực thể địa lý - chính trị. WordNet Semantic Hai cụm NP có cùng một lớp nghĩa trong WordNet. class 9 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp các cặp đề cập Để xác định các đề cập cùng chỉ đến một thực thể, có thể kiểm tra từng cặp đề cập có quan hệ đồng sở chỉ hay không.