Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng Việt

Luận văn thạc sĩ phân tích hus nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2015

61
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐỒNG SỞ CHỈ

1.1. Bài toán xác định đồng sở chỉ

1.2. Cách giải quyết bài toán xác định đồng sở chỉ

1.2.1. Xác định các đề cập

1.2.2. Xác định quan hệ đồng sở chỉ

1.3. Phương pháp xác định đồng sở chỉ

1.3.1. Phương pháp phân loại

2. CHƯƠNG 2: PHƯƠNG PHÁP XÁC ĐỊNH ĐỒNG SỞ CHỈ BẰNG SÀNG NHIỀU LƯỢT

2.1. Kiến trúc hệ thống

2.2. Một số quá trình xử lý của hệ thống

2.3. Đầu vào và đầu ra của mỗi bước sàng

2.4. Chia sẻ đặc trưng giữa các đề cập trong một cụm

2.5. Xác định đại diện của các cụm

2.6. Việc gộp các cụm

2.7. Xác định người nói

2.8. So khớp chuỗi chặt

2.9. So khớp chuỗi nới lỏng

2.10. Một số trường hợp chính xác cao

2.11. So khớp từ chính chặt

2.12. So khớp từ chính biến thể

2.13. So khớp từ chính là danh từ riêng

2.14. So khớp từ chính nới lỏng

2.15. Xác định đồng sở chỉ cho các đại từ

2.16. Kết quả cho tiếng Anh

3. CHƯƠNG 3: ỨNG DỤNG CHO TIẾNG VIỆT

3.1. Các công cụ đã có cho xử lý tiếng Việt

3.1.1. Công cụ tách từ, gán nhãn từ loại

3.1.2. Kho ngữ liệu có gán nhãn cú pháp thành phần

3.1.3. Kho ngữ liệu có gán nhãn cú pháp phụ thuộc

3.1.4. Kho ngữ liệu có gán nhãn vai nghĩa

3.2. Phương pháp sàng nhiều lượt cho tiếng Việt

3.3. Xác định đặc trưng của các đề cập cho tiếng Việt

3.4. Kết quả thực nghiệm

KẾT LUẬN

TÀI LIỆU THAM KHẢO

PHỤ LỤC

1. VietTreebank

2. Một số quan hệ phụ thuộc cho tiếng Việt

3. Phân tích vai nghĩa

Tóm tắt

I. Tổng quan về nghiên cứu đồng sở chỉ trong tiếng Việt

Nghiên cứu đồng sở chỉ là một lĩnh vực quan trọng trong ngôn ngữ học, đặc biệt là trong xử lý ngôn ngữ tự nhiên. Đồng sở chỉ đề cập đến mối quan hệ giữa các cụm từ trong văn bản mà cùng chỉ đến một thực thể. Việc xác định đồng sở chỉ giúp cải thiện khả năng hiểu ngữ nghĩa của văn bản. Trong tiếng Việt, nghiên cứu về đồng sở chỉ còn hạn chế, nhưng đang dần được quan tâm hơn. Các phương pháp hiện có chủ yếu được phát triển từ các nghiên cứu trước đó trong tiếng Anh.

1.1. Khái niệm đồng sở chỉ và tầm quan trọng

Đồng sở chỉ là hiện tượng mà nhiều cụm từ trong văn bản cùng chỉ đến một thực thể. Việc xác định đồng sở chỉ là cần thiết để hiểu rõ ngữ nghĩa của văn bản. Ví dụ, trong câu "Linh là một sinh viên. Cô ấy rất thông minh", "Cô ấy" và "Linh" đều chỉ đến cùng một thực thể. Điều này giúp cho việc phân tích và xử lý văn bản trở nên chính xác hơn.

1.2. Các thách thức trong nghiên cứu đồng sở chỉ

Một trong những thách thức lớn nhất trong nghiên cứu đồng sở chỉ là sự đa dạng trong cách mà các thực thể được đề cập. Các cụm từ có thể được rút gọn hoặc thay đổi hình thức, gây khó khăn trong việc xác định mối quan hệ giữa chúng. Hơn nữa, tiếng Việt có nhiều đặc điểm ngữ pháp và ngữ nghĩa riêng biệt, đòi hỏi các phương pháp nghiên cứu phải được điều chỉnh cho phù hợp.

II. Phương pháp xác định đồng sở chỉ hiệu quả trong tiếng Việt

Để xác định đồng sở chỉ trong tiếng Việt, có nhiều phương pháp khác nhau được áp dụng. Các phương pháp này bao gồm phân loại và phân cụm các đề cập trong văn bản. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng để đạt được kết quả chính xác.

2.1. Phương pháp phân loại các đề cập

Phương pháp phân loại sử dụng các đặc trưng để xác định xem hai đề cập có cùng chỉ đến một thực thể hay không. Các đặc trưng này có thể bao gồm vị trí, hình thái, và ngữ nghĩa. Việc sử dụng các mô hình học máy như cây quyết định hoặc hồi quy logistic có thể giúp cải thiện độ chính xác của việc xác định đồng sở chỉ.

2.2. Phương pháp phân cụm các đề cập

Phương pháp phân cụm tập trung vào việc nhóm các đề cập lại với nhau dựa trên các đặc trưng chung. Điều này giúp xác định các thực thể tương tự trong văn bản. Các thuật toán phân cụm như K-means hoặc DBSCAN có thể được áp dụng để thực hiện nhiệm vụ này, giúp tối ưu hóa quá trình xác định đồng sở chỉ.

III. Ứng dụng thực tiễn của nghiên cứu đồng sở chỉ trong tiếng Việt

Nghiên cứu đồng sở chỉ có nhiều ứng dụng thực tiễn trong các lĩnh vực như tóm tắt văn bản, hệ thống hỏi đáp, và phân tích ngữ nghĩa. Việc xác định đồng sở chỉ chính xác giúp cải thiện chất lượng của các hệ thống này, từ đó nâng cao trải nghiệm người dùng.

3.1. Ứng dụng trong hệ thống tóm tắt văn bản

Trong hệ thống tóm tắt văn bản, việc xác định đồng sở chỉ giúp nhận diện các thông tin quan trọng và loại bỏ các thông tin trùng lặp. Điều này giúp tạo ra các bản tóm tắt ngắn gọn và chính xác hơn, phục vụ cho người đọc hiệu quả hơn.

3.2. Ứng dụng trong hệ thống hỏi đáp

Hệ thống hỏi đáp cần phải hiểu rõ các thực thể được đề cập trong câu hỏi và câu trả lời. Việc xác định đồng sở chỉ giúp hệ thống nhận diện các thực thể này, từ đó cung cấp câu trả lời chính xác và phù hợp hơn cho người dùng.

IV. Kết luận và tương lai của nghiên cứu đồng sở chỉ trong tiếng Việt

Nghiên cứu đồng sở chỉ trong tiếng Việt đang trên đà phát triển, với nhiều phương pháp và ứng dụng mới được nghiên cứu. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều cải tiến trong việc xử lý ngôn ngữ tự nhiên, đặc biệt là trong bối cảnh ngày càng nhiều dữ liệu văn bản được tạo ra.

4.1. Tương lai của nghiên cứu đồng sở chỉ

Với sự phát triển của công nghệ và các công cụ xử lý ngôn ngữ, nghiên cứu đồng sở chỉ trong tiếng Việt sẽ ngày càng trở nên quan trọng. Các nghiên cứu mới sẽ giúp cải thiện độ chính xác và hiệu quả của các hệ thống xử lý ngôn ngữ tự nhiên.

4.2. Các hướng nghiên cứu tiếp theo

Các hướng nghiên cứu tiếp theo có thể bao gồm việc phát triển các bộ dữ liệu lớn hơn, cải thiện các thuật toán hiện có, và áp dụng các phương pháp học sâu để nâng cao khả năng xác định đồng sở chỉ trong tiếng Việt.

18/07/2025

Trích đoạn nội dung tài liệu

Chương 1 Tổng quan về xác định đồng sở chỉ Để hiểu được một văn bản, một trong những yêu cầu đầu tiên là phải xác định được sự vật, sự việc được nói tới trong văn bản. Tuy nhiên, một văn bản thường nhắc tới rất nhiều sự vật, sự việc và mỗi sự vật, sự việc lại có thể được đề cập nhiều lần ở nhiều vị trí khác nhau. Ngoài ra, khi muốn nói về một sự vật, sự việc đã được nhắc đến ở trước đó, người ta thường dùng các cụm từ ngắn gọn hơn so với cụm từ đã được dùng trước đó. Ví dụ: • [Bộ trưởng Bộ Giáo dục Đào tạo] về thăm trường tiểu học Võ Thị Sáu.

[Bộ trưởng] đã có một buổi nói chuyện hết sức ý nghĩa với các học sinh.(1) • [Người đàn ông mặc đồ đen] tiến vào trong ngôi nhà. [Hắn] mang theo một cây gậy sắt.(2) Trong ví dụ (1), [Bộ trưởng] nhắc lại về [Bộ trưởng Bộ Giáo dục Đào tạo] nhưng đã rút gọn lại chứ không nhắc lại nguyên vẹn cả chuỗi. Hiện tượng các cụm từ trong văn bản cùng chỉ tới một thực thể (sự vật, sự việc, .) được gọi là đồng sở chỉ. Xác định đồng sở chỉ là một trong những bước đầu tiên để phân tích và hiểu ngữ nghĩa văn bản.

Chương này sẽ trình bày tổng quan về bài toán xác định đồng sở chỉ cho văn bản. 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Bài toán xác định đồng sở chỉ Xác định đồng sở chỉ là quá trình tìm tất cả các cụm từ trong văn bản cùng tham chiếu tới một thực thể. Một cụm từ trong văn bản tham chiếu tới một thực thể gọi là một (sự) đề cập. Ví dụ: Linh đến trường bằng xe buýt.

Cô ấy thường đi chuyến xe số 22. Trong đó, • [Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập. • [Linh] và [cô ấy] cùng chỉ đến thực thể là cô gái tên là Linh. Hay có thể nói, [cô ấy] và [Linh] có quan hệ đồng sở chỉ.

Bài toán xác định đồng sở chỉ là một bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Đây là một trong các bước nền tảng cho quá trình phân tích và hiểu ngữ nghĩa văn bản. Quá trình xác định đồng sở chỉ có thể là bước tiền xử lý cho nhiều hệ thống như: hệ thống tóm tắt văn bản [1], hệ thống hỏi đáp [12],. Xác định đồng sở chỉ là một bài toán phức tạp, bởi lẽ việc xác định này không chỉ phụ thuộc vào cấu trúc ngữ pháp mà đôi khi còn phụ thuộc cả vào ngữ nghĩa.

Trong giao tiếp, việc xác định đồng sở chỉ còn phụ thuôc cả vào các 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tín hiệu nhấn giọng, âm điệu,. Trong một số trường hợp, người ta còn cần cả các tri thức bên ngoài để xác định đồng sở chỉ. Ví dụ: Chàng trai tặng cô gái một bông hồng. Cô ấy rất vui.

Các đề cập trong ví dụ trên là: [Chàng trai], [cô gái], [một bông hồng], [Cô ấy]. Nếu chia cặp các đề cập để kiểm tra hai đề cập có quan hệ đồng sở chỉ không, ta sẽ có 6 cặp. Trong đó, nếu muốn kiểm tra [cô ấy] chỉ đến thực thể nào hay nói cách khác [cô ấy] là nhắc lại cho cụm nào xuát hiện trước đó ta sẽ phải kiểm tra 3 cặp: ([Cô ấy],[Chàng trai]), ([Cô ấy], [cô gái]), ([Cô ấy], [một bông hồng]). Tuy nhiên, với việc xác định cô ấy là chỉ người, giới tính nữ, ta có thể bỏ qua [một bông hồng] và [chàng trai].

Ví dụ: • Linh nói với Hằng rằng cô ấy đang gặp nguy hiểm. (1) • Linh cảnh báo Hằng rằng cô ấy đang gặp nguy hiểm. (2) Ở ví dụ đầu, Cô ấy có thể phù hợp với cả Linh và Hằng, tùy từng ngữ cảnh khác nhau có thể là Linh và Hằng. Ví dụ sau ví dụ đầu nhưng do sắc thái ý nghĩa của từ cảnh báo, Cô ấy ở đây tham chiếu tới Hằng.

Ví dụ: Tổng thống Obama gặp Nelson Maldela. Cháu gái của người đàn ông già nua ấy bị dính líu đến một tai nạn. Ở đây, để xác định người đàn ông già nua tham chiếu đến Obama hay Nelson Maldela có thể cần thêm cả tri thức về thế giới: Nelson Maldela lớn tuổi hơn Obama và có độ tuổi phù hợp để được nhắc đến như là người đàn ông già nua hơn Obama. Ngoài ra, bài toán đồng sở chỉ không chỉ xuất hiện trong một văn bản mà có thể có phạm vi trong nhiều văn bản.

Ví dụ: Hai bài báo cùng nói về một sự việc, sẽ có nhiều đề cập ở hai bài báo cùng tham chiếu tới một thực thể. Các đề cập trong văn bản thông thường là cụm danh từ nhưng cũng có trường hợp là cụm động từ, tính từ,. Ví dụ: Anh ấy đi siêu thị. Anh ấy làm việc đó với các bạn anh ấy.

Trong ví dụ này, việc đó và đi siêu thị cùng trỏ đến việc đi siêu thị trong thực tế. 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong phạm vi của luận văn này, chúng tôi chỉ xét tới hiện tượng đồng sở chỉ với đề cập là các cụm danh từ từ và trong phạm vi một văn bản.2 Cách giải quyết bài toán xác định đồng sở chỉ Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước: • Xác định các đề cập: các đề cập thường là các cụm danh từ. • Xác định quan hệ đồng sở chỉ giữa các đề cập.1 Xác định các đề cập Với việc chỉ quan tâm tới các đề cập là các cụm danh từ, việc đầu tiên để xác định xác đề cập là đi tìm tất cả các cụm danh từ trong văn bản. Việc này có thể thực hiện thông qua phân tích cú pháp thành phần.

Ví dụ: Mảnh đấy của đạn bom không còn người nghèo. Câu trên khi được tiến hành phân tích cú pháp thành phần sẽ thu được kết quả như hình 1. Các cụm danh từ là các thành phần được gán nhãn NP [16]. Trong câu này, ta sẽ thu được các cụm danh từ là: [Mảnh đất của đạn bom], [đạn bom], [người nghèo] S-STL NP-SUB VP Nc-H N PP R V-H NP-DOB.

Mảnh đất E-H NP không còn N-H A. của N-H N-H người nghèo đạn bom Hình 1.1: Phân tích cú pháp thành phần của một câu trong tiếng Việt Tuy nhiên, trong một số trường hợp, không phải tất cả các cụm danh từ thu được từ việc phân tích cú pháp đều có thể được coi là các đề cập. Ví dụ: Căn nhà màu xanh được xây kiên cố kia là của họ. 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nếu tiến hành phân tích cú pháp sẽ thu được [Căn nhà], [Căn nhà màu xanh], [Căn nhà màu xanh được xây kiên cố kia], [họ] đều là các cụm danh từ, và hiển nhiên, cả 3 cụm danh từ này đều chỉ chung một thực thể.

Tuy nhiên, việc xét cả ba cụm danh từ này không có ý nghĩa, các cụm danh từ [Căn nhà], [Căn nhà màu xanh] sẽ phải bị loại bỏ và chỉ xét một đề cập là [Căn nhà màu xanh được xây kiên cố kia]. Các trường hợp một cụm danh từ không được coi là một đề cập: • Loại bỏ các cụm danh từ nếu có một cụm danh từ khác lớn hơn có cùng từ chính; • Loại bỏ các thực thể số đếm như tỷ lệ phần trăm, số lượng.; • Loại bỏ các thực thể có các biểu thức lượng hoá. Ví dụ: tất cả 100 sinh viên, không ai trong số họ, hàng triệu người, .; • Loại bỏ các từ thừa; • Loại bỏ các dạng tính từ của tên các tên quốc gia hoặc từ viết tắt tên quốc gia; • Loại bỏ các từ dừng.2 Xác định quan hệ đồng sở chỉ Có hai hướng tiếp cận để xác định quan hệ đồng sở chỉ: • Phân lớp các cặp đề cập; • Phân cụm các đề cập. Để xác định đồng sở chỉ, vào năm 2001, Soon và cộng sự đã đưa ra tập hợp 12 đặc trưng [21], và đến năm 2002, Ng và Cardie bổ sung thêm thành 52 đặc trưng bao gồm vị trí, hình thái, từ vựng, cú pháp, ngữ nghĩa và thậm chí cả thông tin thực tế [14].

Hầu hết các hệ thống hiện nay được xây dựng trên bộ đặc trưng này với một vài thay đổi và bổ sung nhỏ.2 chứa danh sách các đặc trưng này. 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1: Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy Đặc trưng Mô tả Đặc trưng vị trí *Span Trong các cụm danh từ lồng nhau, một cụm NP mở rộng một cụm khác mà nói rằng chúng là các thực thể khác nhau. Distance Số lượng các từ, các danh từ hoặc các câu giữa hai cụm danh từ. Đặc trưng hình thái *Gender Giống đực, giống cái, trung tính *Number Số ít, số đôi (dual), số nhiều Animacy Chỉ người, động vật, cây đối, lực lượng tự nhiên hay cái khác String matching Hai chuỗi khớp hoàn toàn hay khớp bộ phận.

Alias Là tên viết tắt: IBM thay cho International Business Machines Corp Minimum edit dis- Khoảng cách chỉnh sửa Wagner and Fischer là một đặc trưng hiệu tance quả cho xác định đồng sở chỉ trong tiếng Đức Part-of-speech Loại cụm danh từ: đại từ, danh từ riêng, cụm danh từ có đại từ chỉ định (this car ), cụm danh từ có mạo từ xác định (the car ), cụm danh từ có mạo từ bất định (a car). Đặc trưng cú pháp *Apposition Hai đề cập đặt cạnh nhau *Predicate nominal Hai cụm danh từ form a predicate nominal construction. construction *Binding Hai cụm danh từ làm cho phù hợp với nguyên lý B và C trong Binding Theory (Chomsky 1981). *Contra-indices Các cụm danh từ không thể được đánh cùng chỉ số dựa trên một phương pháp heuristics đơn giản.

Ví dụ, trong “CMU in Pitts- burgh”, CMU và Pittsburgh phải là hai thực thể khác nhau. Maximal NP pro- Hai cụm danh từ có chung một cụm danh từ ngoài cùng. jection Parse tree similar- Sự tương đồng giữa các cây con bao phủ tiền đề và sự nhắc lại. ity (Yang et al., 2006) Collocation Match Hai cụm danh từ đứng trước hoặc theo sau bởi cùng một động từ.

Syntactic paral- Hai cụm danh từ có cùng một vai trò ngữ pháp. lelism Đặc trưng ngữ nghĩa Named Entity class Phân lớp theo NER bao gồm người, tổ chức, địa danh, phương tiện và các thực thể địa lý - chính trị. WordNet Semantic Hai cụm NP có cùng một lớp nghĩa trong WordNet. class 9 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân lớp các cặp đề cập Để xác định các đề cập cùng chỉ đến một thực thể, có thể kiểm tra từng cặp đề cập có quan hệ đồng sở chỉ hay không.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ