Nghiên cứu trích chọn thực thể tên người trong văn bản tiếng Việt

Luận văn thạc sĩ VNU UET nghiên cứu phương pháp tự động trích chọn thực thể tên người trong văn bản tiếng Việt, góp phần nâng cao xử lý ngôn ngữ.

Trường đại học

Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2011

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Trích chọn thông tin là gì?

1.2. Bài toán trích chọn thực thể tên người trong Tiếng Việt

2. CHƯƠNG 2: HỆ THỐNG TRÍCH CHỌN THÔNG TIN

2.1. Các cách tiếp cận trích chọn thông tin

2.1.1. Hướng tiếp cận thủ công

2.1.2. Hướng tiếp cận xây dựng các mô hình học máy

2.2. Một số nghiên cứu liên quan

2.3. Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer

2.4. Mô hình học máy CRF và bộ công cụ cài đặt CRF++ toolkit

2.4.1. Mô hình CRF

2.4.2. Công cụ CRF++ Toolkit

3. CHƯƠNG 3: GIẢI QUYẾT BÀI TOÁN

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI

TÀI LIỆU THAM KHẢO

PHỤ LỤC: TỪ ĐIỂN HỌ TRONG TIẾNG VIỆT

Tóm tắt

I. Tổng quan về trích chọn thực thể tên người trong văn bản tiếng Việt

Trích chọn thực thể tên người trong văn bản tiếng Việt là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Việc nhận diện và trích xuất tên người từ văn bản không chỉ giúp cải thiện chất lượng tìm kiếm thông tin mà còn hỗ trợ trong nhiều ứng dụng như dịch tự động, tóm tắt văn bản và xây dựng hệ thống hỏi đáp. Trong bối cảnh hiện nay, với sự gia tăng của dữ liệu văn bản, việc phát triển các phương pháp tự động để trích chọn thực thể tên người trở nên cần thiết hơn bao giờ hết.

1.1. Trích chọn thông tin là gì và tại sao quan trọng

Trích chọn thông tin (Information Extraction - IE) là quá trình rút ra các thông tin có cấu trúc từ văn bản không có cấu trúc. Điều này đặc biệt quan trọng trong việc tìm kiếm thông tin, nơi mà người dùng cần nhanh chóng tìm ra các thực thể và mối quan hệ giữa chúng. Việc trích chọn thực thể tên người giúp hệ thống hiểu rõ hơn về ngữ cảnh và nội dung của văn bản, từ đó cải thiện độ chính xác trong các ứng dụng xử lý ngôn ngữ tự nhiên.

1.2. Các ứng dụng của trích chọn thực thể tên người

Trích chọn thực thể tên người có nhiều ứng dụng thực tiễn, bao gồm: tóm tắt văn bản, dịch tự động, tìm kiếm thông tin và xây dựng hệ thống hỏi đáp. Mỗi ứng dụng đều yêu cầu hệ thống phải nhận diện chính xác tên người để đảm bảo tính chính xác và hiệu quả trong việc xử lý thông tin.

II. Thách thức trong việc trích chọn thực thể tên người tiếng Việt

Việc trích chọn thực thể tên người trong văn bản tiếng Việt gặp nhiều thách thức do đặc điểm ngôn ngữ và cấu trúc văn bản. Tiếng Việt có nhiều từ đồng âm, từ láy và cấu trúc ngữ pháp phức tạp, điều này làm cho việc nhận diện tên người trở nên khó khăn hơn. Hơn nữa, sự đa dạng trong cách viết và cách gọi tên cũng tạo ra những khó khăn trong việc xây dựng các mô hình trích chọn.

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến trích chọn

Tiếng Việt có cấu trúc từ vựng và ngữ pháp khác biệt so với các ngôn ngữ khác. Các từ có thể được cấu thành từ nhiều âm tiết, và việc xác định danh giới giữa các từ không phải lúc nào cũng rõ ràng. Điều này dẫn đến việc khó khăn trong việc tách và nhận diện tên người trong văn bản.

2.2. Các vấn đề trong việc xây dựng mô hình trích chọn

Việc xây dựng mô hình trích chọn thực thể tên người cần phải đối mặt với nhiều vấn đề như thiếu dữ liệu huấn luyện, độ chính xác của các thuật toán và khả năng mở rộng của hệ thống. Các mô hình học máy như CRF và HMM đã được áp dụng, nhưng vẫn cần cải tiến để đạt được hiệu quả cao hơn.

III. Phương pháp trích chọn thực thể tên người hiệu quả

Để giải quyết bài toán trích chọn thực thể tên người, nhiều phương pháp đã được nghiên cứu và áp dụng. Các phương pháp này bao gồm cả cách tiếp cận thủ công và tự động, với sự hỗ trợ của các mô hình học máy. Việc kết hợp giữa các phương pháp này có thể mang lại kết quả tốt hơn trong việc nhận diện tên người.

3.1. Hướng tiếp cận thủ công trong trích chọn

Hướng tiếp cận thủ công thường dựa vào các quy tắc và luật được xây dựng bởi các chuyên gia. Mặc dù có thể đạt được độ chính xác cao, nhưng phương pháp này tốn nhiều thời gian và công sức trong việc xây dựng và duy trì.

3.2. Hướng tiếp cận học máy trong trích chọn

Hướng tiếp cận học máy cho phép hệ thống tự học từ dữ liệu huấn luyện. Các mô hình như CRF và HMM đã được áp dụng để cải thiện độ chính xác trong việc nhận diện tên người. Phương pháp này giúp giảm thiểu sự can thiệp của con người và tăng tính linh hoạt cho hệ thống.

IV. Ứng dụng thực tiễn của trích chọn thực thể tên người

Kết quả của việc trích chọn thực thể tên người có thể được ứng dụng trong nhiều lĩnh vực khác nhau. Từ việc cải thiện chất lượng tìm kiếm thông tin đến hỗ trợ trong các hệ thống dịch tự động, trích chọn thực thể tên người đóng vai trò quan trọng trong việc nâng cao hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên.

4.1. Tóm tắt văn bản và dịch tự động

Trong các ứng dụng tóm tắt văn bản, việc nhận diện tên người giúp hệ thống xác định các thông tin quan trọng và tóm tắt chính xác hơn. Tương tự, trong dịch tự động, việc nhận diện tên người là cần thiết để đảm bảo rằng tên được dịch chính xác và giữ nguyên trong ngữ cảnh.

4.2. Hệ thống hỏi đáp và tìm kiếm thông tin

Trích chọn thực thể tên người cũng hỗ trợ trong việc xây dựng các hệ thống hỏi đáp, nơi mà người dùng có thể đặt câu hỏi liên quan đến tên người. Hệ thống tìm kiếm thông tin cũng có thể cải thiện độ chính xác khi nhận diện tên người trong các truy vấn.

V. Kết luận và hướng phát triển tương lai

Trích chọn thực thể tên người trong văn bản tiếng Việt là một lĩnh vực đầy tiềm năng và thách thức. Việc phát triển các phương pháp và công nghệ mới sẽ giúp cải thiện độ chính xác và hiệu quả trong việc nhận diện tên người. Hướng phát triển tương lai có thể bao gồm việc áp dụng các mô hình học sâu và cải tiến quy trình thu thập dữ liệu huấn luyện.

5.1. Tầm quan trọng của nghiên cứu tiếp theo

Nghiên cứu tiếp theo cần tập trung vào việc cải thiện các mô hình hiện tại và phát triển các phương pháp mới để giải quyết các vấn đề còn tồn tại trong việc trích chọn thực thể tên người.

5.2. Hướng đi mới trong ứng dụng AI

Sự phát triển của trí tuệ nhân tạo (AI) có thể mở ra nhiều cơ hội mới trong việc trích chọn thực thể tên người. Việc áp dụng các công nghệ mới như học sâu có thể giúp nâng cao hiệu quả và độ chính xác trong các ứng dụng xử lý ngôn ngữ tự nhiên.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet tự động trích chọn thực thể tên người trong văn bản tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1 - GIỚI THIỆU 1.1 Trích chọn thông tin là gì? Ngày nay, cùng với sự ứng dụng rộng rãi của công nghệ thông tin là lượng thông tin khổng lồ mang tính chất toàn cầu. Lượng thông tin này ngày càng lớn mạnh không ngừng và song song với nó là một thách thức được đặt ra đó là: làm thế nào để sử dụng thông tin đó một cách hiệu quả nhất? Và như vậy, trong kho dữ liệu khổng lồ đó, việc tìm ra thông tin cần thiết một cách nhanh chóng, chính xác là cực kỳ quan trọng. Mặc dù chất lượng của các máy tìm kiếm đã được cải thiện nhưng kết quả trả về chỉ là những tài liệu có liên quan, chúng không dễ dàng gì rút ra được các mối quan hệ tiềm ẩn và tạo được các câu trả lời cho các truy vấn phức tạp, chẳng hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhà lãnh đạo quốc tế trên toàn thế giới”. Người ta phân loại câu trả lời các truy vấn ở dạng: có phân tích các tài liệu liên quan để tập hợp những thông tin cần thiết.

Nếu nhiều mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài liệu thì nó tự động tổng hợp và cấu trúc hóa, điều này rất tốt không chỉ cho các hệ thống truy vấn thông tin mà còn cho các hệ thống hỏi đáp tự động và tóm tắt văn bản. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thông tin bổ ích. Đó là lĩnh vực mà “trích chọn thông tin” nghiên cứu. Trích chọn thông tin (Information Extraction - IE) là công việc trích ra các thông tin có cấu trúc từ các văn bản không có cấu trúc [4].

Nói cách khác, một hệ thống trích chọn thông tin rút ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó. Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số thông tin đáng quan tâm ở một lĩnh vực nào đó. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 Ví dụ về hệ thống trích chọn thông tin Hình 1. Ví dụ về một hệ thống trích chọn thông tin [4] 1.2 Bài toán trích chọn thực thể tên người trong Tiếng Việt Trích chọn thực thể tên người là bước tiền xử lý trong rất nhiều hệ thống xử lý ngôn ngữ tự nhiên.

Cụ thể như: - Tóm tắt văn bản: Từ một văn bản dài, máy tính tóm tắt thành văn bản ngắn hơn với những nội dung cơ bản nhất. - Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng hạn dịch câu “Nguyễn Tấn Dũng là Thủ tướng nước Cộng hòa xã hội chủ nghĩa Việt Nam” sang tiếng Anh. Việc dịch này đòi hỏi máy không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải nhận biết được đâu là tên người để giữ nguyên - Tìm kiếm thông tin trên mạng: Đây là lĩnh vực có sự chia sẻ nhiều nhất giữa trí tuệ nhân tạo và Internet, và ngày càng trở nên hết sức quan trọng. Sẽ sớm đến một ngày, mọi tri thức của con người được số hóa và để lên mạng hay các thư viện số cực lớn.

Thống kê cho thấy, các từ khóa là tên người được đưa vào tìm kiếm chiếm tỷ lệ khá lớn. - Hệ thống hỏi đáp: Giúp trả lời các câu hỏi liên quan đến thực thể tên người như:  Ai là Chủ tịch tập đoàn Microsoft? LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4  Ai đã phát minh ra PC đầu tiên trên thế giới?  Ai là cha đẻ của lý thuyết về tổ hợp? . - Web ngữ nghĩa: Trích chọn tên người là bước tiền xử lý cho hệ thống xây dựng các ontology - bước xây dựng dữ liệu cho các ứng dụng web ngữ nghĩa. Luận văn sẽ tập trung vào việc xây dựng hệ thống tự động trích chọn tên người trong văn bản tiếng Việt.

Kết quả của hệ thống sẽ rất có ích trong tiền xử lý dữ liệu của các ứng dụng xử lý ngôn ngữ tự nhiên nói trên. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 CHƯƠNG 2 - HỆ THỐNG TRÍCH CHỌN THÔNG TIN MỘT SỐ NGHIÊN CỨU LIÊN QUAN TRONG TIẾNG VIỆT 2.1 Các cách tiếp cận trích chọn thông tin 2.1 Hướng tiếp cận thủ công Đặc điểm của việc xây dựng hệ thống trích chọn thông tin theo hướng này là hệ thống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của từng người trong từng lĩnh vực của IE, các mẫu hay các luật được tạo ra và được kiểm duyệt một cách kỹ lưỡng có quy mô bởi các “tri thức chuyên gia” [3]. Những quy tắc luôn được kiểm định nhiều lần. Có thể mô hình hóa việc xây dựng này theo hình 2 như sau: Luật cũ Kho tài Kiểm duyệt liệu Tri thức Cập nhật chuyên gia Sửa chữa Luật mới Hình 2.

Mô hình xây dựng hệ luật cho các hệ thống IE theo hướng tiếp cận thủ công Hình trên mô tả việc xây dựng hệ luật theo hướng tiếp cận thủ công. Bắt đầu từ tập luật cơ bản ban đầu, sử dụng kho tài liệu kiểm duyệt hay sửa chữa cần thiết dựa trên tri thức chuyên giá (theo kinh nghiệm riêng của người xây dựng). Các luật mới được sinh ra sau quá trình kiểm duyệt đó để bổ sung cho tập luật cũ. Những quy tắc được kiểm định nhiều lần nhằm đánh giá độ chính xác và tìm ra những luật mới để bổ sung.

Với cách tiếp cận này thì hệ thống hoạt động theo một chu trình. Để xây dựng một hệ thống hoạt động tốt phải luôn luôn có sự tương tác giữa người viết luật và hệ thống cùng với kho ngữ liệu huấn luyện (hình 2) và tập luật luôn luôn được cập nhật để cho hệ thống có thể hoạt động tốt nhất. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Hướng tiếp cận xây dựng các mô hình học máy Với hệ thống IE được xây dựng theo hướng tiếp cận dựa trên tri thức thì chu trình kiểm tra và sửa lỗi gặp rất nhiều khó khăn và phụ thuộc vào nhiều yếu tố như: Loại ngôn ngữ, thời gian và khả năng viết luật. Chỉ một vài thay đổi trong đặc tả cũng gây khó khăn trong sự điều chỉnh.

Câu trả lời cho các giới hạn này là phải xây dựng một mô hình bằng cách nào đó có thể “tự học”. Điều này sẽ giúp làm giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính linh hoạt cho hệ thống. Có rất nhiều phương pháp học máy như mô hình markov ẩn (Hidden Markov Models-HMM), các mô hình Markov cực đại hóa Entropy (Maximum Markov Models – MEMM) và mô hình các trường ngẫu nhiên có điều kiện ( Conditional Random Fields – CRF). Các đặc điểm phải kể đến của việc xây dựng hệ thống IE theo hướng hệ thống có thể tự đào tạo (automatic training approach) là không cần một người nào đó hiểu biết về cách hoạt động của hệ thống IE và viết luật cho nó như thế nào.

Điều cần thiết ở đây là một người nào đó biết được miền ứng dụng của nó và hiểu được những thông tin cần rút trích. Một khi dữ liệu huấn luyện được chú thích, thuật toán huấn luyện chạy và sinh ra những thông tin học được hay còn gọi là model để phục vụ cho quá trình trích chọn tự động sau này. Mô hình với hướng tiếp cận này được mô tả qua hình 3 như sau: Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trên model này nó sẽ trích chọn các thông tin trên dữ liệu mới. Thuật toán học Dữ liệu Huấn luyện Model Hình 3.

Mô hình xây dựng IE theo mô hình học máy Khi xây dựng hệ thống IE theo hướng này phải tập trung vào việc tạo ra dữ liệu huấn luyện. Hệ thống có thể tự học mà không cần sự can thiệp của bất kỳ các chuyên viên nào. Tuy vậy việc xây dựng và lưu trữ tập dữ liệu huấn luyện rất khó và đắt vì để hệ thống có thể thực hiện tốt thì yêu cầu dữ liệu phải nhiều đó cũng là hệ quả dẫn đến việc khó sửa đổi. Vì chỉ cần thêm hoặc xóa các thuộc tính thì cần phải thay đổi trên toàn tập huấn luyện của nó.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 Tùy vào công việc và những điều kiện đã có mà ta có thể xây dựng hệ thống IE theo hướng các mô hình học máy hoặc theo hướng tiếp cận dựa tri thức. Ví dụ như khi nguồn văn bản và người viết luật đáp ứng được yêu cầu thì nên xây dựng hệ thống IE theo hướng tiếp cận dựa tri thức, hoặc khi các mô tả về thông tin trích chọn luôn có sự thay đổi thì cũng lên làm theo hướng thứ nhất. Còn với dữ liệu lớn thì nên xây dựng hệ thống IE theo mô hình học máy. Một số nghiên cứu liên quan 2.

Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer Bài toán Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới). Một số đặc điểm về cú pháp cấu tạo từ trong tiếng Việt Tách từ là một khó khăn chính trong việc phân loại văn bản đối với các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhât, tiếng Hàn và cả tiếng Việt. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn ngữ phonographic Đông Nam Á khác như khó xác định danh giới giữ các từ và có các điểm khác biệt về phonetic, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn, Âu. Có một số đặc tính chính của từ trong tiếng Việt như sau [1]: - Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp - Từ được cấu trúc từ “tiếng” hay còn gọi là âm tiết - Từ bao gồm từ đơn (từ một tiếng) và từ phức (n - tiếng với n < 5), bao gồm từ láy và từ ghép.

Trong khi đó, định nghĩa về từ trong tiếng Anh như sau: “Từ là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster). Dưới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ thông tin ứng dụng

trích xuất thông tin văn bản