ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐÀO MINH QUYÊN TỰ ĐỘNG TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐÀO MINH QUYÊN TỰ ĐỘNG TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.05 LUẬN VĂN THẠC SĨ Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành Hà Nội - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Mục lục .2 Danh mục các ký hiệu, chữ viết tắt .4 Danh mục các hình vẽ, đồ thị .5 Danh mục các bảng biểu .1 CHƯƠNG 1 - GIỚI THIỆU .1 Trích chọn thông tin là gì? .2 Bài toán trích chọn thực thể tên người trong Tiếng Việt .3 CHƯƠNG 2 - HỆ THỐNG TRÍCH CHỌN THÔNG TIN .5 MỘT SỐ NGHIÊN CỨU LIÊN QUAN TRONG TIẾNG VIỆT .1 Các cách tiếp cận trích chọn thông tin.1 Hướng tiếp cận thủ công .2 Hướng tiếp cận xây dựng các mô hình học máy . Một số nghiên cứu liên quan . Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer . Mô hình học máy CRF và bộ công cụ cài đặt CRF++ toolkit . Tổng kết chương .14 CHƯƠNG 3 – GIẢI QUYẾT BÀI TOÁN . Mô tả bải toán . Mô hình giải quyết bài toán . Mô tả chi tiết hệ thống trích chọn .1 Một số đặc điểm về cú pháp và ngữ cảnh của tên người trong văn bản Tiếng Việt . Mô hình hệ thống . Kết luận chương . THỰC NGHIỆM VÀ ĐÁNH GIÁ . Môi trường thực nghiệm . Dữ liệu thực nghiệm . Module tự động trích chọn .1 Tiền xử lý dữ liệu – Tách từ . Tự động trích chọn . Đánh giá kết quả của hệ thống trích chọn tự động. Huấn luyện CRF . Giai đoạn huấn luyện . Giai đoạn kiểm thử . Đánh giá kết quả .36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI .38 Tài liệu tham khảo .39 Phụ lục: Từ điển họ trong tiếng Việt [8] .40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục các ký hiệu, chữ viết tắt IE Information Extraction CRFs Condition Random Field HMM Hidden Markov Models MEMM Maximum Markov Models PNE Person Named Entity LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục các hình vẽ, đồ thị Hình 1. Ví dụ về một hệ thống trích chọn thông tin [4] . Mô hình xây dựng hệ luật cho các hệ thống IE theo hướng tiếp cận thủ công . Mô hình xây dựng IE theo mô hình học máy . Quy trình tách từ . Mô hình hoạt động của CRF++ . Mô hình hóa bài toán . Mô hình giải quyết bài toán . Mô hình hệ thống tự động trích chọn . Format file prefix. Mô hình thực hiện bước 1 . Sử dụng vnTokenizer 4.1 để tách từ văn bản tiếng Việt . Văn bản trước khi tách từ . Văn bản sau khi tách từ . Văn bản đầu vào . Văn bản đầu ra đã gán nhãn . File danh sách tên người . Danh sách các prefix . Mô hình thực nghiệm với CRF . Huấn luyện CRF - Tạo file model . Format của file testing đưa vào CRF++ toolkit . Thực hiện trích chọn với file test bằng CRF++ toolkit . Kết quả thử nghiệm với số lượng file training khác nhau .37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục các bảng biểu Bảng 1. Sự khác biệt đặc điểm từ giữa tiếng Việt và Tiếng Anh . Bảng các tham số huấn luyện . Bảng các tham số của lệnh crf_test . Cấu hình của máy PC dùng trong thực nghiệm . Các công cụ sử dụng trong thực nghiệm . Các thư viện sử dụng trong thực nghiệm . Kết quả kiểm thử của hệ thống tự động trích chọn . Kết quả test với số lượng file training khác nhau .36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 Mở đầu Xử lý ngôn ngữ tự nhiên từ lâu đã trở thành một bài toán quan trọng trong các ứng dụng công nghệ thông tin đặc biệt là tìm kiếm, dịch tự động, các hệ thống Semantic Web, . và ứng dụng xử lý ngôn ngữ tự nhiên cho Tiếng Việt cũng không phải là ngoại lệ. Chẳng hạn như đối với bài toán tìm kiếm thông tin. Các Web Retrieval luôn phải thực hiện dựa trên sự giới hạn của thông tin vào và ra trong quá trình tìm kiếm. Khi tìm kiếm người dùng thường đưa vào một số lượng nhỏ từ khóa cần tìm và kết quả tìm kiếm cũng cần kiểm tra và đưa ra một số lượng nhất định các từ phù hợp nhất. Để giải quyết vấn đề này, việc tìm kiếm dựa trên các từ khóa là chưa đủ. Thực tế cho thấy các thực thể ẩn chứa trong đó cũng làm nổi bật các thông tin tìm kiếm. Do đó, trích chọn thực thể đã trở thành bài toán cơ bản nhất trong các bài toán trích chọn thông tin nhưng lại đóng vai trò quan trọng trong việc quyết định hiệu quả tìm kiếm. Một điều dễ thấy nữa là hiện nay, thống kê tìm kiếm cho thấy tìm kiếm theo tên người chiếm một tỷ lệ đáng kể. Theo đó, các hệ thống trích chọn tên người là bài toán cơ bản và có ý nghĩa trong việc xây dựng các hệ thống xử lý ngôn ngữ tự nhiên như xây dựng các ontology làm tiền đề cho các Semantic web, ứng dụng trong hệ thống dịch tự động hay tóm tắt văn bản, . Do vậy việc xây dựng các giải thuật trích chọn các thực thể tên người từ web là bài toán có ý nghĩa quan trọng. Luận văn tập trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên người áp dụng cho Tiếng Việt. Cấu trúc luận văn gồm 4 chương: Chương 1: Giới thiệu một cách khái quát nhất bài toán trích chọn thực thể tên người trong Tiếng Việt. Ý nghĩa của bài toán Chương 2: Hướng tiếp cận trong trích chọn thông tin. Một số nghiên cứu liên quan trong xử lý văn bản Tiếng Việt. Đây sẽ là tiền đề cho việc nghiên cứu để xây dựng mô hình giải quyết bài toán Chương 3: Đề xuất mô hình giải quyết bài toán Chương 4: Kết quả thực nghiệm của luận văn, đánh giá phương pháp và kết quả đạt được. Phần kết luận: Tóm lược những nội dung chính đạt được của luận văn đồng thời cũng chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên cứu trong tương lai. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 CHƯƠNG 1 - GIỚI THIỆU 1.1 Trích chọn thông tin là gì? Ngày nay, cùng với sự ứng dụng rộng rãi của công nghệ thông tin là lượng thông tin khổng lồ mang tính chất toàn cầu. Lượng thông tin này ngày càng lớn mạnh không ngừng và song song với nó là một thách thức được đặt ra đó là: làm thế nào để sử dụng thông tin đó một cách hiệu quả nhất? Và như vậy, trong kho dữ liệu khổng lồ đó, việc tìm ra thông tin cần thiết một cách nhanh chóng, chính xác là cực kỳ quan trọng. Mặc dù chất lượng của các máy tìm kiếm đã được cải thiện nhưng kết quả trả về chỉ là những tài liệu có liên quan, chúng không dễ dàng gì rút ra được các mối quan hệ tiềm ẩn và tạo được các câu trả lời cho các truy vấn phức tạp, chẳng hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhà lãnh đạo quốc tế trên toàn thế giới”. Người ta phân loại câu trả lời các truy vấn ở dạng: có phân tích các tài liệu liên quan để tập hợp những thông tin cần thiết. Nếu nhiều mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài liệu thì nó tự động tổng hợp và cấu trúc hóa, điều này rất tốt không chỉ cho các hệ thống truy vấn thông tin mà còn cho các hệ thống hỏi đáp tự động và tóm tắt văn bản. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thông tin bổ ích. Đó là lĩnh vực mà “trích chọn thông tin” nghiên cứu. Trích chọn thông tin (Information Extraction - IE) là công việc trích ra các thông tin có cấu trúc từ các văn bản không có cấu trúc [4]. Nói cách khác, một hệ thống trích chọn thông tin rút ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó. Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số thông tin đáng quan tâm ở một lĩnh vực nào đó. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 Ví dụ về hệ thống trích chọn thông tin Hình 1. Ví dụ về một hệ thống trích chọn thông tin [4] 1.2 Bài toán trích chọn thực thể tên người trong Tiếng Việt Trích chọn thực thể tên người là bước tiền xử lý trong rất nhiều hệ thống xử lý ngôn ngữ tự nhiên. Cụ thể như: - Tóm tắt văn bản: Từ một văn bản dài, máy tính tóm tắt thành văn bản ngắn hơn với những nội dung cơ bản nhất. - Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng hạn dịch câu “Nguyễn Tấn Dũng là Thủ tướng nước Cộng hòa xã hội chủ nghĩa Việt Nam” sang tiếng Anh. Việc dịch này đòi hỏi máy không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải nhận biết được đâu là tên người để giữ nguyên - Tìm kiếm thông tin trên mạng: Đây là lĩnh vực có sự chia sẻ nhiều nhất giữa trí tuệ nhân tạo và Internet, và ngày càng trở nên hết sức quan trọng. Sẽ sớm đến một ngày, mọi tri thức của con người được số hóa và để lên mạng hay các thư viện số cực lớn. Thống kê cho thấy, các từ khóa là tên người được đưa vào tìm kiếm chiếm tỷ lệ khá lớn. - Hệ thống hỏi đáp: Giúp trả lời các câu hỏi liên quan đến thực thể tên người như: Ai là Chủ tịch tập đoàn Microsoft? LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 Ai đã phát minh ra PC đầu tiên trên thế giới? Ai là cha đẻ của lý thuyết về tổ hợp? . - Web ngữ nghĩa: Trích chọn tên người là bước tiền xử lý cho hệ thống xây dựng các ontology - bước xây dựng dữ liệu cho các ứng dụng web ngữ nghĩa. Luận văn sẽ tập trung vào việc xây dựng hệ thống tự động trích chọn tên người trong văn bản tiếng Việt.
Nghiên cứu trích chọn thực thể tên người trong văn bản tiếng Việt
Luận văn thạc sĩ VNU UET nghiên cứu phương pháp tự động trích chọn thực thể tên người trong văn bản tiếng Việt, góp phần nâng cao xử lý ngôn ngữ.
Trường đại học
Trường Đại học Công nghệ - Đại học Quốc gia Hà NộiChuyên ngành
Công nghệ thông tinNgười đăng
Ẩn danhThể loại
Luận văn thạc sĩPhí lưu trữ
30 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Đào Minh Quyên
Người hướng dẫn: Ts. Nguyễn Trí Thành
Trường học: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành: Công nghệ thông tin
Đề tài: Tự động trích chọn thực thể tên người trong văn bản tiếng Việt
Loại tài liệu: Luận văn thạc sĩ
Năm xuất bản: 2011
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ