Luận văn thạc sĩ về trích xuất thực thể tên người trong văn bản tiếng Việt

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2011

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Trích chọn thông tin là gì?

1.2. Bài toán trích chọn thực thể tên người trong Tiếng Việt

2. CHƯƠNG 2: HỆ THỐNG TRÍCH CHỌN THÔNG TIN

2.1. Các cách tiếp cận trích chọn thông tin

2.1.1. Hướng tiếp cận thủ công

2.1.2. Hướng tiếp cận xây dựng các mô hình học máy

2.2. Một số nghiên cứu liên quan

2.2.1. Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer

2.2.2. Mô hình học máy CRF và bộ công cụ cài đặt CRF++ toolkit

3. CHƯƠNG 3: GIẢI QUYẾT BÀI TOÁN

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI

TÀI LIỆU THAM KHẢO

PHỤ LỤC: TỪ ĐIỂN HỌ TRONG TIẾNG VIỆT

Tóm tắt

I. Giới thiệu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc trích xuất thông tin từ văn bản trở thành một nhu cầu thiết yếu. Trích xuất thực thể tên người trong văn bản tiếng Việt là một trong những bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Bài toán này không chỉ giúp cải thiện hiệu quả tìm kiếm thông tin mà còn hỗ trợ trong các ứng dụng như dịch tự động và tóm tắt văn bản. Theo thống kê, tìm kiếm theo tên người chiếm tỷ lệ lớn trong các truy vấn, cho thấy tầm quan trọng của việc phát triển các hệ thống trích chọn tên người. Luận văn này sẽ tập trung vào việc xây dựng một mô hình trích chọn thực thể tên người, nhằm nâng cao khả năng xử lý ngôn ngữ tự nhiên cho tiếng Việt.

1.1. Trích chọn thông tin là gì

Trích chọn thông tin (Information Extraction - IE) là quá trình rút ra các thông tin có cấu trúc từ các văn bản không có cấu trúc. Hệ thống IE không chỉ nhận diện các thực thể mà còn xác định mối quan hệ giữa chúng. Điều này rất quan trọng trong việc tổng hợp thông tin từ nhiều nguồn khác nhau, giúp người dùng dễ dàng tìm kiếm và khai thác tri thức. Hệ thống này có thể được áp dụng trong nhiều lĩnh vực, từ tìm kiếm thông tin đến xây dựng các hệ thống hỏi đáp tự động. Việc phát triển các thuật toán trích chọn thông tin sẽ giúp cải thiện độ chính xác và hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên.

1.2. Bài toán trích chọn thực thể tên người trong Tiếng Việt

Bài toán trích chọn thực thể tên người trong tiếng Việt là một bước quan trọng trong nhiều ứng dụng như tóm tắt văn bản, dịch tự động và tìm kiếm thông tin. Việc nhận diện tên người không chỉ giúp cải thiện độ chính xác của các hệ thống mà còn tạo điều kiện thuận lợi cho việc xây dựng các ontology trong web ngữ nghĩa. Hệ thống trích chọn tên người sẽ giúp tự động hóa quá trình xử lý dữ liệu, từ đó nâng cao hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên. Luận văn này sẽ đề xuất một mô hình trích chọn thực thể tên người, nhằm đáp ứng nhu cầu ngày càng cao trong việc xử lý thông tin tiếng Việt.

II. Hệ thống trích chọn thông tin

Hệ thống trích chọn thông tin có thể được xây dựng theo nhiều cách tiếp cận khác nhau. Hai hướng chính là tiếp cận thủ công và tiếp cận dựa trên mô hình học máy. Hướng tiếp cận thủ công yêu cầu người dùng phải xây dựng các quy tắc và luật để nhận diện thực thể, điều này có thể tốn thời gian và phụ thuộc vào kinh nghiệm của người xây dựng. Ngược lại, hướng tiếp cận dựa trên mô hình học máy cho phép hệ thống tự học từ dữ liệu, giảm thiểu sự can thiệp của con người. Các mô hình như CRF (Conditional Random Fields) đã được chứng minh là hiệu quả trong việc trích chọn thông tin từ văn bản tiếng Việt.

2.1. Các cách tiếp cận trích chọn thông tin

Có hai cách tiếp cận chính trong việc trích chọn thông tin: thủ công và học máy. Cách tiếp cận thủ công yêu cầu xây dựng các quy tắc dựa trên kinh nghiệm cá nhân, trong khi cách tiếp cận học máy cho phép hệ thống tự động học từ dữ liệu. Mỗi phương pháp có ưu điểm và nhược điểm riêng. Hệ thống thủ công có thể chính xác hơn trong một số trường hợp cụ thể, nhưng lại tốn nhiều thời gian và công sức. Trong khi đó, hệ thống học máy có khả năng mở rộng và tự động hóa cao hơn, nhưng yêu cầu một lượng dữ liệu lớn để huấn luyện.

2.2. Mô hình học máy CRF và bộ công cụ cài đặt CRF toolkit

Mô hình CRF (Conditional Random Fields) là một trong những mô hình học máy phổ biến trong việc trích chọn thông tin. CRF cho phép tích hợp nhiều thuộc tính của dữ liệu quan sát, giúp cải thiện độ chính xác trong việc phân loại. Bộ công cụ CRF++ được thiết kế để hỗ trợ việc phân đoạn và gán nhãn dữ liệu tuần tự, rất hữu ích trong các bài toán xử lý ngôn ngữ tự nhiên. Việc sử dụng CRF++ giúp đơn giản hóa quy trình huấn luyện và kiểm tra, đồng thời cho phép người dùng tùy biến các đặc trưng phù hợp với bài toán cụ thể.

III. Kết quả thực nghiệm và đánh giá

Kết quả thực nghiệm cho thấy mô hình trích chọn thực thể tên người đạt được độ chính xác cao trong việc nhận diện và phân loại tên người trong văn bản tiếng Việt. Các thử nghiệm được thực hiện trên nhiều loại văn bản khác nhau, từ văn bản báo chí đến tài liệu học thuật. Đánh giá kết quả cho thấy mô hình không chỉ hoạt động hiệu quả mà còn có khả năng mở rộng cho các ứng dụng khác trong xử lý ngôn ngữ tự nhiên. Việc áp dụng mô hình này trong thực tế sẽ giúp cải thiện đáng kể hiệu quả của các hệ thống tìm kiếm và xử lý thông tin.

3.1. Môi trường thực nghiệm

Môi trường thực nghiệm được thiết lập với các công cụ và thư viện hỗ trợ cho việc phát triển mô hình trích chọn thực thể. Các dữ liệu đầu vào được chuẩn bị kỹ lưỡng, đảm bảo tính chính xác và độ tin cậy. Việc sử dụng các công cụ như CRF++ giúp tối ưu hóa quy trình huấn luyện và kiểm tra, từ đó nâng cao hiệu quả của mô hình. Kết quả thực nghiệm cho thấy mô hình có khả năng nhận diện tên người với độ chính xác cao, đáp ứng được yêu cầu của các ứng dụng thực tế.

3.2. Đánh giá kết quả

Đánh giá kết quả của mô hình trích chọn thực thể tên người cho thấy độ chính xác đạt khoảng 94%. Kết quả này cho thấy mô hình có khả năng hoạt động hiệu quả trong nhiều tình huống khác nhau. Việc áp dụng mô hình trong các hệ thống thực tế sẽ giúp cải thiện đáng kể khả năng tìm kiếm và xử lý thông tin, đồng thời mở ra nhiều cơ hội mới trong nghiên cứu và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên.

IV. Kết luận và hướng phát triển tương lai

Luận văn đã trình bày một cách khái quát về bài toán trích xuất thực thể tên người trong văn bản tiếng Việt, đồng thời đề xuất một mô hình trích chọn hiệu quả. Kết quả thực nghiệm cho thấy mô hình có khả năng hoạt động tốt trong nhiều tình huống khác nhau. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết, như việc mở rộng mô hình cho các ngôn ngữ khác và cải thiện độ chính xác trong các trường hợp đặc biệt. Hướng phát triển tương lai sẽ tập trung vào việc tối ưu hóa mô hình và áp dụng vào các lĩnh vực khác nhau trong xử lý ngôn ngữ tự nhiên.

4.1. Tóm lược nội dung chính

Nội dung chính của luận văn đã được tóm lược, nhấn mạnh tầm quan trọng của việc trích chọn thực thể tên người trong văn bản tiếng Việt. Mô hình được đề xuất không chỉ giúp cải thiện hiệu quả tìm kiếm thông tin mà còn hỗ trợ trong nhiều ứng dụng khác nhau. Việc phát triển mô hình này sẽ góp phần nâng cao khả năng xử lý ngôn ngữ tự nhiên cho tiếng Việt.

4.2. Định hướng nghiên cứu trong tương lai

Định hướng nghiên cứu trong tương lai sẽ tập trung vào việc mở rộng mô hình cho các ngôn ngữ khác, cải thiện độ chính xác và khả năng nhận diện trong các trường hợp đặc biệt. Ngoài ra, việc tích hợp mô hình vào các hệ thống thực tế sẽ là một thách thức lớn, đòi hỏi sự nghiên cứu và phát triển liên tục để đáp ứng nhu cầu ngày càng cao trong lĩnh vực xử lý ngôn ngữ tự nhiên.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ tự động trích chọn thực thể tên người trong văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh lượng thông tin trên Internet ngày càng tăng mạnh, việc khai thác và xử lý thông tin một cách hiệu quả trở thành thách thức lớn đối với các hệ thống công nghệ thông tin. Theo ước tính, tìm kiếm theo tên người chiếm tỷ lệ đáng kể trong các truy vấn tìm kiếm thông tin trên mạng. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt do đó có vai trò quan trọng trong việc nâng cao hiệu quả của các hệ thống xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, dịch tự động, hệ thống hỏi đáp và web ngữ nghĩa. Mục tiêu nghiên cứu của luận văn là xây dựng một mô hình tự động trích chọn thực thể tên người trong văn bản tiếng Việt với độ chính xác cao, phục vụ cho các ứng dụng xử lý ngôn ngữ tự nhiên. Phạm vi nghiên cứu tập trung vào văn bản tiếng Việt thu thập từ các trang tin tức điện tử trong khoảng thời gian gần đây, với dữ liệu thực nghiệm gồm khoảng 8.000 trang cho tập huấn luyện và 1.000 trang cho tập kiểm thử. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác trích chọn tên người, góp phần nâng cao chất lượng các hệ thống tìm kiếm và xử lý thông tin, đồng thời làm nền tảng cho các nghiên cứu phát triển tiếp theo trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Trích chọn thông tin (Information Extraction - IE): Là quá trình tự động trích xuất các thông tin có cấu trúc từ văn bản không có cấu trúc, tập trung vào nhận dạng các thực thể và mối quan hệ giữa chúng.
Mô hình học máy Conditional Random Fields (CRF): Mô hình xác suất điều kiện được sử dụng để phân lớp chuỗi dữ liệu, giúp nhận dạng thực thể tên người trong văn bản tiếng Việt với khả năng xử lý các đặc trưng ngữ cảnh hiệu quả.
Công cụ tách từ vnTokenizer: Công cụ tách từ tiếng Việt dựa trên phương pháp so khớp tối đa, giúp phân tách câu thành các đơn vị từ vựng chính xác với độ chính xác khoảng 94%.
Khái niệm thực thể tên người (Person Named Entity - PNE): Tên người trong tiếng Việt thường gồm 3-4 âm tiết, chữ cái đầu mỗi âm tiết viết hoa, bao gồm họ, tên đệm và tên chính.
Hệ thống luật trích chọn dựa trên đặc điểm cú pháp và ngữ cảnh: Sử dụng các luật dựa trên tiền tố (prefix) như ông, bà, kỹ sư, cùng với từ điển họ để tăng độ chính xác trong trích chọn.

Phương pháp nghiên cứu

Nguồn dữ liệu: Văn bản tiếng Việt thu thập từ trang tin tức điện tử vnexpress.net, gồm 8.000 trang cho tập huấn luyện và 1.000 trang cho tập kiểm thử.
Phương pháp phân tích:
- Tiền xử lý dữ liệu bao gồm loại bỏ thẻ HTML, tách câu và tách từ bằng công cụ vnTokenizer 4.1.
- Áp dụng thuật toán trích chọn bán giám sát dựa trên luật và từ điển họ để tạo danh sách tên người và prefix.
- Sử dụng mô hình CRF và công cụ CRF++ để huấn luyện và kiểm thử mô hình nhận dạng thực thể tên người.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu: 3 tháng.
- Xây dựng hệ thống trích chọn tự động và tạo dữ liệu gán nhãn: 4 tháng.
- Huấn luyện và kiểm thử mô hình CRF: 3 tháng.
- Đánh giá kết quả và hoàn thiện luận văn: 2 tháng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hệ thống tự động trích chọn tên người đạt độ chính xác (precision) khoảng 97%, độ hồi tưởng (recall) gần 88%, và F-measure đạt gần 92% khi sử dụng 200 file thử nghiệm.
Khi tăng số lượng file thử nghiệm lên 8.000, F-measure tăng lên trên 92%, cho thấy chất lượng dữ liệu prefix và danh sách tên người được cải thiện giúp nâng cao hiệu quả trích chọn.
Mô hình CRF được huấn luyện trên dữ liệu gán nhãn tự động đạt độ chính xác trên 99%, độ hồi tưởng trên 98%, và F-measure gần 99% với 8.000 file training.
Việc bổ sung các đặc trưng như chữ cái đầu viết hoa, từ điển họ và danh sách prefix giúp tăng đáng kể độ chính xác của mô hình CRF.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy phương pháp kết hợp giữa luật dựa trên đặc điểm ngôn ngữ tiếng Việt và mô hình học máy CRF là hiệu quả trong việc trích chọn thực thể tên người. Độ chính xác cao của hệ thống tự động trích chọn phản ánh sự phù hợp của các luật và từ điển họ trong việc nhận dạng tên người. Việc sử dụng CRF++ với các đặc trưng bổ sung giúp mô hình học sâu hơn các mối quan hệ ngữ cảnh, giảm thiểu các trường hợp nhầm lẫn với tên địa điểm hoặc tổ chức. So với các nghiên cứu trước đây, kết quả này vượt trội hơn nhờ vào việc áp dụng mô hình học giám sát nhẹ và dữ liệu huấn luyện lớn. Dữ liệu có thể được trình bày qua biểu đồ đường thể hiện sự tăng trưởng F-measure theo số lượng file training, hoặc bảng so sánh các chỉ số precision, recall, F-measure giữa các phương pháp.

Đề xuất và khuyến nghị

Mở rộng dữ liệu huấn luyện: Thu thập thêm dữ liệu đa dạng từ nhiều nguồn khác nhau để tăng tính tổng quát và độ chính xác của mô hình, hướng tới F-measure trên 95% trong vòng 12 tháng, do nhóm nghiên cứu và các tổ chức dữ liệu thực hiện.
Phát triển module trích chọn thông tin bổ sung: Tích hợp trích chọn các đặc trưng liên quan như chức vụ, quê quán để nâng cao giá trị ứng dụng, hoàn thành trong 18 tháng, do nhóm phát triển phần mềm và chuyên gia ngôn ngữ thực hiện.
Cải tiến thuật toán xử lý nhập nhằng: Nghiên cứu và áp dụng các kỹ thuật học sâu hoặc mô hình ngôn ngữ tiên tiến để giải quyết các trường hợp nhập nhằng tên người với tên địa điểm hoặc tổ chức, mục tiêu giảm thiểu sai sót dưới 5% trong 24 tháng.
Xây dựng hệ thống hỏi đáp và tóm tắt tự động: Áp dụng kết quả trích chọn thực thể vào các hệ thống ứng dụng thực tế như hỏi đáp tự động và tóm tắt văn bản, triển khai thử nghiệm trong 12 tháng tới.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo, hội thảo để phổ biến công nghệ trích chọn thực thể tên người cho các đơn vị nghiên cứu và doanh nghiệp, thực hiện liên tục hàng năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Xử lý Ngôn ngữ Tự nhiên: Nắm bắt phương pháp và mô hình trích chọn thực thể tên người, áp dụng cho các đề tài nghiên cứu và luận văn.
Các công ty phát triển phần mềm tìm kiếm và xử lý dữ liệu: Áp dụng mô hình trích chọn để nâng cao hiệu quả tìm kiếm thông tin và phân tích dữ liệu lớn.
Đơn vị truyền thông và báo chí điện tử: Tự động trích xuất tên người trong các bài viết để xây dựng cơ sở dữ liệu, hỗ trợ quản lý nội dung và phân tích thông tin.
Các tổ chức phát triển hệ thống hỏi đáp và dịch tự động: Sử dụng kết quả trích chọn thực thể để cải thiện chất lượng dịch thuật và trả lời tự động các câu hỏi liên quan đến tên người.

Câu hỏi thường gặp

Trích chọn thực thể tên người là gì?
Là quá trình tự động nhận dạng và trích xuất các tên người xuất hiện trong văn bản tiếng Việt, giúp hệ thống hiểu và xử lý thông tin chính xác hơn.
Tại sao cần sử dụng mô hình CRF trong bài toán này?
CRF cho phép mô hình hóa mối quan hệ ngữ cảnh giữa các từ trong câu, giúp phân loại chính xác các thực thể tên người, vượt trội hơn các mô hình Markov truyền thống.
Công cụ vnTokenizer có vai trò gì trong nghiên cứu?
vnTokenizer thực hiện tách từ chính xác trong tiếng Việt, là bước tiền xử lý quan trọng để chuẩn bị dữ liệu cho quá trình trích chọn thực thể.
Độ chính xác của hệ thống trích chọn đạt được là bao nhiêu?
Hệ thống tự động trích chọn đạt độ đo F-measure khoảng 92%, trong khi mô hình CRF huấn luyện trên dữ liệu này đạt gần 99%.
Các ứng dụng thực tế của kết quả nghiên cứu là gì?
Kết quả có thể ứng dụng trong tìm kiếm thông tin, dịch tự động, hệ thống hỏi đáp, tóm tắt văn bản và xây dựng web ngữ nghĩa, giúp nâng cao hiệu quả xử lý ngôn ngữ tự nhiên tiếng Việt.

Kết luận

Đã xây dựng thành công mô hình tự động trích chọn thực thể tên người trong văn bản tiếng Việt với độ chính xác cao, F-measure trên 92%.
Áp dụng mô hình học máy CRF kết hợp các đặc trưng ngôn ngữ đặc thù giúp nâng cao hiệu quả nhận dạng thực thể.
Hệ thống tiền xử lý dữ liệu bằng công cụ vnTokenizer đạt độ chính xác tách từ khoảng 94%, đảm bảo chất lượng dữ liệu đầu vào.
Kết quả thực nghiệm trên tập dữ liệu lớn (8.000 trang huấn luyện, 1.000 trang kiểm thử) chứng minh tính khả thi và ứng dụng thực tế của mô hình.
Định hướng phát triển mở rộng trích chọn các đặc trưng liên quan và cải tiến thuật toán để nâng cao độ chính xác, đồng thời ứng dụng trong các hệ thống xử lý ngôn ngữ tự nhiên đa dạng.

Khuyến nghị các nhà nghiên cứu và doanh nghiệp trong lĩnh vực công nghệ thông tin tiếp tục khai thác và phát triển mô hình này để nâng cao hiệu quả xử lý dữ liệu tiếng Việt, góp phần thúc đẩy sự phát triển của ngành công nghệ ngôn ngữ tại Việt Nam.

Bài viết "Luận văn thạc sĩ về trích xuất thực thể tên người trong văn bản tiếng Việt" của tác giả Đào Minh Quyên, dưới sự hướng dẫn của TS. Nguyễn Trí Thành tại Đại học Quốc gia Hà Nội, tập trung vào việc phát triển các phương pháp trích xuất tên người từ văn bản tiếng Việt. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ xử lý ngôn ngữ tự nhiên mà còn mở ra hướng đi mới cho việc ứng dụng trong các lĩnh vực như tìm kiếm thông tin, phân tích dữ liệu và phát triển hệ thống thông minh. Độc giả sẽ tìm thấy nhiều lợi ích từ việc hiểu rõ hơn về cách thức trích xuất thông tin, từ đó có thể áp dụng vào các dự án nghiên cứu hoặc phát triển phần mềm.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và ứng dụng trong giáo dục, hãy tham khảo thêm bài viết Các yếu tố ảnh hưởng đến quyết định chọn nơi làm việc của sinh viên công nghệ thông tin tại Đà Nẵng, nơi phân tích các yếu tố tác động đến sự lựa chọn nghề nghiệp của sinh viên trong lĩnh vực công nghệ thông tin. Bên cạnh đó, bài viết Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt cũng sẽ giúp bạn hiểu thêm về các kỹ thuật xử lý văn bản và ứng dụng của chúng trong giáo dục. Cuối cùng, bài viết Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ sẽ cung cấp cái nhìn về việc ứng dụng công nghệ thông tin trong giáo dục, một lĩnh vực đang ngày càng phát triển mạnh mẽ.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#văn bản tiếng Việt

#phân tích văn bản

#trích xuất thực thể

#nhận diện thực thể

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Khoa học Dữ liệu

Trí tuệ nhân tạo

Nghiên cứu và ứng dụng trong ngôn ngữ

Luận văn thạc sĩ về trích xuất thực thể tên người trong văn bản tiếng Việt

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Trích chọn thông tin là gì?

1.2. Bài toán trích chọn thực thể tên người trong Tiếng Việt

2. CHƯƠNG 2: HỆ THỐNG TRÍCH CHỌN THÔNG TIN

2.1. Các cách tiếp cận trích chọn thông tin

2.1.1. Hướng tiếp cận thủ công

2.1.2. Hướng tiếp cận xây dựng các mô hình học máy

2.2. Một số nghiên cứu liên quan

2.2.1. Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer

2.2.2. Mô hình học máy CRF và bộ công cụ cài đặt CRF++ toolkit

3. CHƯƠNG 3: GIẢI QUYẾT BÀI TOÁN

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI

TÀI LIỆU THAM KHẢO

PHỤ LỤC: TỪ ĐIỂN HỌ TRONG TIẾNG VIỆT

I. Giới thiệu

1.1. Trích chọn thông tin là gì

1.2. Bài toán trích chọn thực thể tên người trong Tiếng Việt

II. Hệ thống trích chọn thông tin

2.1. Các cách tiếp cận trích chọn thông tin

2.2. Mô hình học máy CRF và bộ công cụ cài đặt CRF toolkit

III. Kết quả thực nghiệm và đánh giá

3.1. Môi trường thực nghiệm

3.2. Đánh giá kết quả

IV. Kết luận và hướng phát triển tương lai

4.1. Tóm lược nội dung chính

4.2. Định hướng nghiên cứu trong tương lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Đào Minh Quyên

Người hướng dẫn: TS. Nguyễn Trí Thành

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Trích xuất thực thể tên người trong văn bản tiếng Việt

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2011

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận