Luận Văn Thạc Sĩ Về Xử Lý Trùng Lặp, Phân Loại Và Xác Định Từ Khóa Trong Hệ Thống Tin Tức Tự Động

Luận văn thạc sĩ VNU UET nghiên cứu xử lý trùng lặp, phân loại và xác định từ khóa quan trọng trong hệ thống thu thập tin tức tự động.

2016

59
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan về hệ thống thu thập tin tức tự động

1.1.1. Tổng quan về Crawler

1.1.2. Hệ thống thu thập tin tức tự động

1.2. Các bài toán trong khuôn khổ đề tài

1.2.1. Bài toán xử lý trùng lặp tin tức

1.2.2. Bài toán phân loại tin tức

1.2.3. Bài toán xác định từ khóa quan trọng và chọn tóm tắt

1.3. Ý nghĩa của các bài toán được giải quyết trong đề tài

1.3.1. Ý nghĩa khoa học

1.3.2. Ý nghĩa thực tiễn

2. MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.1. Các phương pháp tiếp cận bài toán trùng lặp tin tức

2.1.1. Bag of Words

2.2. Các phương pháp tiếp cận bài toán phân loại tin tức

2.2.1. Tiếp cận dựa trên phương pháp cây quyết định

2.2.2. Phân loại dữ liệu Naïve Bayes

2.2.3. Tiếp cận theo phương pháp SVM

2.3. Tiếp cận bài toán xác định từ khóa quan trọng và chọn câu tóm tắt

2.3.1. Phương pháp TF-IDF

2.3.2. Phương pháp Edmundson

3. ĐỀ XUẤT GIẢI PHÁP GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ

3.1. Hệ thu thập tin tức tự động mở rộng

3.2. Giải quyết bài toán trùng lặp tin tức

3.2.1. Yêu cầu thực tế bài toán xử lý trùng lặp tin tức

3.2.2. Mô hình giải pháp thực tế

3.3. Giải quyết bài toán phân loại tin tức

3.3.1. Yêu cầu bài toán thực tế

3.3.2. Mô hình giải pháp thực tế

3.4. Giải quyết bài toán xác định từ khóa quan trọng và chọn câu tóm tắt

3.4.1. Yêu cầu bài toán thực tế

3.4.2. Mô hình giải pháp thực tế

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

4.1. Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm

4.2. Quá trình thu thập dữ liệu tin tức và tiền xử lý

4.2.1. Thu thập dữ liệu tin tức

4.2.2. Tiền xử lý dữ liệu

4.3. Đánh giá phát hiện trùng lặp tin tức

4.3.1. Phương pháp đánh giá

4.3.2. Kết quả đánh giá

4.4. Đánh giá bộ phân loại tin tức

4.4.1. Phương pháp đánh giá

4.4.2. Kết quả đánh giá

4.5. Đánh giá kết quả xác định từ khóa quan trọng và chọn câu tóm tắt

4.5.1. Phương pháp đánh giá

4.5.2. Kết quả đánh giá

5. TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI

5.1. Kết quả đạt được

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

DANH MỤC CÁC HÌNH

DANH MỤC CÁC BẢNG

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CẤN MẠNH CƯỜNG XỬ LÝ TRÙNG LẶP, PHÂN LOẠI, XÁC ĐỊNH TỪ KHÓA QUAN TRỌNG VÀ SINH TÓM TẮT CHO VĂN BẢN TRONG MỘT HỆ THỐNG THU THẬP TIN TỨC TỰ ĐỘNG Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. NGUYỄN TRÍ THÀNH Hà Nội – 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com i LỜI CẢM ƠN Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, PGS. Nguyễn Trí Thành đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin gửi lời cảm ơn tới các thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – những người đã tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời gian tôi học tập và nghiên cứu tại trường. Tôi xin gửi lời cảm ơn tới các anh chị, các bạn học viên cùng học tập nghiên cứu tại Trường Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình học tập cũng như thực hiện luận văn. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh, quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này. Tôi xin chân thành cảm ơn! Hà Nội, tháng 05 năm 2016 Học viên Cấn Mạnh Cường LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS. Nguyễn Trí Thành. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Hà Nội, tháng 5 năm 2016 Tác giả luận văn Cấn Mạnh Cường LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 MỤC LỤC LỜI CẢM ƠN .1 LỜI CAM ĐOAN . ii MỤC LỤC .1 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH .5 DANH MỤC CÁC BẢNG . GIỚI THIỆU ĐỀ TÀI . Tổng quan về hệ thống thu thập tin tức tự động . Tổng quan về Crawler . Hệ thống thu thập tin tức tự động . Các bài toán trong khuôn khổ đề tài . Bài toán xử lý trùng lặp tin tức . Bài toán phân loại tin tức. Bài toán xác định từ khóa quan trọng và chọn tóm tắt. Ý nghĩa của các bài toán được giải quyết trong đề tài . Ý nghĩa khoa học . Ý nghĩa thực tiễn . MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN . Các phương pháp tiếp cận bài toán trùng lặp tin tức . Bag of Words .21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Các phương pháp tiếp cận bài toán phân loại tin tức . Tiếp cận dựa trên phương pháp cây quyết định . Phân loại dữ liệu Naïve Bayes. Tiếp cận theo phương pháp SVM. Tiếp cận bài toán xác định từ khóa quan trọng và chọn câu tóm tắt . Phương pháp TF-IDF . Phương pháp Edmundson . ĐỀ XUẤT GIẢI PHÁP GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ . Hệ thu thập tin tức tự động mở rộng . Giải quyết bài toán trùng lặp tin tức . Yêu cầu thực tế bài toán xử lý trùng lặp tin tức . Mô hình giải pháp thực tế . Giải quyết bài toán phân loại tin tức . Yêu cầu bài toán thực tế . Mô hình giải pháp thực tế . Giải quyết bài toán xác định từ khóa quan trọng và chọn câu tóm tắt . Yêu cầu bài toán thực tế . Mô hình giải pháp thực tế . THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ . Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm. Quá trình thu thập dữ liệu tin tức và tiền xử lý . Thu thập dữ liệu tin tức . Tiền xử lý dữ liệu . Đánh giá phát hiện trùng lặp tin tức . Phương pháp đánh giá. Kết quả đánh giá.46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Đánh giá bộ phân loại tin tức . Phương pháp đánh giá. Kết quả đánh giá. Đánh giá kết quả xác định từ khóa quan trọng và chọn câu tóm tắt . Phương pháp đánh giá. Kết quả đánh giá.51 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI.52 Kết quả đạt được .52 Hướng phát triển .53 TÀI LIỆU THAM KHẢO .55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Số thứ tự Ký hiệu, viết tắt Chú giải 1 Crawler Trình thu thập nội dung trang web 2 WebBrowser Trình duyệt web 3 HTTP Giao thức truyền tải siêu văn bản 4 URL Địa chỉ liên kết của trang web 5 Seed URL Tập hợp các URL hạt nhân xuất phát của Crawler 6 Frontier Kho chứa các URL chưa được thăm 7 Finger print Dấu vân, đại diện cho tài liệu độc lập 8 Front End Phần xử lý giao diện tương tác với người dùng 9 ID Định danh của 1 tài liệu 10 IP Giao thức kết nối Internet 11 Hashing Băm tài liệu 12 Search Engine Máy tìm kiếm 13 SEO Tối ưu hóa trang web hỗ trợ máy tìm kiếm 14 TF Tần số từ 15 IDF Tần số tài liệu đảo ngược 16 HTML Ngôn ngữ đánh dấu siêu văn bản 17 CSS Ngôn ngữ định dạng các phần tử HTML 18 SVM Thuật toán máy véc-tơ hỗ trợ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 DANH MỤC CÁC HÌNH Hình 1. Kiến trúc các thành phần cơ bản của Web Crawler . Biểu đồ trạng thái của Web Crawler . Mô hình tổng quan hệ tổng hợp tin tự động cơ bản . Mô phỏng BagofWords .2 Ví dụ về hashing . Mô phỏng minhash . Ví dụ về minhash . Mô phỏng việc lấy simhash . Mô phỏng việc tính trùng lặp bằng simhash . Mô phỏng việc chia simhash theo bucket(khối) . Ví dụ hoán vị các khối với simhash . H2 là mặt phẳng tốt nhất. Các điểm dữ liệu được biểu diễn trên R+. Các vector hỗ trợ (support vector) được chọn.13: Siêu phẳng được biểu diễn trên R+. Mô hình tổng quan hệ tổng hợp tin tự động . Mô hình dịch vụ xử lý phục vụ người dùng thông qua API . Minh họa thực tế ứng dụng bài toán xử lý trùng lặp . Minh họa thực tế triển khai bài toán xử lý trùng lặp . Minh họa thực tế ứng dụng bài toán phân loại tin tức. Mô hình triển khai thực tế triển khai bài toán phân loại tin tức . Minh họa thực tế ứng dụng xác định từ khóa quan trọng . Minh họa thực tế ứng dụng chọn câu tóm tắt . Mô hình thực tế bài toán xác định từ khóa quan trọng . So sánh tốc độ simhash và shingling .47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 DANH MỤC CÁC BẢNG Bảng 0.1 Thống kê số lượng tin tức báo mới 3 tháng đầu 2016 .1 Cấu hình phần cứng thực nghiệm .2 Các công cụ phần mềm được sử dụng .3 Thống kê thời gian chạy với simhash và shingling.4 Kết quả phân loại khi chưa được cải tiến .5 Kết quả phân loại khi được cải tiến .6 Thống kê tỉ lệ tag và tóm tắt đạt yêu cầu .50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 MỞ ĐẦU Báo điện tử đã không còn là khái niệm xa lạ với mỗi chúng ta, nó đang dần thay thế các hình thức phát hành báo, tạp chí truyền thống bởi các đặc điểm ưu việt như: tính thời sự - khả năng cập nhật trực tiếp, khả năng truyền tải đa phương tiện, khả năng lưu trữ và tìm kiếm thông tin, khả năng tương tác với người dùng cao, báo điện tử đã khắc phục những hạn chế của các loại hình báo chí truyền thống để trở thành loại hình báo chí ưu việt trong thời điểm hiện nay. Tính đến ngày 25/12/2014, cả nước có 838 cơ quan báo chí in với 1.111 ấn phẩm báo chí (trong đó các cơ quan Trung ương có 86 báo in và 507 tạp chí; địa phương có 113 báo in và 132 tạp chí); 90 báo và tạp chí điện tử, 215 trang tin điện tử tổng hợp của các cơ quan báo chí. Số báo và tạp chí điện tử đã tăng gấp gần 1.5 lần so với con số 62 báo điện tử vào năm 2012 [1]. Cũng theo thống kê của một trang tổng hợp thông tin điện tử lớn là Baomoi.com1 trong 3 tháng từ tháng 12/2015 đến tháng 2/2016, về số lượng tin bài trên báo, tạp chí điện tử, trang thông tin điện tử thì: Bảng 0.1 Thống kê số lượng tin tức báo mới 3 tháng đầu 2016 Tổng số tin 583.827 Tổng số tin đăng lại 137.823 Tổng số tin gốc bị đăng lại 123.805 Tổng số tin gốc không bị đăng lại 446.004 Với lượng thông tin khổng lồ từ hơn 300 trang báo và tin điện tử như hiện nay thì việc tổng hợp chọn lọc một cách thủ công để mang lại nguồn thông tin hữu ích dường như là một điều không thể, việc thu thập thông tin tự động để xây dựng một hệ thống đọc tin tự động thông minh bằng máy tính không còn là chủ đề mới, xong việc cải tiến, ứng dụng các công nghệ mới vào hệ thống để hệ thống vận hành tốt trong bối cảnh dữ liệu lớn dần là cả một bài toán không hề đơn giản. Để xây dựng được một hệ thống như vậy ta có nhiều bước cần phải sử dụng các giải thuật xử lý văn bản được nghiên cứu nhiều trong khai phá dữ liệu văn bản, dữ liệu web như: Thu thập nội dung tin tức, xử lý trùng lặp tin tức, phân loại bản tin theo danh mục, xác định từ khóa quan trọng của nội dung tin tức và sinh tóm tắt cho bản tin, kiểm lỗi chính tả tin tức, phát hiện chủ đề nóng, chủ đề nhạy cảm, xu hướng đọc tin trong thời 1 http://www.com/Statistics/Report.aspx LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ