Luận văn thạc sĩ: Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường

Luận văn thạc sĩ VNU UET nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường, góp phần nâng cao hiệu quả quản lý.

Trường đại học

Đại học quốc gia hà nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn

2012

80
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT

1.1. Khai phá dữ liệu văn bản

1.2. Khái niệm cơ bản trong khai phá văn bản

1.3. Một số khái niệm sử dụng trong luận văn

1.4. Các phương pháp đánh trọng số cho từ khóa

1.5. Một số phương pháp biểu diễn văn bản

1.6. Phương pháp lựa chọn từ trong biểu diễn văn bản

1.7. Độ liên quan giữa các văn bản

1.8. Phân lớp văn bản

1.9. Thuật toán K láng giềng gần nhất (KNN)

1.10. Kết chương

2. CHƯƠNG 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

2.1. Một số đặc điểm tiếng Việt

2.2. Các đặc điểm chính tả văn bản tiếng Việt

2.3. Phương pháp tách từ tiếng Việt

2.4. Phương pháp So khớp tối đa

2.5. Phương pháp Giải thuật học cải biến

2.6. Phương pháp đối sánh thuật ngữ dài nhất

2.7. Một số thông tin chuyên ngành Tài nguyên và môi trường

2.8. Tài nguyên đất

2.9. Tài nguyên nước

2.10. Tài nguyên khoáng sản

2.11. Tài nguyên biển

2.12. Khí tượng thủy văn

2.13. Môi trường

2.14. Đo đạc và bản đồ

2.15. Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về tài nguyên và môi trường

2.16. Mô hình tiếp cận bài toán

2.17. Tiền xử lý văn bản

2.18. Lựa chọn đặc trưng theo chủ đề văn bản

2.19. Xử lý tập mẫu

2.20. Biểu diễn văn bản trong mô hình vector

2.21. Phép tính độ liên quan giữa hai vector

2.22. Phân lớp văn bản tiếng Việt về tài nguyên và môi trường

2.23. Kết chương

3. CHƯƠNG 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN

3.1. Thiết kế tổng thể

3.2. Thiết kế chi tiết

3.3. Sơ đồ khung cảnh mức 0 của hệ thống

3.4. Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý

3.5. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu

3.6. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp

3.7. Chức năng quản lý từ điển, từ dừng

3.8. Chức năng quản lý chủ đề

3.9. Thiết kế cơ sở dữ liệu

3.10. Kết chương

4. CHƯƠNG 4: CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ

4.1. Cài đặt chương trình

4.2. Lựa chọn công nghệ và môi trường cài đặt

4.3. Giao diện chương trình phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường

4.4. Cơ sở dữ liệu

4.5. Kết quả tách từ

4.6. Kết quả phân lớp văn bản

4.7. Kết chương

KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN

DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trích đoạn nội dung tài liệu

1 ®¹i häc quèc gia hµ néi tr-êng ®¹i häc c«ng nghÖ trÇn thÞ lan h-¬ng NGHIÊN CỨU PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG luËn v¨n th¹c sÜ c«ng nghÖ th«ng tin Hµ néi - 2012 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 ®¹i häc quèc gia hµ néi Tr-êng ®¹i häc c«ng nghÖ trÇn thÞ lan h-¬ng NGHIÊN CỨU PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG Ngµnh : C«ng nghÖ th«ng tin Chuyªn ngµnh : HÖ thèng th«ng tin M· sè : 60 48 05 luËn v¨n th¹c sÜ c«ng nghÖ th«ng tin Ng-êi h-íng dÉn khoa häc: PGS.TS §ç Trung TuÊn Hµ néi - 2012 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 MỤC LỤC Trang Mục lục Danh mục các bảng Danh mục các hình MỞ ĐẦU 1 Chương 1: KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT 3 TOÁN K LÁNG GIỀNG GẦN NHẤT 1. Khai phá dữ liệu văn bản 3 1. Khái niệm cơ bản trong khai phá văn bản 3 1. Một số khái niệm sử dụng trong luận văn 3 1. Các phương pháp đánh trọng số cho từ khóa 4 1. Một số phương pháp biểu diễn văn bản 5 1. Mô hình Boolean 5 1. Mô hình không gian vector 6 1. Mô hình xác suất 7 1. Mô hình LSI 8 1. Phương pháp lựa chọn từ trong biểu diễn văn bản 8 1. Loại bỏ từ dừng 8 1. Thu gọn đặc trưng biểu diễn 8 1. Độ liên quan giữa các văn bản 13 1. Phân lớp văn bản 14 1. Thuật toán K láng giềng gần nhất (KNN) 17 1. Kết chương 18 Chương 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ 19 TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƢỜNG LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Một số đặc điểm tiếng Việt 19 2. Các đặc điểm chính tả văn bản tiếng Việt 20 2. Phương pháp tách từ tiếng Việt 21 2. Phương pháp So khớp tối đa 21 2. Phương pháp Giải thuật học cải biến 22 2. Phương pháp đối sánh thuật ngữ dài nhất 23 2. Một số thông tin chuyên ngành Tài nguyên và môi trường 23 2. Tài nguyên đất 24 2. Tài nguyên nước 24 2. Tài nguyên khoáng sản 26 2. Tài nguyên biển 27 2. Khí tượng thủy văn 28 2. Môi trường 29 2. Đo đạc và bản đồ 29 2. Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về 31 tài nguyên và môi trường 2. Mô hình tiếp cận bài toán 31 2. Tiền xử lý văn bản 31 2. Lựa chọn đặc trưng theo chủ đề văn bản 34 2. Xử lý tập mẫu 34 2. Biểu diễn văn bản trong mô hình vector 35 2. Phép tính độ liên quan giữa hai vector 36 2. Phân lớp văn bản tiếng việt về tài nguyên và môi trường 36 2. Kết chương 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Chương 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN 37 3. Thiết kế tổng thể 37 3. Thiết kế chi tiết 38 3. Sơ đồ khung cảnh mức 0 của hệ thống 39 3. Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý 41 3. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu 42 3. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp 43 3. Chức năng quản lý từ điển, từ dừng 44 3. Chức năng quản lý chủ đề 44 3. Thiết kế cơ sở dữ liệu 45 3. Kết chương 45 Chương 4: CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ 46 4. Cài đặt chương trình 46 4. Lựa chọn công nghệ và môi trường cài đặt 46 4. Giao diện chương trình phân lớp văn bản báo chí tiếng Việt 46 về tài nguyên và môi trường 4. Cơ sở dữ liệu 50 4. Kết quả tách từ 51 4. Kết quả phân lớp văn bản 53 4. Kết chương 58 KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN 59 DANH MỤC TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 DANH MỤC CÁC BẢNG Trang Bảng 1. Các đại lượng TPc, TNc, FNc, FPc 16 Bảng 3. Bảng thiết kế cơ sở dữ liệu 34 Bảng 4. Thông tin mô tả một số thông số của tập dữ liệu huấn luyện 50 Bảng 4. Trích kết quả kiểm thử phân lớp văn bản báo chí tiếng 54 Việt về tài nguyên môi trường LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 DANH MỤC CÁC HÌNH Trang Hình 1. Biểu diễn văn bản v1 và v2 trong không gian véc tơ ba 6 chiều T1, T2, T3, trong đó Ti là các từ khóa Hình 1. Biểu diễn văn bản theo túi - các - từ 7 Hình 1. Lược đồ thống kê tần số của từ theo định luật Zipf 10 Hình 1. Thuật toán lựa chọn đặc trưng cơ bản cho việc lựa chọn 11 k đặc trưng tốt nhất Hình 1. Mô tả bài toán phân lớp 14 Hình 1. Lược đồ chung quá trình xây dựng bộ phân lớp văn bản 15 Hình 2. Khai thác khoáng sản ở Thái Nguyên 26 Hình 2. Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở 27 Hình 2. Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng 32 Việt về tài nguyên và môi trường Hình 2. Sơ đồ thuật toán tách từ 33 Hình 2. Mô hình xử lý tập mẫu 35 Hình 3. Sơ đồ phân rã chức năng chính của hệ thống phân lớp 37 văn bản Hình 3. Sơ đồ phân rã chức năng mức chi tiết của hệ thống phân 38 lớp văn bản Hình 3. Sơ đồ khung cảnh mức 0 39 Hình 3. Sơ đồ khung cảnh mức 1 chức năng tiền xử lý 41 Hình 3. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu 42 Hình 3. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản 43 phân lớp Hình 3. Quản lý từ điển từ dừng 44 Hình 3. Quản lý từ điển từ dừng 44 Hình 3. Quản lý chủ đề 44 Hình 4. Kết quả sau khi lọc nhiễu và tách từ dựa vào từ điển 52 Hình 4. Kết quả tách từ được thống kê theo tần số xuất hiện và 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 loại bỏ từ dừng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 MỞ ĐẦU Phân lớp văn bản là bài toán cơ bản trong khai phá dữ liệu văn bản. Bài toán phân lớp văn bản là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước, vào các văn bản dựa trên nội dung của chúng. Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin, chiết lọc thông tin, lọc văn bản hoặc tự động dẫn đường cho các văn bản tới những chủ đề xác định trước. Phân lớp văn bản có thể thực hiện thủ công hoặc tự động sử dụng các kỹ thuật học máy có giám sát. Các hệ thống phân lớp có thể ứng dụng trong việc phân loại tài liệu của các thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,… những hệ thống tốt, cho ra kết quả khả quan, giúp ích nhiều cho con người. Đề tài "Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường", học viên vận dụng những kiến thức về kỹ thuật khai phá văn bản, kỹ thuật phân lớp văn bản nói riêng, và kiến thức về công nghệ thông tin nói chung, xây dựng bộ phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường. Mong muốn ứng dụng hệ thống phân lớp này vào phục vụ nghiên cứu khoa học và công tác quản lý, phân loại các tài liệu văn bản các thông tin chuyên ngành về tài nguyên môi trường, bởi tài nguyên và môi trường hiện nay đang là vấn đề nóng bỏng không những Việt Nam mà cả thế giới đang rất quan tâm. Nội dung và phạm vi đề tài: Trình bày khái niệm khai phá dữ liệu, khai phá văn bản, một số kỹ thuật khai phá văn bản và phân lớp văn bản. Nghiên cứu một số đặc điểm đặc trưng của ngôn ngữ tiếng Việt, phương pháp tách từ tiếng Việt và loại bỏ từ dừng. Nghiên cứu các chủ đề về thông tin chuyên ngành tài nguyên và môi trường. Nghiên cứu, sử dụng thuật toán K- NN xây dựng bộ phân lớp văn bản báo chí tiếng việt về tài nguyên và môi trường vào các chủ đề chuyên ngành. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Đầu vào của bộ phân lớp là văn bản báo chí tiếng Việt về tài nguyên và môi trường ở dạng tệp tin.txt, phông chữ Unicode. Đầu ra là kết quả phân lớp văn bản báo chí tiếng Việt vào một trong các chủ đề thông tin chuyên ngành: Tài nguyên đất; tài nguyên nước; tài nguyên khoáng sản; tài nguyên biển; khí tượng thuỷ văn; môi trường; đo đạc và bản đồ. Bố cục của luận văn bao gồm: Chương 1: Khái quát về phân lớp văn bản và thuật toán KNN. Chương này trình bày khái quát về khai phá văn bản, Phân lớp văn bản, thuật toán KNN Chương 2: Bài toán phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường. Chương này trình bày đặc điểm cơ bản của tiếng Việt, kỹ thuật tách từ văn bản tiếng Việt, tìm hiểu thông tin chuyên ngành tài nguyên và môi trường, nêu và mô tả bài toán ứng dụng, … Chương 3: Thiết kế xây dựng hệ thống phân lớp văn bản tiếng Việt về tài nguyên môi trường: Trình bày thiết kế xây dựng hệ thống Chương 4: Cài đặt mô hình và kiểm thử kết quả: Trình bày một số giao diện chương trình, kết quả kiểm thử. Kết luận và định hướng phát triển. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Chương 1 KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT 1. KHAI PHÁ DỮ LIỆU VĂN BẢN Khai phá dữ liệu văn bản là quá trình trích chọn ra các tri thức mới, có giá trị và tác động được, đang tiềm ẩn trong các văn bản, để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người. Dữ liệu văn bản thường được chia thành hai loại [5]: 1. Dạng phi cấu trúc: là dạng văn bản chúng ta sử dụng hằng ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và không có một cấu trúc định dạng cụ thể nào. Ví dụ: các văn bản lưu dưới dạng tệp tin . Dạng bán cấu trúc: là các loại văn bản không được lưu trữ dưới dạng các bản ghi chặt chẽ mà được tổ chức qua các thẻ đánh dấu để thể hiện nội dung chính của văn bản.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ