Luận văn thạc sĩ: Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường

Luận văn thạc sĩ VNU UET nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường, góp phần nâng cao hiệu quả quản lý.

Trường đại học

Đại học quốc gia hà nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn

2012

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT

1.1. Khai phá dữ liệu văn bản

1.2. Khái niệm cơ bản trong khai phá văn bản

1.3. Một số khái niệm sử dụng trong luận văn

1.4. Các phương pháp đánh trọng số cho từ khóa

1.5. Một số phương pháp biểu diễn văn bản

1.6. Phương pháp lựa chọn từ trong biểu diễn văn bản

1.7. Độ liên quan giữa các văn bản

1.8. Phân lớp văn bản

1.9. Thuật toán K láng giềng gần nhất (KNN)

1.10. Kết chương

2. CHƯƠNG 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

2.1. Một số đặc điểm tiếng Việt

2.2. Các đặc điểm chính tả văn bản tiếng Việt

2.3. Phương pháp tách từ tiếng Việt

2.4. Phương pháp So khớp tối đa

2.5. Phương pháp Giải thuật học cải biến

2.6. Phương pháp đối sánh thuật ngữ dài nhất

2.7. Một số thông tin chuyên ngành Tài nguyên và môi trường

2.8. Tài nguyên đất

2.9. Tài nguyên nước

2.10. Tài nguyên khoáng sản

2.11. Tài nguyên biển

2.12. Khí tượng thủy văn

2.13. Môi trường

2.14. Đo đạc và bản đồ

2.15. Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về tài nguyên và môi trường

2.16. Mô hình tiếp cận bài toán

2.17. Tiền xử lý văn bản

2.18. Lựa chọn đặc trưng theo chủ đề văn bản

2.19. Xử lý tập mẫu

2.20. Biểu diễn văn bản trong mô hình vector

2.21. Phép tính độ liên quan giữa hai vector

2.22. Phân lớp văn bản tiếng Việt về tài nguyên và môi trường

2.23. Kết chương

3. CHƯƠNG 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN

3.1. Thiết kế tổng thể

3.2. Thiết kế chi tiết

3.3. Sơ đồ khung cảnh mức 0 của hệ thống

3.4. Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý

3.5. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu

3.6. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp

3.7. Chức năng quản lý từ điển, từ dừng

3.8. Chức năng quản lý chủ đề

3.9. Thiết kế cơ sở dữ liệu

3.10. Kết chương

4. CHƯƠNG 4: CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ

4.1. Cài đặt chương trình

4.2. Lựa chọn công nghệ và môi trường cài đặt

4.3. Giao diện chương trình phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường

4.4. Cơ sở dữ liệu

4.5. Kết quả tách từ

4.6. Kết quả phân lớp văn bản

4.7. Kết chương

KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN

DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng quan về nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt

Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường là một lĩnh vực quan trọng trong khai phá dữ liệu. Phân lớp văn bản giúp tổ chức và phân loại thông tin, từ đó hỗ trợ việc tìm kiếm và xử lý thông tin hiệu quả hơn. Đặc biệt, trong bối cảnh tài nguyên và môi trường đang trở thành vấn đề nóng bỏng, việc áp dụng công nghệ vào phân lớp văn bản là cần thiết.

1.1. Khái niệm phân lớp văn bản và tầm quan trọng

Phân lớp văn bản là quá trình gán nhãn cho các văn bản dựa trên nội dung của chúng. Điều này giúp người dùng dễ dàng tìm kiếm và truy cập thông tin cần thiết, đặc biệt trong lĩnh vực tài nguyên và môi trường.

1.2. Lợi ích của việc phân lớp tự động văn bản báo chí

Việc phân lớp tự động giúp tiết kiệm thời gian và công sức trong việc phân loại tài liệu. Hệ thống có thể tự động nhận diện và phân loại các văn bản theo các chủ đề như tài nguyên đất, nước, khoáng sản, và môi trường.

II. Thách thức trong nghiên cứu phân lớp văn bản báo chí tiếng Việt

Mặc dù có nhiều lợi ích, nhưng việc phân lớp tự động văn bản báo chí tiếng Việt cũng gặp phải nhiều thách thức. Đặc điểm ngôn ngữ, cấu trúc văn bản và sự đa dạng của các chủ đề là những yếu tố cần được xem xét kỹ lưỡng.

2.1. Đặc điểm ngôn ngữ tiếng Việt và ảnh hưởng đến phân lớp

Tiếng Việt có nhiều đặc điểm riêng biệt như từ láy, từ ghép, và ngữ pháp phức tạp. Những yếu tố này có thể gây khó khăn trong việc tách từ và phân loại văn bản.

2.2. Sự đa dạng của chủ đề trong báo chí về tài nguyên và môi trường

Báo chí về tài nguyên và môi trường thường đề cập đến nhiều chủ đề khác nhau, từ tài nguyên thiên nhiên đến các vấn đề môi trường. Điều này đòi hỏi hệ thống phân lớp phải linh hoạt và chính xác.

III. Phương pháp phân lớp tự động văn bản báo chí tiếng Việt

Để thực hiện phân lớp tự động, nhiều phương pháp khác nhau đã được áp dụng. Các phương pháp này bao gồm khai thác dữ liệu, xử lý ngôn ngữ tự nhiên và các thuật toán học máy.

3.1. Khai thác dữ liệu và xử lý ngôn ngữ tự nhiên

Khai thác dữ liệu văn bản là bước đầu tiên trong quá trình phân lớp. Việc xử lý ngôn ngữ tự nhiên giúp tách từ và loại bỏ từ dừng, từ đó cải thiện độ chính xác của mô hình.

3.2. Ứng dụng thuật toán K Nearest Neighbors KNN

Thuật toán KNN là một trong những phương pháp phổ biến trong phân lớp văn bản. Nó dựa trên nguyên tắc tìm kiếm các văn bản tương tự trong không gian đặc trưng để gán nhãn cho văn bản mới.

IV. Ứng dụng thực tiễn của phân lớp văn bản báo chí về tài nguyên và môi trường

Phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường có nhiều ứng dụng thực tiễn. Hệ thống phân lớp có thể hỗ trợ trong việc quản lý tài liệu, tìm kiếm thông tin và phục vụ nghiên cứu khoa học.

4.1. Hỗ trợ quản lý tài liệu và thông tin

Hệ thống phân lớp giúp tổ chức và quản lý tài liệu một cách hiệu quả, từ đó người dùng có thể dễ dàng tìm kiếm thông tin cần thiết.

4.2. Nâng cao chất lượng nghiên cứu khoa học

Việc phân loại chính xác các văn bản giúp các nhà nghiên cứu dễ dàng tiếp cận thông tin liên quan đến tài nguyên và môi trường, từ đó nâng cao chất lượng nghiên cứu.

V. Kết luận và định hướng phát triển trong nghiên cứu phân lớp văn bản

Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường là một lĩnh vực đầy tiềm năng. Việc áp dụng công nghệ mới sẽ giúp cải thiện độ chính xác và hiệu quả của hệ thống phân lớp.

5.1. Tương lai của phân lớp văn bản trong nghiên cứu

Với sự phát triển của công nghệ, phân lớp văn bản sẽ ngày càng trở nên chính xác và hiệu quả hơn. Các nghiên cứu tiếp theo có thể tập trung vào việc cải thiện các thuật toán và mô hình.

5.2. Định hướng phát triển công nghệ trong lĩnh vực tài nguyên và môi trường

Công nghệ phân lớp văn bản có thể được áp dụng rộng rãi trong các lĩnh vực khác nhau, từ quản lý tài nguyên đến bảo vệ môi trường, góp phần vào sự phát triển bền vững.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu phân lớp tự động văn bản báo chí tiếng việt về tài nguyên và môi trường

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT 1. KHAI PHÁ DỮ LIỆU VĂN BẢN Khai phá dữ liệu văn bản là quá trình trích chọn ra các tri thức mới, có giá trị và tác động được, đang tiềm ẩn trong các văn bản, để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người. Dữ liệu văn bản thường được chia thành hai loại [5]: 1. Dạng phi cấu trúc: là dạng văn bản chúng ta sử dụng hằng ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và không có một cấu trúc định dạng cụ thể nào.

Ví dụ: các văn bản lưu dưới dạng tệp tin. Dạng bán cấu trúc: là các loại văn bản không được lưu trữ dưới dạng các bản ghi chặt chẽ mà được tổ chức qua các thẻ đánh dấu để thể hiện nội dung chính của văn bản. Ví dụ: dạng tệp tin HTML, email, … Tùy từng mục đích sử dụng cụ thể mà việc xử lý văn bản được thực hiện trên dạng cấu trúc nào. Trong luận văn này, học viên quan tâm xử lý các dữ liệu văn bản ở dạng phi cấu trúc (biểu diễn dưới dạng tệp tin.

KHÁI NIỆM CƠ BẢN TRONG KHAI PHÁ VĂN BẢN 1. Một số khái niệm sử dụng trong luận văn - Từ khóa: là các từ xuất hiện trong một văn bản có nghĩa trong từ điển. - Thuật ngữ: là các từ khóa có nghĩa liên quan đến một số lĩnh vực nào đó. ví dụ: "máy tính", "công nghệ phần mềm", "tính toán song song".

Các thuật ngữ này thuộc về lĩnh vực "tin học". - Từ dừng: Nhiều từ được dùng để biểu diễn cấu trúc câu, xuất hiện thường xuyên trong các văn bản, nhưng hầu như không mang ý nghĩa về mặt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 nội dung, chẳng hạn các giới từ, liên từ, … những từ đó được gọi là từ dừng. Ví dụ: Có thể, nếu, vì vậy, sau khi, thì, một số, với lại, quả thật, hầu như, … - Trọng số của từ là độ quan trọng hay hàm lượng thông tin mà từ đó mang lại cho văn bản. Trọng số của từ là đại lượng dùng để đo sự khác biệt giữa văn bản chứa nó với các văn bản khác.

Các phƣơng pháp đánh trọng số cho từ khóa 1. Phương pháp boolean Giả sử có một tập gồm m văn bản D = {d1, d2, d3,.dm}, T là một tập từ vựng gồm n từ khóa T = {t1, t2,. gọi w = (wi j) là ma trận trọng số, trong đó wi j là trọng số của từ khóa ti trong văn bản dj. Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất, giá trị trọng số wi j được xác định như sau: 1 ti dj wi j = 0 ti dj 1.

Phương pháp dựa trên tần số 1/ Phương pháp dựa trên tần số từ khóa TF: Các giá trị wij được tính dựa trên tần số xuất hiện của từ khóa trong văn bản. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đó wij được tính bởi một trong 3 công thức sau: wij = fij hoặc wij = 1 + log(fij) hoặc wij = f ij Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của từ ti trong văn bản dj. Khi số lần xuất hiện từ khóa ti trong văn bản dj càng nhiều thì điều đó có nghĩa là văn bản dj càng phụ thuộc vào từ khóa ti, hay nói cách khác từ khóa ti mang nhiều thông tin trong văn bản dj. Ví dụ: khi văn bản LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học.

2/ Phương pháp dựa trên nghịch đảo tần số văn bản IDF: Trong phương pháp này, giá trị wij được tính theo công thức sau: m log log(m) log(h 1 ) nếu từ khóa ti xuất hiện trong tài liệu dj wij = hi 0 nếu ngược lại trong đó m là số lượng văn bản và hi là số văn bản mà từ khóa ti xuất hiện. 3/ Phương pháp TF × IDF: Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị của ma trận trọng số được tính như sau: m [1+log(fij)] log nếu fij ≥1 hi wij = 0 nếu ngược lại Phương pháp này kết hợp được ưu điểm của cả 2 phương pháp trên. Trọng số wij được tính bằng tần số xuất hiện của từ khóa ti trong văn bản dj và độ hiếm của từ khóa ti trong toàn bộ cơ sở dữ liệu. MỘT SỐ PHƢƠNG PHÁP BIỂU DIỄN VĂN BẢN 1.

Mô hình Boolean Giả sử có một tập gồm m văn bản D = {d1, d2, d3,.dm}, T là một tập từ vựng gồm n từ khóa T = {t1, t2,. gọi w = (wi j) là ma trận trọng số, trong đó wi j là trọng số của từ khóa ti trong văn bản dj và được xác định như sau: 1 ti dj wi j = 0 ti dj Trong mô hình boolean, văn bản vốn là tập hợp của các từ khóa, được biểu diễn bởi chỉ số từng từ và trọng số của chúng. Trọng số của từng từ - LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 dùng để đánh giá độ quan trọng của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của từ đó trong văn bản. Mô hình không gian vector Mô hình không gian véc tơ là mô hình toán học được sử dụng rộng rãi.

Mỗi văn bản được biểu diễn thành một vector, trong một không gian véc tơ nhiều chiều, mỗi chiều tương ứng với một từ khóa trong văn bản. Mỗi thành phần của một vector văn bản, là một từ khóa riêng biệt trong tập văn bản gốc và được gán một giá trị là hàm f của từng từ khóa trong văn bản. Cách biểu diễn văn bản thông dụng nhất là thông qua mô hình không gian vector, đây là một cách biểu diễn tương đối đơn giản. Khi áp dụng xử lý vector thưa, mang lại hiệu quả cao cho bài toán ứng dụng.

Xử lý vec tơ thưa T2 v1 Hình 1.1: Biểu diễn v2 văn bản v1 và v2 trong không gian véc tơ ba chiều T1, T2, T3, trong θ đó Ti là các từ khóa v T1 2 T3 Xử lý các phép toán trên vector sẽ phụ thuộc vào độ lớn của ma trận Wnm, ở đây n là số lượng thuật ngữ hay số chiều của vector, và m là số lượng văn bản có trong cơ sở dữ liệu. Trên thực tế, số lượng thuật ngữ và số văn bản có thể lên đến vài chục nghìn. Khi đó số lượng phần tử trong ma trận Wnm sẽ lên đến con số trăm triệu và lưu trữ ma trận Wnm sẽ tốn rất nhiều tài nguyên bộ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 nhớ, đồng thời các phép toán trên các vector sẽ phức tạp. Để khắc phục, ta có thể sử dụng kỹ thuật xử lý vector thưa.

Các vector thực sự thưa: số phần tử có trọng số khác 0 nhỏ hơn rất nhiều so với số thuật ngữ trong cơ sở dữ liệu. Phép xử lý vector đơn giản. Đối với vector chuẩn: d0 = (6, 5, 0, 0, 0, 0); d1 = (0, 0, 4, 0, 3, 1); d2 = (0, 0, 0, 3, 0, 4). Đối với vector thưa: d0 =((1, 6), (2, 5)); d1 = ((3, 4), (5, 3), (6, 1)); d2 = ((4, 3), (6, 4)).

Kiểu phần tử của vector thưa có thay đổi so với vector chuẩn. Mỗi phần tử gồm hai giá trị là mã biểu diễn thuật ngữ và giá trị trọng số tương ứng của thuật ngữ đó. Mô hình xác suất Mô hình xác suất là mô hình toán học làm việc với các biến ngẫu nhiên và phân bố xác xuất của nó. Theo thuật ngữ toán học, một mô hình xác suất có thể coi như một cặp (Y, P), trong đó Y là tập các quan sát (biến ngẫu nhiên) và P là tập các phân bố xác suất trên Y.

Khi đó, sử dụng suy diễn xác suất sẽ cho ta kết luận về các phần tử của tập Y. Văn bản trong mô hình xác suất được coi như một quan sát trong tập Y, trong đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vị trí cũng như ngữ pháp của văn bản. Khi đó văn bản sẽ gồm các từ mà nó chứa trong đó, chính vì vậy phương pháp này được gọi là biểu diễn túi - các - từ. 2 Không gian Các bước để chuyển từ 1 Từ khóa không gian các từ khóa 1 Khái niệm sang không gian khái niệm 1 Trọng số tương đối phức tạp.

Trước 1 Phương pháp tiên LSI lập ma trận từ-văn 0 Văn bản bản với trọng số là một 0 Hà Nội phương pháp đánh chỉ số 1 Ma trận nào đó 0 Việt Nam 0 Hoa Hồng … ….2: Biểu diễn văn bản theo túi - các - từ 1 LSI LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Mô hình LSI LSI đánh chỉ số ngữ nghĩa tiềm năng, là phương pháp được áp dụng nhiều trong bài toán phân lớp. Ý tưởng chính của phương pháp này là, ánh xạ mỗi văn bản vào một tập không gian ít chiều hơn, trong đó mỗi chiều được gắn với một khái niệm. Như vậy bản chất của phương pháp này là chuyển từ không gian các từ khóa sang không gian các khái niệm.

PHƢƠNG PHÁP LỰA CHỌN TỪ TRONG BIỂU DIỄN VĂN BẢN 1. Loại bỏ từ dừng Trước hết có thể quan sát thấy rằng, trong một văn bản có nhiều từ chỉ dùng để phục vụ cho biểu diễn cấu trúc câu, chứ không biểu đạt nội dung của nó, chẳng hạn như các giới từ, từ nối,… Những từ xuất hiện nhiều trong văn bản mà không có liên quan gì tới nội dung văn bản. Có thể loại bỏ những từ như vậy, nó được xem như là những từ dừng. Thu gọn đặc trƣng biểu diễn Với các tài liệu văn bản, mỗi một từ khóa duy nhất sẽ biểu diễn một chiều trong không gian biểu diễn.

Do đó, kích thước của không gian biểu diễn văn bản thường rất lớn, việc tính toán sẽ tốn nhiều thời gian. Thêm nữa, một tài liệu văn bản khi được biểu diễn dưới dạng một vector, thì số lượng các phần tử trong vector đó có giá trị 0 là rất lớn, điều này cũng có thể là một nguyên nhân làm cho việc tính toán phân lớp phức tạp và khó khăn hơn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai phá dữ liệu và học máy

Công nghệ thông tin ứng dụng