Luận văn thạc sĩ: Phân tích ý kiến phản hồi của độc giả về sự kiện qua báo chí

Tài liệu chuyên sâu Tổng hợp ý kiến độc giả về sự kiện qua báo chí, phân tích đa chiều, cung cấp kiến thức nền tảng vững chắc cho chuyên ngành

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LOẠI NỘI DUNG VĂN BẢN

1.1. Tổng quan về bài toán phân loại nội dung văn bản

1.2. Giới thiệu về bài toán phân loại văn bản

1.3. Ứng dụng bài toán phân loại văn bản

1.4. Mô hình cho bài toán phân loại văn bản

1.5. Yêu cầu đối với bài toán phân loại văn bản

1.6. Giai đoạn huấn luyện

1.7. Giai đoạn phân lớp

1.8. Tiền xử lý văn bản

1.8.1. Tách từ trong văn bản

1.8.2. Phương pháp khớp tối đa

1.8.3. Mô hình tách từ bằng WFST và mạng Neural

2. CHƯƠNG 2: THUẬT TOÁN PHÂN LOẠI NỘI DUNG VĂN BẢN

2.1. Thuật toán Naive Bayes

2.2. Thuật toán Long Short Term Memory networks

2.2.1. Ý tưởng cốt lõi của LSTM

2.2.2. Bên trong LSTM

2.3. Thuật toán phân loại văn bản dựa trên từ đại diện

2.3.1. Mô tả thuật toán chọn từ đại diện

2.3.2. Phân loại văn bản dựa trên độ tương đồng văn bản

3. CHƯƠNG 3: CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ

3.1. Mô tả cài đặt thuật toán

3.1.1. Bộ dữ liệu kiểm thử

3.1.2. Xây dựng kịch bản kiểm thử

3.2. Kết quả thực nghiệm và đánh giá

3.2.1. Môi trường thực nghiệm

3.2.2. Kết quả thực nghiệm

3.2.3. Đánh giá kết quả thuật toán

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về sự kiện và ý kiến độc giả

Trong bối cảnh hiện nay, báo chí đóng vai trò quan trọng trong việc phản ánh các sự kiện xã hội. Việc tổng hợp ý kiến độc giả về các sự kiện này không chỉ giúp nâng cao chất lượng thông tin mà còn tạo ra một kênh giao tiếp hiệu quả giữa báo chí và công chúng. Phản hồi của độc giả là một yếu tố quan trọng trong việc đánh giá sự kiện nổi bật. Các bài viết trên báo thường chứa đựng những quan điểm đa dạng, phản ánh sự đa chiều trong cách nhìn nhận và đánh giá sự kiện. Điều này không chỉ giúp độc giả có cái nhìn toàn diện hơn mà còn giúp các nhà báo điều chỉnh cách thức đưa tin sao cho phù hợp với nhu cầu và mong muốn của công chúng.

1.1. Tầm quan trọng của ý kiến độc giả

Ý kiến của độc giả không chỉ là phản hồi đơn thuần mà còn là nguồn thông tin quý giá cho các nhà báo và nhà nghiên cứu. Việc tổng hợp ý kiến này giúp xác định được xu hướng và tâm lý của công chúng đối với các sự kiện cụ thể. Qua đó, các nhà báo có thể điều chỉnh nội dung và cách thức truyền tải thông tin sao cho phù hợp hơn. Đánh giá sự kiện từ góc độ độc giả cũng giúp tạo ra một bức tranh rõ nét hơn về cách mà xã hội tiếp nhận và phản ứng với thông tin. Điều này đặc biệt quan trọng trong thời đại thông tin hiện nay, khi mà truyền thông có thể ảnh hưởng mạnh mẽ đến nhận thức và hành động của công chúng.

II. Phân tích nội dung báo chí và phản hồi của độc giả

Phân tích nội dung báo chí là một công việc cần thiết để hiểu rõ hơn về cách mà các sự kiện được trình bày và tiếp nhận. Các bài viết trên báo thường được xây dựng dựa trên các tiêu chí nhất định, từ đó tạo ra những phản hồi khác nhau từ độc giả. Việc phân tích này không chỉ dừng lại ở việc xem xét nội dung mà còn bao gồm cả cách thức mà thông tin được truyền tải. Phân tích ý kiến độc giả giúp xác định được những điểm mạnh và điểm yếu trong cách thức đưa tin, từ đó cải thiện chất lượng thông tin. Các nhà nghiên cứu có thể sử dụng các phương pháp định tính và định lượng để đánh giá phản hồi của độc giả, từ đó đưa ra những khuyến nghị cho các nhà báo.

2.1. Các phương pháp phân tích

Có nhiều phương pháp khác nhau để phân tích ý kiến độc giả. Một trong những phương pháp phổ biến là phân tích nội dung, trong đó các nhà nghiên cứu sẽ xem xét các bài viết và phản hồi từ độc giả để xác định các chủ đề chính. Phân tích định lượng cũng có thể được áp dụng để đo lường mức độ phổ biến của các ý kiến khác nhau. Việc sử dụng các công cụ phân tích dữ liệu hiện đại giúp tăng cường khả năng tổng hợp và phân tích thông tin, từ đó cung cấp cái nhìn sâu sắc hơn về cách mà các sự kiện được tiếp nhận và đánh giá trong xã hội.

III. Đánh giá giá trị thực tiễn của việc tổng hợp ý kiến độc giả

Việc tổng hợp ý kiến độc giả về các sự kiện qua báo chí không chỉ có giá trị trong việc cải thiện chất lượng thông tin mà còn góp phần vào việc xây dựng một xã hội thông tin minh bạch và dân chủ hơn. Các nhà báo có thể sử dụng những phản hồi này để điều chỉnh cách thức đưa tin, từ đó tạo ra những bài viết có giá trị hơn cho độc giả. Hơn nữa, việc lắng nghe và tôn trọng phản hồi của độc giả cũng giúp xây dựng lòng tin và sự gắn kết giữa báo chí và công chúng. Điều này đặc biệt quan trọng trong bối cảnh hiện nay, khi mà thông tin sai lệch có thể gây ra những hậu quả nghiêm trọng.

3.1. Ứng dụng trong thực tiễn

Các nhà báo và tổ chức truyền thông có thể áp dụng những kết quả từ việc tổng hợp ý kiến độc giả để cải thiện quy trình làm việc của mình. Việc này không chỉ giúp nâng cao chất lượng thông tin mà còn tạo ra một môi trường giao tiếp tích cực giữa báo chí và công chúng. Hơn nữa, việc lắng nghe và phản hồi lại ý kiến của độc giả cũng giúp xây dựng một cộng đồng thông tin mạnh mẽ hơn, nơi mà mọi người đều có thể tham gia và đóng góp ý kiến của mình. Điều này không chỉ có lợi cho báo chí mà còn cho toàn xã hội.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và sự bùng nổ của mạng Internet, lượng thông tin và tri thức được chia sẻ hàng ngày trên các nền tảng trực tuyến ngày càng tăng cao. Theo ước tính, hàng chục nghìn bài báo tiếng Việt được đăng tải mỗi ngày trên các trang báo điện tử, tạo ra một kho dữ liệu khổng lồ nhưng cũng đặt ra thách thức lớn trong việc tiếp cận và xử lý thông tin hiệu quả. Vấn đề nghiên cứu tập trung vào việc tổng hợp ý kiến phản hồi của độc giả dựa trên các sự kiện được phản ánh bởi báo chí, nhằm phân loại nội dung bài báo tiếng Việt một cách chính xác và nhanh chóng.

Mục tiêu cụ thể của nghiên cứu là xây dựng và đánh giá các thuật toán phân loại nội dung văn bản tiếng Việt, từ đó lựa chọn thuật toán phù hợp nhất để áp dụng trong việc tổng hợp ý kiến phản hồi của độc giả theo từng sự kiện báo chí. Phạm vi nghiên cứu tập trung vào các bài báo tiếng Việt trên mạng Internet, với dữ liệu thu thập trong khoảng thời gian gần đây, đảm bảo tính cập nhật và thực tiễn. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả truy xuất thông tin, hỗ trợ người dùng tiếp cận nhanh chóng các nội dung quan tâm, đồng thời góp phần phát triển các hệ thống quản lý và phân loại thông tin tự động trong lĩnh vực báo chí và truyền thông.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy, bao gồm:

- **Lý thuyết phân loại văn bản tự động**: Phân loại văn bản là quá trình gán nhãn cho các tài liệu dựa trên nội dung, giúp tổ chức và quản lý thông tin hiệu quả. Mô hình túi từ (Bag-of-Words) và mô hình không gian vector (Vector Space Model) được sử dụng để biểu diễn văn bản dưới dạng các vector đặc trưng.

- **Thuật toán Naïve Bayes (NB)**: Dựa trên định lý Bayes với giả định các từ trong văn bản độc lập, NB là thuật toán phân loại phổ biến với ưu điểm đơn giản, tốc độ nhanh và hiệu quả trong phân loại văn bản nhiều chủ đề.

- **Mạng bộ nhớ dài-ngắn (LSTM)**: Là dạng mạng nơ-ron hồi quy đặc biệt, LSTM có khả năng học các phụ thuộc dài hạn trong dữ liệu chuỗi, phù hợp với việc xử lý ngôn ngữ tự nhiên phức tạp như tiếng Việt.

- **Thuật toán phân loại dựa trên từ đại diện và độ tương đồng văn bản**: Sử dụng các từ khóa đại diện và các hàm đo độ tương đồng như Cosine, Euclide, Manhattan để xác định chủ đề của văn bản dựa trên mức độ gần gũi ngữ nghĩa.

Các khái niệm chính bao gồm: tách từ tiếng Việt, đánh trọng số từ (TF-IDF), biểu diễn văn bản dưới dạng vector, và các chỉ số đánh giá hiệu quả phân loại như Accuracy, Precision, Recall, F1-score.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập hợp 33.850 bài báo tiếng Việt đã được xử lý sơ bộ, trong đó 500 bài báo được chọn ngẫu nhiên để kiểm thử, phân bổ đều cho 10 chủ đề: Chính trị xã hội, Đời sống, Khoa học, Kinh doanh, Pháp luật, Sức khỏe, Thế giới, Thể thao, Văn hóa, Vi Tính.

Phương pháp phân tích bao gồm:

- **Tiền xử lý dữ liệu**: Loại bỏ từ dừng, kiểm tra chính tả, tách từ bằng thư viện VnTokenizer 4.1, trích chọn đặc trưng bằng phương pháp TF-IDF.

- **Cài đặt và huấn luyện thuật toán**: Ba thuật toán Naïve Bayes, LSTM và phân loại dựa trên từ đại diện được cài đặt trên nền tảng Python, sử dụng tập dữ liệu huấn luyện đã gán nhãn.

- **Đánh giá kết quả**: Sử dụng các chỉ số Accuracy, Precision, Recall, F1-score và ma trận nhầm lẫn để đánh giá hiệu quả phân loại trên tập kiểm thử 500 bài báo.

Timeline nghiên cứu kéo dài trong năm 2019, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, cài đặt thuật toán, kiểm thử và phân tích kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Thuật toán Naïve Bayes đạt độ chính xác trung bình khoảng 85% trên tập kiểm thử, với Precision và Recall lần lượt đạt 83% và 84%, cho thấy hiệu quả tốt trong phân loại các chủ đề đa dạng.

- Mạng LSTM thể hiện khả năng học sâu, đạt độ chính xác cao hơn, khoảng 90%, với F1-score đạt 89%, đặc biệt hiệu quả trong việc xử lý các văn bản có cấu trúc phức tạp và ngữ cảnh dài.

- Thuật toán phân loại dựa trên từ đại diện và độ tương đồng văn bản có độ chính xác thấp hơn, khoảng 75%, do phụ thuộc nhiều vào chất lượng từ khóa đầu vào và khả năng biểu diễn ngữ nghĩa hạn chế.

- So sánh giữa các thuật toán cho thấy LSTM vượt trội về khả năng xử lý ngôn ngữ tự nhiên tiếng Việt, trong khi Naïve Bayes vẫn là lựa chọn hiệu quả với chi phí tính toán thấp.

### Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu quả giữa các thuật toán là do khả năng xử lý ngữ cảnh và phụ thuộc từ trong văn bản. LSTM với cấu trúc cổng nhớ giúp ghi nhớ thông tin dài hạn, phù hợp với đặc trưng ngôn ngữ tiếng Việt có nhiều từ đồng âm, đa nghĩa. Naïve Bayes mặc dù giả định độc lập từ, nhưng vẫn cho kết quả tốt nhờ vào tập dữ liệu huấn luyện lớn và kỹ thuật trích chọn đặc trưng hiệu quả.

Kết quả này tương đồng với các nghiên cứu gần đây trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, khẳng định tính ứng dụng cao của mạng nơ-ron sâu trong phân loại văn bản. Việc sử dụng TF-IDF làm trọng số từ giúp cân bằng giữa tần suất xuất hiện và mức độ quan trọng của từ, nâng cao độ chính xác phân loại.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác, F1-score của từng thuật toán, cũng như bảng ma trận nhầm lẫn minh họa chi tiết hiệu suất phân loại theo từng chủ đề.

## Đề xuất và khuyến nghị

- **Triển khai thuật toán LSTM trong hệ thống phân loại tin tức trực tuyến** nhằm nâng cao độ chính xác và khả năng xử lý ngôn ngữ tự nhiên, dự kiến hoàn thành trong 6 tháng tới, do bộ phận phát triển công nghệ thực hiện.

- **Tăng cường thu thập và làm sạch dữ liệu huấn luyện** để cải thiện chất lượng mô hình, đặc biệt là mở rộng tập dữ liệu đa dạng về chủ đề và phong cách viết, thực hiện liên tục hàng năm.

- **Phát triển công cụ hỗ trợ người dùng nhập từ khóa chính xác** cho thuật toán phân loại dựa trên từ đại diện, nhằm nâng cao hiệu quả phân loại thủ công, hoàn thiện trong vòng 3 tháng.

- **Tổ chức đào tạo và hướng dẫn sử dụng hệ thống phân loại cho biên tập viên báo chí** để tận dụng tối đa công nghệ, nâng cao hiệu quả công việc, triển khai trong quý tiếp theo.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Khoa học máy tính**: Nghiên cứu các thuật toán phân loại văn bản tiếng Việt, áp dụng trong xử lý ngôn ngữ tự nhiên.

- **Các tổ chức báo chí và truyền thông**: Ứng dụng công nghệ phân loại tự động để quản lý và tổng hợp ý kiến độc giả, nâng cao chất lượng nội dung.

- **Các công ty phát triển phần mềm và công nghệ AI**: Tham khảo mô hình và thuật toán để phát triển các sản phẩm xử lý ngôn ngữ tiếng Việt.

- **Các cơ quan quản lý và nghiên cứu thị trường**: Sử dụng kết quả phân tích để đánh giá phản hồi công chúng, hỗ trợ ra quyết định chính sách.

## Câu hỏi thường gặp

1. **Phân loại văn bản tiếng Việt có khó hơn so với tiếng Anh không?**  
Tiếng Việt có cấu trúc đơn lập, nhiều từ đồng âm, đa nghĩa và không có dấu cách rõ ràng giữa các từ, khiến việc tách từ và phân loại phức tạp hơn so với tiếng Anh.

2. **Tại sao chọn thuật toán LSTM cho phân loại văn bản?**  
LSTM có khả năng ghi nhớ thông tin dài hạn và xử lý ngữ cảnh phức tạp, phù hợp với đặc trưng ngôn ngữ tiếng Việt và các văn bản có cấu trúc phức tạp.

3. **TF-IDF có vai trò gì trong phân loại văn bản?**  
TF-IDF giúp đánh trọng số từ dựa trên tần suất xuất hiện và mức độ quan trọng, giúp mô hình tập trung vào các từ khóa có ý nghĩa trong văn bản.

4. **Làm thế nào để đánh giá hiệu quả của thuật toán phân loại?**  
Sử dụng các chỉ số như Accuracy, Precision, Recall, F1-score và ma trận nhầm lẫn để đánh giá độ chính xác và khả năng phân loại của thuật toán.

5. **Có thể áp dụng kết quả nghiên cứu này vào các lĩnh vực khác không?**  
Có, các phương pháp và thuật toán có thể áp dụng trong xử lý dữ liệu văn bản ở nhiều lĩnh vực như y tế, pháp luật, thương mại điện tử, giúp tự động hóa và nâng cao hiệu quả xử lý thông tin.

## Kết luận

- Nghiên cứu đã xây dựng và đánh giá thành công các thuật toán phân loại nội dung văn bản tiếng Việt dựa trên dữ liệu bài báo mạng Internet.  
- Thuật toán LSTM cho kết quả phân loại tốt nhất với độ chính xác khoảng 90%, vượt trội so với Naïve Bayes và phương pháp từ đại diện.  
- Phương pháp tiền xử lý và trích chọn đặc trưng TF-IDF đóng vai trò quan trọng trong việc nâng cao hiệu quả phân loại.  
- Kết quả nghiên cứu có ý nghĩa thực tiễn cao, hỗ trợ quản lý thông tin báo chí và tổng hợp ý kiến độc giả hiệu quả.  
- Đề xuất triển khai ứng dụng thuật toán LSTM trong các hệ thống phân loại tin tức trực tuyến và mở rộng nghiên cứu trong các lĩnh vực xử lý ngôn ngữ tự nhiên khác.

Hành động tiếp theo là triển khai thử nghiệm thực tế trên hệ thống báo chí, đồng thời mở rộng tập dữ liệu và cải tiến thuật toán để nâng cao độ chính xác và khả năng ứng dụng rộng rãi hơn.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN LOẠI NỘI DUNG VĂN BẢN Trong chương này, luận văn sẽ trình bày tổng quan về xử lý và phân loại nội dung của một văn bản tiếng Việt, các phương pháp tiếp cận bài toán phân loại văn bản và các bước hay dùng trong giai đoạn tiền xử lý văn bản. Tổng quan về bài toán phân loại nội dung văn bản Trong thực tế ứng dụng quan trọng nhất của bài toán phân loại văn bản là xây dựng công cụ tìm kiếm thông tin nhanh hơn. Bài toán phân loại văn bản giúp giới hạn phạm vi tìm kiếm thông tin bằng việc phân loại được nội dung của các bài viết có liên quan đến một chủ đề nhất định, từ đó đưa ra các gợi ý đúng với mục đích tìm kiếm. Phân loại văn bản góp phần quan trọng trong việc tổ chức và quản lý hiệu quả thông tin, tri thức.

Ứng dụng phổ biến nhất của phân loại văn bản là trợ giúp cho việc tìm kiếm và lọc văn bản do đó tăng tốc độ truy cập thông tin, tối ưa hóa các kết quả đưa ra phù hợp với yêu cầu tìm kiếm. Phân loại văn bản cũng đóng vai trò quan trọng trong việc xây dựng hiệu quả các công việc quản lí thông tin như là sắp xếp loại thư điện tử, các file trong các hệ thống, phân loại nội dung các tin tức điện tử, xác minh chủ đề của thông tin để trợ giúp cho các tiến trình xử lí, duyệt, tìm kiếm các thông tin cấu trúc, các loại tài liệu mà người dùng quan tâm. Trong chương này, luận văn trình bày các khái niệm cơ bản về phân loại văn bản tự động, một vài thuật toán hay được sử dụng cho bài toán phân loại nội dung văn bản, từ đó giới thiệu một số các phương pháp nghiên cứu liên quan dựa trên cách tiếp cận học máy và một số phương pháp đánh giá hiệu năng của hệ thống phân loại văn bản tự động 1. Giới thiệu về bài toán phân loại văn bản Các nghiên cứu về khai phá dữ liệu, học máy dạng văn bản đang được quan tâm hơn trong thời gian gần đây vì số lượng các tài liệu, thông tin điện tử chứa tri thức tăng rất nhanh với rất nhiều nguồn khác nhau như mạng Internet,.

Bao gồm Luan van 4 tất cả những văn bản có cấu trúc, các văn bản không cấu trúc cũng tăng lên rất lớn. Mục đích chính của việc khai phá dữ liệu văn bản là cho phép người dùng trích xuất, rút gọn thông tin của các nguồn văn bản và sử dụng các thông tin đó để xây dựng các công cụ như: tra cứu, hỏi đáp, phân loại và tóm tắt sử dụng ngôn ngữ tự nhiên. Phân loại văn bản là một trong những bài toán quan trọng của việc khai phá dữ liệu văn bản, rất nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn bản. Mỗi lớp (class) tương đương với một chủ đề được định nghĩa ví dụ “pháp luật”, “đời sống” ,“thể thao”.

Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản D = {d1,d2,.,dn} được gọi là tập huấn luyện và trong đó các tài liệu di được gán nhãn cj với cj thuộc tập các chủ đề C={c1,c2,. Nhiệm vụ tiếp theo đó là xác định được mô hình phân loại mà có thể gán đúng lớp để một tài liệu bất kỳ có thể phân loại chính xác vào một trong những chủ đề của tập chủ đề. 1 Mô tả bài toán phân loại nội dung văn bản [12]. Vậy phân loại văn bản là quá trình phân loại, gán nhãn (lớp) cho các tài liệu văn bản bao gồm các văn bản có cấu trúc hoặc không cấu trúc vào một tập hợp của một hay nhiều chủ đề đã được định nghĩa trước đó.

Ứng dụng bài toán phân loại văn bản Lọc thư rác Thư rác được gửi với các mục đích chính như sau: - Các thông tin sai lệch, các hình thức kiếm tiền trực tuyến không đúng sự thật nhằm lừa gạt người dùng. - Quảng cáo sản phẩm, dịch vụ của một tổ chức, công ty trên mạng - Gửi kèm virus trong tập tin kèm theo của thư điện tử, từ đó đưa virus vào vào hệ thống mạng và lấy cắp các thông tin quan trọng. - Nói xấu, xuyên tạc, tuyên truyền những điều sai trái về chính trị. Việc phân loại được nội dung thư rác sẽ giúp chúng ta loại trừ được những thư chứa các nội dung mà chúng ta không muốn tiếp cận.

Ngoài ra chúng ta có thể tránh được các nguy cơ tiềm ẩn như virus, trojan. xâm nhập vào máy tính cá nhân, hệ thống chúng ta đang sử dụng Phân loại tin tức điện tử - Ngày nay sự phát triển của mạng Internet, các tin tức điện tử có chứa thông tin, tri thức ngày càng nhiều. - Người dùng muốn tìm hiểu các tin tức điện tử liên quan đến chủ đề mà người dùng quan tâm, các hệ thống muốn phân loại các tin tức điện tử để dễ dàng quản lý. - Ứng dụng thành công bài toán phân loại điện tử giúp giải quyết được nhu cầu của người dùng cũng như các hệ thống muốn tiếp cận nhanh, chính xác cả tin tức điện tử liên quan đến chủ đề.

Xây dựng các cỗ máy tìm kiếm - Đây là ứng dụng quan trọng nhất của bài toán phân loại văn bản. - Việc phân loại văn bản sẽ giúp hệ thống tìm kiếm thông tin tổ chức, xếp xếp, quản lý thông tin do đó tăng tốc độ truy cập thông tin của hệ thống. Luan van 6 - Các văn bản đã được phân loại (gán nhãn) sẽ giúp cho hệ thống tìm kiếm dễ dàng tiếp cận, xử lý, lọc thông tin và trả lại các kết quả chính xác hơn với yêu cầu của người dùng. Mô hình cho bài toán phân loại văn bản Chúng ta có thể tưởng tượng bài toán phân loại văn bản như sau : Cho một tập gồm nn văn bản - document đầu vào kí hiệu D={𝑑1 , 𝑑2 ,., 𝑑𝑛 } bằng các kĩ thuật xử lý, thuật toán nào đó chúng ta sẽ phân tập văn bản trên vào một tập gồm mm phân lớp - categories kí hiệu là C={𝑐1 , 𝑐2 ,.

Trong phần này, luận văn sẽ giới thiệu mô hình để thực hiện phân loại văn bản vào các lớp. 2 Mô hình thực hiện bài toán phân loại văn bản [9]. Yêu cầu đối với bài toán phân loại văn bản Minh họa trực quan nhất cho việc phân loại văn bản đó chính là việc sắp xếp các tin tức trên báo vào các danh mục tương ứng như thể thao, giải trí, xã hội. như các tờ báo điện tử thường làm.

Việc này có thể được thực hiện thủ công bởi các Luan van 7 biên tập viên tuy nhiên nó rất là mất thời gian và công sức. Thay vào đó chúng ta sẽ sử dụng một số kĩ thuật học máy để tiến hành phân loại tự động các tin tức đó. Vậy để giải quyết được bài toán phân loại văn bản chúng ta cần phải nắm được: - Dữ liệu đầu vào cho việc phân loại (tin tức điện tử, bài báo khoa học, nghị luận chính trị .) - Mô hình thực hiện phân loại văn bản - Thuật toán sử dụng để phân loại văn bản - Kết quả và đánh giá. Trong luận văn này, dữ liệu đầu vào sẽ các bài báo trên mạng Internet.

Giai đoạn huấn luyện Các văn bản đầu vào được gán nhãn và được trích chọn đặc trưng để nhận dạng và sử dụng thuật toán học để lưu trữ lại các giá trị của đặc trưng theo một mô hình chuẩn Hình 1. 3 Chi tiết giai đoạn huấn luyện [5]. Giai đoạn huấn luyện gồm các bước sau: Tiền xử lý dữ liệu: là bước làm sạch dữ liệu trước khi bắt đầu bất kì xử lý nào trên tập dữ liệu, việc này bao gồm các bước xử lý ngôn ngữ tự nhiên như loại bỏ stop words (từ dừng), kiểm tra chính tả, tách từ. Tách từ: đây một bước rất quan trọng khi xử lý tiền văn bản, nhất là đối với tiếng Việt.

Bởi vì cấu trúc cũng như đặc trưng của tiếng Việt nên việc tách từ trong Luan van 8 văn bản dữ liệu đầu vào là rất quan trọng, đảm bảo tính chính xác khi thực hiện bước tiếp theo. Trích chọn đặc trưng: bằng các kĩ thuật, phương pháp, thuật toán, ta sẽ trích chọn đặc trưng các từ trong bài báo để được phiên bản cô đọng của văn bản, dễ dàng thao tác trên dữ liệu nhận được. Kết quả của bước này là dữ liệu đầu vào cho các thuật toán phân loại văn bản. Huấn luyện: đây là bước dựa vào thuật toán phân loại sử dụng và tập dữ liệu mẫu để xây dựng mô hình phân loại sử dụng cho các văn bản cần phân loại.

Giai đoạn phân lớp Đây là giai đoạn thực hiện phân loại cho một văn bản chưa có nhãn dựa trên mô hình mẫu đã được xây dựng từ giai đoạn huấn luyện. Giai đoạn này gồm các bước sau: - Trích trọn đặc trưng: văn bản đầu vào sẽ được xử lý qua một số bước như ở giai đoạn huấn luyện gồm tiền xử lý, tách từ, trích trọn đặc trưng. - Biểu diễn văn bản: sau khi trích trọn được những đặc trưng của văn bản đầu vào, chúng ta cần biểu diễn văn bản dưới các mô hình tiện cho việc thực hiện phân loại. - Phân loại: Dựa trên mô hình chuẩn đã được huấn luyên để phân loại nội dung văn bản theo đúng chủ đề.

- Đưa ra kết quả. Tiền xử lý văn bản Trong phần này, luận văn sẽ trình bày các bước cơ bản được thực hiện trong giai đoạn tiền xử lý văn bản và một số mô hình và phương pháp áp dụng để thực hiện trong giai đoạn này. Tách từ trong văn bản Khi thực hiện phân loại văn bản, trong bước tiền xử lý, việc đầu tiên cần xử lý văn bản đó chính là việc tách từ. Bời vì sự phức tạp của tiếng Việt, nên việc áp Luan van 9 dụng phương pháp phù hợp để thực hiện tách từ khi xử lý văn bản đầu vào là việc rất quan trọng.

Trong phần này luận văn giới thiệu một vài phương pháp dùng để tách từ trong văn bản Phương pháp khớp tối đa Tư tưởng của phương pháp khớp tối đa (Maximum Matching) [6] là duyệt một câu từ trái qua phải và chọn từ có nhiều tiếng nhất mà có mặt trong từ điển tiếng Việt. Thuật toán có 2 dạng sau: Dạng đơn giản: Giả sử có một chuỗi các tiếng trong câu là t1, t2, .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ: Phân tích ý kiến phản hồi của độc giả về sự kiện qua báo chí" của tác giả Trần Minh Hùng, dưới sự hướng dẫn của TS. Nguyễn Mạnh Hùng, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2019. Bài viết tập trung vào việc tổng hợp và phân tích ý kiến phản hồi của độc giả về các sự kiện được phản ánh qua báo chí, từ đó giúp hiểu rõ hơn về cách mà thông tin được tiếp nhận và đánh giá bởi công chúng. Những điểm chính trong bài luận văn này không chỉ cung cấp cái nhìn sâu sắc về mối quan hệ giữa báo chí và độc giả mà còn mở ra cơ hội cho các nhà báo và nhà nghiên cứu trong việc cải thiện chất lượng thông tin truyền tải.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo các tài liệu liên quan như "Luận văn nghiên cứu báo chí Hà Nội về vấn đề xóa đói giảm nghèo", nơi phân tích vai trò của báo chí trong việc thông tin về các vấn đề xã hội, hay "Nghiên cứu các yếu tố ảnh hưởng đến ý định mua sản phẩm xanh của người tiêu dùng tại TPHCM", nghiên cứu về cách mà thông tin và truyền thông ảnh hưởng đến hành vi tiêu dùng. Cuối cùng, bạn cũng có thể tìm hiểu thêm về "Luận văn về quan hệ thương mại và tác động của khủng hoảng tài chính", để thấy được sự liên kết giữa thông tin kinh tế và phản hồi của công chúng trong bối cảnh khủng hoảng. Những tài liệu này sẽ giúp bạn có cái nhìn đa chiều hơn về vai trò của báo chí và thông tin trong xã hội hiện đại.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#tác động của báo chí

#ý kiến độc giả

#phản hồi báo chí

#sự kiện qua báo chí

Chủ đề

Nghiên cứu truyền thông

Phân tích dữ liệu trong báo chí

Tác động của báo chí đến công chúng

Ý kiến độc giả và sự kiện xã hội