Luận văn thạc sĩ: Phân loại tin tức trên báo điện tử tiếng Việt

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

62
1
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan

Trong bối cảnh thông tin ngày càng phong phú và đa dạng, phân loại tin tức trên báo điện tử trở thành một nhiệm vụ quan trọng. Hệ thống khoa học máy tính có khả năng xử lý và phân tích dữ liệu lớn, giúp tự động hóa quá trình phân loại tin tức tiếng Việt. Bài toán này không chỉ đơn thuần là phân loại văn bản mà còn liên quan đến việc hiểu nội dung ngữ nghĩa của tin tức. Theo nghiên cứu của Hoang và cộng sự (2007), việc áp dụng các thuật toán như KNN và SVM đã cho thấy hiệu quả cao trong việc phân loại văn bản. Điều này cho thấy sự cần thiết phải cải tiến các phương pháp hiện có để tối ưu hóa kết quả phân loại. Việc sử dụng công nghệ thông tinxử lý ngôn ngữ tự nhiên (NLP) là rất quan trọng để đạt được mục tiêu này.

II. Bài toán và phạm vi

Bài toán phân loại tin tức trên báo điện tử có thể chia thành hai hướng: phân loại đơn nhãn và đa nhãn. Trong luận văn này, tác giả tập trung vào phân loại văn bản đơn nhãn cho tiếng Việt, áp dụng phương pháp học có giám sát. Việc phân loại này không chỉ giúp tổ chức thông tin mà còn hỗ trợ người dùng trong việc tìm kiếm và tiếp cận thông tin một cách nhanh chóng và hiệu quả. Các văn bản trên báo điện tử thường có nội dung phong phú và đa dạng, do đó việc xây dựng một hệ thống phân loại tự động là cần thiết. Điều này không chỉ tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc cung cấp thông tin cho người dùng.

III. Các công trình liên quan

Nhiều nghiên cứu đã chỉ ra rằng các phương pháp học máy như Naïve Bayes, KNN và SVM đã được áp dụng rộng rãi trong phân loại văn bản. Sebastiani (2002) đã tổng hợp và so sánh hiệu quả của các phương pháp này, cho thấy SVM và AdaBoost.MH đạt hiệu suất cao nhất. Hướng tiếp cận kết hợp giữa học máy và hệ thống chuyên gia đã được nhiều tác giả nghiên cứu nhằm cải thiện độ chính xác trong phân loại tin tức. Nghiên cứu của Villena-Román và cộng sự (2011) đã chỉ ra rằng việc kết hợp KNN với hệ thống chuyên gia có thể tăng cường độ chính xác và giảm thiểu các lỗi phân loại. Điều này cho thấy tiềm năng của việc kết hợp các phương pháp khác nhau để nâng cao hiệu quả phân loại.

IV. Phương pháp đề xuất

Luận văn đề xuất áp dụng các phương pháp phân loại như SVM, KNN và các phương pháp lai để cải thiện kết quả phân loại trên tập dữ liệu tiếng Việt. Việc cải tiến thuật toán KNN bằng cách áp dụng kỹ thuật gom cụm sẽ giúp giảm thiểu độ phức tạp trong tính toán và nâng cao hiệu suất. Ngoài ra, việc sử dụng cải tiến của phương pháp TF-IDF sẽ giúp tối ưu hóa quá trình phân tích dữ liệu và nâng cao độ chính xác trong việc phân loại. Các phương pháp này không chỉ được chứng minh là hiệu quả trong các nghiên cứu trước đó mà còn có thể được áp dụng linh hoạt cho nhiều loại dữ liệu khác nhau.

V. Đánh giá phương pháp

Để đánh giá hiệu quả của các phương pháp đã đề xuất, tác giả tiến hành thí nghiệm trên một tập dữ liệu cụ thể. Kết quả cho thấy rằng các bộ phân loại đạt được hiệu suất cao hơn so với các phương pháp truyền thống. Việc sử dụng các thuật toán học máy hiện đại cùng với cải tiến kỹ thuật đã chứng minh được giá trị thực tiễn trong việc phân loại tin tức trên báo điện tử tiếng Việt. Điều này không chỉ giúp cải thiện độ chính xác mà còn nâng cao khả năng xử lý và phân tích dữ liệu lớn trong thời gian ngắn.

VI. Tổng kết

Luận văn đã chỉ ra rằng việc phân loại tin tức trên báo điện tử tiếng Việt có thể được cải thiện đáng kể thông qua việc áp dụng các phương pháp học máy hiện đại. Sự kết hợp giữa các kỹ thuật khác nhau không chỉ mang lại hiệu quả cao trong việc phân loại mà còn mở ra hướng nghiên cứu mới cho việc áp dụng công nghệ thông tin trong lĩnh vực truyền thông. Những kết quả đạt được từ nghiên cứu này có thể được áp dụng trong thực tiễn, giúp các nhà báo và tổ chức truyền thông quản lý thông tin hiệu quả hơn.

07/01/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính phân loại tin tức trên báo điện tử tiếng việt
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính phân loại tin tức trên báo điện tử tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Phân loại tin tức trên báo điện tử tiếng Việt của tác giả Đồng Thanh Đức, dưới sự hướng dẫn của GS. Cao Hoàng Trụ, tại Đại học Quốc gia TP. HCM, tập trung vào việc phân loại tin tức trong bối cảnh báo điện tử tiếng Việt. Nghiên cứu này không chỉ giúp cải thiện khả năng tìm kiếm và truy xuất thông tin trên các nền tảng báo chí mà còn góp phần nâng cao chất lượng nội dung và trải nghiệm của người đọc. Việc phân loại tin tức một cách hiệu quả sẽ hỗ trợ độc giả dễ dàng tiếp cận thông tin phù hợp với nhu cầu của họ, từ đó thúc đẩy việc tiêu thụ nội dung báo chí một cách thông minh hơn.

Để mở rộng thêm hiểu biết về lĩnh vực này, bạn có thể tham khảo các tài liệu liên quan như Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt, nơi đề cập đến các kỹ thuật xử lý văn bản, hay Luận văn thạc sĩ: Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính, cung cấp cái nhìn về công nghệ mới trong phân loại văn bản. Cuối cùng, bạn cũng có thể xem qua Luận văn thạc sĩ: Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính, để hiểu rõ hơn về các phương pháp trích xuất thông tin trong lĩnh vực công nghệ thông tin. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về công nghệ và phương pháp phân loại thông tin hiện đại.

Tải xuống (62 Trang - 855.57 KB)