Luận văn thạc sĩ: Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông

Trường đại học

Đại Học Bách Khoa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

118
3
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu về phân loại bản tin online

Phân loại bản tin online là một trong những thách thức lớn trong lĩnh vực kỹ thuật viễn thôngmáy học. Với sự bùng nổ của thông tin trên Internet, việc phân loại các bản tin theo chủ đề trở nên cần thiết để giúp người đọc dễ dàng tiếp cận thông tin mà họ quan tâm. Các bản tin online thường được phát hành từ nhiều nguồn khác nhau, dẫn đến sự phong phú về nội dung và chủ đề. Do đó, việc áp dụng máy học để phân loại các bản tin này không chỉ giúp tiết kiệm thời gian cho các biên tập viên mà còn nâng cao hiệu quả trong việc cung cấp thông tin cho người dùng. Nghiên cứu này sẽ tập trung vào việc sử dụng các mô hình neural networks (NN) và support vector machine (SVM) để cải thiện khả năng phân loại các bản tin online tiếng Việt, từ đó giảm thiểu sự nhầm lẫn trong quá trình phân loại.

1.1 Tầm quan trọng của việc phân loại bản tin

Việc phân loại bản tin online không chỉ giúp cải thiện trải nghiệm của người dùng mà còn hỗ trợ các nhà báo trong việc quản lý thông tin. Theo một nghiên cứu gần đây, phân loại bản tin giúp giảm thiểu thời gian tìm kiếm thông tin và nâng cao khả năng tiếp cận thông tin cho người đọc. Các công nghệ xử lý ngôn ngữ tự nhiên (NLP) đang ngày càng phát triển, cho phép các hệ thống tự động phân loại bản tin một cách hiệu quả hơn. Điều này không chỉ giúp các biên tập viên tiết kiệm thời gian mà còn đảm bảo rằng người đọc nhận được thông tin chính xác và kịp thời. Đặc biệt, trong bối cảnh hiện nay, khi mà lượng thông tin được phát hành hàng ngày rất lớn, việc áp dụng máy học vào phân loại bản tin trở nên cực kỳ cần thiết.

II. Phương pháp nghiên cứu

Nghiên cứu này áp dụng các phương pháp máy học hiện đại để phân loại các bản tin online. Đầu tiên, một bộ dữ liệu lớn các bản tin tiếng Việt được thu thập từ các trang báo điện tử uy tín. Sau đó, các phương pháp tiền xử lý như loại bỏ nhiễu và chuẩn hóa dữ liệu được thực hiện để đảm bảo tính chính xác của dữ liệu đầu vào. Tiếp theo, phương pháp Term Frequency - Inverse Document Frequency (TF-IDF) được sử dụng để trích xuất đặc trưng từ các bản tin. Tuy nhiên, TF-IDF có một số hạn chế về tính phân lớp, do đó mô hình neural networks được áp dụng để tạo ra các vector đặc trưng mới với tính phân lớp cao hơn. Cuối cùng, mô hình support vector machine được sử dụng để phân loại các bản tin dựa trên các vector đặc trưng đã được cải thiện.

2.1 Thu thập và tiền xử lý dữ liệu

Quá trình thu thập dữ liệu được thực hiện từ nhiều nguồn khác nhau để đảm bảo tính đại diện cho các chủ đề trong bản tin online. Các bản tin được thu thập sẽ trải qua quy trình tiền xử lý, bao gồm việc loại bỏ các ký tự đặc biệt, mã hóa HTML và chuyển đổi văn bản thành định dạng dễ xử lý. Điều này giúp cho việc phân tích và phân loại dữ liệu trở nên hiệu quả hơn. Sau khi dữ liệu đã được làm sạch, phương pháp TF-IDF được áp dụng để trích xuất các đặc trưng từ văn bản. Tuy nhiên, để cải thiện độ chính xác trong phân loại, mô hình NN sẽ được áp dụng để tạo ra các vector đặc trưng mới, giúp tăng cường khả năng phân loại của mô hình SVM.

III. Kết quả và thảo luận

Kết quả nghiên cứu cho thấy mô hình kết hợp giữa neural networkssupport vector machine mang lại hiệu quả phân loại cao hơn so với các phương pháp truyền thống. Cụ thể, mô hình NN đã tạo ra các vector đặc trưng có tính phân lớp tốt hơn, từ đó cải thiện độ chính xác của việc phân loại. Các thử nghiệm cho thấy rằng mô hình đề xuất không chỉ hoạt động tốt trên các bộ dữ liệu lớn mà còn có khả năng mở rộng cho các ứng dụng khác trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ngoài ra, việc áp dụng các kỹ thuật tự động hóa trong phân loại bản tin sẽ giúp giảm tải công việc cho các biên tập viên và nâng cao hiệu quả làm việc.

3.1 Đánh giá hiệu quả mô hình

Để đánh giá hiệu quả của mô hình, các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu được sử dụng. Kết quả cho thấy mô hình NN-SVM đạt được độ chính xác cao, vượt trội hơn so với các phương pháp phân loại khác. Điều này chứng minh rằng việc kết hợp giữa các mô hình máy học hiện đại có thể cải thiện đáng kể hiệu quả phân loại bản tin online. Hơn nữa, nghiên cứu cũng chỉ ra rằng việc áp dụng máy học trong phân loại bản tin không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng thông tin được cung cấp cho người đọc.

05/01/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học
Bạn đang xem trước tài liệu : Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông của tác giả Tô Nguyễn Phước Vinh, dưới sự hướng dẫn của PGS. Hà Hoàng Kha, được thực hiện tại Đại Học Bách Khoa vào năm 2021 tại TP. Hồ Chí Minh. Bài viết tập trung vào việc ứng dụng máy học để phân loại các bản tin online, một vấn đề ngày càng trở nên quan trọng trong lĩnh vực kỹ thuật viễn thông. Những điểm chính của nghiên cứu bao gồm phương pháp tiếp cận, các thuật toán máy học được áp dụng và kết quả đạt được. Bài viết không chỉ cung cấp cái nhìn sâu sắc về công nghệ máy học mà còn mở ra hướng đi mới cho việc cải thiện chất lượng thông tin trong các bản tin online.

Để mở rộng kiến thức của bạn về các ứng dụng trong lĩnh vực viễn thông, hãy tham khảo thêm bài viết Luận văn thạc sĩ về điều khiển bước đi cho robot humanoid trong lĩnh vực kỹ thuật cơ điện tử, nơi bạn có thể tìm hiểu về các ứng dụng máy học trong điều khiển tự động. Bên cạnh đó, Luận án tiến sĩ về rối lai và ứng dụng trong viễn chuyển trạng thái lượng tử và viễn tác toán tử cũng cung cấp cái nhìn về các ứng dụng phức tạp của máy học trong vật lý, có thể liên quan đến những công nghệ tiên tiến trong viễn thông. Cuối cùng, bài viết Tối ưu hóa hiệu năng hệ thống thông tin vô tuyến đa người dùng MIMO và Massive MIMO sẽ giúp bạn hiểu rõ hơn về việc tối ưu hóa trong các hệ thống truyền thông hiện đại, liên quan mật thiết đến việc phân loại và xử lý thông tin.

Tải xuống (118 Trang - 3.85 MB)