Luận văn thạc sĩ: Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông

Trường đại học

Đại Học Bách Khoa

Chuyên ngành

Kỹ thuật Viễn thông

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

118

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề nghiên cứu

1.2. Tình hình nghiên cứu

1.3. Lý do chọn đề tài

1.4. Mục tiêu và nhiệm vụ của luận văn

1.5. Đối tượng và phạm vi nghiên cứu

1.5.1. Đối tượng nghiên cứu

1.5.2. Phạm vi nghiên cứu

1.6. Phương pháp nghiên cứu

1.7. Bố cục của luận văn

1.8. Các bài báo đã hoàn thành trong luận văn

2. CHƯƠNG 2: TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU VÀ LÝ THUYẾT LIÊN QUAN

2.1. Nhúng từ

2.1.1. One-hot vector

2.1.2. Mô hình Skip-gram

2.1.3. Mô hình Continuous Bag of Words

2.1.4. Mô hình nhúng từ với vectors toàn cục

2.2. Chọn lọc đặc trưng

2.2.1. Frequency-based feature selection

2.2.2. Orthogonal centroid feature selection

2.3. Lý thuyết toán tối ưu

2.3.1. Tối ưu không ràng buộc

2.3.2. Momentum gradient descent

2.3.3. Tối ưu ràng buộc

2.3.4. Kết luận chương

3. CHƯƠNG 3: MÔ HÌNH KẾT HỢP NN VÀ SVM

3.1. Bộ dữ liệu bản tin online tiếng Việt

3.2. Tiền xử lý dữ liệu

3.3. Trích xuất đặc trưng Term Frequency - Inverse Document Frequency

3.3.1. Phân tách từ

3.3.2. Biến đổi Term Frequency - Inverse Document Frequency

3.4. Neural Networks cho giảm chiều dữ liệu

3.5. Bộ phân lớp sử dụng Support Vector Machine

3.6. Kết luận chương

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Thực nghiệm chọn mô hình Neural Networks cho phân loại chủ đề bản tin

4.2. Kết quả phân lớp

4.3. Kết quả thực nghiệm trên các bộ phân lớp khác nhau

5. CHƯƠNG 5: KẾT LUẬN CHUNG VÀ HƯỚNG NGHIÊN CỨU KẾ TIẾP

5.1. Kết luận chung

5.2. Hướng phát triển

5.2.1. Bộ dữ liệu

5.2.2. Trích xuất đặc trưng

5.2.3. Mô hình Neural Networks

5.2.4. Bộ phân lớp Support Vector Machine

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phân loại bản tin online

Phân loại bản tin online là một trong những thách thức lớn trong lĩnh vực kỹ thuật viễn thông và máy học. Với sự bùng nổ của thông tin trên Internet, việc phân loại các bản tin theo chủ đề trở nên cần thiết để giúp người đọc dễ dàng tiếp cận thông tin mà họ quan tâm. Các bản tin online thường được phát hành từ nhiều nguồn khác nhau, dẫn đến sự phong phú về nội dung và chủ đề. Do đó, việc áp dụng máy học để phân loại các bản tin này không chỉ giúp tiết kiệm thời gian cho các biên tập viên mà còn nâng cao hiệu quả trong việc cung cấp thông tin cho người dùng. Nghiên cứu này sẽ tập trung vào việc sử dụng các mô hình neural networks (NN) và support vector machine (SVM) để cải thiện khả năng phân loại các bản tin online tiếng Việt, từ đó giảm thiểu sự nhầm lẫn trong quá trình phân loại.

1.1 Tầm quan trọng của việc phân loại bản tin

Việc phân loại bản tin online không chỉ giúp cải thiện trải nghiệm của người dùng mà còn hỗ trợ các nhà báo trong việc quản lý thông tin. Theo một nghiên cứu gần đây, phân loại bản tin giúp giảm thiểu thời gian tìm kiếm thông tin và nâng cao khả năng tiếp cận thông tin cho người đọc. Các công nghệ xử lý ngôn ngữ tự nhiên (NLP) đang ngày càng phát triển, cho phép các hệ thống tự động phân loại bản tin một cách hiệu quả hơn. Điều này không chỉ giúp các biên tập viên tiết kiệm thời gian mà còn đảm bảo rằng người đọc nhận được thông tin chính xác và kịp thời. Đặc biệt, trong bối cảnh hiện nay, khi mà lượng thông tin được phát hành hàng ngày rất lớn, việc áp dụng máy học vào phân loại bản tin trở nên cực kỳ cần thiết.

II. Phương pháp nghiên cứu

Nghiên cứu này áp dụng các phương pháp máy học hiện đại để phân loại các bản tin online. Đầu tiên, một bộ dữ liệu lớn các bản tin tiếng Việt được thu thập từ các trang báo điện tử uy tín. Sau đó, các phương pháp tiền xử lý như loại bỏ nhiễu và chuẩn hóa dữ liệu được thực hiện để đảm bảo tính chính xác của dữ liệu đầu vào. Tiếp theo, phương pháp Term Frequency - Inverse Document Frequency (TF-IDF) được sử dụng để trích xuất đặc trưng từ các bản tin. Tuy nhiên, TF-IDF có một số hạn chế về tính phân lớp, do đó mô hình neural networks được áp dụng để tạo ra các vector đặc trưng mới với tính phân lớp cao hơn. Cuối cùng, mô hình support vector machine được sử dụng để phân loại các bản tin dựa trên các vector đặc trưng đã được cải thiện.

2.1 Thu thập và tiền xử lý dữ liệu

Quá trình thu thập dữ liệu được thực hiện từ nhiều nguồn khác nhau để đảm bảo tính đại diện cho các chủ đề trong bản tin online. Các bản tin được thu thập sẽ trải qua quy trình tiền xử lý, bao gồm việc loại bỏ các ký tự đặc biệt, mã hóa HTML và chuyển đổi văn bản thành định dạng dễ xử lý. Điều này giúp cho việc phân tích và phân loại dữ liệu trở nên hiệu quả hơn. Sau khi dữ liệu đã được làm sạch, phương pháp TF-IDF được áp dụng để trích xuất các đặc trưng từ văn bản. Tuy nhiên, để cải thiện độ chính xác trong phân loại, mô hình NN sẽ được áp dụng để tạo ra các vector đặc trưng mới, giúp tăng cường khả năng phân loại của mô hình SVM.

III. Kết quả và thảo luận

Kết quả nghiên cứu cho thấy mô hình kết hợp giữa neural networks và support vector machine mang lại hiệu quả phân loại cao hơn so với các phương pháp truyền thống. Cụ thể, mô hình NN đã tạo ra các vector đặc trưng có tính phân lớp tốt hơn, từ đó cải thiện độ chính xác của việc phân loại. Các thử nghiệm cho thấy rằng mô hình đề xuất không chỉ hoạt động tốt trên các bộ dữ liệu lớn mà còn có khả năng mở rộng cho các ứng dụng khác trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ngoài ra, việc áp dụng các kỹ thuật tự động hóa trong phân loại bản tin sẽ giúp giảm tải công việc cho các biên tập viên và nâng cao hiệu quả làm việc.

3.1 Đánh giá hiệu quả mô hình

Để đánh giá hiệu quả của mô hình, các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu được sử dụng. Kết quả cho thấy mô hình NN-SVM đạt được độ chính xác cao, vượt trội hơn so với các phương pháp phân loại khác. Điều này chứng minh rằng việc kết hợp giữa các mô hình máy học hiện đại có thể cải thiện đáng kể hiệu quả phân loại bản tin online. Hơn nữa, nghiên cứu cũng chỉ ra rằng việc áp dụng máy học trong phân loại bản tin không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng thông tin được cung cấp cho người đọc.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số mạnh mẽ, báo điện tử tại Việt Nam đã phát triển nhanh chóng với hơn 116 cơ quan báo điện tử và hàng trăm trang tin tổng hợp tính đến cuối năm 2019. Mỗi ngày, hàng ngàn bản tin online được đăng tải, tạo ra thách thức lớn trong việc phân loại chủ đề để phục vụ người đọc hiệu quả. Việc phân loại thủ công đòi hỏi nhiều thời gian và công sức từ các biên tập viên, đồng thời dễ dẫn đến sai sót và nhầm lẫn giữa các chủ đề. Do đó, ứng dụng các mô hình máy học trong phân loại chủ đề bản tin online trở thành một hướng nghiên cứu thiết thực và cấp thiết.

Luận văn tập trung vào việc phát triển mô hình kết hợp Neural Networks (NN) và Support Vector Machine (SVM) nhằm nâng cao hiệu quả phân loại bản tin online tiếng Việt. Bộ dữ liệu được xây dựng từ các trang báo điện tử lớn và uy tín tại Việt Nam, với số lượng chủ đề đa dạng và được phân chia hợp lý theo yêu cầu của biên tập viên nhằm tránh nhầm lẫn. Phạm vi nghiên cứu bao gồm các bản tin thu thập trong khoảng thời gian gần đây, tập trung vào ngôn ngữ tiếng Việt.

Mục tiêu chính của nghiên cứu là giảm thiểu thời gian phân loại thủ công, nâng cao độ chính xác phân loại và tối ưu hóa thời gian huấn luyện mô hình. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các cơ quan báo chí tự động hóa quy trình phân loại, đồng thời góp phần phát triển các ứng dụng xử lý ngôn ngữ tự nhiên (NLP) trong lĩnh vực truyền thông số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Nhúng từ (Word Embedding): Các kỹ thuật như One-hot vector, Skip-gram, Continuous Bag of Words (CBOW) và GloVe được sử dụng để chuyển đổi từ ngữ thành vector số thực, giúp mô hình hiểu được ngữ nghĩa và mối quan hệ giữa các từ trong văn bản.
Trích xuất đặc trưng TF-IDF: Phương pháp Term Frequency - Inverse Document Frequency được áp dụng để biến đổi văn bản thành vector đặc trưng số thực, phản ánh tần suất và mức độ quan trọng của từ trong từng bản tin.
Chọn lọc đặc trưng: Các kỹ thuật như Mutual Information (MI), Chi-square (χ²), Information Gain (IG), Frequency-based Feature Selection (FFS) và Orthogonal Centroid Feature Selection (OCFS) được khảo sát để giảm số lượng đặc trưng, loại bỏ nhiễu và tăng hiệu quả phân loại.
Mô hình Neural Networks (NN): Được sử dụng để giảm chiều dữ liệu và tạo ra vector đặc trưng mới có tính phân loại cao hơn từ vector TF-IDF thưa thớt.
Support Vector Machine (SVM): Đóng vai trò bộ phân lớp dựa trên các vector đặc trưng đầu ra từ NN, với các hàm kernel khác nhau và kỹ thuật phân lớp đa lớp “one-vs-one” và “one-vs-rest”.
Toán tối ưu: Các phương pháp tối ưu không ràng buộc (gradient descent, momentum, Nesterov momentum, stochastic gradient descent) và tối ưu có ràng buộc (phương pháp nhân tử Lagrange) được áp dụng để huấn luyện mô hình hiệu quả.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu bản tin online tiếng Việt được thu thập từ các trang báo điện tử lớn và uy tín tại Việt Nam như dantri.vn, với số lượng bản tin đa dạng theo nhiều chủ đề khác nhau.
Tiền xử lý dữ liệu: Loại bỏ nhiễu như thẻ HTML, ký tự đặc biệt, chuẩn hóa văn bản và tách từ theo mô hình kết hợp uni-gram và bi-gram.
Trích xuất đặc trưng: Áp dụng TF-IDF để chuyển đổi văn bản thành vector đặc trưng, sau đó sử dụng NN để giảm chiều và tăng tính phân loại.
Xây dựng mô hình: Huấn luyện mô hình NN với các cấu hình khác nhau về số lớp ẩn, số nút ẩn và hàm kích hoạt (ReLU, tanh). Sử dụng SVM với các hàm kernel phổ biến (linear, polynomial, RBF) để phân loại dựa trên đặc trưng đầu ra của NN.
Phân tích và so sánh: So sánh hiệu quả mô hình kết hợp NN-SVM với các phương pháp giảm chiều truyền thống và các bộ phân lớp khác như Naive Bayes, KNN, Random Forest.
Timeline nghiên cứu: Nghiên cứu được thực hiện từ tháng 02/2021 đến tháng 12/2021, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả bộ dữ liệu: Bộ dữ liệu mới thu thập bao gồm hàng ngàn bản tin với hơn 20 chủ đề khác nhau, được phân chia hợp lý theo yêu cầu biên tập viên, giúp giảm nhầm lẫn chủ đề. Số lượng bản tin phân bố không đồng đều nhưng đảm bảo tính đại diện cho từng chủ đề.
Tính phân loại của vector đặc trưng: Vector TF-IDF có đặc điểm thưa và khả năng phân loại hạn chế. Sau khi áp dụng mô hình NN để giảm chiều, vector đặc trưng mới có số chiều thấp hơn khoảng 10 lần nhưng tăng tính phân loại rõ rệt, thể hiện qua việc phân bố các chủ đề trên mặt phẳng 2 chiều có sự phân tách rõ ràng hơn.
Hiệu quả mô hình kết hợp NN-SVM: Mô hình kết hợp cho độ chính xác phân loại đạt khoảng 85-90%, vượt trội hơn so với các phương pháp truyền thống như SVM thuần túy hoặc các kỹ thuật giảm chiều kinh điển (IG, χ², OCFS). Thời gian huấn luyện cũng được rút ngắn đáng kể, giảm khoảng 30-40% so với các phương pháp trước.
So sánh các hàm kernel và kỹ thuật phân lớp: Kernel RBF trong SVM cho kết quả tốt nhất trong phân loại đa lớp, trong khi kỹ thuật “one-vs-rest” cho hiệu quả cao hơn “one-vs-one” về mặt thời gian và độ chính xác.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả là do mô hình NN đã tạo ra các vector đặc trưng có tính phân loại cao hơn, khắc phục nhược điểm thưa và kém phân biệt của vector TF-IDF. Việc kết hợp NN và SVM tận dụng ưu điểm của cả hai mô hình: NN giảm chiều và trích xuất đặc trưng, SVM phân loại chính xác trên không gian đặc trưng mới.

So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng mô hình sâu trong NLP, đồng thời cho thấy sự phù hợp của mô hình kết hợp trong ngữ cảnh tiếng Việt với đặc thù ngôn ngữ phức tạp. Các biểu đồ phân bố vector đặc trưng và bảng so sánh độ chính xác, thời gian huấn luyện minh họa rõ ràng sự vượt trội của mô hình đề xuất.

Kết quả này có ý nghĩa thực tiễn lớn trong việc tự động hóa phân loại bản tin online, giảm tải công việc cho biên tập viên và nâng cao trải nghiệm người đọc thông qua việc cung cấp các chủ đề chính xác và kịp thời.

Đề xuất và khuyến nghị

Triển khai mô hình kết hợp NN-SVM trong hệ thống phân loại bản tin: Các cơ quan báo chí nên áp dụng mô hình này để tự động phân loại chủ đề, giảm thời gian xử lý thủ công, hướng tới tự động hóa hoàn toàn trong vòng 6-12 tháng.
Mở rộng và cập nhật bộ dữ liệu thường xuyên: Để đảm bảo mô hình luôn phù hợp với xu hướng tin tức mới, cần xây dựng quy trình thu thập và cập nhật dữ liệu liên tục, tối thiểu mỗi quý một lần, do bộ phận kỹ thuật và biên tập phối hợp thực hiện.
Nâng cao chất lượng tiền xử lý và tách từ: Áp dụng các kỹ thuật tách từ tiên tiến hơn, kết hợp ngữ cảnh và từ điển chuyên ngành để giảm sai sót trong tiền xử lý, nâng cao chất lượng đặc trưng đầu vào, thực hiện trong vòng 3-6 tháng.
Khảo sát và thử nghiệm các mô hình sâu hơn: Nghiên cứu áp dụng các mô hình deep learning hiện đại như Transformer, BERT cho tiếng Việt để so sánh và cải tiến hiệu quả phân loại, triển khai thử nghiệm trong 12-18 tháng tới.
Đào tạo và nâng cao nhận thức cho biên tập viên: Tổ chức các khóa đào tạo về công nghệ AI và máy học cho biên tập viên để họ hiểu và phối hợp hiệu quả với hệ thống tự động, giúp tăng tính chính xác và hiệu quả công việc.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Kỹ thuật Viễn thông, Khoa học Máy tính, và Xử lý Ngôn ngữ Tự nhiên: Luận văn cung cấp kiến thức sâu rộng về ứng dụng máy học trong phân loại văn bản tiếng Việt, phương pháp trích xuất đặc trưng và tối ưu mô hình.
Các cơ quan báo chí và truyền thông điện tử: Hướng dẫn xây dựng hệ thống tự động phân loại bản tin, giúp giảm tải công việc biên tập và nâng cao chất lượng nội dung.
Các công ty phát triển phần mềm và nền tảng tin tức: Tham khảo để phát triển các sản phẩm phân loại tin tức tự động, cải thiện trải nghiệm người dùng và tối ưu quy trình xử lý dữ liệu.
Chuyên gia và nhà quản lý trong lĩnh vực AI và NLP: Cung cấp cái nhìn thực tiễn về việc áp dụng mô hình kết hợp NN-SVM trong môi trường tiếng Việt, từ đó đề xuất các chiến lược phát triển công nghệ phù hợp.

Câu hỏi thường gặp

Mô hình NN-SVM kết hợp hoạt động như thế nào trong phân loại bản tin?
Mô hình sử dụng NN để giảm chiều và tạo vector đặc trưng mới từ vector TF-IDF, sau đó SVM phân loại dựa trên vector này. Cách kết hợp này tận dụng ưu điểm của cả hai mô hình, nâng cao độ chính xác và giảm thời gian huấn luyện.
Bộ dữ liệu bản tin tiếng Việt được xây dựng như thế nào?
Bộ dữ liệu được thu thập từ các trang báo điện tử lớn tại Việt Nam, với hàng ngàn bản tin thuộc hơn 20 chủ đề khác nhau, được phân chia hợp lý theo yêu cầu biên tập viên nhằm tránh nhầm lẫn chủ đề.
Tại sao cần giảm chiều dữ liệu trước khi phân loại?
Vector TF-IDF thường rất thưa và có số chiều lớn, gây khó khăn cho việc phân loại và tăng thời gian huấn luyện. Giảm chiều giúp loại bỏ đặc trưng không cần thiết, tăng tính phân loại và giảm chi phí tính toán.
Các hàm kernel nào trong SVM được sử dụng và hiệu quả ra sao?
Các hàm kernel phổ biến như linear, polynomial và RBF được khảo sát. Kernel RBF cho kết quả phân loại tốt nhất trong bài toán đa lớp, đặc biệt khi kết hợp với vector đặc trưng đầu ra từ NN.
Mô hình này có thể áp dụng cho các ngôn ngữ khác không?
Cơ chế kết hợp NN và SVM là phổ quát và có thể áp dụng cho nhiều ngôn ngữ khác, tuy nhiên cần điều chỉnh bộ dữ liệu, tiền xử lý và tham số mô hình phù hợp với đặc thù ngôn ngữ đó.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu bản tin online tiếng Việt đa chủ đề, đáp ứng yêu cầu phân loại chính xác và hợp lý.
Phương pháp kết hợp Neural Networks và Support Vector Machine đã cải thiện đáng kể hiệu quả phân loại so với các phương pháp truyền thống.
Vector đặc trưng mới do NN tạo ra có số chiều thấp hơn nhưng tăng tính phân loại, giúp giảm thời gian huấn luyện và nâng cao độ chính xác.
Kết quả thực nghiệm cho thấy mô hình đề xuất đạt độ chính xác khoảng 85-90%, vượt trội so với các phương pháp trước đây.
Hướng nghiên cứu tiếp theo là mở rộng bộ dữ liệu, nâng cao kỹ thuật tiền xử lý và thử nghiệm các mô hình deep learning hiện đại hơn.

Các cơ quan báo chí và nhà phát triển phần mềm nên triển khai thử nghiệm mô hình trong môi trường thực tế, đồng thời tiếp tục nghiên cứu cải tiến để ứng dụng rộng rãi trong lĩnh vực truyền thông số.

Luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông của tác giả Tô Nguyễn Phước Vinh, dưới sự hướng dẫn của PGS. Hà Hoàng Kha, được thực hiện tại Đại Học Bách Khoa vào năm 2021 tại TP. Hồ Chí Minh. Bài viết tập trung vào việc ứng dụng máy học để phân loại các bản tin online, một vấn đề ngày càng trở nên quan trọng trong lĩnh vực kỹ thuật viễn thông. Những điểm chính của nghiên cứu bao gồm phương pháp tiếp cận, các thuật toán máy học được áp dụng và kết quả đạt được. Bài viết không chỉ cung cấp cái nhìn sâu sắc về công nghệ máy học mà còn mở ra hướng đi mới cho việc cải thiện chất lượng thông tin trong các bản tin online.

Để mở rộng kiến thức của bạn về các ứng dụng trong lĩnh vực viễn thông, hãy tham khảo thêm bài viết Luận văn thạc sĩ về điều khiển bước đi cho robot humanoid trong lĩnh vực kỹ thuật cơ điện tử, nơi bạn có thể tìm hiểu về các ứng dụng máy học trong điều khiển tự động. Bên cạnh đó, Luận án tiến sĩ về rối lai và ứng dụng trong viễn chuyển trạng thái lượng tử và viễn tác toán tử cũng cung cấp cái nhìn về các ứng dụng phức tạp của máy học trong vật lý, có thể liên quan đến những công nghệ tiên tiến trong viễn thông. Cuối cùng, bài viết Tối ưu hóa hiệu năng hệ thống thông tin vô tuyến đa người dùng MIMO và Massive MIMO sẽ giúp bạn hiểu rõ hơn về việc tối ưu hóa trong các hệ thống truyền thông hiện đại, liên quan mật thiết đến việc phân loại và xử lý thông tin.

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#kỹ thuật viễn thông

#phân loại bản tin

#bản tin online

Chủ đề

Công nghệ thông tin

Kỹ thuật viễn thông

Máy học và trí tuệ nhân tạo

Xử lý dữ liệu và phân tích thông tin