Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet, lượng tin tức trực tuyến ngày càng tăng nhanh, kéo theo sự gia tăng đáng kể của tin tức giả mạo với nhiều hậu quả tiêu cực cho xã hội. Theo ước tính, trong bộ dữ liệu nghiên cứu gồm 1200 bài báo tiếng Việt thu thập từ năm 2018 đến 2023, có khoảng 25% tin tức được xác định là giả mạo. Tin tức giả mạo là những thông tin sai lệch, được tạo ra với mục đích lừa dối hoặc gây ảnh hưởng tiêu cực đến các lĩnh vực như chính trị, kinh tế, văn hóa, y tế và xã hội. Việc phát hiện và phân loại tin tức giả mạo trở thành một thách thức lớn do số lượng tin tức khổng lồ và sự đa dạng về chủ đề.

Mục tiêu của luận văn là nghiên cứu và phát triển phương pháp phân loại tin tức giả mạo tiếng Việt dựa trên tiếp cận đồ thị tri thức (Knowledge Graph) kết hợp với mô hình học bán giám sát Graph Convolutional Network (GCN). Phạm vi nghiên cứu bao gồm thu thập dữ liệu từ các trang báo điện tử phổ biến như VnExpress, Tuổi Trẻ, Báo Mới, kết hợp với bộ dữ liệu VFND tiếng Việt, nhằm xây dựng bộ dữ liệu đa dạng về chủ đề và phong phú về nội dung. Nghiên cứu hướng tới nâng cao độ chính xác phân loại tin tức giả mạo, đồng thời giảm thiểu yêu cầu về dữ liệu gán nhãn, góp phần hỗ trợ các hệ thống kiểm duyệt và xác thực thông tin trên môi trường mạng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Đồ thị và đồ thị tri thức (Knowledge Graph - KG): Đồ thị được định nghĩa là tập hợp các đỉnh (đại diện cho thực thể, sự kiện) và các cạnh (mối quan hệ giữa các đỉnh). Đồ thị tri thức là mô hình biểu diễn tri thức thực tiễn dưới dạng đồ thị có gán nhãn, cho phép biểu diễn các thực thể và mối quan hệ một cách rõ ràng, hỗ trợ truy vấn và suy luận hiệu quả.

  • Phương pháp học máy phân loại tin tức giả mạo: Bao gồm học có giám sát, học không giám sát và học bán giám sát. Trong đó, học bán giám sát kết hợp dữ liệu có nhãn và không có nhãn, phù hợp với thực tế khi dữ liệu gán nhãn còn hạn chế.

  • Mạng nơ-ron đồ thị (Graph Neural Networks - GNN), đặc biệt là Graph Convolutional Network (GCN): GCN là mô hình học sâu trên dữ liệu đồ thị, cho phép học biểu diễn các nút dựa trên thông tin của các nút láng giềng, giúp khai thác cấu trúc phức tạp của đồ thị tri thức để phân loại tin tức giả mạo hiệu quả.

Các khái niệm chính bao gồm: đồ thị vô hướng, đồ thị có hướng, đồ thị tương tự (similarity graph), triple sets (bộ ba thực thể - quan hệ - thực thể), Word Mover's Distance (WMD) để đo độ tương tự ngữ nghĩa giữa các văn bản.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm 1200 bài báo tiếng Việt thu thập từ các trang báo điện tử uy tín và bộ dữ liệu VFND, trong đó có 300 bài báo giả mạo, 300 bài báo thật và 600 bài báo chưa gán nhãn. Dữ liệu trải dài nhiều lĩnh vực như thể thao, văn hóa, xã hội, kinh tế, pháp luật, y tế và sức khỏe, được thu thập trong giai đoạn 2018-2023.

Phương pháp nghiên cứu gồm các bước:

  1. Tiền xử lý dữ liệu: Làm sạch dữ liệu, tách câu, chuẩn hóa từ, loại bỏ stopwords, mã hóa nhãn.

  2. Nhúng từ (Word Embedding): Sử dụng thuật toán GloVe để chuyển đổi văn bản thành vector biểu diễn trong không gian Euclide.

  3. Xây dựng đồ thị tương tự: Tính toán độ tương tự giữa các bài báo bằng Word Mover's Distance (WMD), áp dụng thuật toán K-Nearest Neighbors (KNN) với K=5 để kết nối các nút tương tự, tạo thành đồ thị tương tự.

  4. Xây dựng đồ thị tri thức: Trích xuất thực thể và quan hệ từ văn bản bằng mô hình REBEL, biểu diễn dưới dạng triple sets, từ đó xây dựng đồ thị tri thức với các đỉnh là thực thể và các cạnh là quan hệ.

  5. Phân loại tin tức giả mạo: Áp dụng mô hình học bán giám sát GCN trên đồ thị tri thức để phân loại các bài báo chưa gán nhãn thành thật hoặc giả mạo.

  6. Đánh giá mô hình: Sử dụng các chỉ số accuracy, precision, recall và F1-score trên tập kiểm thử chiếm 30% dữ liệu.

Quá trình huấn luyện mô hình GCN được thực hiện với 1000 epochs, dropout=0.005, hidden layer size=16, weight decay=5e-4, sử dụng kỹ thuật early stopping và cross-validation để tránh overfitting.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình GCN với K=5 tốt hơn K=3: Khi xây dựng đồ thị tương tự với K=5, các chỉ số đánh giá mô hình đều cao hơn so với K=3, cho thấy việc kết nối nhiều nút láng giềng hơn giúp mô hình học được biểu diễn phong phú hơn.

  2. Tăng tỷ lệ dữ liệu gán nhãn cải thiện độ chính xác: Khi tỷ lệ dữ liệu gán nhãn tăng từ 20% lên 50%, độ chính xác phân loại tin tức giả mạo tăng từ khoảng 63.9% lên đến 85.1%, minh chứng cho tầm quan trọng của dữ liệu gán nhãn trong học bán giám sát.

  3. Mô hình GCN vượt trội so với các phương pháp học có giám sát truyền thống: So với các thuật toán như SVM, Naive Bayes, mô hình GCN tận dụng cấu trúc đồ thị tri thức giúp cải thiện đáng kể độ chính xác phân loại, đặc biệt trong điều kiện dữ liệu gán nhãn hạn chế.

  4. Khả năng chống overfitting hiệu quả: Việc áp dụng dropout 0.5, early stopping và cross-validation giúp mô hình tránh được hiện tượng overfitting, đảm bảo tính tổng quát khi áp dụng trên dữ liệu mới.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình GCN đạt hiệu quả cao là do khả năng khai thác thông tin cấu trúc đồ thị tri thức, tận dụng mối quan hệ giữa các thực thể và bài báo để nâng cao biểu diễn đặc trưng. So với các mô hình học sâu truyền thống như LSTM hay GRU chỉ xử lý dữ liệu tuần tự, GCN xử lý dữ liệu phi Euclide, phù hợp với cấu trúc phức tạp của dữ liệu tin tức.

Kết quả cũng phù hợp với các nghiên cứu gần đây cho thấy học bán giám sát trên đồ thị tri thức giúp cải thiện độ chính xác trong các bài toán phân loại với dữ liệu gán nhãn hạn chế. Việc lựa chọn K=5 trong KNN giúp cân bằng giữa độ phủ và độ chính xác của đồ thị tương tự, tránh kết nối quá thưa hoặc quá dày gây ảnh hưởng đến hiệu suất mô hình.

Dữ liệu được trình bày qua biểu đồ precision và loss qua từng epoch cho thấy mô hình hội tụ ổn định sau khoảng 800 epochs, với độ chính xác validation đạt trên 85%. Bảng so sánh kết quả với các phương pháp khác cũng minh chứng ưu thế của phương pháp đề xuất.

Đề xuất và khuyến nghị

  1. Mở rộng và đa dạng hóa bộ dữ liệu gán nhãn: Tăng tỷ lệ dữ liệu gán nhãn lên trên 50% trong vòng 1-2 năm tới sẽ giúp nâng cao độ chính xác phân loại, đặc biệt với các chủ đề mới và đa dạng hơn. Chủ thể thực hiện: các tổ chức nghiên cứu, báo chí và cộng đồng kiểm duyệt thông tin.

  2. Phát triển hệ thống phân loại tin tức giả mạo tích hợp GCN: Triển khai mô hình GCN vào các nền tảng truyền thông xã hội và báo điện tử để tự động phát hiện và cảnh báo tin giả, giảm thiểu tác động tiêu cực. Thời gian thực hiện: 1 năm. Chủ thể: các công ty công nghệ, nhà phát triển phần mềm.

  3. Nâng cao khả năng xử lý ngôn ngữ tự nhiên tiếng Việt: Cải tiến các mô hình trích xuất thực thể và quan hệ (NER, RE) phù hợp với đặc thù tiếng Việt nhằm tăng chất lượng đồ thị tri thức. Chủ thể: các nhóm nghiên cứu NLP, trường đại học.

  4. Tích hợp thêm các nguồn dữ liệu xã hội và hành vi người dùng: Kết hợp dữ liệu mạng xã hội, hồ sơ người dùng để tăng cường phân loại tin tức giả mạo theo bối cảnh xã hội, nâng cao độ tin cậy. Thời gian: 2 năm. Chủ thể: các tổ chức nghiên cứu xã hội học và công nghệ thông tin.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Khoa học máy tính: Nghiên cứu phương pháp học máy trên dữ liệu đồ thị, ứng dụng GCN trong xử lý ngôn ngữ tự nhiên và phân loại tin tức.

  2. Chuyên gia phát triển hệ thống kiểm duyệt nội dung và chống tin giả: Áp dụng mô hình học bán giám sát và đồ thị tri thức để xây dựng hệ thống phát hiện tin giả hiệu quả.

  3. Các tổ chức báo chí và truyền thông: Hiểu rõ về công nghệ phát hiện tin giả, áp dụng để nâng cao chất lượng thông tin và bảo vệ uy tín.

  4. Cơ quan quản lý nhà nước và chính phủ: Sử dụng kết quả nghiên cứu để xây dựng chính sách, công cụ hỗ trợ kiểm soát tin tức giả mạo trên môi trường mạng.

Câu hỏi thường gặp

  1. Phương pháp học bán giám sát có ưu điểm gì so với học có giám sát?
    Học bán giám sát tận dụng cả dữ liệu có nhãn và không có nhãn, giúp cải thiện hiệu quả khi dữ liệu gán nhãn hạn chế, giảm chi phí và thời gian gán nhãn thủ công.

  2. Tại sao chọn Graph Convolutional Network (GCN) cho bài toán này?
    GCN có khả năng học biểu diễn từ dữ liệu đồ thị, khai thác mối quan hệ phức tạp giữa các thực thể trong tin tức, giúp nâng cao độ chính xác phân loại so với các mô hình tuần tự truyền thống.

  3. Word Mover's Distance (WMD) đóng vai trò gì trong nghiên cứu?
    WMD đo khoảng cách ngữ nghĩa giữa các bài báo, giúp xây dựng đồ thị tương tự chính xác, từ đó cải thiện chất lượng đồ thị tri thức và hiệu quả mô hình phân loại.

  4. Làm thế nào để tránh hiện tượng overfitting trong mô hình?
    Luận văn áp dụng kỹ thuật dropout, early stopping, cross-validation và điều chỉnh siêu tham số để ngăn chặn overfitting, đảm bảo mô hình tổng quát tốt trên dữ liệu mới.

  5. Mô hình có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Việt không?
    Về nguyên tắc, phương pháp có thể áp dụng cho các ngôn ngữ khác nếu có bộ dữ liệu phù hợp và mô hình trích xuất thực thể, quan hệ được điều chỉnh tương thích với đặc thù ngôn ngữ đó.

Kết luận

  • Luận văn đã xây dựng thành công bộ dữ liệu tin tức giả mạo tiếng Việt đa dạng với 1200 bài báo, trong đó 50% được gán nhãn chính xác.
  • Phương pháp tiếp cận đồ thị tri thức kết hợp mô hình học bán giám sát GCN cho kết quả phân loại tin tức giả mạo với độ chính xác lên đến 85.1%.
  • Mô hình GCN vượt trội so với các phương pháp học có giám sát truyền thống nhờ khai thác hiệu quả cấu trúc dữ liệu đồ thị.
  • Kỹ thuật tiền xử lý dữ liệu, nhúng từ, xây dựng đồ thị tương tự và tri thức đóng vai trò quan trọng trong việc nâng cao hiệu quả mô hình.
  • Hướng phát triển tiếp theo là mở rộng dữ liệu gán nhãn, tích hợp thêm dữ liệu xã hội và cải tiến mô hình trích xuất thực thể, quan hệ để nâng cao độ chính xác và khả năng ứng dụng thực tế.

Để tiếp tục phát triển nghiên cứu, các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng và mở rộng phương pháp này trong các hệ thống kiểm duyệt tin tức trực tuyến, góp phần xây dựng môi trường thông tin lành mạnh và đáng tin cậy.