Ứng Dụng Học Biểu Diễn Đồ Thị Trong Phát Hiện Tin Giả

Chuyên khảo phân tích Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Quy Nhơn

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Đề Án Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

Lời cam đoan

Lời cảm ơn

Tóm tắt

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BẢNG

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về tin giả

1.1.1. Định nghĩa tin giả

1.1.2. Các phương pháp phát hiện tin giả

1.1.2.1. Dựa trên tri thức

1.1.2.2. Dựa trên văn phong

1.1.2.3. Dựa trên sự lan truyền

1.1.2.4. Dựa trên độ tin cậy

1.1.3. Các nghiên cứu liên quan

1.1.4. Tổng kết chương 1

2. CHƯƠNG 2: ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN TIN GIẢ

2.1. Phát biểu bài toán

2.2. Giới thiệu chung về phương pháp học biểu diễn đồ thị

2.3. Phát hiện tin giả sử dụng mô hình GCN

2.3.1. Giới thiệu chung về GCN

2.3.2. Ứng dụng GCN để phát hiện tin giả

2.4. Phát hiện tin giả sử dụng mô hình GAT

2.4.1. Giới thiệu chung về GAT

2.4.2. Ứng dụng GAT để phát hiện tin giả

2.5. Phát hiện tin giả sử dụng mô hình GRAPHSAGE

2.5.1. Giới thiệu chung về GRAPHSAGE

2.5.2. Ứng dụng GRAPHSAGE để phát hiện tin giả

2.6. Tổng kết chương 2

2.7. Cài đặt thực nghiệm

Kết luận

Tài liệu tham khảo

Tóm tắt

I. Tổng Quan Ứng Dụng Học Biểu Diễn Đồ Thị Tin Giả 55 ký tự

Trong kỷ nguyên số, tin giả đã trở thành một vấn nạn, lan truyền nhanh chóng trên các nền tảng truyền thông xã hội, gây ảnh hưởng tiêu cực đến đời sống xã hội, kinh tế, chính trị. Việc phát hiện tin giả thủ công không còn hiệu quả trước khối lượng thông tin khổng lồ. Các phương pháp học máy truyền thống cũng bộc lộ hạn chế khi chưa khai thác triệt để cấu trúc đồ thị của mạng xã hội. Đề án này tập trung nghiên cứu và ứng dụng học biểu diễn đồ thị (Graph Representation Learning) để giải quyết bài toán phát hiện tin giả, một hướng đi đầy tiềm năng và hứa hẹn mang lại hiệu quả cao hơn. Mục tiêu là nghiên cứu các mô hình phát hiện tin giả sử dụng học biểu diễn đồ thị, cài đặt thực nghiệm và đánh giá hiệu quả của các mô hình này. Các mạng nơ-ron đồ thị (GNN) nổi lên như một giải pháp đầy hứa hẹn để giải quyết bài toán này.

1.1. Tác Động Tiêu Cực Của Tin Giả Trong Xã Hội Số

Tin giả không chỉ gây hoang mang, lo sợ trong cộng đồng mà còn ảnh hưởng đến sức khỏe, kinh tế, và uy tín của các tổ chức, doanh nghiệp. Sự lan truyền của tin giả có thể kích thích sự chia rẽ, bất đồng quan điểm, và thậm chí là công cụ tấn công chính trị. Theo nghiên cứu, tin giả lan truyền nhanh hơn và rộng hơn so với tin thật, đặc biệt là trên các nền tảng như Twitter. Đại dịch COVID-19 là một ví dụ điển hình về tác hại của tin giả, khi thông tin sai lệch về nguồn gốc, cách phòng ngừa, và điều trị bệnh lan tràn trên mạng, gây ra những hậu quả nghiêm trọng.

1.2. Hạn Chế Của Phương Pháp Phát Hiện Tin Giả Truyền Thống

Các phương pháp phát hiện tin giả thủ công và dựa trên học máy truyền thống (như SVM, k-NN) gặp nhiều khó khăn trong việc xử lý khối lượng thông tin lớn và khai thác cấu trúc đồ thị của mạng xã hội. Giả định các mục tin là độc lập không phù hợp với dữ liệu đồ thị, nơi các đỉnh có thể kết nối với nhau thông qua nhiều loại quan hệ khác nhau. Do đó, hiệu quả của các phương pháp này bị hạn chế. Theo tài liệu gốc, cần thiết có một phương pháp tự động để phát hiện tin giả mà có thể khai thác cấu trúc đồ thị, điều mà các phương pháp học máy truyền thống còn thiếu.

II. Bài Toán Phát Hiện Tin Giả Và Các Cách Tiếp Cận 56 ký tự

Bài toán phát hiện tin giả là một thách thức lớn, đòi hỏi sự kết hợp của nhiều kỹ thuật và kiến thức khác nhau. Các cách tiếp cận hiện tại có thể được phân loại dựa trên nhiều yếu tố, bao gồm nội dung tin tức, nguồn phát tán, sự lan truyền tin tức, và độ tin cậy của nguồn. Mỗi cách tiếp cận có những ưu điểm và hạn chế riêng, và việc kết hợp chúng có thể mang lại hiệu quả tốt hơn. Việc xác định ranh giới giữa tin giả và tin thật ngày càng trở nên khó khăn, đòi hỏi các phương pháp phát hiện phải ngày càng tinh vi và chính xác hơn.

2.1. Định Nghĩa Tin Giả Khái Niệm Và Đặc Điểm Cốt Lõi

Mặc dù có nhiều nghiên cứu về tin giả, vẫn chưa có một định nghĩa thống nhất về thuật ngữ này. Tuy nhiên, có thể hiểu tin tức là siêu thông tin, bao gồm các yếu tố như nguồn, tiêu đề, nội dung chính, hình ảnh/video, và liên kết. Trong bối cảnh số hóa, việc định nghĩa truyền thống về tin tức bị thách thức, khi người dùng thông thường cũng có thể tiếp cận và tạo ra thông tin. Do đó, việc xác định tin giả đòi hỏi sự phân tích kỹ lưỡng và toàn diện các yếu tố này. Cần phân biệt tin giả với các khái niệm liên quan như tin sai lệch, tin đồn, và tin thiên vị.

2.2. Phân Loại Các Phương Pháp Phát Hiện Tin Giả Hiện Nay

Các phương pháp phát hiện tin giả có thể được phân loại dựa trên nhiều tiêu chí khác nhau. Một số phương pháp tập trung vào phân tích nội dung của tin tức, sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để xác định các dấu hiệu của tin giả. Các phương pháp khác tập trung vào phân tích nguồn phát tán và sự lan truyền của tin tức trên mạng xã hội, sử dụng phân tích mạng xã hội để xác định các mẫu lan truyền đáng ngờ. Ngoài ra, còn có các phương pháp dựa trên tri thức, sử dụng các cơ sở dữ liệu tri thức để kiểm tra tính xác thực của thông tin.

III. Học Biểu Diễn Đồ Thị Giải Pháp Phát Hiện Tin Giả 57 ký tự

Học biểu diễn đồ thị (GRL) là một lĩnh vực nghiên cứu mới nổi, tập trung vào việc học các biểu diễn vector của các nút trong một đồ thị, sao cho các biểu diễn này phản ánh cấu trúc và thuộc tính của đồ thị. GRL đã được chứng minh là hiệu quả trong nhiều bài toán khác nhau, bao gồm dự đoán liên kết, phân loại nút, và phát hiện cộng đồng. Trong bài toán phát hiện tin giả, GRL có thể được sử dụng để học các biểu diễn của các bài viết tin tức và người dùng trên mạng xã hội, từ đó giúp phân biệt tin giả và tin thật.

3.1. Tổng Quan Về Học Biểu Diễn Đồ Thị Graph Representation Learning

Học biểu diễn đồ thị (GRL), hay mạng nơ-ron đồ thị (GNN), là một phương pháp học sâu tiến hành dự đoán trên dữ liệu được mô tả bằng đồ thị. GRL tập trung vào việc học các biểu diễn vector của các nút trong đồ thị, sao cho các biểu diễn này phản ánh cấu trúc và thuộc tính của đồ thị. GRL có nhiều ưu điểm so với các phương pháp học máy truyền thống, bao gồm khả năng xử lý dữ liệu phi cấu trúc, khả năng học các biểu diễn phức tạp, và khả năng tổng quát hóa tốt. Điều này làm cho GRL trở thành một công cụ mạnh mẽ để giải quyết nhiều bài toán khác nhau.

3.2. Ứng Dụng GNN Để Phát Hiện Tin Giả Lợi Ích Vượt Trội

GNN có thể được sử dụng để học các biểu diễn của các bài viết tin tức và người dùng trên mạng xã hội, từ đó giúp phân biệt tin giả và tin thật. GNN có thể khai thác thông tin từ cả nội dung của bài viết và cấu trúc mạng xã hội, giúp nâng cao hiệu quả phát hiện tin giả. Các mô hình GNN như Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), và Graph Sample and Aggregated (GRAPHSAGE) đã được chứng minh là hiệu quả trong bài toán phát hiện tin giả.

IV. Thực Nghiệm Đánh Giá Các Mô Hình Học Biểu Diễn 59 ký tự

Để đánh giá hiệu quả của các mô hình học biểu diễn đồ thị trong bài toán phát hiện tin giả, đề án này tiến hành cài đặt thực nghiệm trên bộ dữ liệu FakenewsNet (Politifact, Gossipcop). Kết quả thực nghiệm cho thấy các mô hình GCN, GAT, và GRAPHSAGE đều vượt trội hơn so với các phương pháp học máy truyền thống. So sánh giữa các mô hình GRL, GAT cho kết quả tốt nhất, cho thấy tầm quan trọng của việc chú ý đến các nút lân cận quan trọng. Việc trực quan hóa dữ liệu trước và sau khi thực thi cũng giúp hiểu rõ hơn về cách các mô hình GRL hoạt động.

4.1. Thiết Lập Thực Nghiệm Bộ Dữ Liệu Và Phương Pháp Đánh Giá

Thực nghiệm được thực hiện trên bộ dữ liệu FakenewsNet, bao gồm hai tập con Politifact và Gossipcop. Các tập dữ liệu này chứa thông tin về các bài viết tin tức, người dùng, và các mối quan hệ tương tác giữa chúng. Hiệu quả của các mô hình được đánh giá dựa trên các chỉ số như độ chính xác (accuracy), độ thu hồi (recall), độ đo F1 (F1-score), và diện tích dưới đường cong ROC (AUC). Các mô hình được so sánh với các phương pháp học máy truyền thống như SVM và k-NN để đánh giá mức độ cải thiện.

4.2. Kết Quả Và Thảo Luận Ưu Điểm Của Mô Hình Graph Attention

Kết quả thực nghiệm cho thấy các mô hình GCN, GAT, và GRAPHSAGE đều vượt trội hơn so với các phương pháp học máy truyền thống trên cả hai tập dữ liệu Politifact và Gossipcop. Trong số các mô hình GRL, GAT cho kết quả tốt nhất, cho thấy tầm quan trọng của việc chú ý đến các nút lân cận quan trọng. Điều này có nghĩa là việc tập trung vào các nguồn thông tin đáng tin cậy và các mối quan hệ quan trọng trong mạng xã hội có thể giúp cải thiện hiệu quả phát hiện tin giả.

V. Kết Luận Và Hướng Phát Triển Trong Tương Lai 53 ký tự

Đề án này đã nghiên cứu và ứng dụng thành công học biểu diễn đồ thị trong bài toán phát hiện tin giả. Các kết quả thực nghiệm cho thấy tiềm năng lớn của các mô hình GRL trong việc giải quyết bài toán này. Trong tương lai, có thể tiếp tục nghiên cứu các mô hình GRL phức tạp hơn, kết hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên và phân tích mạng xã hội để nâng cao hiệu quả phát hiện tin giả. Ngoài ra, cần chú trọng đến việc xây dựng các bộ dữ liệu lớn và đa dạng hơn để huấn luyện và đánh giá các mô hình.

5.1. Tóm Tắt Đóng Góp Của Nghiên Cứu Về Tin Giả GNN

Đề án đã đóng góp vào việc nghiên cứu và ứng dụng học biểu diễn đồ thị trong bài toán phát hiện tin giả. Cụ thể, đề án đã nghiên cứu các mô hình GCN, GAT, và GRAPHSAGE, cài đặt thực nghiệm trên bộ dữ liệu FakenewsNet, và đánh giá hiệu quả của các mô hình này. Kết quả thực nghiệm cho thấy các mô hình GRL vượt trội hơn so với các phương pháp học máy truyền thống, và GAT cho kết quả tốt nhất. Nghiên cứu này cung cấp một hướng đi tiềm năng để giải quyết bài toán phát hiện tin giả.

5.2. Hướng Nghiên Cứu Tiếp Theo Để Nâng Cao Hiệu Quả GNN

Trong tương lai, có thể tiếp tục nghiên cứu các mô hình GRL phức tạp hơn, chẳng hạn như các mô hình kết hợp GRL với các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và phân tích mạng xã hội. Cần chú trọng đến việc xây dựng các bộ dữ liệu lớn và đa dạng hơn để huấn luyện và đánh giá các mô hình. Ngoài ra, cần nghiên cứu các phương pháp giải thích kết quả của các mô hình GRL, giúp người dùng hiểu rõ hơn về lý do tại sao một bài viết tin tức bị coi là tin giả.

23/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh xã hội hiện đại, tin giả trên mạng xã hội ngày càng gia tăng với tốc độ lan truyền nhanh chóng, gây ra nhiều tác động tiêu cực đến đời sống xã hội, kinh tế và chính trị. Theo báo cáo của ngành, các tin giả liên quan đến các sự kiện chính trị, y tế và kinh tế đã tạo ra hàng nghìn lượt chia sẻ và tương tác trên các nền tảng như Facebook và Twitter, vượt xa so với tin thật. Việc phát hiện tin giả thủ công không còn phù hợp với lượng thông tin khổng lồ được tạo ra hàng ngày trên không gian mạng. Các nền tảng truyền thông xã hội có cấu trúc dữ liệu dạng đồ thị, trong đó các nút đại diện cho người dùng hoặc bài viết, còn các cạnh thể hiện mối quan hệ hoặc sự lan truyền thông tin.

Mục tiêu của luận văn là nghiên cứu và ứng dụng các phương pháp học biểu diễn đồ thị (Graph Representation Learning) để phát hiện tin giả trên mạng xã hội, nhằm nâng cao hiệu quả so với các phương pháp học máy truyền thống chưa khai thác triệt để cấu trúc đồ thị. Phạm vi nghiên cứu tập trung vào bộ dữ liệu FakenewsNet gồm hai tập con Politifact và Gossipcop, đại diện cho các tin tức chính trị và giải trí, được thu thập trong năm 2023. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác phát hiện tin giả, góp phần giảm thiểu tác động tiêu cực của tin giả đối với xã hội và nâng cao tính tin cậy của thông tin trên mạng xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học biểu diễn đồ thị, trong đó nổi bật là:

Mạng nơ ron đồ thị (Graph Neural Network - GNN): Mạng nơ ron chuyên xử lý dữ liệu dạng đồ thị, cho phép học các biểu diễn đặc trưng của các nút và cạnh dựa trên cấu trúc liên kết.
Mạng tích chập đồ thị (Graph Convolutional Network - GCN): Biến thể của GNN sử dụng phép tích chập trên đồ thị để tổng hợp thông tin từ các nút lân cận, giúp học biểu diễn đặc trưng hiệu quả.
Mạng chú ý đồ thị (Graph Attention Network - GAT): Mạng nơ ron đồ thị sử dụng cơ chế attention để gán trọng số khác nhau cho các nút lân cận, tập trung vào các nút quan trọng hơn trong quá trình học.
Đồ thị mẫu và tổng hợp (Graph Sample and Aggregated - GraphSAGE): Phương pháp học biểu diễn đồ thị bằng cách lấy mẫu các nút lân cận và tổng hợp thông tin theo các hàm tổng hợp khác nhau, giúp xử lý đồ thị lớn hiệu quả.

Các khái niệm chính bao gồm: ma trận kề (adjacency matrix), ma trận bậc (degree matrix), ma trận đặc trưng (feature matrix), và các phép toán chuẩn hóa ma trận kề để ổn định quá trình huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu FakenewsNet, bao gồm hai tập Politifact và Gossipcop, với tổng số mẫu khoảng vài nghìn tin tức được gán nhãn thật/giả. Phương pháp chọn mẫu là lấy toàn bộ dữ liệu có sẵn để đảm bảo tính đại diện và đa dạng của các loại tin tức.

Phương pháp phân tích sử dụng các mô hình học biểu diễn đồ thị GCN, GAT và GraphSAGE để xây dựng mô hình phát hiện tin giả dựa trên cấu trúc lan truyền tin tức trên mạng xã hội. Các mô hình được huấn luyện và đánh giá trên cùng bộ dữ liệu, so sánh với các phương pháp học máy truyền thống như SVM và k-NN.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2023 đến cuối năm 2023, bao gồm các bước: tổng quan lý thuyết, thiết kế mô hình, cài đặt thực nghiệm, đánh giá kết quả và thảo luận.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả vượt trội của học biểu diễn đồ thị so với học máy truyền thống: Mô hình GCN đạt độ chính xác trung bình trên tập Politifact và Gossipcop lần lượt là khoảng 85% và 88%, cao hơn từ 7-10% so với các phương pháp SVM và k-NN truyền thống.
So sánh giữa các mô hình học biểu diễn đồ thị: GAT thể hiện khả năng tập trung vào các nút quan trọng trong đồ thị, đạt độ chính xác cao nhất khoảng 90% trên tập Gossipcop, vượt trội hơn GCN và GraphSAGE khoảng 3-5%. GraphSAGE cho kết quả ổn định và hiệu quả trên đồ thị lớn với độ chính xác khoảng 87%.
Tác động của việc chuẩn hóa ma trận kề: Việc áp dụng chuẩn hóa đối xứng ma trận kề giúp giảm thiểu hiện tượng vanishing gradient và exploding gradient, cải thiện độ ổn định và tốc độ hội tụ của mô hình, tăng độ chính xác lên khoảng 2-3%.
Tác động của số lớp mạng: Mô hình với 2-3 lớp GCN hoặc GAT đạt hiệu quả tốt nhất; tăng số lớp quá nhiều gây hiện tượng quá khớp và giảm hiệu quả do mất thông tin cục bộ.

Thảo luận kết quả

Kết quả cho thấy việc khai thác cấu trúc đồ thị lan truyền tin tức trên mạng xã hội giúp mô hình học sâu nắm bắt được mối quan hệ phức tạp giữa các bài viết và người dùng, từ đó phát hiện tin giả hiệu quả hơn so với các phương pháp truyền thống chỉ dựa trên đặc trưng nội dung hoặc hồ sơ người dùng riêng lẻ.

Mô hình GAT với cơ chế attention cho phép tập trung vào các nút có ảnh hưởng lớn trong mạng lan truyền, phù hợp với đặc điểm lan truyền tin giả thường tập trung qua các tài khoản độc hại hoặc người dùng có ảnh hưởng. Điều này giải thích vì sao GAT đạt hiệu quả cao hơn GCN và GraphSAGE.

Việc chuẩn hóa ma trận kề là bước quan trọng để đảm bảo tính ổn định trong quá trình huấn luyện, tránh các vấn đề về gradient và giúp mô hình học được biểu diễn đặc trưng chính xác hơn. Kết quả này phù hợp với các nghiên cứu trước đây trong lĩnh vực học biểu diễn đồ thị.

Các biểu đồ so sánh độ chính xác giữa các mô hình và các phương pháp truyền thống, cũng như biểu đồ thể hiện ảnh hưởng của số lớp mạng và chuẩn hóa ma trận kề, sẽ minh họa rõ nét các phát hiện trên.

Đề xuất và khuyến nghị

Triển khai mô hình GAT trong hệ thống phát hiện tin giả trên mạng xã hội: Tập trung phát triển và tối ưu hóa mô hình GAT để tận dụng cơ chế attention, nhằm nâng cao độ chính xác phát hiện tin giả, đặc biệt trong các chiến dịch lan truyền nhanh.
Xây dựng hệ thống thu thập và xử lý dữ liệu đồ thị liên tục: Thiết lập pipeline tự động thu thập dữ liệu lan truyền tin tức trên mạng xã hội, cập nhật ma trận kề và đặc trưng nút để mô hình luôn được huấn luyện trên dữ liệu mới nhất, đảm bảo tính kịp thời và chính xác.
Áp dụng chuẩn hóa ma trận kề và điều chỉnh số lớp mạng phù hợp: Định kỳ đánh giá và điều chỉnh tham số chuẩn hóa cũng như số lớp mạng để tránh hiện tượng quá khớp hoặc mất thông tin, đảm bảo mô hình hoạt động ổn định và hiệu quả.
Phối hợp với các cơ quan quản lý và truyền thông: Cung cấp công cụ phát hiện tin giả tự động cho các nền tảng mạng xã hội và cơ quan báo chí để hỗ trợ kiểm duyệt và xác minh thông tin, góp phần nâng cao nhận thức cộng đồng và giảm thiểu tác hại của tin giả.

Các giải pháp trên nên được thực hiện trong vòng 12-18 tháng tới, với sự phối hợp giữa các nhà nghiên cứu, kỹ sư công nghệ và các tổ chức truyền thông.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về học biểu diễn đồ thị và ứng dụng trong phát hiện tin giả, hỗ trợ nghiên cứu và phát triển các mô hình học sâu trên dữ liệu đồ thị.
Chuyên gia phát triển hệ thống mạng xã hội và truyền thông: Tham khảo để tích hợp các mô hình phát hiện tin giả tự động, nâng cao chất lượng thông tin và giảm thiểu tin giả trên nền tảng của mình.
Cơ quan quản lý và kiểm duyệt thông tin: Sử dụng kết quả nghiên cứu để xây dựng các công cụ hỗ trợ kiểm tra và xác minh thông tin, góp phần bảo vệ môi trường thông tin trực tuyến lành mạnh.
Doanh nghiệp và tổ chức truyền thông: Áp dụng mô hình phát hiện tin giả để bảo vệ uy tín thương hiệu, kiểm soát thông tin sai lệch liên quan đến sản phẩm, dịch vụ và hoạt động kinh doanh.

Câu hỏi thường gặp

Học biểu diễn đồ thị là gì và tại sao lại hiệu quả trong phát hiện tin giả?
Học biểu diễn đồ thị là kỹ thuật học sâu để biểu diễn dữ liệu dạng đồ thị thành các vectơ đặc trưng có thể xử lý bằng mô hình học máy. Nó hiệu quả vì khai thác được cấu trúc mối quan hệ phức tạp giữa các nút và cạnh, giúp phát hiện các mẫu lan truyền tin giả mà các phương pháp truyền thống bỏ qua.
Tại sao mô hình GAT lại cho kết quả tốt hơn GCN?
GAT sử dụng cơ chế attention để gán trọng số khác nhau cho các nút lân cận, tập trung vào các nút quan trọng hơn trong quá trình học. Điều này giúp mô hình nhận diện tốt hơn các nút có ảnh hưởng lớn trong mạng lan truyền tin giả, nâng cao độ chính xác.
Bộ dữ liệu FakenewsNet có đặc điểm gì nổi bật?
FakenewsNet bao gồm các tin tức được gán nhãn thật/giả từ hai nguồn chính là Politifact và Gossipcop, đại diện cho các lĩnh vực chính trị và giải trí. Dữ liệu có cấu trúc đồ thị thể hiện mối quan hệ lan truyền tin tức trên mạng xã hội, phù hợp cho nghiên cứu học biểu diễn đồ thị.
Làm thế nào để xử lý vấn đề quá khớp khi sử dụng mạng nơ ron đồ thị?
Có thể áp dụng các kỹ thuật như chuẩn hóa batch (Batch Normalization), sử dụng hàm kích hoạt phi tuyến ReLU, điều chỉnh số lớp mạng phù hợp (thường 2-3 lớp), và sử dụng các phương pháp regularization để tránh quá khớp.
Mô hình học biểu diễn đồ thị có thể áp dụng cho các lĩnh vực khác ngoài phát hiện tin giả không?
Có, các mô hình như GCN, GAT, GraphSAGE được ứng dụng rộng rãi trong nhiều lĩnh vực như phân tích mạng xã hội, phát hiện tội phạm mạng, gợi ý sản phẩm, xử lý ngôn ngữ tự nhiên, và phân tích hình ảnh/video.

Kết luận

Luận văn đã nghiên cứu và ứng dụng thành công các mô hình học biểu diễn đồ thị (GCN, GAT, GraphSAGE) trong phát hiện tin giả trên mạng xã hội, nâng cao hiệu quả so với các phương pháp truyền thống.
Mô hình GAT với cơ chế attention cho kết quả tốt nhất, đạt độ chính xác khoảng 90% trên bộ dữ liệu FakenewsNet.
Việc chuẩn hóa ma trận kề và điều chỉnh số lớp mạng là yếu tố quan trọng giúp mô hình ổn định và tránh hiện tượng quá khớp.
Kết quả thực nghiệm trên bộ dữ liệu Politifact và Gossipcop chứng minh tính khả thi và hiệu quả của phương pháp học biểu diễn đồ thị trong phát hiện tin giả.
Đề xuất triển khai mô hình GAT trong hệ thống phát hiện tin giả thực tế, phối hợp với các cơ quan truyền thông và quản lý để giảm thiểu tác động tiêu cực của tin giả trên mạng xã hội.

Next steps: Triển khai thử nghiệm mô hình trên quy mô lớn hơn, tích hợp hệ thống phát hiện tự động vào các nền tảng mạng xã hội, và tiếp tục nghiên cứu nâng cao khả năng thích ứng với các chiến lược lan truyền tin giả mới.

Các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng và phát triển các mô hình học biểu diễn đồ thị để góp phần xây dựng môi trường thông tin trực tuyến minh bạch và đáng tin cậy hơn.

Trích đoạn nội dung tài liệu

Chương 1 TỔNG QUAN Trong chương này, chúng tôi trình bày tổng quan về tin giả, sự phát triển nhanh chóng và các tác hại của tin giả đến đời sống xã hội hiện nay; một số phương pháp tiếp cận để phát hiện tin giả.1 Tổng quan về tin giả 1.1 Giới thiệu Sự ra đời của internet là một phát minh quan trọng, các nền tảng truyền thông xã hội (như Facebook và Twitter) ra đời và phát triển mạnh mẽ chưa từng có đã tạo điều kiện cho con người trên khắp thế giới có thể giao tiếp với nhau. Với thế mạnh chi phí rẻ, tốc độ nhanh chóng, sử dụng một cách dễ dàng, các nền tảng truyền thông mạng xã hội đã thu hút rất đông đảo người dùng. Họ có thể truy cập, tìm kiếm hay đăng tải thông tin mà không cần có sự kiểm soát nào. Cùng với sự phát triển mạnh mẽ của các nền tảng truyền thông xã hội, nhiều tài khoản tạo và lan truyền các tin giả với mục đích trục lợi hoặc chống lại các cá nhân, tổ chức khác.

Tin giả được coi là mối đe dọa rất lớn đối với cộng đồng [1]. Các cuộc tranh luận gần đây về dịch Covid-19 hoặc các cuộc tranh luận điễn ra trong suốt các thập kỉ qua hoặc các vấn đề như thảm kịch thế giới, di cư liên quan đến chiến tranh, hiện tượng nóng lên toàn cầu,. làm dấy lên các cuộc thảo luận sôi nổi trong xã hội, báo chí và các nền tảng trực tuyến. Ảnh 5 6 hưởng của tin giả thể hiện rõ nhất trong cuộc bầu cử tổng thống Hoa Kỳ năm 2016 [2], nơi 20 câu chuyện bầu cử giả được thảo luận thường xuyên hàng đầu đã tạo ra 8.000 lượt chia sẻ, phản ứng và bình luận trên Facebook, nhiều hơn 7.000 cho 20 câu chuyện bầu cử được thảo luận nhiều nhất do 19 trang web tin tức lớn đăng tải [3].

So với tin thật, tin giả trên Twitter thường được nhiều người dùng retweet hơn và lan truyền nhanh hơn rất nhiều, đặc biệt là các tin chính trị. Đại dịch COVID-19 và việc thiếu thông tin về nguyên nhân, cách phòng ngừa hoặc chữa trị, đặc biệt là trong những tháng đầu tiên của đại dịch, đã thúc đẩy sự lan truyền của nhiều tin đồn và trò lừa bịp một cách có tổ chức nhằm truyền bá thông tin sai lệch [4]. Các nền kinh tế của chúng ta cũng không tránh khỏi sự lan truyền của tin giả, với tin giả có liên quan đến những biến động của thị trường chứng khoán và các giao dịch lớn. Ví dụ, tin giả tuyên bố rằng Barack Obama, Tổng thống thứ 44 của Hoa Kỳ, đã bị thương trong một vụ nổ đã xóa sạch 130 tỷ đô la giá trị cổ phiếu [5].

Những sự kiện và tổn thất này đã thúc đẩy nghiên cứu tin tức giả mạo và khơi mào cuộc thảo luận xung quanh tin tức giả mạo, thể hiện qua việc sử dụng các thuật ngữ như “hậu sự thật” – được Từ điển Oxford chọn là từ ngữ quốc tế của năm vào năm 2016 [6]; “tin tức giả” trở thành Từ của Năm trong Từ điển Collins năm 2017 [7]. Sự gia tăng hoạt động của tin tức trực tuyến có thể bị nhiều đối tượng xấu lợi dụng xuất bản và lan truyền tin giả nhằm trục lợi cho bản thân. Vì những lợi nhuận mà tin giả đem lại mà càng ngày có nhiều cá nhận bị thu hút tham gia vào các hoạt động phát tán, lan truyền tin tức giả. Không chỉ thế, khi các đảng phái và các ông trùm kinh doanh đứng đằng sau việc tạo ra tin tức giả, tìm kiếm quyền lực và lợi ích hấp dẫn của nó, thì sẽ có khả năng lớn làm cho tin tức giả trở nên thuyết phục hơn và không thể phân biệt được đâu là thật đối với công chúng.

Các yếu tố xã hội và tâm lý đóng một vai trò quan trọng trong việc tin tức giả tạo được lòng tin của công chúng và tạo điều kiện thuận lợi hơn nữa cho việc lan truyền tin tức giả. Ví dụ một nghiên cứu của Rubin chỉ ra rằng con người có khả năng phát hiện sự lừa dối trong khoảng 55-58 Khả năng đưa ra quyết định của chúng ta chủ yếu dựa vào loại thông tin mà 7 chúng ta sử dụng; thế giới quan của chúng ta được định hình dựa trên thông tin mà chúng ta thu thập được. Ngày càng có nhiều bằng chứng cho thấy người dùng đã phản ứng một cách vô lý trước những tin tức mà sau đó được chứng minh là tin giả. Một trường hợp gần đây là sự lây lan của virus Covid19, khắp internet lan truyền những tin tức giả về nguồn gốc, bản chất, hành vi của virus và phương pháp điều trị.

Điều này trở nên tồi tệ hơn khi ngày càng có nhiều người đọc về các nội dung giả mạo trên mạng và tin vào điều đó. Sự phổ biến của tin tức giả trên mạng xã hội và những tác động tiêu cực nghiêm trọng của nó đã trở thành mối quan tâm hàng đầu của công chúng. Để giảm thiểu những tác động tiêu cực do tin tức giả gây ra, điều cốt yếu là phải ngăn chặn tin tức giả mạo trước khi nó đến được với nhiều đối tượng. Một trong những bước quan trọng để đạt được mục tiêu này là phát hiện sớm tin tức giả mạo, tức là phát hiện tin tức giả ngay sau khi nó bắt đầu lan truyền.

Việc phân định giữa tin đúng và tin giả là một trong những nhiệm vụ khó khăn đối với con người. Phát hiện tin giả thủ công không phù hợp với lượng lớn thông tin mới được tạo ra, đặc biệt là trên phương tiện truyền thông xã hội. Hiện nay có một số trang web phát hiện tin giả theo cách thủ công, như các trang web xác minh tính xác thực “politiFact” và “Snopes” [9] [10], kiểm tra dữ liệu dựa vào các chuyên gia để điều tra và đánh giá các bài báo giả mạo do độc giả trực tuyến báo cáo. Kết quả đánh giá sau đó được công bố rộng rãi như một tài liệu tham khảo để kiểm tra thực tế.

Sau cuộc bầu cử năm 2016, các “ông lớn” như Google và Facebook cũng đã thực hiện các bước để chống lại tin tức giả mạo [5]. Mặc dù việc kiểm tra thực tế bằng thủ công trên các trang web có thể giúp người dùng xác định tin tức giả nhưng chỉ có thể áp dụng vào một số lĩnh vực cụ thể và cần chuyên môn của con người. Để phát hiện sớm tin giả là khó thực hiện. Vào thời điểm một tin bài bị các trang web hoặc công cụ xác minh và công bố là giả mạo, thì nó thường đã tiếp cận được nhiều đối tượng và gây hại cho xã hội.

Hơn nữa, lương thông tin xã hội bùng nổ hàng ngày trên mạng truyền thông là quá lớn, việc xác minh thủ công gần như cho kết quả không đáng kể. Trong bối cảnh như vậy, các phương pháp phát hiện tự động là cấp thiết (lý do 8 Hình 1.1: Tổng quan về các công cụ khác nhau chống lại tin tức giả thứ nhất). Các nền tảng truyền thông xã hội tuân theo cấu trúc đồ thị trong biểu diễn của chúng [11]. Mạng nơ ron đồ thị là một kỹ thuật mới mẻ tập trung vào việc sử dụng các thuật toán học sâu trên cấu trúc đồ thị.

Trước khi được áp dụng trong các hệ thống phát hiện tin giả, các mạng GNN đã được áp dụng thành công trong nhiều nhiệm vụ liên quan đến học máy truyền thống và xử lý ngôn ngữ tự nhiên như phát hiện đối tượng, phân tích tâm trạng, và dịch máy. Sự phát triển nhanh chóng của các phương pháp dựa trên GNN cho các hệ thống phát hiện tin giả trên mạng xã hội có thể được quy cho sự phát triển nhanh chóng của các mạng xã hội về số lượng người dùng, lượng tin tức đăng và tương tác người dùng. Do đó, mạng xã hội tự nhiên trở thành các cấu trúc đồ thị phức tạp. Nếu chúng được áp dụng độc lập, điều này gây khó khăn cho các thuật toán phát hiện tin giả dựa trên học máy truyền thống và học sâu đã từng tồn tại.

Những lý do chính dẫn đến hiện tượng này là sự phụ thuộc của kích thước đồ thị vào số lượng đỉnh và số lượng hàng xóm của các đỉnh khác nhau. Ngoài ra, các thuật toán phát hiện tin giả dựa trên bằng học máy truyền thống truyền thống (SVM, k-NN,. ) có giả định chính các mục tin là độc lập. Giả định này không thể áp dụng cho dữ liệu đồ thị vì các đỉnh có thể kết nối với nhau thông 9 qua các loại mối quan hệ khác nhau, như trích dẫn, tương tác và liên kết bạn bè.

Do vậy, các phương pháp phát hiện tin giả bằng học máy truyền thống truyền thống chưa khai thác được cấu trúc (dữ liệu) đồ thị của thông tin, làm giảm hiệu quả trong phát hiện tin giả (lý do thứ hai). Do vậy rất cần có phương pháp tự động phát hiện tin giả bằng ứng dụng học biểu diễn đồ thị.2 Định nghĩa tin giả Trước khi có công nghệ số hóa và internet, tin giả thường được lan truyền qua báo chí, sách, và các phương tiện truyền thông khác. Các bài viết sai lệch, tin tức thiếu chính xác, và thông tin có hại đã tồn tại từ thời kỳ đầu của báo chí. Trong những năm gần đây, tin tức giả đã tiếp cận được nhiều đối tượng hơn với sự trợ giúp của phương tiện truyền thông xã hội và gây ra tác hại xã hội nghiêm trọng hơn.

Có rất nhiều nghiên cứu về tin tức giả mạo, tuy nhiên đến thời điểm hiện tại thì vẫn chưa có định nghĩa thống nhất về thuật ngữ này. Có thể hiểu tin tức là siêu thông tin và có thể bao gồm những đặc điểm sau: • Nguồn: Nhà xuất bản tin tức, chẳng hạn như tác giả, trang web và mạng xã hội. • Tiêu đề: Mô tả chủ đề chính của tin bằng một đoạn văn ngắn nhằm thu hút sự chú ý của độc giả. • Nội dung chính: Mô tả chi tiết về tin tức, bao gồm các điểm nổi bật và đặc điểm của nhà xuất bản.

• Hình ảnh/Video: Một phần nội dung cung cấp hình ảnh minh họa trực quan để đơn giản hóa nội dung tin tức. • Liên kết: Liên kết đến các nguồn tin tức khác. Tuy nhiên, hiện nay tin tức là gì đã trở nên khó xác định hơn. Đặc biệt, trong bối cảnh số hóa hiện nay, việc định nghĩa truyền thống về tin tức bị thách thức.

Không cần là nhà báo, những người dùng thông thường cũng có thể tiếp cận với số lượng đông đảo khán giả. Điều này dẫn đến việc khó kiểm chứng thông tin là thật hay giả.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Ứng Dụng Học Biểu Diễn Đồ Thị Trong Phát Hiện Tin Giả" khám phá cách mà các phương pháp học biểu diễn đồ thị có thể được áp dụng để phát hiện tin giả. Tài liệu nhấn mạnh tầm quan trọng của việc sử dụng các mô hình đồ thị để phân tích và nhận diện thông tin sai lệch trong môi trường số hiện nay. Bằng cách áp dụng các kỹ thuật học máy và lý thuyết đồ thị, người đọc sẽ hiểu rõ hơn về cách thức mà tin giả có thể được phát hiện và ngăn chặn, từ đó nâng cao khả năng nhận thức và bảo vệ thông tin cá nhân.

Để mở rộng kiến thức của bạn về các phương pháp phân tích và nhận diện thông tin, bạn có thể tham khảo tài liệu Luận án nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ ứng dụng, nơi cung cấp cái nhìn sâu sắc về các phương pháp khai thác dữ liệu. Ngoài ra, tài liệu Luận văn thạc sĩ nhận dạng các biểu mẫu tài liệu cũng sẽ giúp bạn hiểu rõ hơn về cách nhận diện và phân loại thông tin trong các tài liệu khác nhau. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn có thể tìm hiểu sâu hơn về lĩnh vực này.

#Phân tích dữ liệu

#phát hiện tin giả

#thuật toán phát hiện

#học biểu diễn đồ thị

#đồ thị trong AI

#tin giả và thông tin sai lệch

Chủ đề

Phân tích và xử lý thông tin

Ứng dụng của học máy trong xã hội

Công nghệ và tin tức hiện đại

Đồ thị và mô hình hóa dữ liệu

Ứng Dụng Học Biểu Diễn Đồ Thị Trong Phát Hiện Tin Giả

Lời cam đoan

Lời cảm ơn

Tóm tắt

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BẢNG

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về tin giả

1.1.1. Định nghĩa tin giả

1.1.2. Các phương pháp phát hiện tin giả

1.1.2.1. Dựa trên tri thức

1.1.2.2. Dựa trên văn phong

1.1.2.3. Dựa trên sự lan truyền

1.1.2.4. Dựa trên độ tin cậy

1.1.3. Các nghiên cứu liên quan

1.1.4. Tổng kết chương 1

2. CHƯƠNG 2: ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN TIN GIẢ

2.1. Phát biểu bài toán

2.2. Giới thiệu chung về phương pháp học biểu diễn đồ thị

2.3. Phát hiện tin giả sử dụng mô hình GCN

2.3.1. Giới thiệu chung về GCN

2.3.2. Ứng dụng GCN để phát hiện tin giả

2.4. Phát hiện tin giả sử dụng mô hình GAT

2.4.1. Giới thiệu chung về GAT

2.4.2. Ứng dụng GAT để phát hiện tin giả

2.5. Phát hiện tin giả sử dụng mô hình GRAPHSAGE

2.5.1. Giới thiệu chung về GRAPHSAGE

2.5.2. Ứng dụng GRAPHSAGE để phát hiện tin giả

2.6. Tổng kết chương 2

2.7. Cài đặt thực nghiệm

Kết luận

Tài liệu tham khảo

I. Tổng Quan Ứng Dụng Học Biểu Diễn Đồ Thị Tin Giả 55 ký tự

1.1. Tác Động Tiêu Cực Của Tin Giả Trong Xã Hội Số

1.2. Hạn Chế Của Phương Pháp Phát Hiện Tin Giả Truyền Thống

II. Bài Toán Phát Hiện Tin Giả Và Các Cách Tiếp Cận 56 ký tự

2.1. Định Nghĩa Tin Giả Khái Niệm Và Đặc Điểm Cốt Lõi

2.2. Phân Loại Các Phương Pháp Phát Hiện Tin Giả Hiện Nay

III. Học Biểu Diễn Đồ Thị Giải Pháp Phát Hiện Tin Giả 57 ký tự

3.1. Tổng Quan Về Học Biểu Diễn Đồ Thị Graph Representation Learning

3.2. Ứng Dụng GNN Để Phát Hiện Tin Giả Lợi Ích Vượt Trội

IV. Thực Nghiệm Đánh Giá Các Mô Hình Học Biểu Diễn 59 ký tự

4.1. Thiết Lập Thực Nghiệm Bộ Dữ Liệu Và Phương Pháp Đánh Giá

4.2. Kết Quả Và Thảo Luận Ưu Điểm Của Mô Hình Graph Attention

V. Kết Luận Và Hướng Phát Triển Trong Tương Lai 53 ký tự

5.1. Tóm Tắt Đóng Góp Của Nghiên Cứu Về Tin Giả GNN

5.2. Hướng Nghiên Cứu Tiếp Theo Để Nâng Cao Hiệu Quả GNN

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thị Ngân Vang

Người hướng dẫn: TS. Lê Quang Hùng

Trường học: Trường Đại Học Quy Nhơn

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Ứng Dụng Học Biểu Diễn Đồ Thị Trong Phát Hiện Tin Giả

Loại tài liệu: Đề Án Thạc Sĩ

Năm xuất bản: 2023

Địa điểm: Bình Định

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm