Trường đại học
Trường Đại Học Quy NhơnChuyên ngành
Khoa Học Máy TínhNgười đăng
Ẩn danhThể loại
Đề Án Thạc Sĩ2023
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Trong kỷ nguyên số, tin giả đã trở thành một vấn nạn, lan truyền nhanh chóng trên các nền tảng truyền thông xã hội, gây ảnh hưởng tiêu cực đến đời sống xã hội, kinh tế, chính trị. Việc phát hiện tin giả thủ công không còn hiệu quả trước khối lượng thông tin khổng lồ. Các phương pháp học máy truyền thống cũng bộc lộ hạn chế khi chưa khai thác triệt để cấu trúc đồ thị của mạng xã hội. Đề án này tập trung nghiên cứu và ứng dụng học biểu diễn đồ thị (Graph Representation Learning) để giải quyết bài toán phát hiện tin giả, một hướng đi đầy tiềm năng và hứa hẹn mang lại hiệu quả cao hơn. Mục tiêu là nghiên cứu các mô hình phát hiện tin giả sử dụng học biểu diễn đồ thị, cài đặt thực nghiệm và đánh giá hiệu quả của các mô hình này. Các mạng nơ-ron đồ thị (GNN) nổi lên như một giải pháp đầy hứa hẹn để giải quyết bài toán này.
Tin giả không chỉ gây hoang mang, lo sợ trong cộng đồng mà còn ảnh hưởng đến sức khỏe, kinh tế, và uy tín của các tổ chức, doanh nghiệp. Sự lan truyền của tin giả có thể kích thích sự chia rẽ, bất đồng quan điểm, và thậm chí là công cụ tấn công chính trị. Theo nghiên cứu, tin giả lan truyền nhanh hơn và rộng hơn so với tin thật, đặc biệt là trên các nền tảng như Twitter. Đại dịch COVID-19 là một ví dụ điển hình về tác hại của tin giả, khi thông tin sai lệch về nguồn gốc, cách phòng ngừa, và điều trị bệnh lan tràn trên mạng, gây ra những hậu quả nghiêm trọng.
Các phương pháp phát hiện tin giả thủ công và dựa trên học máy truyền thống (như SVM, k-NN) gặp nhiều khó khăn trong việc xử lý khối lượng thông tin lớn và khai thác cấu trúc đồ thị của mạng xã hội. Giả định các mục tin là độc lập không phù hợp với dữ liệu đồ thị, nơi các đỉnh có thể kết nối với nhau thông qua nhiều loại quan hệ khác nhau. Do đó, hiệu quả của các phương pháp này bị hạn chế. Theo tài liệu gốc, cần thiết có một phương pháp tự động để phát hiện tin giả mà có thể khai thác cấu trúc đồ thị, điều mà các phương pháp học máy truyền thống còn thiếu.
Bài toán phát hiện tin giả là một thách thức lớn, đòi hỏi sự kết hợp của nhiều kỹ thuật và kiến thức khác nhau. Các cách tiếp cận hiện tại có thể được phân loại dựa trên nhiều yếu tố, bao gồm nội dung tin tức, nguồn phát tán, sự lan truyền tin tức, và độ tin cậy của nguồn. Mỗi cách tiếp cận có những ưu điểm và hạn chế riêng, và việc kết hợp chúng có thể mang lại hiệu quả tốt hơn. Việc xác định ranh giới giữa tin giả và tin thật ngày càng trở nên khó khăn, đòi hỏi các phương pháp phát hiện phải ngày càng tinh vi và chính xác hơn.
Mặc dù có nhiều nghiên cứu về tin giả, vẫn chưa có một định nghĩa thống nhất về thuật ngữ này. Tuy nhiên, có thể hiểu tin tức là siêu thông tin, bao gồm các yếu tố như nguồn, tiêu đề, nội dung chính, hình ảnh/video, và liên kết. Trong bối cảnh số hóa, việc định nghĩa truyền thống về tin tức bị thách thức, khi người dùng thông thường cũng có thể tiếp cận và tạo ra thông tin. Do đó, việc xác định tin giả đòi hỏi sự phân tích kỹ lưỡng và toàn diện các yếu tố này. Cần phân biệt tin giả với các khái niệm liên quan như tin sai lệch, tin đồn, và tin thiên vị.
Các phương pháp phát hiện tin giả có thể được phân loại dựa trên nhiều tiêu chí khác nhau. Một số phương pháp tập trung vào phân tích nội dung của tin tức, sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để xác định các dấu hiệu của tin giả. Các phương pháp khác tập trung vào phân tích nguồn phát tán và sự lan truyền của tin tức trên mạng xã hội, sử dụng phân tích mạng xã hội để xác định các mẫu lan truyền đáng ngờ. Ngoài ra, còn có các phương pháp dựa trên tri thức, sử dụng các cơ sở dữ liệu tri thức để kiểm tra tính xác thực của thông tin.
Học biểu diễn đồ thị (GRL) là một lĩnh vực nghiên cứu mới nổi, tập trung vào việc học các biểu diễn vector của các nút trong một đồ thị, sao cho các biểu diễn này phản ánh cấu trúc và thuộc tính của đồ thị. GRL đã được chứng minh là hiệu quả trong nhiều bài toán khác nhau, bao gồm dự đoán liên kết, phân loại nút, và phát hiện cộng đồng. Trong bài toán phát hiện tin giả, GRL có thể được sử dụng để học các biểu diễn của các bài viết tin tức và người dùng trên mạng xã hội, từ đó giúp phân biệt tin giả và tin thật.
Học biểu diễn đồ thị (GRL), hay mạng nơ-ron đồ thị (GNN), là một phương pháp học sâu tiến hành dự đoán trên dữ liệu được mô tả bằng đồ thị. GRL tập trung vào việc học các biểu diễn vector của các nút trong đồ thị, sao cho các biểu diễn này phản ánh cấu trúc và thuộc tính của đồ thị. GRL có nhiều ưu điểm so với các phương pháp học máy truyền thống, bao gồm khả năng xử lý dữ liệu phi cấu trúc, khả năng học các biểu diễn phức tạp, và khả năng tổng quát hóa tốt. Điều này làm cho GRL trở thành một công cụ mạnh mẽ để giải quyết nhiều bài toán khác nhau.
GNN có thể được sử dụng để học các biểu diễn của các bài viết tin tức và người dùng trên mạng xã hội, từ đó giúp phân biệt tin giả và tin thật. GNN có thể khai thác thông tin từ cả nội dung của bài viết và cấu trúc mạng xã hội, giúp nâng cao hiệu quả phát hiện tin giả. Các mô hình GNN như Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), và Graph Sample and Aggregated (GRAPHSAGE) đã được chứng minh là hiệu quả trong bài toán phát hiện tin giả.
Để đánh giá hiệu quả của các mô hình học biểu diễn đồ thị trong bài toán phát hiện tin giả, đề án này tiến hành cài đặt thực nghiệm trên bộ dữ liệu FakenewsNet (Politifact, Gossipcop). Kết quả thực nghiệm cho thấy các mô hình GCN, GAT, và GRAPHSAGE đều vượt trội hơn so với các phương pháp học máy truyền thống. So sánh giữa các mô hình GRL, GAT cho kết quả tốt nhất, cho thấy tầm quan trọng của việc chú ý đến các nút lân cận quan trọng. Việc trực quan hóa dữ liệu trước và sau khi thực thi cũng giúp hiểu rõ hơn về cách các mô hình GRL hoạt động.
Thực nghiệm được thực hiện trên bộ dữ liệu FakenewsNet, bao gồm hai tập con Politifact và Gossipcop. Các tập dữ liệu này chứa thông tin về các bài viết tin tức, người dùng, và các mối quan hệ tương tác giữa chúng. Hiệu quả của các mô hình được đánh giá dựa trên các chỉ số như độ chính xác (accuracy), độ thu hồi (recall), độ đo F1 (F1-score), và diện tích dưới đường cong ROC (AUC). Các mô hình được so sánh với các phương pháp học máy truyền thống như SVM và k-NN để đánh giá mức độ cải thiện.
Kết quả thực nghiệm cho thấy các mô hình GCN, GAT, và GRAPHSAGE đều vượt trội hơn so với các phương pháp học máy truyền thống trên cả hai tập dữ liệu Politifact và Gossipcop. Trong số các mô hình GRL, GAT cho kết quả tốt nhất, cho thấy tầm quan trọng của việc chú ý đến các nút lân cận quan trọng. Điều này có nghĩa là việc tập trung vào các nguồn thông tin đáng tin cậy và các mối quan hệ quan trọng trong mạng xã hội có thể giúp cải thiện hiệu quả phát hiện tin giả.
Đề án này đã nghiên cứu và ứng dụng thành công học biểu diễn đồ thị trong bài toán phát hiện tin giả. Các kết quả thực nghiệm cho thấy tiềm năng lớn của các mô hình GRL trong việc giải quyết bài toán này. Trong tương lai, có thể tiếp tục nghiên cứu các mô hình GRL phức tạp hơn, kết hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên và phân tích mạng xã hội để nâng cao hiệu quả phát hiện tin giả. Ngoài ra, cần chú trọng đến việc xây dựng các bộ dữ liệu lớn và đa dạng hơn để huấn luyện và đánh giá các mô hình.
Đề án đã đóng góp vào việc nghiên cứu và ứng dụng học biểu diễn đồ thị trong bài toán phát hiện tin giả. Cụ thể, đề án đã nghiên cứu các mô hình GCN, GAT, và GRAPHSAGE, cài đặt thực nghiệm trên bộ dữ liệu FakenewsNet, và đánh giá hiệu quả của các mô hình này. Kết quả thực nghiệm cho thấy các mô hình GRL vượt trội hơn so với các phương pháp học máy truyền thống, và GAT cho kết quả tốt nhất. Nghiên cứu này cung cấp một hướng đi tiềm năng để giải quyết bài toán phát hiện tin giả.
Trong tương lai, có thể tiếp tục nghiên cứu các mô hình GRL phức tạp hơn, chẳng hạn như các mô hình kết hợp GRL với các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và phân tích mạng xã hội. Cần chú trọng đến việc xây dựng các bộ dữ liệu lớn và đa dạng hơn để huấn luyện và đánh giá các mô hình. Ngoài ra, cần nghiên cứu các phương pháp giải thích kết quả của các mô hình GRL, giúp người dùng hiểu rõ hơn về lý do tại sao một bài viết tin tức bị coi là tin giả.
Bạn đang xem trước tài liệu:
Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả
Tài liệu có tiêu đề "Ứng Dụng Học Biểu Diễn Đồ Thị Trong Phát Hiện Tin Giả" khám phá cách mà các phương pháp học biểu diễn đồ thị có thể được áp dụng để phát hiện tin giả. Tài liệu nhấn mạnh tầm quan trọng của việc sử dụng các mô hình đồ thị để phân tích và nhận diện thông tin sai lệch trong môi trường số hiện nay. Bằng cách áp dụng các kỹ thuật học máy và lý thuyết đồ thị, người đọc sẽ hiểu rõ hơn về cách thức mà tin giả có thể được phát hiện và ngăn chặn, từ đó nâng cao khả năng nhận thức và bảo vệ thông tin cá nhân.
Để mở rộng kiến thức của bạn về các phương pháp phân tích và nhận diện thông tin, bạn có thể tham khảo tài liệu Luận án nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ ứng dụng, nơi cung cấp cái nhìn sâu sắc về các phương pháp khai thác dữ liệu. Ngoài ra, tài liệu Luận văn thạc sĩ nhận dạng các biểu mẫu tài liệu cũng sẽ giúp bạn hiểu rõ hơn về cách nhận diện và phân loại thông tin trong các tài liệu khác nhau. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn có thể tìm hiểu sâu hơn về lĩnh vực này.