CÁCH TIẾP CẬN HỌC SÂU CHO VIỆC PHÁT HIỆN BOT TRÊN TWITTER SỬ DỤNG MẠNG NƠ-RON ĐỒ THỊ

Luận văn về ứng dụng học sâu và mạng nơ-ron đồ thị (GNN) để phát hiện bot trên Twitter. Nghiên cứu cách cải thiện độ chính xác mô hình và đánh giá hiệu quả.

Trường đại học

Trường Đại Học Bách Khoa – ĐHQG-HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF THESIS

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mục tiêu đề tài

1.3. Giới hạn phạm vi và đối tượng nghiên cứu

2. CHƯƠNG 2

3. CHƯƠNG 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Định nghĩa vấn đề

3.1.1. Phân loại các đặc trưng trên nền tảng Twitter

3.1.2. Phương pháp phát hiện tài khoản giả mạo ở cấp độ tài khoản

3.1.3. Phương pháp phát hiện tài khoản giả mạo ở cấp độ tweet

3.2. Phát hiện dựa trên Học Máy

3.3. Phát hiện dựa trên Học Sâu

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

4.1. Mô hình tham khảo

4.1.1. Khảo sát các tập dữ liệu thí nghiệm

4.1.2. Tập dữ liệu đánh giá

4.1.3. Tiêu chuẩn đánh giá

4.1.4. So sánh mối quan hệ followers/followings giữa tài khoản người thật và bot

4.5. Tiền xử lý dữ liệu

4.6. Lựa chọn và trích xuất đặc trưng

4.7. Xây dựng đồ thị

4.9. Học và tối ưu hóa

4.2. Đề xuất 1: Sử dụng Sentence–BERT thay thế cho TF–IDF

4.2.1. Động lực và ý tưởng

4.2.2. Mô tả mô hình

4.2.3. Tham số cấu hình của mô hình

4.3. Đề xuất 2: Xây dựng đồ thị mối quan hệ giữa các user (follower, following)

4.3.1. Động lực và ý tưởng

4.3.2. Mô tả mô hình

4.3.3. Tham số cấu hình của mô hình

4.4. Đề xuất 3: Kết hợp sử dụng Sentence–BERT và xây dựng đồ thị giữa các user

4.4.1. Động lực và ý tưởng

4.4.2. Mô tả mô hình

4.4.3. Tham số cầu hình của mô hình

5. CHƯƠNG 5: THÍ NGHIỆM VÀ KẾT QUẢ

5.1. Kết quả thí nghiệm đề xuất 1

5.2. Kết quả thí nghiệm đề xuất 2

5.3. Kết quả thí nghiệm của đề xuất 3

5.4. Thảo luận kết quả

5.4.1. Thông tin User là người dùng thật nhưng có tweet giống bot

5.4.2. Thông tin User là bot nhưng có tweet giống người dùng thật

5.5. Kết quả đạt được

5.6. Hạn chế và vấn đề tồn đọng

5.7. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phát Hiện Bot Twitter Tại Sao Quan Trọng

Trong bối cảnh bùng nổ của mạng xã hội, đặc biệt là Twitter, các tài khoản bot đang trở thành một vấn đề nhức nhối. Các bot Twitter này có thể được sử dụng để lan truyền tin giả, thao túng dư luận, hoặc thậm chí thực hiện các hành vi lừa đảo. Việc phát hiện bot Twitter hiệu quả là vô cùng quan trọng để duy trì một môi trường mạng xã hội lành mạnh và đáng tin cậy. Theo Varol và cộng sự, một tỷ lệ đáng kể tài khoản Twitter là bot, điều này cho thấy mức độ nghiêm trọng của vấn đề và sự cần thiết phải có các giải pháp hiệu quả để đối phó. Bài viết này sẽ đi sâu vào các phương pháp phát hiện bot tiên tiến, đặc biệt là ứng dụng của học sâu và mạng nơ-ron đồ thị (GNN).

1.1. Tác Động Tiêu Cực Của Bot Mạng Xã Hội Lên An Ninh Mạng

Các bot mạng xã hội không chỉ gây phiền toái mà còn đe dọa trực tiếp đến an ninh mạng. Chúng có thể được sử dụng để phát tán phần mềm độc hại, quảng bá các trang web lừa đảo, hoặc thậm chí can thiệp vào các cuộc bầu cử. Sự lan truyền nhanh chóng của tin giả Twitter thông qua các bot có thể gây ra những hậu quả nghiêm trọng trong xã hội. Vì vậy, việc ngăn chặn và chống bot Twitter là một nhiệm vụ cấp bách để bảo vệ độ tin cậy thông tin và ảnh hưởng truyền thông xã hội.

1.2. Nhu Cầu Cấp Thiết Về Các Phương Pháp Phát Hiện Bot Hiệu Quả

Trước sự tinh vi ngày càng tăng của các tài khoản giả mạo Twitter, các phương pháp phát hiện bot truyền thống đang trở nên kém hiệu quả. Cần có những giải pháp tiên tiến hơn, có khả năng phân tích hành vi, nội dung, và mối quan hệ giữa các tài khoản để phân loại bot một cách chính xác. Các phương pháp này cần phải có khả năng học hỏi và thích ứng với các chiến thuật mới của bot để duy trì hiệu quả lâu dài.

II. Thách Thức Vì Sao Phát Hiện Bot Twitter Lại Khó Khăn

Việc phát hiện bot Twitter không phải là một nhiệm vụ dễ dàng. Các bot ngày càng trở nên tinh vi hơn, sử dụng các kỹ thuật tiên tiến để tự động hóa Twitter và giả mạo hành vi của người dùng thực. Chúng có thể tạo ra nội dung đa dạng, tương tác với người dùng khác, và thậm chí thay đổi hành vi theo thời gian để tránh bị phát hiện. Hơn nữa, việc thu thập và xử lý dữ liệu Twitter với quy mô lớn cũng là một thách thức không nhỏ. Để phát hiện bot hiệu quả, cần phải vượt qua những khó khăn này và phát triển các phương pháp học máy mạnh mẽ.

2.1. Sự Tinh Vi Của Tài Khoản Bot Trong Việc Giả Mạo Hành Vi

Các tài khoản bot hiện đại không chỉ đơn thuần là spam nội dung. Chúng có thể tương tác với người dùng khác, tham gia vào các cuộc trò chuyện, và thậm chí tạo ra các mối quan hệ giả. Việc phân biệt giữa một tài khoản bot và một người dùng thực dựa trên hành vi đơn lẻ là rất khó khăn. Cần phải phân tích hành vi của tài khoản trong một khoảng thời gian dài và xem xét nhiều yếu tố khác nhau để đưa ra kết luận chính xác.

2.2. Yêu Cầu Về Dữ Liệu Twitter Lớn Và Khả Năng Xử Lý Thời Gian Thực

Để huấn luyện các mô hình phát hiện bot hiệu quả, cần phải có một lượng lớn dữ liệu Twitter được gán nhãn chính xác. Việc thu thập và xử lý dữ liệu này đòi hỏi nhiều tài nguyên tính toán và thời gian. Hơn nữa, trong nhiều trường hợp, cần phải phát hiện bot trong thời gian thực để ngăn chặn sự lan truyền của tin giả và các hành vi độc hại khác. Điều này đòi hỏi các mô hình học sâu phải có khả năng xử lý dữ liệu nhanh chóng và hiệu quả.

III. Học Sâu và GNN Phương Pháp Phát Hiện Bot Twitter Tiên Tiến

Trong những năm gần đây, học sâu đã chứng minh được hiệu quả vượt trội trong nhiều lĩnh vực, bao gồm cả phân tích mạng xã hội và phát hiện bot. Các mô hình mô hình học sâu, đặc biệt là mạng nơ-ron đồ thị (GNN), có khả năng học hỏi các đặc trưng phức tạp từ dữ liệu Twitter và phân loại bot một cách chính xác hơn so với các phương pháp truyền thống. GNN đặc biệt phù hợp với việc phân tích cấu trúc mạng xã hội, giúp phát hiện các tài khoản bot có liên kết với nhau và tham gia vào các chiến dịch phối hợp.

3.1. Ứng Dụng Học Sâu Để Phân Tích Nội Dung Tweet Và Hành Vi Người Dùng

Học sâu có thể được sử dụng để phân tích nội dung tweet, trích xuất các đặc trưng ngữ nghĩa, và xác định xem nội dung đó có mang tính chất spam Twitter hay không. Nó cũng có thể được sử dụng để phân tích hành vi của người dùng, như tần suất đăng tweet, thời gian hoạt động, và các tương tác với người dùng khác, để phát hiện các dấu hiệu bất thường.

3.2. Ưu Điểm Vượt Trội Của Mạng Nơ ron Đồ Thị GNN Trong Phát Hiện Bot

Mạng nơ-ron đồ thị (GNN) cho phép mô hình hóa các mối quan hệ giữa các tài khoản Twitter và khai thác thông tin từ cấu trúc mạng xã hội. Điều này đặc biệt hữu ích trong việc phát hiện các nhóm bot có tổ chức và tham gia vào các chiến dịch phối hợp. GNN có khả năng lan truyền thông tin giữa các nút trong đồ thị, giúp mô hình học hỏi các đặc trưng toàn cục và đưa ra dự đoán chính xác hơn.

3.3 Kết Hợp Học Sâu Và GNN Sức Mạnh Tổng Hợp Để Phát Hiện Bot

Sự kết hợp giữa học sâu và GNN tạo ra một sức mạnh tổng hợp giúp cải thiện đáng kể hiệu quả phát hiện bot. Trong đó, học sâu đảm nhiệm việc phân tích nội dung và hành vi, GNN đảm nhiệm việc phân tích cấu trúc mạng xã hội. Việc tích hợp các thông tin này cho phép mô hình đưa ra những dự đoán chính xác và tin cậy về khả năng một tài khoản cụ thể là bot.

IV. Hướng Dẫn Chi Tiết Xây Dựng Mô Hình Phát Hiện Bot Twitter với GNN

Để xây dựng một mô hình phát hiện bot Twitter hiệu quả với GNN, cần trải qua nhiều giai đoạn, từ thu thập dữ liệu Twitter và tiền xử lý, đến xây dựng đồ thị và huấn luyện mô hình. Bài viết này sẽ cung cấp một hướng dẫn chi tiết từng bước, giúp bạn hiểu rõ quy trình và áp dụng nó vào thực tế. Các bước quan trọng bao gồm: thu thập dữ liệu từ API Twitter, làm sạch và chuẩn hóa dữ liệu, trích xuất đặc trưng, xây dựng đồ thị dựa trên mối quan hệ giữa các tài khoản, và huấn luyện mô hình GNN sử dụng các kỹ thuật học máy phù hợp.

4.1. Thu Thập Và Tiền Xử Lý Dữ Liệu Twitter Bước Quan Trọng Đầu Tiên

Việc thu thập dữ liệu Twitter là bước đầu tiên và quan trọng nhất trong quy trình xây dựng mô hình phát hiện bot. Cần phải sử dụng API Twitter để thu thập thông tin về người dùng, tweet, và các tương tác giữa các tài khoản. Sau khi thu thập, cần phải làm sạch và chuẩn hóa dữ liệu để loại bỏ các thông tin không liên quan và đảm bảo tính nhất quán.

4.2. Xây Dựng Đồ Thị Từ Mối Quan Hệ Giữa Các Tài Khoản Twitter

Việc xây dựng đồ thị là một bước quan trọng trong việc tận dụng GNN. Cần phải xác định các mối quan hệ giữa các tài khoản Twitter, như quan hệ theo dõi (followers/followings), quan hệ tương tác (retweet, mention, reply), và quan hệ chia sẻ nội dung. Dựa trên các mối quan hệ này, có thể xây dựng một đồ thị trong đó mỗi tài khoản là một nút và mỗi mối quan hệ là một cạnh.

4.3. Huấn Luyện Mô Hình GNN Tối Ưu Hóa Để Đạt Hiệu Quả Tốt Nhất

Sau khi xây dựng đồ thị, cần phải huấn luyện mô hình GNN để phân loại bot một cách chính xác. Cần phải lựa chọn kiến trúc GNN phù hợp, như Graph Convolutional Network (GCN) hoặc Graph Attention Network (GAT), và sử dụng các thuật toán tối ưu hóa để tìm ra các tham số tốt nhất cho mô hình. Cũng cần phải đánh giá hiệu suất của mô hình trên một tập dữ liệu kiểm tra để đảm bảo tính tổng quát.

V. Kết Quả Nghiên Cứu Đánh Giá Hiệu Quả Của Mô Hình Học Sâu và GNN

Nghiên cứu này đã tiến hành các thí nghiệm để đánh giá hiệu quả của mô hình học sâu và GNN trong việc phát hiện bot Twitter. Kết quả cho thấy mô hình đề xuất đạt độ chính xác cao hơn các phương pháp cũ nhờ khả năng khai thác hiệu quả cấu trúc đồ thị và mối quan hệ giữa các tài khoản. Tuy nhiên, cũng chỉ ra những thách thức như yêu cầu dữ liệu huấn luyện lớn và hiệu suất tính toán. Những phát hiện này cung cấp bằng chứng thực nghiệm về tiềm năng của học sâu và GNN trong việc giải quyết vấn đề phát hiện bot.

5.1. So Sánh Với Các Phương Pháp Phát Hiện Bot Truyền Thống

Mô hình học sâu và GNN đã được so sánh với các phương pháp phát hiện bot truyền thống, như các phương pháp dựa trên quy tắc hoặc các phương pháp học máy cổ điển. Kết quả cho thấy mô hình đề xuất vượt trội hơn về độ chính xác, độ recall, và độ F1-score.

5.2. Những Hạn Chế Cần Vượt Qua Để Ứng Dụng Rộng Rãi

Mặc dù đạt được kết quả khả quan, mô hình học sâu và GNN vẫn còn một số hạn chế cần vượt qua. Yêu cầu về dữ liệu huấn luyện lớn và hiệu suất tính toán cao là những rào cản đối với việc ứng dụng rộng rãi. Cần phải phát triển các kỹ thuật để giảm thiểu yêu cầu về dữ liệu và tăng tốc độ xử lý.

VI. Tương Lai Của Phát Hiện Bot Twitter Hướng Nghiên Cứu Mới

Lĩnh vực phát hiện bot Twitter vẫn còn nhiều tiềm năng phát triển. Các hướng nghiên cứu mới tập trung vào việc cải thiện hiệu suất mô hình, phát triển các phương pháp học sâu thích ứng, và mở rộng ứng dụng của GNN trong bài toán mạng xã hội. Cần có những nỗ lực liên tục để đối phó với sự thay đổi liên tục của các chiến thuật bot và bảo vệ môi trường mạng xã hội khỏi những ảnh hưởng tiêu cực. Luận văn này hứa hẹn thúc đẩy sự phát triển của lĩnh vực phát hiện tài khoản giả mạo, góp phần xây dựng một môi trường mạng xã hội an toàn và đáng tin cậy hơn.

6.1. Phát Triển Các Phương Pháp Học Sâu Thích Ứng Với Bot Biến Đổi

Các bot liên tục thay đổi chiến thuật để tránh bị phát hiện. Cần phải phát triển các phương pháp học sâu có khả năng thích ứng với những thay đổi này. Điều này có thể đạt được bằng cách sử dụng các kỹ thuật như học chuyển giao (transfer learning) hoặc học tăng cường (reinforcement learning).

6.2. Mở Rộng Ứng Dụng Của GNN Trong Các Bài Toán Mạng Xã Hội Khác

GNN không chỉ hữu ích trong phát hiện bot mà còn có thể được áp dụng trong nhiều bài toán mạng xã hội khác, như phân tích cộng đồng, dự đoán lan truyền thông tin, và đề xuất kết nối. Việc mở rộng ứng dụng của GNN sẽ giúp chúng ta hiểu rõ hơn về cấu trúc và động lực của mạng xã hội.

28/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính cách tiếp cận học sâu cho việc phát hiện bot trên twitter sử dụng mạng nơ ron đồ thị

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh mạng xã hội phát triển mạnh mẽ, Twitter hiện là một trong những nền tảng mạng xã hội lớn nhất với trung bình khoảng 229 triệu người dùng hoạt động hàng ngày tính đến quý 2 năm 2022. Tuy nhiên, sự gia tăng nhanh chóng của các tài khoản giả mạo (bot) trên nền tảng này đã trở thành một thách thức nghiêm trọng, ảnh hưởng tiêu cực đến tính toàn vẹn và độ tin cậy của môi trường trực tuyến. Ước tính cho thấy từ 9% đến 15% tài khoản trên Twitter là bot, tương đương khoảng 48 triệu tài khoản, và các bot này đóng góp tới 35% nội dung được đăng tải trên nền tảng. Vấn đề này không chỉ làm suy yếu chất lượng nội dung mà còn gây khó khăn trong việc bảo vệ người dùng khỏi các hoạt động gian lận, lừa đảo và thao túng dư luận.

Mục tiêu nghiên cứu của luận văn là phát triển một mô hình học sâu tiên tiến sử dụng mạng nơ-ron đồ thị (Graph Neural Networks - GNNs) để phát hiện bot trên Twitter một cách hiệu quả và chính xác hơn các phương pháp truyền thống. Nghiên cứu tập trung khai thác đồng thời bốn loại thông tin quan trọng: thuộc tính người dùng, ngữ nghĩa tweet, mối quan hệ giữa các tweet và mối quan hệ đa chiều giữa các tài khoản. Phạm vi nghiên cứu được giới hạn trong dữ liệu thu thập từ nền tảng Twitter, sử dụng tập dữ liệu chuẩn Cresci-2015 với số lượng lớn tài khoản người dùng thật và bot đã được gán nhãn. Thời gian nghiên cứu kéo dài trong vòng một năm, từ tháng 1 đến tháng 5 năm 2024.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phát hiện bot, góp phần xây dựng môi trường mạng xã hội an toàn, lành mạnh và đáng tin cậy hơn. Các chỉ số đánh giá hiệu quả mô hình bao gồm độ chính xác (Accuracy), độ chính xác dương tính (Precision), độ nhạy (Recall) và điểm F1 (F1 Score), đảm bảo đánh giá toàn diện về khả năng phân loại bot.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: Mạng nơ-ron đồ thị (Graph Neural Networks - GNNs) và kỹ thuật biểu diễn ngữ nghĩa văn bản bằng Sentence Transformers (SBERT).

Mạng nơ-ron đồ thị (GNNs): GNNs là mô hình học sâu chuyên biệt để xử lý dữ liệu có cấu trúc đồ thị, cho phép học biểu diễn phong phú của các nút dựa trên đặc trưng của nút và cấu trúc quan hệ giữa các nút. Cơ chế truyền tin (message passing) trong GNNs gồm ba bước: tính toán tin nhắn, tổng hợp tin nhắn và cập nhật trạng thái nút. Các biến thể như Graph Convolutional Networks (GCN) và Graph Attention Networks (GAT) được sử dụng để cải thiện khả năng học biểu diễn bằng cách áp dụng phép tích chập trên đồ thị hoặc cơ chế chú ý trọng số cho các nút lân cận.
Sentence Transformers (SBERT): SBERT là mô hình mã hóa văn bản dựa trên kiến trúc transformer, giúp trích xuất biểu diễn ngữ nghĩa phong phú cho từng câu hoặc đoạn văn. Việc sử dụng SBERT giúp mô hình nắm bắt tốt hơn ngữ nghĩa và ngữ cảnh của các tweet, từ đó nâng cao khả năng phân biệt tweet do người dùng thật hay bot tạo ra.

Các khái niệm chuyên ngành quan trọng bao gồm: đặc trưng người dùng (user attributes), ngữ nghĩa tweet (tweet semantics), mối quan hệ mạng xã hội (social network relations), và các thuật toán học sâu như GNN, GCN, GAT.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng tập dữ liệu chuẩn Cresci-2015, bao gồm hàng ngàn tài khoản Twitter đã được gán nhãn bot hoặc người dùng thật, cùng với thông tin chi tiết về tweet, thuộc tính người dùng và mối quan hệ giữa các tài khoản (followers/followings).
Phương pháp phân tích: Luận văn xây dựng mô hình học sâu tích hợp SBERT để mã hóa nội dung tweet và GNN để khai thác cấu trúc mạng xã hội. Các bước chính gồm tiền xử lý dữ liệu (loại bỏ từ dừng, chuẩn hóa văn bản), trích xuất đặc trưng, xây dựng đồ thị mối quan hệ người dùng, huấn luyện mô hình phân loại bot và đánh giá hiệu quả bằng các chỉ số chuẩn mực (Accuracy, Precision, Recall, F1 Score).
Timeline nghiên cứu: Nghiên cứu được thực hiện trong vòng 5 tháng, từ tháng 1 đến tháng 5 năm 2024, bao gồm các giai đoạn: tổng quan tài liệu, thu thập và tiền xử lý dữ liệu, thiết kế và huấn luyện mô hình, thử nghiệm và đánh giá, viết báo cáo luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình đề xuất: Mô hình học sâu tích hợp SBERT và GNN đạt độ chính xác phân loại bot trên Twitter cao hơn khoảng 7% so với các phương pháp truyền thống sử dụng TF-IDF và các mô hình học máy như Random Forests. Cụ thể, độ chính xác đạt khoảng 92%, điểm F1 đạt 0.90, vượt trội so với các mô hình baseline.
Tác động của trích xuất đặc trưng ngữ nghĩa: Việc sử dụng SBERT để mã hóa nội dung tweet giúp mô hình nắm bắt được ngữ nghĩa sâu sắc, tăng độ nhạy (Recall) lên khoảng 5% so với việc sử dụng TF-IDF truyền thống, cho thấy khả năng phát hiện bot dựa trên nội dung được cải thiện rõ rệt.
Vai trò của mạng lưới quan hệ người dùng: Xây dựng đồ thị mối quan hệ followers/followings và áp dụng GNN giúp mô hình khai thác hiệu quả các mối quan hệ đa chiều giữa các tài khoản, tăng độ chính xác phân loại lên khoảng 4% so với mô hình chỉ sử dụng đặc trưng cá nhân.
Thách thức về dữ liệu và tính toán: Mô hình yêu cầu tập dữ liệu huấn luyện lớn và tài nguyên tính toán cao, đặc biệt khi mở rộng số lớp GNN để thu thập thông tin từ các vùng lân cận xa hơn. Hiện tượng over-smoothing cũng được ghi nhận khi số lớp GNN vượt quá 3, làm giảm khả năng phân biệt đặc trưng.

Thảo luận kết quả

Kết quả cho thấy sự kết hợp giữa biểu diễn ngữ nghĩa sâu sắc của SBERT và khả năng khai thác cấu trúc mạng xã hội của GNN tạo ra một mô hình phát hiện bot hiệu quả hơn nhiều so với các phương pháp truyền thống chỉ dựa trên đặc trưng đơn lẻ hoặc mô hình học máy cổ điển. Việc sử dụng GAT với cơ chế chú ý giúp mô hình tập trung vào các nút lân cận quan trọng, giảm thiểu ảnh hưởng của các nút không liên quan, từ đó cải thiện hiệu suất phân loại.

So sánh với các nghiên cứu trước đây, mô hình đề xuất vượt trội hơn về độ chính xác và khả năng tổng quát hóa trên tập dữ liệu chuẩn. Tuy nhiên, các thách thức về hiệu suất tính toán và yêu cầu dữ liệu lớn vẫn là rào cản cần được giải quyết trong các nghiên cứu tiếp theo. Việc trình bày dữ liệu qua biểu đồ so sánh độ chính xác và điểm F1 giữa các mô hình khác nhau giúp minh họa rõ ràng sự cải thiện của mô hình đề xuất.

Đề xuất và khuyến nghị

Tăng cường thu thập và làm sạch dữ liệu: Động viên các nền tảng mạng xã hội và cộng đồng nghiên cứu hợp tác để xây dựng các tập dữ liệu lớn, đa dạng và được gán nhãn chính xác hơn nhằm nâng cao chất lượng huấn luyện mô hình. Thời gian thực hiện: 6-12 tháng; Chủ thể: các tổ chức nghiên cứu và nền tảng mạng xã hội.
Phát triển các kiến trúc GNN hiệu quả hơn: Nghiên cứu và áp dụng các kỹ thuật giảm thiểu over-smoothing, như skip connections, attention đa đầu, hoặc học đa tác vụ để cải thiện khả năng học sâu và mở rộng mô hình trên đồ thị lớn. Thời gian thực hiện: 12 tháng; Chủ thể: các nhóm nghiên cứu học máy.
Tối ưu hóa hiệu suất tính toán: Áp dụng các kỹ thuật tính toán phân tán, lấy mẫu nút lân cận (neighbor sampling) và tăng cường phần cứng để giảm chi phí tính toán khi huấn luyện và triển khai mô hình. Thời gian thực hiện: 6-9 tháng; Chủ thể: các nhà phát triển phần mềm và kỹ sư hệ thống.
Mở rộng ứng dụng mô hình: Áp dụng mô hình phát hiện bot trên các nền tảng mạng xã hội khác như Facebook, Instagram, TikTok để đánh giá tính khả thi và hiệu quả, đồng thời phát triển các mô hình học sâu thích ứng với đặc thù từng nền tảng. Thời gian thực hiện: 12-18 tháng; Chủ thể: các tổ chức nghiên cứu đa nền tảng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học giả trong lĩnh vực học máy và mạng xã hội: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng GNN và kỹ thuật xử lý ngôn ngữ tự nhiên trong phát hiện bot, hỗ trợ phát triển các nghiên cứu tiếp theo.
Chuyên gia phát triển sản phẩm và kỹ sư dữ liệu tại các nền tảng mạng xã hội: Các giải pháp và mô hình đề xuất giúp cải thiện hệ thống phát hiện bot, nâng cao chất lượng trải nghiệm người dùng và bảo vệ môi trường mạng.
Cơ quan quản lý và tổ chức an ninh mạng: Thông tin về đặc điểm và phương pháp phát hiện bot hỗ trợ xây dựng chính sách, công cụ giám sát và phòng chống các hoạt động gian lận, lừa đảo trên mạng xã hội.
Sinh viên và học viên ngành khoa học máy tính, trí tuệ nhân tạo: Luận văn là tài liệu tham khảo quý giá về các kỹ thuật học sâu tiên tiến, phương pháp nghiên cứu và ứng dụng thực tiễn trong lĩnh vực phát hiện bot xã hội.

Câu hỏi thường gặp

Mô hình học sâu sử dụng GNN có ưu điểm gì so với các phương pháp truyền thống?
Mô hình GNN khai thác hiệu quả cấu trúc mạng xã hội và mối quan hệ giữa các tài khoản, kết hợp với biểu diễn ngữ nghĩa sâu sắc từ SBERT giúp tăng độ chính xác phát hiện bot lên khoảng 7% so với các phương pháp truyền thống như Random Forests hoặc TF-IDF.
Tại sao cần sử dụng biểu diễn ngữ nghĩa của tweet thay vì chỉ dựa vào đặc trưng thống kê?
Biểu diễn ngữ nghĩa giúp mô hình hiểu được nội dung và ngữ cảnh của tweet, từ đó phân biệt tốt hơn giữa tweet do người thật và bot tạo ra, đặc biệt khi bot ngày càng tinh vi trong việc mô phỏng hành vi con người.
Hiện tượng over-smoothing trong GNN là gì và ảnh hưởng thế nào đến mô hình?
Over-smoothing xảy ra khi các biểu diễn của các nút trong đồ thị trở nên quá giống nhau sau nhiều lớp truyền tin, làm giảm khả năng phân biệt đặc trưng riêng biệt của từng nút, ảnh hưởng tiêu cực đến hiệu quả phân loại.
Làm thế nào để giảm thiểu chi phí tính toán khi huấn luyện mô hình GNN trên dữ liệu lớn?
Có thể áp dụng kỹ thuật lấy mẫu nút lân cận (neighbor sampling), tính toán phân tán, sử dụng phần cứng chuyên dụng và tối ưu hóa thuật toán để giảm chi phí tính toán mà vẫn giữ được hiệu quả mô hình.
Mô hình đề xuất có thể áp dụng cho các nền tảng mạng xã hội khác ngoài Twitter không?
Có thể, tuy nhiên cần điều chỉnh và huấn luyện lại mô hình để phù hợp với đặc thù dữ liệu và cấu trúc mạng xã hội của từng nền tảng, đồng thời thu thập dữ liệu gán nhãn tương ứng để đảm bảo hiệu quả phát hiện.

Kết luận

Luận văn đã phát triển thành công mô hình học sâu tích hợp Graph Neural Networks và Sentence Transformers để phát hiện bot trên Twitter với độ chính xác cao hơn khoảng 7% so với các phương pháp truyền thống.
Mô hình khai thác đồng thời đặc trưng người dùng, ngữ nghĩa tweet, mối quan hệ giữa tweet và mạng lưới tài khoản, tạo ra giải pháp toàn diện và hiệu quả.
Các thách thức chính bao gồm yêu cầu dữ liệu lớn, chi phí tính toán cao và hiện tượng over-smoothing trong GNN khi tăng số lớp.
Đề xuất các giải pháp nâng cao hiệu suất mô hình, tối ưu hóa tính toán và mở rộng ứng dụng sang các nền tảng mạng xã hội khác.
Khuyến khích các nhà nghiên cứu và chuyên gia trong lĩnh vực tiếp tục phát triển các kỹ thuật học sâu thích ứng, góp phần xây dựng môi trường mạng xã hội an toàn và đáng tin cậy hơn.

Hành động tiếp theo là triển khai thử nghiệm mô hình trên quy mô lớn hơn, tối ưu hóa kiến trúc GNN và phối hợp với các nền tảng mạng xã hội để ứng dụng thực tế. Độc giả và các nhà nghiên cứu được mời tham khảo và phát triển thêm dựa trên các kết quả và phương pháp được trình bày trong luận văn này.

Trích đoạn nội dung tài liệu

Chương 1 GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu chung Trong hơn thập kỷ qua, mạng xã hội đã trở thành một trong những công cụ truyền thông phổ biến và ảnh hưởng nhất trên Internet. Các nền tảng này cho phép người dùng tạo hồ sơ cá nhân, kết nối, tương tác và chia sẻ thông tin với nhau, tạo nên một không gian xã hội sôi động và đa dạng. Sự phát triển vượt bậc của mạng xã hội đã khiến chúng trở thành một phần không thể thiếu trong đời sống hàng ngày của hàng tỷ người trên toàn cầu. Đặc biệt, trong bối cảnh đại dịch COVID-19 lan rộng toàn cầu, khi con người phải đối mặt với nhiều thách thức trong việc duy trì các hoạt động thường nhật, mạng xã hội đã trở thành một kênh quan trọng để tìm kiếm thông tin về sức khỏe và kết nối với cộng đồng.

Điều này nhấn mạnh tầm quan trọng của các nền tảng mạng xã hội như một phương tiện truyền thông thiết yếu trong các tình huống khẩn cấp và khủng hoảng toàn cầu [1]. Tuy nhiên, sự phát triển nhanh chóng của mạng xã hội cũng mang đến những thách thức đáng kể. Một trong những mối đe dọa lớn nhất đối với tính toàn vẹn và độ tin cậy của các nền tảng này là sự xuất hiện ngày càng nhiều của các bot xã hội tự động, hay còn gọi là spambot. Những bot này thực hiện các hoạt động độc hại như phát tán phần mềm độc hại, quảng bá các trang web lừa đảo và đăng tải nội dung rác.

Chúng hoạt động một phần hoặc hoàn toàn tự động, thường được thiết kế để giả mạo hành vi của con người nhằm qua mặt các cơ chế phát hiện của nền tảng. Ước tính cho thấy bot độc hại chiếm một tỷ lệ đáng kể trong tổng số tài khoản trên mạng xã hội, gây ra nhiều hậu quả tiêu cực. Quy mô của vấn đề bot xã hội đã được làm rõ trong nhiều nghiên cứu. Theo Varol và cộng sự [49], từ 9% đến 15% tài khoản trên Twitter là bot, tương đương với khoảng 48 triệu tài khoản1.

Một nghiên cứu khác cũng ước tính rằng các bot xã hội đóng góp tới 35% nội dung được đăng tải trên nền tảng này [2]. Những con số này cho thấy mức độ nghiêm trọng của vấn đề và sự cần thiết phải có các giải pháp hiệu quả để đối phó. Cộng đồng nghiên cứu đã nỗ lực giải quyết các thách thức liên quan đến việc sử dụng tài khoản tự động trên mạng xã hội. Mục tiêu chính là ngăn chặn sự lan truyền của nội dung rác, liên kết lừa đảo và sự thao túng của các tài khoản thật thông qua chiếm đoạt và lừa dối người dùng.

Đáng chú ý, những cá nhân kiểm soát bot (botmaster), những người quản lý các nhóm bot xã hội, thường đóng vai trò then chốt trong các hoạt động độc hại này và là mục tiêu quan trọng của các nỗ lực phát hiện và ngăn chặn. Sự hiện diện của bot xã hội không chỉ gây ra các hoạt động gian lận và lừa đảo, mà còn tác 1 https://expandedramblings.php/twitter-stats-facts/ Luận văn cao học, Học kì 2, Năm học 2023 - 2024 Trang 1/81 Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính động tiêu cực đến toàn bộ môi trường trực tuyến. Chúng tạo ra nhiều mối quan hệ xã hội giả tạo, làm suy yếu chất lượng nội dung và gây ảnh hưởng xấu đến trải nghiệm của người dùng thực. Bot xã hội cũng có khả năng tổng hợp thông tin từ web để mạo danh người khác, bắt chước hành vi con người một cách tinh vi, gây khó khăn cho việc phát hiện và loại bỏ chúng.

Vì vậy, việc phát triển các biện pháp phòng ngừa và đối phó hiệu quả để ngăn chặn hoạt động sai trái của bot xã hội và giảm thiểu hậu quả nghiêm trọng của chúng là một nhiệm vụ cấp thiết, đòi hỏi sự nỗ lực của cả cộng đồng nghiên cứu và các nền tảng mạng xã hội.2 Mục tiêu đề tài Trong bối cảnh sự bùng nổ của mạng xã hội và những thách thức ngày càng gia tăng từ các tài khoản bot độc hại, nghiên cứu này tập trung vào việc khảo sát, đánh giá một cách toàn diện và hệ thống các phương pháp tiên tiến nhất trong lĩnh vực phát hiện bot xã hội. Trên cơ sở đó, luận văn đề xuất một giải pháp đột phá, một mô hình học sâu tiên tiến, nhằm giải quyết vấn đề phát hiện bot một cách hiệu quả, chính xác và toàn diện hơn so với các phương pháp hiện có. Cụ thể, mô hình học sâu được đề xuất sẽ tích hợp bốn loại thông tin quan trọng, bao gồm: 1. Các thuộc tính đa dạng và phong phú của người dùng: Mô hình sẽ khai thác triệt để các thuộc tính và đặc trưng ở nhiều khía cạnh khác nhau của người dùng, bao gồm thông tin hồ sơ, hành vi tương tác, lịch sử hoạt động, v.

Việc tận dụng tối đa các thông tin này sẽ giúp mô hình nắm bắt chính xác và toàn diện hơn về đặc điểm của từng cá nhân, từ đó phân biệt hiệu quả giữa người dùng thật và bot. Ngữ nghĩa phong phú của các tweet: Bên cạnh việc xem xét các thuộc tính của người dùng, mô hình còn đi sâu vào phân tích ngữ nghĩa của từng tweet. Bằng cách áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến, mô hình sẽ trích xuất và khai thác triệt để các thông tin ngữ nghĩa phong phú, bao gồm từ vựng, cấu trúc ngữ pháp, ngữ điệu, phong cách diễn đạt, v. Những thông tin này sẽ cung cấp những tín hiệu quan trọng để phân biệt giữa tweet do con người tạo ra và tweet được tạo bởi bot.

Mối quan hệ phức tạp giữa các tweet: Không chỉ xem xét từng tweet riêng lẻ, mô hình còn khai thác và mô hình hóa mối quan hệ phức tạp giữa các tweet. Thông qua việc phân tích các mối liên kết ngữ nghĩa, chủ đề, thời gian, v. giữa các tweet, mô hình sẽ tạo ra một cấu trúc mạng phức tạp, cho phép nắm bắt và khai thác hiệu quả các mối quan hệ đa chiều giữa các tweet. Điều này sẽ cung cấp thêm những tín hiệu mạnh mẽ để phát hiện các hành vi bất thường hoặc dấu hiệu của bot.

Mối quan hệ đa chiều giữa các tài khoản: Mô hình sẽ đi xa hơn việc chỉ xem xét từng tài khoản riêng lẻ, mà còn mô hình hóa và khai thác mối quan hệ đa chiều giữa các tài khoản. Thông qua việc xây dựng các mạng kết nối dựa trên tương tác, lan truyền thông tin, và các mối liên hệ khác giữa các tài khoản, mô hình sẽ tạo ra một bức tranh tổng thể về cấu trúc cộng đồng và mối quan hệ phức tạp trong mạng xã hội. Điều này cho phép phát hiện các nhóm bot có tổ chức, các chiến dịch lan truyền tin giả, và các hành vi bất thường khác ở cấp độ mạng lưới. Điểm mạnh và sự khác biệt của mô hình học sâu được đề xuất nằm ở khả năng học và khai thác đồng thời, hiệu quả các đặc trưng và mối quan hệ đa chiều từ nhiều góc độ khác nhau của dữ liệu, bao gồm thuộc tính người dùng, ngữ nghĩa tweet, mối quan hệ giữa tweet, và mối quan hệ giữa tài khoản.

Sự tích hợp toàn diện này cho phép mô hình đưa ra những dự đoán chính xác và tin cậy về xác suất một tweet hoặc tài khoản cụ thể là bot. Thông qua nghiên cứu này, học viên kỳ vọng đóng góp một bước tiến quan trọng trong lĩnh vực phát hiện bot xã hội, vượt trội hơn so với các phương pháp hiện có. Giải pháp đề xuất hứa hẹn sẽ nâng cao đáng kể hiệu quả và độ chính xác trong việc nhận diện và loại bỏ bot, từ đó góp phần quan trọng vào nỗ lực đảm Luận văn cao học, Học kì 2, Năm học 2023 - 2024 Trang 2/81 Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính bảo một môi trường mạng xã hội an toàn, lành mạnh và đáng tin cậy. Đồng thời, những đóng góp khoa học và kỹ thuật của luận văn cũng sẽ mở ra những hướng nghiên cứu mới, thúc đẩy sự phát triển của lĩnh vực này trong tương lai.3 Giới hạn phạm vi và đối tượng nghiên cứu Để đảm bảo tính khả thi, hiệu quả và sự tập trung trong khuôn khổ của một luận văn thạc sĩ, học viên xin đề xuất các giới hạn cụ thể và rõ ràng về phạm vi và đối tượng nghiên cứu như sau: 1.

Phạm vi nghiên cứu: luận văn này tập trung vào việc phân tích, xử lý và khai thác dữ liệu thu thập từ nền tảng mạng xã hội Twitter. Sự lựa chọn Twitter như một phạm vi nghiên cứu chính đặt nền tảng vững chắc cho đóng góp khoa học của luận văn. Twitter hiện là một trong những mạng xã hội lớn nhất và phổ biến nhất trên toàn cầu, với hàng trăm triệu người dùng tích cực. Nền tảng này tạo ra một lượng dữ liệu khổng lồ, phong phú và đa dạng, bao gồm các thông tin về người dùng, nội dung tweet, tương tác và mối quan hệ giữa các tài khoản.

Đồng thời, Twitter cũng là môi trường hoạt động tích cực của nhiều loại bot xã hội, từ các bot thương mại, bot chính trị, đến các bot độc hại và lừa đảo. Việc tập trung vào Twitter cho phép nghiên cứu đi sâu vào một bối cảnh cụ thể, đại diện và thách thức, từ đó đưa ra những đóng góp thiết thực và ý nghĩa. Đối tượng nghiên cứu: • Tập dữ liệu thí nghiệm: Để đảm bảo tính tin cậy, khách quan và so sánh được với các nghiên cứu khác trong lĩnh vực, luận văn sử dụng tập dữ liệu chuẩn và được công nhận rộng rãi - tập dữ liệu Cresci-2015. Đây là một tập dữ liệu toàn diện và đa dạng, được xây dựng bởi các chuyên gia hàng đầu, dành riêng cho mục đích nghiên cứu và đánh giá các phương pháp phát hiện bot xã hội.

Tập dữ liệu bao gồm một số lượng lớn các tài khoản người dùng thật và bot, được thu thập và gán nhãn một cách cẩn thận. Ngoài ra, tập dữ liệu còn cung cấp một loạt các thông tin phong phú, bao gồm nội dung tweet, thuộc tính người dùng, mối quan hệ và tương tác giữa các tài khoản. Đặc biệt, tập dữ liệu chứa thông tin chi tiết về mối quan hệ giữa các tài khoản, bao gồm số lượng người theo dõi (follower) và số lượng người mà một tài khoản đang theo dõi (following). Những thông tin này rất quan trọng để hiểu và mô hình hóa cấu trúc mạng xã hội, cũng như phát hiện các dấu hiệu bất thường liên quan đến bot.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học sâu trong phân tích mạng xã hội

Ứng dụng GNN trong phát hiện bot

Phát hiện bot và tài khoản giả mạo

An toàn và bảo mật Twitter