I. Tổng quan về phân tích mạng xã hội Bitcoin OTC
Bitcoin OTC là nền tảng giao dịch ngang hàng cho phép người dùng mua bán Bitcoin trực tiếp mà không cần qua sàn giao dịch tập trung. Mạng lưới này tạo ra một đồ thị xã hội phức tạp, nơi các nút đại diện cho người dùng và các cạnh thể hiện mối quan hệ đánh giá tin cậy giữa họ. Đề tài thuộc đồ án môn học IS353 Mạng xã hội, thực hiện tại trường Đại học Công nghệ Thông tin. Dataset chứa thông tin về các giao dịch đánh giá giữa người dùng, bao gồm ID người đánh giá, ID người được đánh giá, điểm đánh giá và thời gian giao dịch. Nghiên cứu áp dụng kỹ thuật phân tích mạng xã hội để hiểu cấu trúc và cộng đồng trong mạng lưới. Các công cụ chính bao gồm Python xử lý dữ liệu, tính toán độ đo, cùng Gephi trực quan hóa đồ thị. Qua đó, nghiên cứu giúp nhận diện nhân vật quan trọng, phát hiện cộng đồng giao dịch và đánh giá mức độ tin cậy trong mạng lưới Bitcoin OTC.
1.1. Mô tả dataset Bitcoin OTC
Dataset Bitcoin OTC được thu thập từ nền tảng giao dịch ngang hàng. Mỗi bản ghi đại diện cho một đánh giá tin cậy giữa hai người dùng. Mỗi đánh giá bao gồm bốn thuộc tính chính: ID người đánh giá, ID người được đánh giá, mức điểm đánh giá từ -10 đến +10 và thời gian giao dịch. Các nút trong đồ thị đại diện cho người dùng tham gia. Các cạnh biểu thị mối quan hệ đánh giá giữa hai người dùng. Trọng số của cạnh phản ánh mức độ tin cậy. Điểm dương cho thấy sự tin tưởng, điểm âm biểu thị sự thiếu tin cậy. Dataset cung cấp cái nhìn sâu sắc về cấu trúc mạng lưới giao dịch Bitcoin.
1.2. Mục tiêu và phạm vi nghiên cứu
Nghiên cứu nhằm đạt ba mục tiêu chính. Thứ nhất, phân tích cấu trúc mạng xã hội Bitcoin OTC thông qua các độ đo trung tâm như Degree Centrality, Betweenness Centrality, Closeness Centrality và Clustering Coefficient. Thứ hai, áp dụng thuật toán khám phá cộng đồng Girvan-Newman để phát hiện nhóm người dùng có mối quan hệ mật thiết. Thứ ba, sử dụng PageRank xác định nhân vật có ảnh hưởng lớn trong mạng lưới. Phạm vi nghiên cứu tập trung vào tiền xử lý dữ liệu, xây dựng đồ thị liên kết và trực quan hóa kết quả trên Python và Gephi. Qua đó giúp hiểu rõ bản chất mạng lưới giao dịch phi tập trung.
II. Phân tích các độ đo trung tâm trong mạng Bitcoin OTC
Các độ đo trung tâm là công cụ cơ bản trong phân tích mạng xã hội, giúp xác định tầm quan trọng của từng nút trong đồ thị. Trong mạng lưới Bitcoin OTC, các độ đo này phản ánh mức độ ảnh hưởng và vai trò của từng người dùng trong hệ thống giao dịch. Degree Centrality đo lường số kết nối trực tiếp của một nút. Người dùng có Degree cao thường tham gia giao dịch tích cực nhất. Betweenness Centrality xác định nút đóng vai trò cầu nối, tức người dùng trung gian kết nối các nhóm khác nhau. Closeness Centrality đánh giá mức độ gần gũi của nút với tất cả nút khác. Clustering Coefficient đo xu hướng tập hợp của các nút lân cận, phản ánh mức độ gắn kết trong nhóm nhỏ. Kết quả phân tích trên Python và Gephi cho thấy sự nhất quán cao, tăng độ tin cậy nghiên cứu. Các node Id 35 và 2642 xuất hiện nổi bật ở nhiều độ đo khác nhau.
2.1. Độ đo Degree và Betweenness Centrality
Degree Centrality tính tỷ lệ số cạnh kết nối trực tiếp của nút so với tổng số cạnh có thể có. Trong mạng Bitcoin OTC, nút có Degree cao nhất là người dùng thực hiện nhiều giao dịch đánh giá nhất. Top 10 nodes có Degree cao nhất trên Python và Gephi đều cho kết quả tương đồng. Betweenness Centrality đo tần suất nút nằm trên đường đi ngắn nhất giữa các cặp nút khác. Giá trị Betweenness cao cho thấy nút đóng vai trò trung gian quan trọng. Công thức chuẩn hóa cho đồ thị vô hướng sử dụng mẫu số (n-1)(n-2)/2. Các nút Betweenness cao thường kết nối giữa các cộng đồng giao dịch khác nhau.
2.2. Độ đo Closeness và Clustering Coefficient
Closeness Centrality được tính bằng nghịch đảo tổng khoảng cách từ nút đến tất cả nút khác. Nút có giá trị Closeness cao nhất cho thấy khả năng lan truyền thông tin nhanh nhất. Trong Bitcoin OTC, điều này phản ánh người dùng có thể tiếp cận và ảnh hưởng nhiều đối tượng trong thời gian ngắn. Clustering Coefficient đo mức độ các nút lân cận tạo thành nhóm liên kết chặt chẽ. Kết quả cho thấy top 10 nodes có Clustering Coefficient đều đạt giá trị bằng 1. Điều này chứng tỏ nút lân cận hoàn toàn kết nối với nhau, tạo thành các cliques hoàn chỉnh trong mạng lưới giao dịch.
III. Phương pháp phân tích và trực quan hóa mạng xã hội
Quy trình phân tích mạng xã hội Bitcoin OTC bao gồm nhiều bước từ tiền xử lý dữ liệu đến trực quan hóa kết quả. Phương pháp kết hợp lập trình Python và công cụ Gephi để đảm bảo tính chính xác và trực quan. Bước đầu tiên là tiền xử lý dữ liệu thô. Dữ liệu được làm sạch, loại bỏ bản ghi trùng lặp và xử lý giá trị thiếu. Tiếp theo, mạng liên kết được xây dựng dựa trên mối quan hệ đánh giá giữa người dùng. Mỗi cạnh mang trọng số tương ứng mức điểm đánh giá. Sau khi xây dựng đồ thị, các độ đo trung tâm được tính toán bằng thư viện NetworkX trên Python. Kết quả được so sánh và xác nhận chéo với trực quan hóa trên Gephi. Việc sử dụng hai công cụ song song giúp tăng độ tin cậy và phát hiện sai sót. Các thuật toán khám phá cộng đồng Girvan-Newman được áp dụng để phân chia mạng thành nhóm người dùng mật thiết. PageRank giúp xếp hạng tầm quan trọng từng nút.
3.1. Tiền xử lý dữ liệu và xây dựng đồ thị
Tiền xử lý dữ liệu là bước quan trọng đầu tiên. Dataset Bitcoin OTC chứa bản ghi đánh giá với bốn trường dữ liệu chính. Dữ liệu được đọc và chuyển đổi thành DataFrame sử dụng Pandas trên Python. Quá trình xây dựng đồ thị dùng thư viện NetworkX. Các nút tạo từ danh sách ID người dùng duy nhất. Các cạnh thiết lập dựa trên mối quan hệ đánh giá giữa hai người dùng, với trọng số tương ứng mức điểm. Đồ thị kết quả là đồ thị có hướng và có trọng số. Sau khi xây dựng, đồ thị xuất ra định dạng tương thích với Gephi để trực quan hóa.
3.2. Sử dụng Python và Gephi để trực quan hóa
Python với thư viện NetworkX đóng vai trò tính toán độ đo và chạy thuật toán. Matplotlib hỗ trợ vẽ biểu đồ phân tích kết quả. Các chỉ số Degree, Betweenness, Closeness và Clustering Coefficient được tính tự động và hiển thị dạng bảng xếp hạng. Gephi là công cụ trực quan hóa đồ thị chuyên nghiệp, hiển thị mạng liên kết dưới dạng đồ họa. Người dùng điều chỉnh layout, màu sắc và kích thước nút dựa trên giá trị độ đo. Top 10 nodes quan trọng được highlight rõ ràng. Kết hợp cả hai công cụ cho phép xác nhận chéo, đảm bảo tính nhất quán và chính xác.
IV. Kết luận và ứng dụng phân tích mạng Bitcoin OTC
Đề tài phân tích mạng xã hội Bitcoin OTC đã đạt nhiều kết quả quan trọng. Qua áp dụng các độ đo trung tâm và thuật toán khám phá cộng đồng, nghiên cứu làm sáng tỏ cấu trúc và đặc điểm mạng lưới giao dịch Bitcoin ngang hàng. Kết quả cho thấy mạng Bitcoin OTC có cấu trúc cộng đồng rõ ràng. Thuật toán Girvan-Newman chia mạng thành năm cộng đồng riêng biệt. Các nút trong cùng cộng đồng chủ yếu đánh giá lẫn nhau, ít tương tác với cộng đồng khác. Điều này phản ánh tính cục bộ cao trong mạng lưới. PageRank xác định node 35 và 2642 có ảnh hưởng lớn nhất, nhận được nhiều đánh giá quan trọng. Kết quả trên Python và Gephi hoàn toàn nhất quán, chứng minh độ tin cậy phân tích. Nghiên cứu mở ra hướng ứng dụng trong đánh giá rủi ro giao dịch, phát hiện gian lận và tối ưu mạng lưới tiền mã hóa.
4.1. Kết quả phân tích cộng đồng Girvan Newman
Thuật toán Girvan-Newman dựa trên nguyên tắc loại bỏ dần cạnh có Betweenness Centrality cao nhất để chia mạng thành cộng đồng. Kết quả áp dụng trên dataset Bitcoin OTC cho ra năm cộng đồng riêng biệt. Group 0 chứa số lượng node lớn nhất, bao gồm phần lớn người dùng. Group 1 gồm các node từ 1078 đến 1089, tạo nhóm giao dịch khép kín. Các Group 2, 3, 4 có kích thước nhỏ, chỉ hai hoặc ba node mỗi nhóm. Đặc điểm chung là node bên trong chỉ đánh giá lẫn nhau, không tương tác bên ngoài. Điều này chứng tỏ tính cục bộ cao trong mạng lưới.
4.2. Ứng dụng thực tiễn và hướng phát triển
Phân tích mạng xã hội Bitcoin OTC có nhiều ứng dụng thực tiễn. Kết quả giúp đánh giá mức độ tin cậy người dùng trong mạng lưới giao dịch tiền mã hóa. Người dùng có độ đo trung tâm cao thường đáng tin cậy hơn. Phát hiện cộng đồng hỗ trợ xác định nhóm giao dịch có nguy cơ gian lận hoặc thao túng thị trường. Cộng đồng khép kín có thể là dấu hiệu hoạt động bất thường cần giám sát. Hướng phát triển bao gồm áp dụng thuật toán nâng cao như Louvain, Label Propagation. Tích hợp phân tích temporal theo dõi thay đổi cấu trúc mạng theo thời gian cũng là hướng tiềm năng.