Nghiên cứu chỉ số modular và bước đi ngẫu nhiên trong phát hiện cộng đồng

I. Tổng Quan Về Chỉ Số Modularity Trong Mạng Xã Hội

Sự trỗi dậy của Big Data và nghiên cứu liên ngành đã thúc đẩy sự phát triển của network science, thu hút sự quan tâm lớn từ cả giới học thuật và công nghiệp. Một hướng nghiên cứu quan trọng là phân chia mạng thành các nhóm nhỏ hơn gồm các nút tương tự, được gọi là phát hiện cộng đồng. Luận văn này tập trung vào hai chủ đề chính: chỉ số modularity như một hàm chất lượng phân cụm và các đặc tính phân cụm phổ của bước đi ngẫu nhiên trên đồ thị. Luận văn bao gồm bốn chương và một phụ lục, với nội dung chính nằm ở Chương 2 và Chương 3.

1.1. Giới Thiệu Chung Về Khoa Học Mạng Network Science

Network science đã phát triển thành một lĩnh vực rộng lớn. Thay vì cố gắng đưa ra một khảo sát nhỏ, phần này tập trung vào một số khía cạnh có thể gây nhầm lẫn cho người mới bắt đầu. Theo biên tập [3], network science là nghiên cứu về các mô hình mạng, bao gồm trừu tượng hóa từ các hiện tượng thực tế thành các khái niệm mạng và biểu diễn các khái niệm đó bằng dữ liệu mạng. Điều làm cho dữ liệu mạng khác biệt so với dữ liệu bảng truyền thống là sự phụ thuộc hoặc mối quan hệ được xây dựng, dễ dàng hình dung như các liên kết trong một đồ thị. Việc một mối quan hệ nên được biểu diễn bằng một mạng hay không, và sau đó nó có thể được biểu diễn như thế nào, phụ thuộc rất nhiều vào vấn đề đang được nghiên cứu.

1.2. Cấu Trúc Cộng Đồng Trong Mạng Phức Tạp

Khi có một mạng, việc tìm kiếm các nhóm nút tương tự là điều tự nhiên, và chúng ta nói rằng các nhóm đó tạo thành một cấu trúc cộng đồng. Mô tả này có thể mơ hồ, vì không có điều kiện chính xác cho việc khi nào các nút tạo thành một cộng đồng. Nhiệm vụ phân biệt các nhóm đó trong một mạng được gọi là phát hiện cộng đồng hoặc phân cụm đồ thị. Hai thuật ngữ này được sử dụng thay thế cho nhau. Phân cụm đồ thị có liên quan chặt chẽ đến phân cụm dữ liệu dạng bảng. Thật vậy, một cách phổ biến để phân cụm dữ liệu dạng bảng là phân cụm phổ: tạo một đồ thị trong đó các nút đại diện cho các điểm dữ liệu, kết nối hai nút nếu chúng 'đủ gần', sau đó sử dụng các thuộc tính phổ của đồ thị để phân cụm dữ liệu.

II. Độ Đo Modularity Định Nghĩa và Ý Nghĩa Trong Phân Cụm

Chương 2 đi sâu vào modularity, một hàm chất lượng phân cụm phổ biến. Phần 2.1 định nghĩa modularity và đưa ra cách giải thích tiêu chuẩn dựa trên mô hình đồ thị ngẫu nhiên. Phần 2.2 trình bày các thuộc tính cơ bản của modularity, bao gồm modularity của một số đồ thị đặc biệt (chu trình, đồ thị đa phần đầy đủ,...). Phần 2.3 giải thích một số hạn chế của modularity khi được sử dụng trong bối cảnh thực tế của phát hiện cộng đồng. Modularity được giới thiệu lần đầu tiên trong [34] để chọn số lượng cộng đồng trong một dendrogram. Kể từ đó, nó đã trở thành một trong những...

2.1. Định Nghĩa và Giải Thích Chỉ Số Modularity

Theo tài liệu gốc, modularity được định nghĩa và giải thích dựa trên mô hình đồ thị ngẫu nhiên. Điều này cho phép đánh giá chất lượng của một phân vùng cộng đồng bằng cách so sánh nó với một cấu trúc ngẫu nhiên. Modularity đo lường sự khác biệt giữa số lượng cạnh thực tế bên trong các cộng đồng và số lượng cạnh dự kiến nếu các cạnh được phân phối ngẫu nhiên. Một giá trị modularity cao cho thấy rằng các cộng đồng được xác định có cấu trúc rõ ràng và không phải là kết quả của sự ngẫu nhiên.

2.2. Các Thuộc Tính Cơ Bản Của Modularity Trong Mạng Lưới

Modularity có một số thuộc tính quan trọng cần xem xét khi sử dụng nó để đánh giá chất lượng của các phân vùng cộng đồng. Ví dụ, modularity có thể được tính toán cho các đồ thị đặc biệt như chu trình và đồ thị đa phần đầy đủ. Những tính toán này cung cấp thông tin chi tiết về cách modularity hoạt động trong các cấu trúc mạng khác nhau. Ngoài ra, modularity có thể bị ảnh hưởng bởi kích thước và mật độ của các cộng đồng, điều này cần được xem xét khi so sánh các phân vùng cộng đồng khác nhau.

2.3. Hạn Chế Của Modularity Trong Phát Hiện Cộng Đồng

Mặc dù modularity là một thước đo phổ biến để đánh giá chất lượng của các phân vùng cộng đồng, nhưng nó có một số hạn chế. Một trong những hạn chế chính là độ phân giải, có nghĩa là modularity có xu hướng ưu tiên các cộng đồng nhỏ hơn, ngay cả khi có các cộng đồng lớn hơn, mật độ hơn. Điều này có thể dẫn đến kết quả không chính xác, đặc biệt là trong các mạng có cấu trúc cộng đồng phức tạp. Ngoài ra, modularity có thể bị ảnh hưởng bởi cấu trúc của mạng, điều này có thể gây khó khăn cho việc so sánh các phân vùng cộng đồng trên các mạng khác nhau.

III. Bước Đi Ngẫu Nhiên và Thuật Toán Walktrap Trong Phân Cụm

Chương 3 nghiên cứu các thuộc tính phổ của ma trận bước đi ngẫu nhiên và một thuật toán phân cụm dựa trên các thuộc tính đó. Phần 3.1 giới thiệu ma trận bước đi ngẫu nhiên và phổ của nó. Phần 3.2 giải thích tại sao các vectơ riêng trên cùng của ma trận đó kế thừa cấu trúc phân cụm của đồ thị và minh họa hiện tượng này bằng hình ảnh. Phần 3.3 trình bày thuật toán Walktrap và thực hiện các thử nghiệm trên một số đồ thị ngẫu nhiên để điều tra ảnh hưởng của kích thước bước và phương pháp liên kết trong thuật toán.

3.1. Ma Trận Bước Đi Ngẫu Nhiên và Phổ Của Nó

Ma trận bước đi ngẫu nhiên là một biểu diễn toán học của các bước đi ngẫu nhiên trên một đồ thị. Mỗi phần tử của ma trận đại diện cho xác suất chuyển từ một nút sang một nút khác trong một bước. Phổ của ma trận bước đi ngẫu nhiên cung cấp thông tin chi tiết về cấu trúc của đồ thị, bao gồm số lượng cộng đồng và kích thước của chúng. Các vectơ riêng trên cùng của ma trận bước đi ngẫu nhiên tương ứng với các cộng đồng quan trọng nhất trong đồ thị.

3.2. Tính Chất Phổ Của Ma Trận Bước Đi Ngẫu Nhiên

Các vectơ riêng trên cùng của ma trận bước đi ngẫu nhiên kế thừa cấu trúc phân cụm của đồ thị. Điều này là do các bước đi ngẫu nhiên có xu hướng ở lại bên trong các cộng đồng trong một thời gian dài trước khi chuyển sang các cộng đồng khác. Do đó, các vectơ riêng trên cùng của ma trận bước đi ngẫu nhiên có giá trị cao cho các nút thuộc cùng một cộng đồng và giá trị thấp cho các nút thuộc các cộng đồng khác. Hiện tượng này có thể được minh họa bằng hình ảnh bằng cách vẽ các vectơ riêng trên cùng trên đồ thị.

3.3. Thuật Toán Walktrap Chi Tiết và Thử Nghiệm

Thuật toán Walktrap là một thuật toán phân cụm dựa trên các thuộc tính phổ của ma trận bước đi ngẫu nhiên. Thuật toán hoạt động bằng cách tính toán ma trận khoảng cách giữa tất cả các cặp nút trong đồ thị, dựa trên số lượng bước đi ngẫu nhiên cần thiết để đi từ một nút sang nút khác. Sau đó, thuật toán sử dụng phân cụm phân cấp để nhóm các nút lại với nhau dựa trên ma trận khoảng cách. Các thử nghiệm trên các đồ thị ngẫu nhiên cho thấy rằng thuật toán Walktrap có hiệu quả trong việc phát hiện các cộng đồng trong các mạng có cấu trúc cộng đồng rõ ràng.

IV. Ứng Dụng Thực Tế Của Phát Hiện Cộng Đồng Trong Mạng Xã Hội

Phát hiện cộng đồng có nhiều ứng dụng thực tế trong các lĩnh vực khác nhau, đặc biệt là trong phân tích mạng xã hội. Việc xác định các cộng đồng trong mạng xã hội có thể giúp hiểu rõ hơn về cấu trúc và động lực của các nhóm người, cũng như dự đoán hành vi và xu hướng của họ. Các thuật toán phát hiện cộng đồng có thể được sử dụng để phân tích các mạng xã hội trực tuyến như Facebook, Twitter và LinkedIn, cũng như các mạng xã hội ngoại tuyến như các tổ chức và cộng đồng địa phương.

4.1. Phân Tích Mạng Xã Hội Ứng Dụng Của Phát Hiện Cộng Đồng

Phân tích mạng xã hội là một lĩnh vực nghiên cứu sử dụng các phương pháp và kỹ thuật từ network science để nghiên cứu các mạng xã hội. Phát hiện cộng đồng là một công cụ quan trọng trong phân tích mạng xã hội, cho phép các nhà nghiên cứu xác định các nhóm người có liên kết chặt chẽ với nhau. Thông tin này có thể được sử dụng để hiểu rõ hơn về cách thông tin lan truyền trong mạng xã hội, cách các nhóm người hình thành và duy trì, và cách các mạng xã hội ảnh hưởng đến hành vi và thái độ của các cá nhân.

4.2. Ứng Dụng Trong Marketing và Quản Lý Khách Hàng

Phát hiện cộng đồng có thể được sử dụng trong marketing và quản lý khách hàng để xác định các nhóm khách hàng có chung sở thích và nhu cầu. Thông tin này có thể được sử dụng để tạo ra các chiến dịch marketing nhắm mục tiêu hơn, cải thiện dịch vụ khách hàng và xây dựng mối quan hệ bền chặt hơn với khách hàng. Ví dụ, một công ty có thể sử dụng phát hiện cộng đồng để xác định các nhóm khách hàng quan tâm đến một sản phẩm hoặc dịch vụ cụ thể, và sau đó gửi cho họ các quảng cáo và khuyến mãi được cá nhân hóa.

V. Kết Luận và Hướng Nghiên Cứu Tương Lai Về Modularity

Luận văn này đã trình bày một cái nhìn tổng quan về hai chủ đề chính trong lĩnh vực phát hiện cộng đồng: modularity và các thuộc tính phổ của ma trận bước đi ngẫu nhiên. Mặc dù modularity là một thước đo phổ biến để đánh giá chất lượng của các phân vùng cộng đồng, nhưng nó có một số hạn chế cần được xem xét. Các thuật toán dựa trên ma trận bước đi ngẫu nhiên, chẳng hạn như thuật toán Walktrap, có thể cung cấp các giải pháp thay thế hiệu quả cho phát hiện cộng đồng trong các mạng có cấu trúc cộng đồng phức tạp.

5.1. Tóm Tắt Các Kết Quả Nghiên Cứu Chính

Luận văn đã trình bày chi tiết về định nghĩa, thuộc tính và hạn chế của modularity. Nó cũng đã khám phá các thuộc tính phổ của ma trận bước đi ngẫu nhiên và cách chúng có thể được sử dụng để phát hiện cộng đồng. Các thử nghiệm trên các đồ thị ngẫu nhiên cho thấy rằng thuật toán Walktrap có hiệu quả trong việc phát hiện các cộng đồng trong các mạng có cấu trúc cộng đồng rõ ràng. Tuy nhiên, cần có thêm nghiên cứu để đánh giá hiệu suất của thuật toán Walktrap trên các mạng thực tế và so sánh nó với các thuật toán phát hiện cộng đồng khác.

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Có nhiều hướng nghiên cứu tiềm năng trong tương lai liên quan đến modularity và các thuật toán dựa trên ma trận bước đi ngẫu nhiên. Một hướng là phát triển các thước đo chất lượng cộng đồng mới khắc phục các hạn chế của modularity. Một hướng khác là phát triển các thuật toán phát hiện cộng đồng hiệu quả hơn và có thể mở rộng hơn dựa trên ma trận bước đi ngẫu nhiên. Cuối cùng, cần có thêm nghiên cứu để hiểu rõ hơn về cách các cộng đồng hình thành và phát triển trong các mạng xã hội thực tế.

Luận văn về chỉ số modular và bước đi ngẫu nhiên trong bài toán tìm kiếm cộng đồng

Declaration

Acknowledgements

Contents

List of Figures

Introduction

Notations and conventions

1. CHƯƠNG 1: NETWORKS AND COMMUNITIES

1.1. On network science

1.2. Community structure

1.3. The topics of this thesis

3. CHƯƠNG 3: RANDOM WALKS IN COMMUNITY DETECTION

3.1. Random walks and stochastic matrices

3.2. The Walktrap algorithm

4. CHƯƠNG 4: BIBLIOGRAPHY

Appendix A: A Python implementation of Walktrap

I. Tổng Quan Về Chỉ Số Modularity Trong Mạng Xã Hội

1.1. Giới Thiệu Chung Về Khoa Học Mạng Network Science

1.2. Cấu Trúc Cộng Đồng Trong Mạng Phức Tạp

II. Độ Đo Modularity Định Nghĩa và Ý Nghĩa Trong Phân Cụm

2.1. Định Nghĩa và Giải Thích Chỉ Số Modularity

2.2. Các Thuộc Tính Cơ Bản Của Modularity Trong Mạng Lưới

2.3. Hạn Chế Của Modularity Trong Phát Hiện Cộng Đồng

III. Bước Đi Ngẫu Nhiên và Thuật Toán Walktrap Trong Phân Cụm

3.1. Ma Trận Bước Đi Ngẫu Nhiên và Phổ Của Nó

3.2. Tính Chất Phổ Của Ma Trận Bước Đi Ngẫu Nhiên

3.3. Thuật Toán Walktrap Chi Tiết và Thử Nghiệm

IV. Ứng Dụng Thực Tế Của Phát Hiện Cộng Đồng Trong Mạng Xã Hội

4.1. Phân Tích Mạng Xã Hội Ứng Dụng Của Phát Hiện Cộng Đồng

4.2. Ứng Dụng Trong Marketing và Quản Lý Khách Hàng

V. Kết Luận và Hướng Nghiên Cứu Tương Lai Về Modularity

5.1. Tóm Tắt Các Kết Quả Nghiên Cứu Chính

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Hoang Duc Anh

Người hướng dẫn: Assoc. Phan Thi Ha Duong

Trường học: Graduate University of Science and Technology

Chuyên ngành: Applied Mathematics

Đề tài: Modularity and Random Walks in Community Detection

Loại tài liệu: master’s thesis

Năm xuất bản: 2022

Địa điểm: Hanoi