## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin và hệ thống thông tin địa lý (GIS), bài toán phân cụm dữ liệu dựa trên vị trí địa lý ngày càng trở nên quan trọng, đặc biệt trong các ứng dụng thực tiễn như quản lý dịch bệnh và an ninh trật tự. Theo ước tính, việc phân tích các cụm dữ liệu địa lý giúp nhận diện các điểm nóng như khu vực cách ly COVID-19 tại 13 quận đông dân của Thành phố Hồ Chí Minh hay các điểm nóng tội phạm tại thành phố Hartford, Hoa Kỳ. Tuy nhiên, các phương pháp phân cụm truyền thống như DBSCAN và HDBSCAN gặp nhiều khó khăn do dữ liệu địa lý thường thưa thớt, có mật độ không đồng đều và thiếu thông tin bổ sung về cấu trúc không gian.

Mục tiêu nghiên cứu là cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơ-ron đồ thị (GNN), cụ thể là mô hình CP2Vec, nhằm nâng cao chất lượng phân cụm bằng cách học biểu diễn vị trí địa lý dựa trên cấu trúc cộng đồng trong đồ thị. Nghiên cứu tập trung vào hai bộ dữ liệu thực tế: dữ liệu ca nhiễm COVID-19 tại Thành phố Hồ Chí Minh trong khoảng thời gian từ 23/05/2021 đến 09/08/2021 và dữ liệu các vụ án hình sự tại Hartford trong tháng 1 năm 2005. Kết quả phân cụm có ý nghĩa thực tiễn lớn, hỗ trợ quản lý dịch bệnh và phân bổ lực lượng an ninh hiệu quả hơn.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Thuật toán DBSCAN**: Phân cụm dựa trên mật độ, xác định các điểm lõi, điểm biên và điểm nhiễu dựa trên khoảng cách epsilon và số lượng điểm tối thiểu trong vùng lân cận. DBSCAN không yêu cầu xác định trước số lượng cụm và có khả năng xử lý nhiễu.
- **Thuật toán HDBSCAN**: Phiên bản nâng cao của DBSCAN, xây dựng phân cụm theo thứ bậc dựa trên mật độ, cho phép xác định số lượng cụm phù hợp và loại bỏ nhiễu hiệu quả hơn.
- **Mạng chú ý đồ thị (GAT)**: Kết hợp mạng nơ-ron đồ thị (GNN) với cơ chế chú ý (attention), giúp học biểu diễn các nút trong đồ thị dựa trên trọng số khác nhau của các nút lân cận, nâng cao khả năng trích xuất thông tin quan trọng.
- **Phát hiện cộng đồng Louvain**: Thuật toán phân cụm đồ thị dựa trên tối ưu hóa modularity, giúp trích xuất các cộng đồng có mật độ kết nối cao trong đồ thị vị trí.
- **Chỉ số đánh giá NMI (Normalized Mutual Information)**: Đo lường độ chính xác của phân cụm bằng cách so sánh nhãn cụm với nhãn thực tế, giá trị từ 0 đến 1, càng cao càng tốt.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Hai bộ dữ liệu thực tế gồm 12,000 điểm vị trí ca nhiễm COVID-19 tại 13 quận của TP. Hồ Chí Minh (từ 23/05/2021 đến 09/08/2021) và 1,000 điểm vị trí các vụ án hình sự tại Hartford, Hoa Kỳ (từ 01/01/2005 đến 24/01/2005).
- **Phương pháp phân tích**: 
  - Xây dựng đồ thị dựa trên vị trí địa lý với ngưỡng khoảng cách dựa trên khoảng cách Haversine và siêu tham số p điều chỉnh mật độ liên kết.
  - Áp dụng thuật toán Louvain để phát hiện cộng đồng trong đồ thị.
  - Huấn luyện mô hình GAT để học biểu diễn vị trí dựa trên nhãn cộng đồng.
  - Sử dụng các vector biểu diễn vị trí đầu ra từ GAT làm đầu vào cho thuật toán phân cụm DBSCAN và HDBSCAN.
  - Đánh giá kết quả phân cụm bằng chỉ số NMI so với nhãn thực tế (phường, khu dân cư).
- **Timeline nghiên cứu**: Thu thập và xử lý dữ liệu (3 tháng), xây dựng mô hình và huấn luyện (4 tháng), thực nghiệm và đánh giá (3 tháng), tổng kết và hoàn thiện luận văn (2 tháng).

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình CP2Vec kết hợp với DBSCAN và HDBSCAN cho kết quả phân cụm vượt trội so với các thuật toán truyền thống, với chỉ số NMI tăng trung bình 15-20% trên cả hai bộ dữ liệu.
- Ở tập dữ liệu COVID-19, phân cụm dựa trên CP2Vec giúp xác định chính xác các vùng cách ly tại các phường ngoại thành, hỗ trợ quản lý dịch bệnh hiệu quả hơn.
- Trên tập dữ liệu tội phạm Hartford, mô hình đề xuất phân tách rõ ràng các điểm nóng tội phạm tại các khu dân cư như Frog Hollow, Blue Hills, giúp phân bổ lực lượng an ninh hợp lý.
- Thử nghiệm cắt bỏ siêu tham số cho thấy mô hình CP2Vec có tính ổn định cao, giảm thiểu sự phụ thuộc vào việc điều chỉnh tham số so với DBSCAN/HDBSCAN truyền thống.

### Thảo luận kết quả

Kết quả cho thấy việc học biểu diễn vị trí dựa trên cấu trúc cộng đồng trong đồ thị giúp mô hình nắm bắt được mối quan hệ phức tạp giữa các điểm dữ liệu địa lý, từ đó nâng cao chất lượng phân cụm. So với các nghiên cứu trước đây chỉ sử dụng DBSCAN hoặc HDBSCAN, việc tích hợp GAT và Louvain tạo ra biểu diễn phong phú hơn, giảm thiểu ảnh hưởng của dữ liệu thưa thớt và nhiễu. Các biểu đồ phân cụm minh họa rõ ràng sự phân bố cụm hợp lý hơn, đồng thời bảng so sánh NMI thể hiện sự cải thiện đáng kể về độ chính xác. Điều này khẳng định tính ứng dụng cao của mô hình trong các bài toán thực tế như kiểm soát dịch bệnh và an ninh xã hội.

## Đề xuất và khuyến nghị

- **Triển khai mô hình CP2Vec trong hệ thống GIS của các cơ quan quản lý** để nâng cao hiệu quả phân tích vị trí, đặc biệt trong quản lý dịch bệnh và an ninh trật tự, với mục tiêu tăng độ chính xác phân cụm lên ít nhất 15% trong vòng 6 tháng.
- **Đào tạo nhân sự kỹ thuật về mạng nơ-ron đồ thị và phân cụm không gian** nhằm đảm bảo vận hành và bảo trì mô hình hiệu quả, dự kiến hoàn thành trong 3 tháng.
- **Phát triển phần mềm tích hợp CP2Vec với các nền tảng GIS hiện có** để tự động hóa quá trình phân tích và báo cáo, hướng tới triển khai thử nghiệm trong 9 tháng.
- **Mở rộng nghiên cứu áp dụng mô hình cho các loại dữ liệu địa lý khác** như giao thông, môi trường nhằm đa dạng hóa ứng dụng, với kế hoạch nghiên cứu trong 12 tháng tiếp theo.
- **Thiết lập hệ thống giám sát và đánh giá liên tục** để cập nhật và điều chỉnh mô hình theo dữ liệu thực tế, đảm bảo tính linh hoạt và hiệu quả lâu dài.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin Địa lý**: Nắm bắt kiến thức về mô hình học biểu diễn dữ liệu địa lý và các thuật toán phân cụm nâng cao.
- **Cơ quan quản lý y tế và phòng chống dịch bệnh**: Áp dụng mô hình để phân tích và quản lý các vùng dịch, hỗ trợ ra quyết định cách ly và kiểm soát dịch hiệu quả.
- **Lực lượng an ninh và cảnh sát**: Sử dụng kết quả phân cụm để xác định điểm nóng tội phạm, phân bổ lực lượng hợp lý, nâng cao hiệu quả công tác phòng chống tội phạm.
- **Các doanh nghiệp phát triển phần mềm GIS và phân tích dữ liệu không gian**: Tích hợp mô hình CP2Vec vào sản phẩm để nâng cao giá trị và tính cạnh tranh trên thị trường.

## Câu hỏi thường gặp

1. **Mô hình CP2Vec khác gì so với DBSCAN truyền thống?**  
CP2Vec học biểu diễn vị trí dựa trên cấu trúc cộng đồng trong đồ thị, giúp biểu diễn dữ liệu phong phú hơn, từ đó nâng cao độ chính xác phân cụm so với DBSCAN chỉ dựa trên khoảng cách.

2. **Tại sao cần sử dụng mạng chú ý đồ thị (GAT)?**  
GAT cho phép mô hình tập trung vào các nút lân cận quan trọng hơn, cải thiện khả năng học biểu diễn và giảm nhiễu trong dữ liệu địa lý thưa thớt.

3. **Chỉ số NMI thể hiện điều gì trong phân cụm?**  
NMI đo mức độ tương đồng giữa nhãn phân cụm và nhãn thực tế, giá trị càng cao chứng tỏ phân cụm càng chính xác và có ý nghĩa.

4. **Mô hình có thể áp dụng cho các loại dữ liệu địa lý khác không?**  
Có, mô hình có thể mở rộng cho các dữ liệu như giao thông, môi trường, giúp phân tích các hiện tượng không gian phức tạp.

5. **Làm thế nào để xác định siêu tham số p trong xây dựng đồ thị?**  
Siêu tham số p điều chỉnh mật độ liên kết trong đồ thị, được xác định dựa trên khoảng cách trung bình giữa các điểm và thử nghiệm thực nghiệm để đạt hiệu suất phân cụm tối ưu.

## Kết luận

- Đã phát triển thành công mô hình CP2Vec dựa trên mạng nơ-ron đồ thị và phát hiện cộng đồng, nâng cao hiệu quả phân cụm vị trí địa lý.  
- Mô hình cho kết quả phân cụm chính xác hơn DBSCAN và HDBSCAN truyền thống, với chỉ số NMI cải thiện khoảng 15-20%.  
- Ứng dụng thực tế trong quản lý dịch bệnh COVID-19 tại TP. Hồ Chí Minh và phân tích điểm nóng tội phạm tại Hartford, Hoa Kỳ.  
- Đề xuất triển khai mô hình trong các hệ thống GIS và mở rộng nghiên cứu cho các lĩnh vực địa lý khác.  
- Khuyến khích các cơ quan quản lý và doanh nghiệp công nghệ áp dụng để nâng cao hiệu quả phân tích và ra quyết định.

Hành động tiếp theo: Triển khai thử nghiệm mô hình CP2Vec trong các dự án GIS thực tế, đồng thời đào tạo nhân sự và phát triển phần mềm hỗ trợ. Để biết thêm chi tiết và hợp tác nghiên cứu, vui lòng liên hệ với nhóm nghiên cứu tại Trường Đại học Công nghệ Thông tin, ĐHQG TP. Hồ Chí Minh.