Cải Tiến Mô Hình Phân Cụm Dựa Trên Vị Trí Qua Mạng Nơ Ron Đồ Thị

Luận văn thạc sĩ nghiên cứu công nghệ thông tin cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơ ron đồ thị gnn, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Trường đại học

Đại học Quốc gia TP HCM Trường Đại học Công nghệ Thông tin

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CÁM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ LUẬN VĂN

1.1. Tổng quan về phương pháp phân cụm dữ liệu dựa trên GIS

1.2. Những thách thức hiện có trong vấn đề phân cụm không gian địa lý dựa trên GIS

1.3. Động lực và đóng góp

2. CHƯƠNG 2: THUẬT TOÁN DBSCAN

2.1. Các định nghĩa trong thuật toán DBSCAN

2.2. Phân loại điểm trong DBSCAN

2.3. Các bước trong thuật toán DBSCAN

2.4. Xác định tham số b1

2.5. Thuật toán HDBSCAN

2.6. Các thông số được sử dụng trong HDBSCAN

2.7. Cách thức hoạt động của HDBSCAN

2.8. Mạng chú ý đồ thị (GATT)

2.8.1. Khái niệm GATT

2.8.2. Kiến trúc của mạng chú ý đồ thị

2.9. Cơ chế tối ưu hóa Adam (Adam optimization)

2.10. Chỉ số đánh giá chất lượng phân cụm (NMI)

3. PHƯƠNG PHÁP THỰC HIỆN

3.1. Xây dựng đồ thị dựa trên vị trí địa lí

3.2. Học biểu diễn đồ thị dựa trên vị trí nhận biết cộng đồng thông qua GAT

3.3. Mô hình đề xuất CP2Vec

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Mô tả tập dữ liệu và cài đặt thực nghiệm

4.2. Xây dựng và tiền xử lý tập dữ liệu dựa trên GIS

4.3. Chỉ số đánh giá chất lượng phân cụm

4.4. Môi trường thực nghiệm

4.5. Các nền tảng so sánh cho nhiệm vụ phân cụm dựa trên vị trí

4.6. Kết quả thực nghiệm

4.7. Nghiên cứu cắt bỏ các siêu tham số của mô hình

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Mô Hình Phân Cụm Dựa Trên Vị Trí 55 ký tự

Trong những năm gần đây, bài toán phân cụm dựa trên vị trí địa lý đã trở thành một hướng nghiên cứu quan trọng trong lĩnh vực hệ thống thông tin địa lý (GIS) và học máy, nhờ vào tiềm năng ứng dụng rộng rãi trong thực tế. Các kỹ thuật phân cụm không gian dựa trên mật độ thường được sử dụng để xác định các cụm sử dụng thông tin địa lý cụ thể. Tuy nhiên, các phương pháp phân cụm không gian truyền thống đang đối mặt với những thách thức khi áp dụng vào hệ thống thông tin địa lý (GIS), chủ yếu liên quan đến sự thưa thớt của dữ liệu tọa độ và mật độ cao của các cụm địa lý. Để giải quyết những thách thức này, việc nghiên cứu và cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơ ron đồ thị (GNN) là rất cần thiết. Luận văn này đề xuất một mô hình mới, trong đó các cụm được trích xuất có chất lượng tốt hơn so với các mô hình DBSCAN và HDBSCAN truyền thống.

1.1. Giới Thiệu Kỹ Thuật Phân Cụm Dữ Liệu Vị Trí

Trong nhiều năm qua, phân tích không gian, đặc biệt là phân cụm dữ liệu dựa trên GIS, đã trở thành một chủ đề thu hút sự quan tâm của các nhà nghiên cứu. Mô hình phân cụm dựa trên GIS được thiết kế theo hướng tiếp cận không giám sát, cho phép trích xuất thông tin cụm từ dữ liệu địa lý (ví dụ: tọa độ, nhiệt độ) cho các mục đích khác nhau như phân tích mật độ dân số, phân tích sử dụng đất, phân tích điểm nóng tội phạm và phân tích điểm nóng COVID-19. Tương tự như các mô hình gom cụm không giám sát truyền thống, các kỹ thuật phân cụm được sử dụng để nhóm các điểm dữ liệu thành các cụm khác nhau dựa trên sự tương đồng của chúng.

1.2. Thách Thức Trong Phân Cụm Không Gian Địa Lý

Đối với bài toán gom nhóm dựa trên vị trí trong GIS, các phương pháp phân cụm dựa trên mật độ đang gặp phải những khó khăn liên quan đến chất lượng thấp và nhiễu của thông tin địa lý (ví dụ: tọa độ), dẫn đến giảm hiệu suất tổng thể của nhiệm vụ phân cụm dựa trên vị trí. Chẳng hạn, trong một tình huống có tập dữ liệu không gian địa lý thưa thớt (ví dụ: vị trí các trường hợp COVID-19 đã được xác nhận hoặc tai nạn, kẹt xe ở các khu vực đô thị) mà không có thông tin về hình dạng cụm, thông tin địa lý liên quan hoặc ngưỡng khoảng cách, việc xác định thông tin cụm từ các tập dữ liệu dựa trên GIS trở nên khó khăn, ảnh hưởng đến việc tạo ra các cụm có ý nghĩa cho các nhiệm vụ phân tích tiếp theo.

II. Mạng Nơ Ron Đồ Thị GNN Học Biểu Diễn 57 ký tự

Học biểu diễn dữ liệu (DRL) đã trở thành một lĩnh vực nghiên cứu thú vị trong nhiều ứng dụng liên quan đến phân tích và khai thác dữ liệu. Một mô hình dựa trên DRL được sử dụng để phân tích và chuyển đổi dữ liệu thô thành một biểu diễn không gian d chiều cố định và thống nhất. Sau đó, các biểu diễn dữ liệu có mức độ đại diện thấp này được cải thiện để phục vụ cho các mục tiêu học tập cụ thể, chẳng hạn như đo độ tương tự, phân cụm, phân loại và dự đoán. Các phương pháp dựa trên DRL thường được xây dựng dựa trên các kiến trúc Deep Learning khác nhau, linh hoạt trong việc xử lý các tập dữ liệu khác nhau, bao gồm cả dữ liệu địa lý. Việc tích hợp giữa học biểu diễn dữ liệu dựa trên Deep Learning và GIS hứa hẹn nhiều tiềm năng cải thiện trong lĩnh vực này.

2.1. Học Sâu Trên Đồ Thị và Ứng Dụng Trong GIS

Giống như những nỗ lực gần đây trong việc khám phá các khu vực tích hợp còn thiếu của dữ liệu Open Street Map (OSM), phân tích hình ảnh vệ tinh theo nhiệm vụ, theo dõi lưu lượng truy cập thời gian thực dựa trên hình ảnh, dự báo thời tiết. Hầu hết các mô hình dựa trên Deep Learning gần đây đều có sử dụng sức mạnh của các kiến trúc Deep Neural khác nhau, để sử dụng có hiệu quả các biểu diễn phong phú của dữ liệu dựa trên GIS nhằm hỗ trợ các mục tiêu đào tạo theo nhiệm vụ khác nhau, chẳng hạn như gom nhóm dựa trên mật độ và phân loại hình ảnh.

2.2. Tích Hợp Dữ Liệu Vị Trí và Mạng Nơ Ron Đồ Thị

Phương pháp tiếp cận DRL dựa trên Deep Learning cũng hỗ trợ mô hình đã cho để kết hợp với thông tin phụ trợ nhằm cải thiện chất lượng của tập dữ liệu không gian địa lý, chẳng hạn như mạng xã hội, cũng như trong bối cảnh của đồ thị xã hội. Phương pháp đề xuất tiếp cận dựa trên Deep Learning cho nhiệm vụ học biểu diễn vị trí địa lý được nâng cao chất lượng.

III. Cải Tiến Thuật Toán Phân Cụm CP2Vec Giải Pháp 59 ký tự

Luận văn đề xuất một hướng tiếp cận dựa trên Deep Learning cho nhiệm vụ học biểu diễn vị trí địa lý được nâng cao chất lượng. Trong cách tiếp cận này, để mô hình hiệu quả các mối quan hệ tiềm ẩn giữa các vị trí trong một tập dữ liệu địa lý, luận văn đã đề xuất hướng tiếp cận hình thành đồ thị dựa trên khoảng cách mới. Tiếp theo, để trích xuất thông tin cụm giữa các vị trí được kết nối dày đặc, luận văn áp dụng cơ chế phát hiện cộng đồng để trích xuất các cộng đồng dựa trên vị trí từ đồ thị được xây dựng.

3.1. Xây Dựng Đồ Thị Dựa Trên Vị Trí Địa Lý GIS

Để trích xuất thông tin cụm giữa các vị trí được kết nối dày đặc, luận văn áp dụng cơ chế phát hiện cộng đồng để trích xuất các cộng đồng dựa trên vị trí từ đồ thị được xây dựng. Sau đó, để tìm hiểu đầy đủ và biến đổi các vị trí này sang biểu diễn có chất lượng tốt hơn, luận văn nghiên cứu đã áp dụng kiến trúc dựa trên GNN cho đồ thị dựa trên vị trí đã xây dựng để sử dụng thông tin sơ đồ phong phú của các cộng đồng được trích xuất cũng như các mối quan hệ tương đồng dựa trên khoảng cách giữa các vị trí địa lý.

3.2. Mô Hình CP2Vec Kết Hợp GNN Phân Cụm

Các biểu diễn d chiều có định đạt được của các vị trí trong một bộ dữ liệu đã cho được thêm vào các thuật toán phân cụm không gian dựa trên mật độ sẵn có (ví dụ: DBSCAN, HDBSCAN, v.) để giải quyết nhiệm vụ phân cụm. Các đại diện đạt được của các vị trí mang các đặc điểm thông tin phong phú, liên quan đến khoảng cách gần giữa các vị trí, có thể được sử dụng để tạo điều kiện thuận lợi cho nhiều nhiệm vụ khai thác dựa trên GIS, bao gồm phân cụm.

IV. Ứng Dụng Thực Tế và Kết Quả Nghiên Cứu CP2Vec 60 ký tự

Luận văn mô tả một số kết quả phân cụm hỗ trợ xác định các điểm nóng ca bệnh hay khu vực cách ly đã được xác nhận COVID-19 ở một số quận (huyện) đông dân cư của Thành phố Hồ Chí Minh, Việt Nam và các điểm nóng về tội phạm ở thành phố Hartford, Hoa Kỳ. Kết quả phân cụm trường hợp COVID-19 dựa trên địa lý này có thể hỗ trợ trực tiếp cho chính phủ áp dụng các chính sách kiểm dịch thích hợp cho các khu vực cụ thể cần được kiểm soát và cách ly cao độ. Chất lượng của các cụm được trích xuất có ý nghĩa và thích hợp hơn so với DBSCAN và HDBSCAN truyền thống.

4.1. Phân Cụm COVID 19 Hỗ Trợ Quản Lý Cách Ly

Với sự hỗ trợ của cơ chế nhúng điểm địa lý nhận diện cộng đồng trong mô hình CP2Vec, chất lượng của các cụm được trích xuất có ý nghĩa và thích hợp hơn so với DBSCAN và HDBSCAN truyền thống. Các cụm được tạo ra từ các phương pháp tiếp cận này chứa các vị trí địa lý gần với các cụm khác trong các khu vực ngoại thành cụ thể.

4.2. Phân Cụm Tội Phạm Phân Bổ Lực Lượng An Ninh

Mô hình đề xuất CP2Vec được xây dựng dưới dạng kỹ thuật nhúng nhận thức cộng đồng. Đặc điểm cấu trúc bên trong của các vị trí nhất định được bảo toàn đầy đủ trong quá trình học biểu diễn. Do đó, việc nhúng vị trí đạt được làm phong phú hơn cho bài toán phân tích theo hướng phân cụm theo cách tự nhiên.

V. Đánh Giá và So Sánh Hiệu Suất Các Thuật Toán 51 ký tự

Kết quả thực nghiệm cho thấy rằng CP2Vec, kết hợp với các thuật toán phân cụm không gian dựa trên mật độ, mang lại hiệu suất vượt trội so với các thuật toán truyền thống như DBSCAN và HDBSCAN. Đặc biệt, CP2Vec thể hiện khả năng xử lý tốt hơn với dữ liệu thưa thớt và nhiễu, đồng thời cung cấp các cụm có ý nghĩa và phù hợp hơn với bối cảnh địa lý. Nghiên cứu cũng chỉ ra rằng việc sử dụng GNN giúp mô hình hóa các mối quan hệ phức tạp giữa các vị trí, từ đó cải thiện độ chính xác và độ tin cậy của quá trình phân cụm.

5.1. So Sánh CP2Vec Với DBSCAN và HDBSCAN

CP2Vec, kết hợp với các thuật toán phân cụm không gian dựa trên mật độ, mang lại hiệu suất vượt trội so với các thuật toán truyền thống như DBSCAN và HDBSCAN. Đặc biệt, CP2Vec thể hiện khả năng xử lý tốt hơn với dữ liệu thưa thớt và nhiễu.

5.2. Ưu Điểm Của GNN Trong Phân Cụm Dữ Liệu Lớn

Nghiên cứu cũng chỉ ra rằng việc sử dụng GNN giúp mô hình hóa các mối quan hệ phức tạp giữa các vị trí, từ đó cải thiện độ chính xác và độ tin cậy của quá trình phân cụm. Điều này đặc biệt quan trọng trong các ứng dụng thực tế, nơi dữ liệu thường phức tạp và có nhiều yếu tố nhiễu.

VI. Kết Luận Hướng Phát Triển Cho Phân Cụm GNN 56 ký tự

Luận văn đã trình bày một phương pháp tiếp cận mới để cải tiến mô hình phân cụm dựa trên vị trí thông qua việc sử dụng mạng nơ ron đồ thị (GNN). Mô hình CP2Vec được đề xuất đã chứng minh được hiệu quả trong việc học biểu diễn vị trí địa lý một cách toàn diện và chính xác, từ đó nâng cao chất lượng của các cụm được trích xuất. Trong tương lai, nghiên cứu có thể được mở rộng để khám phá các kiến trúc GNN khác nhau, tích hợp thêm thông tin phụ trợ, và áp dụng vào các bài toán thực tế khác.

6.1. Tóm Tắt Kết Quả và Đóng Góp Của Luận Văn

6.2. Hướng Nghiên Cứu Mở Rộng và Ứng Dụng Tương Lai

Trong tương lai, nghiên cứu có thể được mở rộng để khám phá các kiến trúc GNN khác nhau, tích hợp thêm thông tin phụ trợ, và áp dụng vào các bài toán thực tế khác. Điều này hứa hẹn sẽ mang lại những đột phá trong lĩnh vực phân cụm dữ liệu vị trí và học sâu trên đồ thị.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơ ron đồ thị gnn

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin và hệ thống thông tin địa lý (GIS), bài toán phân cụm dữ liệu dựa trên vị trí địa lý ngày càng trở nên quan trọng, đặc biệt trong các ứng dụng thực tiễn như quản lý dịch bệnh và an ninh trật tự. Theo ước tính, việc phân tích các cụm dữ liệu địa lý giúp nhận diện các điểm nóng như khu vực cách ly COVID-19 tại 13 quận đông dân của Thành phố Hồ Chí Minh hay các điểm nóng tội phạm tại thành phố Hartford, Hoa Kỳ. Tuy nhiên, các phương pháp phân cụm truyền thống như DBSCAN và HDBSCAN gặp nhiều khó khăn do dữ liệu địa lý thường thưa thớt, có mật độ không đồng đều và thiếu thông tin bổ sung về cấu trúc không gian.

Mục tiêu nghiên cứu là cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơ-ron đồ thị (GNN), cụ thể là mô hình CP2Vec, nhằm nâng cao chất lượng phân cụm bằng cách học biểu diễn vị trí địa lý dựa trên cấu trúc cộng đồng trong đồ thị. Nghiên cứu tập trung vào hai bộ dữ liệu thực tế: dữ liệu ca nhiễm COVID-19 tại Thành phố Hồ Chí Minh trong khoảng thời gian từ 23/05/2021 đến 09/08/2021 và dữ liệu các vụ án hình sự tại Hartford trong tháng 1 năm 2005. Kết quả phân cụm có ý nghĩa thực tiễn lớn, hỗ trợ quản lý dịch bệnh và phân bổ lực lượng an ninh hiệu quả hơn.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Thuật toán DBSCAN**: Phân cụm dựa trên mật độ, xác định các điểm lõi, điểm biên và điểm nhiễu dựa trên khoảng cách epsilon và số lượng điểm tối thiểu trong vùng lân cận. DBSCAN không yêu cầu xác định trước số lượng cụm và có khả năng xử lý nhiễu.
- **Thuật toán HDBSCAN**: Phiên bản nâng cao của DBSCAN, xây dựng phân cụm theo thứ bậc dựa trên mật độ, cho phép xác định số lượng cụm phù hợp và loại bỏ nhiễu hiệu quả hơn.
- **Mạng chú ý đồ thị (GAT)**: Kết hợp mạng nơ-ron đồ thị (GNN) với cơ chế chú ý (attention), giúp học biểu diễn các nút trong đồ thị dựa trên trọng số khác nhau của các nút lân cận, nâng cao khả năng trích xuất thông tin quan trọng.
- **Phát hiện cộng đồng Louvain**: Thuật toán phân cụm đồ thị dựa trên tối ưu hóa modularity, giúp trích xuất các cộng đồng có mật độ kết nối cao trong đồ thị vị trí.
- **Chỉ số đánh giá NMI (Normalized Mutual Information)**: Đo lường độ chính xác của phân cụm bằng cách so sánh nhãn cụm với nhãn thực tế, giá trị từ 0 đến 1, càng cao càng tốt.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Hai bộ dữ liệu thực tế gồm 12,000 điểm vị trí ca nhiễm COVID-19 tại 13 quận của TP. Hồ Chí Minh (từ 23/05/2021 đến 09/08/2021) và 1,000 điểm vị trí các vụ án hình sự tại Hartford, Hoa Kỳ (từ 01/01/2005 đến 24/01/2005).
- **Phương pháp phân tích**: 
  - Xây dựng đồ thị dựa trên vị trí địa lý với ngưỡng khoảng cách dựa trên khoảng cách Haversine và siêu tham số p điều chỉnh mật độ liên kết.
  - Áp dụng thuật toán Louvain để phát hiện cộng đồng trong đồ thị.
  - Huấn luyện mô hình GAT để học biểu diễn vị trí dựa trên nhãn cộng đồng.
  - Sử dụng các vector biểu diễn vị trí đầu ra từ GAT làm đầu vào cho thuật toán phân cụm DBSCAN và HDBSCAN.
  - Đánh giá kết quả phân cụm bằng chỉ số NMI so với nhãn thực tế (phường, khu dân cư).
- **Timeline nghiên cứu**: Thu thập và xử lý dữ liệu (3 tháng), xây dựng mô hình và huấn luyện (4 tháng), thực nghiệm và đánh giá (3 tháng), tổng kết và hoàn thiện luận văn (2 tháng).

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình CP2Vec kết hợp với DBSCAN và HDBSCAN cho kết quả phân cụm vượt trội so với các thuật toán truyền thống, với chỉ số NMI tăng trung bình 15-20% trên cả hai bộ dữ liệu.
- Ở tập dữ liệu COVID-19, phân cụm dựa trên CP2Vec giúp xác định chính xác các vùng cách ly tại các phường ngoại thành, hỗ trợ quản lý dịch bệnh hiệu quả hơn.
- Trên tập dữ liệu tội phạm Hartford, mô hình đề xuất phân tách rõ ràng các điểm nóng tội phạm tại các khu dân cư như Frog Hollow, Blue Hills, giúp phân bổ lực lượng an ninh hợp lý.
- Thử nghiệm cắt bỏ siêu tham số cho thấy mô hình CP2Vec có tính ổn định cao, giảm thiểu sự phụ thuộc vào việc điều chỉnh tham số so với DBSCAN/HDBSCAN truyền thống.

### Thảo luận kết quả

Kết quả cho thấy việc học biểu diễn vị trí dựa trên cấu trúc cộng đồng trong đồ thị giúp mô hình nắm bắt được mối quan hệ phức tạp giữa các điểm dữ liệu địa lý, từ đó nâng cao chất lượng phân cụm. So với các nghiên cứu trước đây chỉ sử dụng DBSCAN hoặc HDBSCAN, việc tích hợp GAT và Louvain tạo ra biểu diễn phong phú hơn, giảm thiểu ảnh hưởng của dữ liệu thưa thớt và nhiễu. Các biểu đồ phân cụm minh họa rõ ràng sự phân bố cụm hợp lý hơn, đồng thời bảng so sánh NMI thể hiện sự cải thiện đáng kể về độ chính xác. Điều này khẳng định tính ứng dụng cao của mô hình trong các bài toán thực tế như kiểm soát dịch bệnh và an ninh xã hội.

## Đề xuất và khuyến nghị

- **Triển khai mô hình CP2Vec trong hệ thống GIS của các cơ quan quản lý** để nâng cao hiệu quả phân tích vị trí, đặc biệt trong quản lý dịch bệnh và an ninh trật tự, với mục tiêu tăng độ chính xác phân cụm lên ít nhất 15% trong vòng 6 tháng.
- **Đào tạo nhân sự kỹ thuật về mạng nơ-ron đồ thị và phân cụm không gian** nhằm đảm bảo vận hành và bảo trì mô hình hiệu quả, dự kiến hoàn thành trong 3 tháng.
- **Phát triển phần mềm tích hợp CP2Vec với các nền tảng GIS hiện có** để tự động hóa quá trình phân tích và báo cáo, hướng tới triển khai thử nghiệm trong 9 tháng.
- **Mở rộng nghiên cứu áp dụng mô hình cho các loại dữ liệu địa lý khác** như giao thông, môi trường nhằm đa dạng hóa ứng dụng, với kế hoạch nghiên cứu trong 12 tháng tiếp theo.
- **Thiết lập hệ thống giám sát và đánh giá liên tục** để cập nhật và điều chỉnh mô hình theo dữ liệu thực tế, đảm bảo tính linh hoạt và hiệu quả lâu dài.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin Địa lý**: Nắm bắt kiến thức về mô hình học biểu diễn dữ liệu địa lý và các thuật toán phân cụm nâng cao.
- **Cơ quan quản lý y tế và phòng chống dịch bệnh**: Áp dụng mô hình để phân tích và quản lý các vùng dịch, hỗ trợ ra quyết định cách ly và kiểm soát dịch hiệu quả.
- **Lực lượng an ninh và cảnh sát**: Sử dụng kết quả phân cụm để xác định điểm nóng tội phạm, phân bổ lực lượng hợp lý, nâng cao hiệu quả công tác phòng chống tội phạm.
- **Các doanh nghiệp phát triển phần mềm GIS và phân tích dữ liệu không gian**: Tích hợp mô hình CP2Vec vào sản phẩm để nâng cao giá trị và tính cạnh tranh trên thị trường.

## Câu hỏi thường gặp

1. **Mô hình CP2Vec khác gì so với DBSCAN truyền thống?**  
CP2Vec học biểu diễn vị trí dựa trên cấu trúc cộng đồng trong đồ thị, giúp biểu diễn dữ liệu phong phú hơn, từ đó nâng cao độ chính xác phân cụm so với DBSCAN chỉ dựa trên khoảng cách.

2. **Tại sao cần sử dụng mạng chú ý đồ thị (GAT)?**  
GAT cho phép mô hình tập trung vào các nút lân cận quan trọng hơn, cải thiện khả năng học biểu diễn và giảm nhiễu trong dữ liệu địa lý thưa thớt.

3. **Chỉ số NMI thể hiện điều gì trong phân cụm?**  
NMI đo mức độ tương đồng giữa nhãn phân cụm và nhãn thực tế, giá trị càng cao chứng tỏ phân cụm càng chính xác và có ý nghĩa.

4. **Mô hình có thể áp dụng cho các loại dữ liệu địa lý khác không?**  
Có, mô hình có thể mở rộng cho các dữ liệu như giao thông, môi trường, giúp phân tích các hiện tượng không gian phức tạp.

5. **Làm thế nào để xác định siêu tham số p trong xây dựng đồ thị?**  
Siêu tham số p điều chỉnh mật độ liên kết trong đồ thị, được xác định dựa trên khoảng cách trung bình giữa các điểm và thử nghiệm thực nghiệm để đạt hiệu suất phân cụm tối ưu.

## Kết luận

- Đã phát triển thành công mô hình CP2Vec dựa trên mạng nơ-ron đồ thị và phát hiện cộng đồng, nâng cao hiệu quả phân cụm vị trí địa lý.  
- Mô hình cho kết quả phân cụm chính xác hơn DBSCAN và HDBSCAN truyền thống, với chỉ số NMI cải thiện khoảng 15-20%.  
- Ứng dụng thực tế trong quản lý dịch bệnh COVID-19 tại TP. Hồ Chí Minh và phân tích điểm nóng tội phạm tại Hartford, Hoa Kỳ.  
- Đề xuất triển khai mô hình trong các hệ thống GIS và mở rộng nghiên cứu cho các lĩnh vực địa lý khác.  
- Khuyến khích các cơ quan quản lý và doanh nghiệp công nghệ áp dụng để nâng cao hiệu quả phân tích và ra quyết định.

Hành động tiếp theo: Triển khai thử nghiệm mô hình CP2Vec trong các dự án GIS thực tế, đồng thời đào tạo nhân sự và phát triển phần mềm hỗ trợ. Để biết thêm chi tiết và hợp tác nghiên cứu, vui lòng liên hệ với nhóm nghiên cứu tại Trường Đại học Công nghệ Thông tin, ĐHQG TP. Hồ Chí Minh.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan. Khái quát về phương pháp phân cụm dữ liệu dựa trên GIS và khảo sát các nghiên cứu có liên quan, nêu mục tiêu, nội dung luận văn và ý nghĩa thực tiễn của luận văn. 15 Chương 2: Cơ sở lý thuyết. Trình bày lý thuyết về các thuật toán DBSCAN, HDBSCAN, mạng chú ý đồ thị (GAT), chỉ số thông tin lẫn nhau được chuẩn hóa NMI, phương pháp tối ưu hóa Adam và mô hình đề xuất CP2 Vec.

Chương 3: Phương pháp thực hiện. Trình bày phương pháp xây dựng đồ thị dựa trên vi trí địa lí. Trình bày về học biéu điễn đồ thị dựa trên vị trí nhận biết cộng đồng thông qua GAT bằng phương pháp phát hiện cộng đồng Louvain. Chương 4: Thực nghiệm.

Mô tả bộ dữ liệu và cài đặt thực nghiệm. Thảo luận kết quả thực nghiệm. Ngoài ra, dựa trên kết quả thực nghiệm, nghiên cứu cắt bỏ các siêu tham số trong mô hình. Chương 5: Kết luận và hướng phát triển.

Tổng kết lại những kết quả đã đạt được trong nghiên cứu, trình bày những mặt còn tồn tại của bài toán, cũng như trình bày hướng nghiên cứu và phát triển trong tương lai. CƠ SỞ LÝ THUYET Tóm tắt: Chương hai sẽ trình bày lý thuyết chính liên quan bài toán gom cụm dữ liệu dựa trên GIS và mô hình dé xuất CP2Vec. Bao gồm các trình bày sơ nét về thuật toán DBSCAN, HDSCAN và mạng nơ-ron đồ thị (GNN) và mạng GNN có tích hop cơ chế chú ÿ (attention) (GAT). Thuật toán DBSCAN 2.

Khái niệm Thuật toán DBSCAN (Density Based Spatial Clustering of Applications with Noise) do Martin Ester và các tác giả khác đề xuất vào năm 1996. Trong thuật toán này, ý tưởng chính là đối với một tập hợp các điểm trong không gian cho trước, các điểm có nhiều hàng xóm trong một bán kính có định sẽ được nhóm thành một cụm. Các điểm đánh dấu là ngoại lệ nếu chúng được tách ra khỏi các điểm trong cụm, chúng thuộc về các vùng có mật độ thấp. Các định nghĩa trong thuật toán DBSCAN Định nghĩa 1: Một điểm dữ liệu được coi là thuộc về một cụm nếu có đủ số lượng các điểm khác trong khoảng cách không quá e từ nó (bao gồm chính nó) và nó phải là một điểm lõi (core point) - có ít nhất minpts điểm khác trong khoảng cách e.

Nếu một điểm không được xác định là điểm lõi và không thuộc bất kỳ cụm nào, nó sẽ được coi là một điểm nhiễu (noise point). Công thức mô tả cho Định nghĩa 1 của DBSCAN: Nếu d(P,Q) < z, thì Q được coi là một điểm láng giềng của P. Nếu số lượng điểm láng giềng của P lớn hơn hoặc bằng minpts, P được coi là một điểm lõi (core point). Một điểm dữ liệu được coi là thuộc về một cụm nếu nó là một điểm lõi hoặc nằm trong bán kính e của một điểm lõi khác.

Các điểm dit liệu còn lại được coi là điểm nhiễu (noise points). 17 Trong đó: d(P, Q) là khoảng cách giữa hai điểm dữ liệu P và Q và minpts là số lượng tối thiểu các điểm khác trong khoảng cách e để một điểm dữ liệu được coi là một điểm lõi. Định nghĩa 2: Khả năng tiếp cận trực tiếp mật độ được sử dụng nhằm xác định các điểm thuộc về cùng một cụm. Một điểm được đánh giá là có khả năng tiếp cận trực tiếp mật độ nếu nó nằm trong bán kính e của các điểm khác.

Dé xác định xem một điểm có khả năng tiếp cận trực tiếp mật độ hay không, thuật toán sẽ kiểm tra xem có đủ số lượng điểm khác trong bán kính e của nó hay không. Nếu số lượng điểm đó đạt đủ ngưỡng được định trước, điểm đó sẽ được xem là có khả năng tiếp cận trực tiếp mật độ và sẽ được thêm vào cùng một cụm với các điểm khác trong bán kính e. Điều này giúp cho thuật toán DBSCAN phân loại các điểm dữ liệu thành các cụm có hình dạng và kích thước khác nhau mà không cần biết trước số lượng cụm và khoảng cách giữa các điểm. Theo định nghĩa, điểm A được coi là có thể tiếp cận trực tiếp mật độ của điểm B néu: + Điểm A và điểm B đều thuộc cùng một cụm.

+ Mật độ của điểm B cao hơn hoặc bằng mật độ của điểm A. + Khoảng cách giữa các điểm là nhỏ hơn hoặc bằng e (epsilon). Khi hai điểm A và B được xác định là có thể tiếp cận trực tiếp mật độ của nhau, chúng được coi là liên kết chặt chẽ và sẽ được quy hoạch vào cùng một cụm trong quá trình phân cụm của DBSCAN. Khả năng tiếp cận trực tiếp mật độ là một trong nhiều yếu tố quan trọng giúp kỹ thuật DBSCAN phân cụm các điểm dữ liệu theo các cụm dày đặc, đồng thời loại bỏ các điểm nhiễu (noise points) không thuộc vào bất kỳ cụm nào.

Định nghĩa 3: Khả năng tiếp cận mật độ (density-reachable) đề cập đến khả năng kết nối các điểm thành một cụm dựa trên mật độ của chúng. Theo đó, một điểm P được coi là tiếp cận mật độ từ một điểm Q trong cùng một cụm nếu có một chuỗi liên kết các điểm từ Q đến P sao cho mật độ của cụm không bị đứt đoạn theo chuỗi đó. Điều này 18 đảm bảo rằng các điểm cùng cụm sẽ có khả năng kết nối cao dựa trên mật độ của chúng, và các cụm khác nhau sẽ được phân biệt dựa trên khoảng cách và mật độ. Như vậy, các điểm tiếp cận mật độ thường được gom lại trong cùng một cụm với nhau.

Khả năng tiếp cận mật độ được sử dụng để phân loại các điểm dữ liệu vào các cụm tương đồng nhau, dựa trên sự gần gũi và liên kết về mật độ giữa chúng. Ví dụ ta có bộ dữ liệu về những người học tập trong một trường học và ta muốn phân nhóm những người này dựa trên mức độ hoạt động của họ trên mạng xã hội. Tuy nhiên, một số người không sử dụng mạng xã hội hoặc không chia sẻ nhiều thông tin cá nhân, dẫn đến việc không thể đánh giá mức độ hoạt động trên mạng. Trong trường hợp trên, các cá nhân này sẽ không được xem là tiếp cận được từ các cá nhân khác và thông tin trên mạng, nên sự tồn tại của các nhóm dữ liệu được phân biệt bởi mật độ dữ liệu.

Do đó, ta có thé sử dụng thuật toán DBSCAN để phát hiện những điểm này và xóa chúng khỏi dữ liệu hoặc đặt chúng vào một nhóm khác. Phân loại điểm trong DBSCAN Trong DBSCAN, các điểm được phân loại thành ba loại khác nhau: Điểm lõi (core point), điểm biên (border point) và điểm nhiễu (noise point). Các loại điểm này được định nghĩa dựa trên mật độ các điểm của các vùng xung quanh chúng. Hình đưới mô tả chỉ tiết cả ba loại điểm trên.

e@ Noise point (Outlier) Hinh 2. Hinh minh hoa 3 loai diém trong thuật toán DBSCAN. Nguồn: https://www.com/blog/dbscan-python. + Điểm biên (border point): Là các điểm trong không gian dữ liệu mà không phải là điểm lõi nhưng nằm trong bán kính e của một điểm lõi.

+ Điểm nhiễu (noise point) là những điểm trong không gian dữ liệu mà không phải là điểm lõi và không thuộc vào bat kỳ cụm nao. Trong thuật toán DBSCAN, có hai tham số được dùng dé điều chỉnh quá trình gom cụm: + Epsilon (e): Tham số này xác định bán kính của một vùng xung quanh mỗi điểm dữ liệu. Nếu có ít nhất minpis điểm trong vùng này (bao gồm chính điểm đó), thì điểm đó được coi là một điểm lõi và sẽ được gán vào một cụm. Tham số này cũng được gọi là bán kính phân cách.

+ min,rs: Tham số này xác định số lượng điểm tối thiểu trong một vùng lân cận của một điểm lõi để được coi là một cụm. Nếu không đủ số lượng điểm này trong khu vực lân cận, điểm đó sẽ được coi là nhiễu và không thuộc vào bat kỳ cụm nào. Phụ thuộc từng bộ dữ liệu cụ thể và mục đích sử dụng, các giá tri của £ và minsts có thể được điều chỉnh dé đạt được kết quả gom cụm tốt hơn. Khi xem xét một cặp điểm bat kỳ (P, Q), có ba trường hợp chính có thé xảy ra: + Cặp điểm (P, Q) thuộc cùng một cụm dữ liệu: Nếu cả hai điểm P và Q đều liên kết với nhau thông qua các điểm khác trong cụm dữ liệu, tức là khoảng cách giữa chúng nhỏ hơn hoặc bằng một giá trị ngưỡng được xác định trước (thường được gọi là €), thi P và Q thuộc cùng một cụm dữ liệu.

+ Cặp điểm (P, Q) không thuộc bắt kỳ cụm dữ liệu nào: Nếu cả hai điểm P và Q đều không liên kết với bat kỳ điểm nào trong dữ liệu, tức là không có điểm nao nằm trong khoảng cách e từ cả P và Q, thì P và Q được coi là điểm nhiễu (noise) hoặc ngoại lệ (outlier) và không thuộc bất cứ cụm đữ liệu nào. + Cặp điểm (P, Q) có một điểm thuộc cụm dữ liệu và một điểm là điểm nhiễu: Trường hợp này xảy ra khi một trong hai điểm P hoặc Q thuộc một cụm dữ liệu trong 20 khi điểm còn lại là điểm nhiễu. Như vậy, điểm nhiễu không được xem là một thành viên của cụm dữ liệu, và điểm thuộc cụm dữ liệu sẽ không được kết nối với điểm nhiễu. Như vậy, điều quan trọng trong DBSCAN là quyết định xem một điểm có kết nối với một cụm dữ liệu nào đó hay không, dựa trên hai tham số là bán kính € và số lượng điểm kế thừa minpts.

Thông qua việc kiểm tra khoảng cách và số lượng điểm trong khoảng cách đó, ta có thé xác định liệu cặp điểm (P, Q) có thuộc cùng một cụm dir liệu hay không. Các bước trong thuật toán DBSCAN “Thuật toán sẽ bắt đầu từ một điểm bat ky và lan rộng dan ra dé mở rộng thêm phạm vi của cụm. Khi đạt tới những điểm biên của cụm hiện tại, DBSCAN sẽ tạo ra một cụm mới và tiếp tục các bước tương tự cho cụm mới đó. Cụm sẽ được mở rộng cho đến khi không còn điểm nào ở biên của nó.

O ve: "»@ ‹ CSC fe Tile OYlào GOO OF ORO "® @-OFC O OQ ner, le Hình 2. Quá trình lan truyền dé xác định các cụm thuật toán DBSCAN Nguồn: https://ml-explained.com/blog/dbscan-explained 21 Các bước thực hiện của DBSCAN: + Bước | (Khởi tạo): Chọn một điểm dữ liệu ngẫu nhiên chưa được gan cụm. Xác định các tham số quan trọng cho thuật toán, bao gồm khoảng cách epsilon (e) và số lượng điểm tối thiểu trong một vùng kề (minnr;).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Cải Tiến Mô Hình Phân Cụm Dựa Trên Vị Trí Qua Mạng Nơ Ron Đồ Thị trình bày những cải tiến trong việc áp dụng mạng nơ ron đồ thị để phân cụm dữ liệu dựa trên vị trí. Bài viết nhấn mạnh tầm quan trọng của việc tối ưu hóa mô hình phân cụm, giúp nâng cao độ chính xác và hiệu quả trong việc phân tích dữ liệu không gian. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các phương pháp mới này, bao gồm khả năng xử lý dữ liệu lớn và phức tạp hơn, cũng như cải thiện khả năng dự đoán trong các ứng dụng thực tiễn.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính nghiên cứu kỹ thuật học sâu để biểu diễn đô thị không đồng nhất, nơi khám phá các kỹ thuật học sâu trong bối cảnh đô thị. Ngoài ra, tài liệu Luận án tiến sĩ giải pháp học thích ứng trên nền tảng mạng học sâu ứng dụng nhận dạng đối tượng tham gia giao thông cũng sẽ cung cấp cái nhìn sâu sắc về ứng dụng của mạng nơ ron trong nhận dạng đối tượng. Cuối cùng, bạn có thể tìm hiểu thêm về Luận văn thạc sĩ khoa học máy tính hội thoại dialog trong tiếng việt dùng phương pháp seqtoseq và attention, một nghiên cứu liên quan đến các phương pháp học máy trong xử lý ngôn ngữ tự nhiên. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng và xu hướng hiện tại trong lĩnh vực học máy và phân tích dữ liệu.

#ứng dụng mạng nơ ron

#mạng nơ ron đồ thị

#cải tiến thuật toán

#mô hình phân cụm

#phân tích dữ liệu vị trí

#học máy trong phân cụm

Chủ đề

Phân tích dữ liệu lớn

Công nghệ học máy

Ứng dụng trong khoa học dữ liệu

Thuật toán và mô hình hóa