Tổng quan nghiên cứu
Trong bối cảnh kỷ nguyên số hóa, Thị giác máy tính (Computer Vision) đã trở thành lĩnh vực trọng yếu trong trí tuệ nhân tạo, với ứng dụng đa dạng từ nhận diện khuôn mặt đến giám sát an ninh. Một trong những bài toán nổi bật là tái định danh người (Person Re-Identification - Re-ID), nhằm nhận diện một cá nhân qua các hình ảnh hoặc video từ nhiều camera khác nhau. Theo ước tính, các hệ thống giám sát công cộng như sân bay, nhà ga và trung tâm thương mại ngày càng cần các giải pháp Re-ID chính xác để nâng cao an ninh và quản lý hiệu quả.
Bài toán tái định danh người không giám sát (Unsupervised Person Re-ID) được nghiên cứu nhằm khắc phục hạn chế của các phương pháp giám sát truyền thống, vốn phụ thuộc vào nhãn dữ liệu thủ công tốn kém và khó mở rộng. Mục tiêu của luận văn là phát triển một phương pháp huấn luyện không giám sát dựa trên phân cụm, cải thiện hiệu năng nhận diện qua việc tự động điều chỉnh tham số phân cụm và cập nhật đại diện cụm thích ứng với sự biến động nội bộ dữ liệu. Nghiên cứu tập trung trên hai bộ dữ liệu phổ biến là Market-1501 và MSMT17, với phạm vi thời gian nghiên cứu đến năm 2024.
Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao độ chính xác (mAP, Rank-k) và tính bền vững của mô hình trong môi trường thực tế đa dạng về ánh sáng, góc nhìn và biến đổi ngoại hình. Kết quả dự kiến góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong an ninh công cộng và các dịch vụ thông minh.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Mạng học sâu tích chập (Convolutional Neural Network - CNN): Là nền tảng trích xuất đặc trưng hình ảnh, gồm các lớp tích chập, kích hoạt ReLU, pooling và kết nối đầy đủ. CNN giúp mô hình học được các đặc trưng phức tạp từ dữ liệu hình ảnh.
Mạng Residual Network (ResNet): Giải quyết vấn đề mất mát đạo hàm trong mạng sâu bằng cách học phần dư (residual learning) thông qua các kết nối tắt (skip connections). ResNet cho phép xây dựng mạng với hàng trăm lớp mà vẫn duy trì hiệu quả huấn luyện.
Mạng IBN-ResNet (Instance-Batch Normalization ResNet): Cải tiến từ ResNet bằng cách kết hợp chuẩn hóa thực thể (Instance Normalization) và chuẩn hóa lô (Batch Normalization), giúp mô hình thích ứng tốt hơn với sự thay đổi về ánh sáng và màu sắc trong ảnh, nâng cao khả năng tổng quát hóa.
Thuật toán phân cụm DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Phân cụm dựa trên mật độ, không yêu cầu số lượng cụm trước, có khả năng phát hiện điểm nhiễu. DBSCAN sử dụng hai tham số chính là bán kính phân cụm (epsilon) và số điểm lân cận tối thiểu (MinPts).
Hàm mất mát tương phản (Contrastive Loss): Tối đa hóa sự giống nhau giữa các mẫu cùng cụm và mở rộng sự khác biệt giữa các mẫu khác cụm, giúp mô hình học biểu diễn đặc trưng phân biệt trong không gian vector.
Phương pháp nghiên cứu
Nguồn dữ liệu: Sử dụng hai bộ dữ liệu chuẩn cho bài toán tái định danh người không giám sát là Market-1501 (12.936 ảnh huấn luyện, 15.913 ảnh kiểm tra, 751 định danh) và MSMT17 (32.621 ảnh huấn luyện, 93.820 ảnh kiểm tra, 1.041 định danh).
Phương pháp phân tích: Phát triển phương pháp huấn luyện không giám sát ASCUL (Adaptive Scheme of Clustering-based Unsupervised Learning) dựa trên framework nền tảng sử dụng mạng ResNet50 và IBN-ResNet. Phương pháp bao gồm:
Bộ điều chỉnh bán kính phân cụm (CRR): Tự động giảm dần tham số epsilon của DBSCAN theo hàm tuyến tính trong quá trình huấn luyện để thích ứng với sự thay đổi phân bố đặc trưng.
Bộ điều hợp đại diện cụm lũy tiến (PPA): Cập nhật vector đại diện cụm dựa trên mức độ biến động nội bộ cụm, sử dụng điểm tham chiếu có độ tương đồng cao nhất và mẫu gần nhất để duy trì tính đại diện và giảm nhiễu.
Timeline nghiên cứu: Huấn luyện mô hình trong 50 epoch, với learning rate ban đầu 3.5e-4 giảm dần sau mỗi 20 epoch, sử dụng Adam optimizer. Mỗi epoch bắt đầu bằng phân cụm DBSCAN với tham số epsilon được điều chỉnh tự động.
Đánh giá hiệu năng: Sử dụng các metrics phổ biến như mAP (mean Average Precision), Rank-k, CMC (Cumulative Matching Characteristic) và độ tương đồng cosine để đánh giá khả năng nhận diện và phân cụm của mô hình.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của bộ điều chỉnh bán kính phân cụm (CRR): Việc giảm dần tham số epsilon trong DBSCAN giúp mô hình thích ứng tốt hơn với sự thay đổi mật độ và phân bố đặc trưng trong quá trình huấn luyện. Trên bộ dữ liệu Market-1501, giá trị epsilon được khởi tạo là 0.6 và giảm xuống 0.3, giúp tăng mAP lên khoảng 5% so với phương pháp cố định tham số.
Cải tiến đại diện cụm với bộ điều hợp lũy tiến (PPA): Phương pháp cập nhật vector đại diện cụm dựa trên mức độ biến động nội bộ cụm giúp tăng tính ổn định và khả năng phân biệt giữa các cụm. Trên MSMT17, phương pháp này cải thiện Rank-1 lên khoảng 3% so với cách tính trung bình truyền thống.
Kết quả tổng thể của phương pháp ASCUL: So sánh với các phương pháp hiện đại như K-Means, HDBSCAN và các mô hình học sâu không giám sát khác, ASCUL đạt mAP trên Market-1501 là khoảng 70%, vượt trội hơn 7-10% so với các phương pháp đối thủ. Trên MSMT17, mAP đạt khoảng 45%, cải thiện đáng kể so với baseline.
Trực quan hóa và phân tích: Sử dụng t-SNE để trực quan hóa phân bố đặc trưng của 30 định danh ngẫu nhiên trên Market-1501 cho thấy các cụm được phân tách rõ ràng hơn sau khi áp dụng phương pháp đề xuất. Biểu đồ biến động số lượng cụm trong quá trình huấn luyện cho thấy sự ổn định và hội tụ của mô hình.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện là do việc điều chỉnh tham số phân cụm epsilon linh hoạt theo quá trình huấn luyện, giúp thuật toán DBSCAN thích nghi với sự thay đổi mật độ dữ liệu đặc trưng. Đồng thời, việc cập nhật vector đại diện cụm dựa trên mức độ biến động nội bộ cụm giúp mô hình giảm thiểu ảnh hưởng của các điểm nhiễu và mẫu ngoại lai, nâng cao tính phân biệt.
So với các nghiên cứu trước đây, phương pháp kết hợp hàm mất mát tương phản cấp cụm và cấp thực thể cùng với kỹ thuật điều chỉnh tham số tự động mang lại hiệu quả vượt trội, đồng thời giảm thiểu sự phụ thuộc vào nhãn dữ liệu thủ công. Kết quả này phù hợp với xu hướng phát triển các mô hình học không giám sát trong thị giác máy tính.
Dữ liệu có thể được trình bày qua các biểu đồ t-SNE minh họa sự phân tách cụm, bảng so sánh mAP và Rank-k giữa các phương pháp, cũng như biểu đồ biến động số lượng cụm qua các epoch huấn luyện, giúp trực quan hóa quá trình hội tụ và hiệu quả của phương pháp.
Đề xuất và khuyến nghị
Triển khai bộ điều chỉnh tham số phân cụm tự động (CRR) trong các hệ thống Re-ID thực tế: Động tác này giúp nâng cao độ chính xác và tính ổn định của hệ thống trong môi trường đa dạng, với mục tiêu tăng mAP ít nhất 5% trong vòng 6 tháng, do các nhóm phát triển AI và an ninh thực hiện.
Áp dụng bộ điều hợp đại diện cụm lũy tiến (PPA) để cập nhật vector đại diện cụm: Giúp giảm thiểu ảnh hưởng của dữ liệu nhiễu và tăng khả năng phân biệt, hướng tới cải thiện Rank-1 khoảng 3% trong 3 tháng, do nhóm nghiên cứu và phát triển mô hình đảm nhiệm.
Tích hợp phương pháp ASCUL vào các nền tảng giám sát an ninh công cộng: Nhằm nâng cao hiệu quả nhận diện người trong các khu vực như sân bay, nhà ga, trung tâm thương mại, với mục tiêu giảm sai sót nhận diện xuống dưới 10% trong 1 năm, do các cơ quan quản lý an ninh phối hợp với đơn vị công nghệ.
Phát triển ứng dụng trực quan hóa kết quả huấn luyện và phân cụm: Hỗ trợ các nhà nghiên cứu và kỹ sư dễ dàng theo dõi quá trình huấn luyện và điều chỉnh tham số, dự kiến hoàn thành trong 6 tháng, do nhóm phát triển phần mềm thực hiện.
Khuyến nghị nghiên cứu tiếp tục mở rộng phương pháp cho các bộ dữ liệu đa miền và đa dạng hơn: Để tăng tính tổng quát và khả năng ứng dụng rộng rãi, với mục tiêu thử nghiệm trên ít nhất 2 bộ dữ liệu mới trong vòng 1 năm, do các nhóm nghiên cứu AI và thị giác máy tính đảm nhận.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về học không giám sát, mạng học sâu và thuật toán phân cụm, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Kỹ sư phát triển hệ thống giám sát an ninh: Áp dụng phương pháp ASCUL để cải thiện hiệu quả nhận diện người trong các hệ thống camera giám sát, giảm thiểu sai sót và tăng tính tự động hóa.
Chuyên gia phân tích dữ liệu và học máy: Tận dụng kỹ thuật điều chỉnh tham số tự động và cập nhật đại diện cụm để nâng cao chất lượng phân cụm và biểu diễn dữ liệu trong các bài toán không giám sát.
Các tổ chức và doanh nghiệp phát triển ứng dụng AI trong lĩnh vực an ninh và thương mại: Nghiên cứu giúp hiểu rõ các thách thức và giải pháp trong tái định danh người không giám sát, từ đó triển khai các sản phẩm và dịch vụ thông minh.
Câu hỏi thường gặp
Phương pháp ASCUL khác gì so với các phương pháp phân cụm truyền thống?
ASCUL sử dụng bộ điều chỉnh bán kính phân cụm tự động giảm dần trong quá trình huấn luyện, giúp thích ứng với sự thay đổi mật độ dữ liệu, đồng thời cập nhật vector đại diện cụm dựa trên mức độ biến động nội bộ, nâng cao hiệu quả phân cụm so với các phương pháp cố định tham số như K-Means hay DBSCAN truyền thống.Tại sao lại kết hợp hàm mất mát tương phản cấp cụm và cấp thực thể?
Sự kết hợp này giúp mô hình học được đặc trưng chung của cụm và sự khác biệt chi tiết giữa các thực thể riêng lẻ, từ đó cải thiện khả năng phân biệt và độ chính xác nhận diện, đặc biệt trong các cụm phức tạp và dữ liệu nhiễu.Bộ điều chỉnh bán kính phân cụm (CRR) hoạt động như thế nào?
CRR giảm dần tham số epsilon của DBSCAN theo hàm tuyến tính qua các epoch huấn luyện, bắt đầu với giá trị lớn để khám phá không gian đặc trưng rộng hơn, sau đó thu hẹp để tinh chỉnh cụm, giúp phân cụm chính xác hơn theo sự hội tụ của mô hình.Phương pháp này có thể áp dụng cho các bộ dữ liệu khác ngoài Market-1501 và MSMT17 không?
Có thể áp dụng, tuy nhiên cần điều chỉnh tham số như epsilon và ngưỡng biến động nội bộ cụm phù hợp với đặc điểm của bộ dữ liệu mới để đạt hiệu quả tối ưu.Làm thế nào để đánh giá hiệu năng của mô hình tái định danh người không giám sát?
Hiệu năng thường được đánh giá qua các chỉ số như mAP (mean Average Precision), Rank-k và CMC, dựa trên ma trận tương đồng cosine giữa các vector đặc trưng của ảnh truy vấn và ảnh trong thư viện, phản ánh khả năng nhận diện chính xác người trong tập kiểm tra.
Kết luận
- Đề xuất phương pháp ASCUL kết hợp bộ điều chỉnh bán kính phân cụm tự động và bộ điều hợp đại diện cụm lũy tiến, nâng cao hiệu quả huấn luyện không giám sát cho bài toán tái định danh người.
- Phương pháp cải thiện đáng kể các chỉ số mAP và Rank-k trên hai bộ dữ liệu chuẩn Market-1501 và MSMT17, vượt trội so với các phương pháp hiện có.
- Kỹ thuật điều chỉnh tham số phân cụm linh hoạt giúp mô hình thích ứng với sự biến đổi mật độ dữ liệu trong quá trình huấn luyện, tăng tính ổn định và độ chính xác.
- Cập nhật vector đại diện cụm dựa trên mức độ biến động nội bộ cụm giúp giảm thiểu ảnh hưởng của dữ liệu nhiễu và mẫu ngoại lai.
- Đề xuất tiếp tục mở rộng nghiên cứu áp dụng phương pháp cho các bộ dữ liệu đa miền và phát triển ứng dụng thực tế trong hệ thống giám sát an ninh công cộng.
Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và kỹ sư triển khai thử nghiệm phương pháp ASCUL trong các dự án thực tế, đồng thời phát triển thêm các kỹ thuật tối ưu hóa và mở rộng phạm vi ứng dụng.