Tổng quan nghiên cứu
Trong bối cảnh cuộc cách mạng công nghiệp 4.0, công nghệ nhận diện khuôn mặt dựa trên trí tuệ nhân tạo (AI) đã trở thành một trong những giải pháp tiên tiến nhất trong lĩnh vực giám sát an ninh. Theo báo cáo của ngành, hệ thống giám sát video (CCTV) được trang bị công nghệ nhận diện khuôn mặt ngày càng phổ biến tại các khu vực công cộng và cơ sở lưu trú, góp phần nâng cao hiệu quả quản lý và an ninh. Tuy nhiên, việc ứng dụng công nghệ này vẫn gặp nhiều thách thức do điều kiện ánh sáng thay đổi, góc chụp đa dạng, khuôn mặt bị che khuất (ví dụ như đeo khẩu trang), và đặc biệt là thiếu dữ liệu ảnh mẫu đa dạng cho mỗi cá nhân.
Luận văn tập trung nghiên cứu và phát triển mô hình nhận diện khuôn mặt tích hợp công nghệ học sâu nhằm nâng cao hiệu quả giám sát an ninh tại Trung tâm dịch vụ Ký túc xá Bách Khoa, TP. Hồ Chí Minh. Mục tiêu chính là xây dựng hệ thống xác thực tự động khi sinh viên vào cổng, kết hợp dữ liệu hình ảnh từ hệ thống CCTV và thẻ RFID, đồng thời đề xuất các phương pháp tăng cường dữ liệu mẫu nhằm cải thiện độ chính xác nhận diện. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 9/2020 đến tháng 6/2021, với phạm vi triển khai thực tế tại khuôn viên ký túc xá.
Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao tỷ lệ nhận diện chính xác từ khoảng 50%-70% lên đến 84% trong điều kiện ban ngày và 64% trong điều kiện ban đêm, góp phần giảm thiểu sai sót trong kiểm soát ra vào, tăng cường an ninh và giảm tải công việc cho nhân viên bảo vệ. Kết quả này cũng mở ra hướng phát triển ứng dụng công nghệ nhận diện khuôn mặt trong các hệ thống giám sát an ninh tương tự tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên nền tảng các lý thuyết và mô hình học sâu trong lĩnh vực nhận diện khuôn mặt, bao gồm:
- Mạng nơ-ron tích chập (CNN): Là kiến trúc chủ đạo trong việc trích xuất đặc trưng khuôn mặt từ ảnh, giúp mô hình học được các đặc điểm phân biệt giữa các cá nhân.
- Mô hình RetinaFace: Được sử dụng cho tác vụ phát hiện khuôn mặt (face detection), kết hợp đa tác vụ như xác định bounding box, facial landmarks và dựng hình 3D khuôn mặt, giúp tăng độ chính xác và hiệu quả xử lý.
- Mô hình kết hợp SphereFace, CosFace và ArcFace: Áp dụng cho tác vụ nhận diện khuôn mặt (face identification) bằng cách biến đổi ảnh khuôn mặt thành embedding vector trong không gian góc, sử dụng các hàm loss đặc biệt để tăng khả năng phân biệt giữa các cá nhân.
- Phương pháp tăng cường dữ liệu (Data Augmentation): Bao gồm Actual Sample Enhancement (ASE) và Interpolated Sample Enhancement (ISE), nhằm làm giàu dữ liệu ảnh mẫu để cải thiện hiệu năng mô hình trong điều kiện dữ liệu hạn chế.
- Thuật toán Kalman Filter: Ứng dụng trong việc theo dõi khuôn mặt qua các khung hình liên tiếp, giúp giảm thiểu sai số và tăng độ ổn định của hệ thống nhận diện theo thời gian thực.
- Cấu trúc dữ liệu đồ thị k-NN và thư viện Vearch: Tối ưu hóa việc lưu trữ và tìm kiếm embedding vector trong cơ sở dữ liệu lớn, đảm bảo tốc độ xử lý nhanh và hiệu quả.
Phương pháp nghiên cứu
Nghiên cứu sử dụng dữ liệu thực tế thu thập từ hệ thống CCTV tại Trung tâm dịch vụ Ký túc xá Bách Khoa với tổng số 173 camera, phục vụ cho hơn 2.400 sinh viên. Cỡ mẫu bao gồm ảnh đại diện ban đầu của sinh viên và ảnh khuôn mặt thực tế được thu thập tự động trong quá trình sinh viên ra vào cổng.
Phương pháp chọn mẫu là lấy toàn bộ ảnh khuôn mặt sinh viên được ghi nhận trong khoảng thời gian nghiên cứu, kết hợp với ảnh đại diện thẻ RFID. Phân tích dữ liệu sử dụng các mô hình học sâu đã được huấn luyện trên tập dữ liệu benchmark và tinh chỉnh trên dữ liệu thực tế của KTX.
Quá trình nghiên cứu được chia thành các giai đoạn: khảo sát và phân tích yêu cầu, xây dựng mô hình kết hợp ASE và ISE, triển khai hệ thống tích hợp với phần mềm RFID, thực nghiệm và đánh giá hiệu năng trong điều kiện ban ngày và ban đêm. Phương pháp phân tích bao gồm đo lường tỷ lệ true acceptance rate (TAR), false acceptance rate (FAR), và so sánh hiệu năng trước và sau khi áp dụng các phương pháp tăng cường dữ liệu.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của mô hình kết hợp ASE và ISE: Việc áp dụng phương pháp tăng cường mẫu nội suy (ISE) cùng với tăng cường mẫu thực tế (ASE) đã nâng tỷ lệ nhận diện chính xác khuôn mặt từ 72% lên 84% trong điều kiện ban ngày, và từ 46% lên 64% trong điều kiện ban đêm. Đây là bước tiến đáng kể so với hệ thống chỉ sử dụng ảnh đại diện ban đầu.
Ảnh thực tế đa dạng giúp cải thiện độ chính xác: Khi số lượng ảnh thực tế của sinh viên tăng lên khoảng 100 ảnh mỗi người, tỷ lệ xác thực hợp lệ tăng từ 50%-70% lên 68%-84%, cho thấy việc làm giàu dữ liệu ảnh thực tế là yếu tố then chốt nâng cao hiệu năng.
Tác động của điều kiện ánh sáng và góc chụp: Hệ thống nhận diện khuôn mặt hoạt động hiệu quả hơn trong điều kiện ánh sáng đủ và góc mặt không quá nghiêng, với độ chính xác trên 99%. Tuy nhiên, trong điều kiện ánh sáng yếu hoặc khuôn mặt bị che khuất (ví dụ đeo khẩu trang), độ chính xác giảm xuống còn khoảng 90%.
Tối ưu hóa tìm kiếm embedding vector: Việc sử dụng cấu trúc dữ liệu đồ thị k-NN và thư viện Vearch giúp hệ thống xử lý đồng thời 4 camera với tốc độ 4 khung hình/giây trên máy tính trang bị CPU 12 nhân, RAM 64GB và GPU Nvidia GTX 1080 Ti, đảm bảo khả năng vận hành theo thời gian thực.
Thảo luận kết quả
Nguyên nhân chính dẫn đến hiệu năng nhận diện chưa cao khi chỉ sử dụng ảnh đại diện là do sự khác biệt lớn giữa ảnh mẫu và ảnh thực tế về góc chụp, ánh sáng và các yếu tố che khuất. Việc áp dụng mô hình học sâu tiên tiến như ArcFace đã giúp trích xuất đặc trưng khuôn mặt hiệu quả, nhưng vẫn cần dữ liệu mẫu đa dạng để mô hình hoạt động tối ưu.
So sánh với các nghiên cứu quốc tế, kết quả đạt được tại KTX tương đương hoặc vượt trội trong điều kiện thực tế phức tạp, đặc biệt khi kết hợp các phương pháp tăng cường dữ liệu. Việc sử dụng ISE để nội suy các mẫu mới từ ảnh ban đầu giúp tăng tốc quá trình thu thập dữ liệu, giảm thời gian chờ đợi để có đủ ảnh thực tế, từ đó cải thiện hiệu năng nhận diện nhanh chóng.
Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ nhận diện trước và sau khi áp dụng ASE và ISE, cũng như bảng thống kê hiệu năng theo điều kiện ánh sáng ban ngày và ban đêm, giúp minh họa rõ ràng sự cải thiện của hệ thống.
Đề xuất và khuyến nghị
Triển khai rộng rãi mô hình kết hợp ASE và ISE: Khuyến nghị các đơn vị quản lý ký túc xá và các khu vực giám sát an ninh áp dụng mô hình này để nâng cao độ chính xác nhận diện khuôn mặt, đặc biệt trong môi trường có điều kiện ánh sáng và góc chụp đa dạng. Thời gian triển khai dự kiến trong vòng 6 tháng.
Tăng cường thu thập ảnh thực tế tự động: Hệ thống nên được thiết kế để tự động thu thập và cập nhật ảnh khuôn mặt thực tế của người dùng trong quá trình sử dụng, nhằm làm giàu dữ liệu mẫu và cải thiện hiệu năng nhận diện theo thời gian. Chủ thể thực hiện là đội ngũ kỹ thuật vận hành hệ thống.
Nâng cấp phần cứng và tối ưu phần mềm: Đầu tư nâng cấp máy chủ xử lý với GPU mạnh mẽ và sử dụng các thư viện tối ưu như Vearch để đảm bảo hệ thống hoạt động ổn định, xử lý đa camera với tốc độ cao, đáp ứng yêu cầu giám sát theo thời gian thực. Thời gian thực hiện trong 3 tháng.
Đào tạo nhân viên và nâng cao nhận thức người dùng: Tổ chức các khóa đào tạo cho nhân viên bảo vệ và quản lý về cách vận hành hệ thống nhận diện khuôn mặt, đồng thời tuyên truyền cho sinh viên về lợi ích và quy trình xác thực không tương tác để đảm bảo sự hợp tác và hiệu quả của hệ thống.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong nhận diện khuôn mặt, các mô hình tiên tiến và kỹ thuật tăng cường dữ liệu, phù hợp cho nghiên cứu và phát triển đề tài liên quan.
Các đơn vị quản lý ký túc xá, trường đại học và khu lưu trú: Tham khảo để áp dụng công nghệ nhận diện khuôn mặt trong kiểm soát ra vào, nâng cao an ninh và quản lý hiệu quả, đặc biệt trong môi trường có số lượng người lớn và biến động cao.
Doanh nghiệp phát triển hệ thống giám sát an ninh và công nghệ sinh trắc học: Tài liệu hữu ích để phát triển sản phẩm tích hợp công nghệ nhận diện khuôn mặt, tối ưu hóa hiệu năng và giải quyết các vấn đề thực tế như thiếu dữ liệu mẫu và điều kiện môi trường phức tạp.
Cơ quan quản lý nhà nước và các tổ chức an ninh: Có thể ứng dụng kết quả nghiên cứu để xây dựng các chính sách, quy chuẩn kỹ thuật và hướng dẫn triển khai hệ thống giám sát an ninh hiện đại, đảm bảo an toàn xã hội.
Câu hỏi thường gặp
Công nghệ nhận diện khuôn mặt có thể hoạt động chính xác trong điều kiện ánh sáng yếu không?
Hệ thống được cải tiến với phương pháp tăng cường dữ liệu và mô hình học sâu tiên tiến giúp nâng tỷ lệ nhận diện chính xác lên 64% trong điều kiện ban đêm, tuy nhiên vẫn cần bổ sung thêm ảnh thực tế để cải thiện hơn nữa.Làm thế nào để hệ thống xử lý khi chỉ có một ảnh đại diện ban đầu cho mỗi người?
Luận văn đề xuất phương pháp Interpolated Sample Enhancement (ISE) để nội suy tạo ra nhiều mẫu ảnh mới từ ảnh đại diện ban đầu, giúp mô hình học sâu có thêm dữ liệu đa dạng để nhận diện chính xác hơn.Hệ thống có thể xử lý bao nhiêu camera cùng lúc?
Với cấu hình máy tính trang bị CPU 12 nhân, RAM 64GB và GPU Nvidia GTX 1080 Ti, hệ thống có thể xử lý đồng thời 4 camera với tốc độ 4 khung hình/giây mỗi camera, đảm bảo giám sát theo thời gian thực.Phương pháp tăng cường dữ liệu có ảnh hưởng đến tốc độ xử lý không?
Việc tăng cường dữ liệu chủ yếu thực hiện trong giai đoạn huấn luyện và cập nhật mẫu, không ảnh hưởng đáng kể đến tốc độ xử lý thời gian thực của hệ thống khi nhận diện.Hệ thống có thể áp dụng cho các môi trường khác ngoài ký túc xá không?
Các phương pháp và mô hình được nghiên cứu có tính tổng quát cao, có thể áp dụng cho nhiều môi trường giám sát an ninh khác như sân bay, trung tâm thương mại, hoặc các khu vực công cộng khác.
Kết luận
- Luận văn đã phát triển thành công mô hình kết hợp Actual Sample Enhancement (ASE) và Interpolated Sample Enhancement (ISE) nhằm tăng cường dữ liệu ảnh khuôn mặt, nâng cao hiệu năng nhận diện trong hệ thống giám sát an ninh tại Ký túc xá Bách Khoa.
- Hệ thống tích hợp công nghệ học sâu với mô hình RetinaFace, ArcFace và thư viện Vearch cho phép xử lý theo thời gian thực với độ chính xác cải thiện rõ rệt, đạt 84% trong ban ngày và 64% ban đêm.
- Phương pháp tăng cường dữ liệu giúp giải quyết bài toán one-shot learning, giảm thiểu thời gian thu thập ảnh thực tế và tăng độ ổn định của hệ thống trong điều kiện thực tế đa dạng.
- Nghiên cứu mở ra hướng phát triển ứng dụng công nghệ nhận diện khuôn mặt trong các hệ thống giám sát an ninh tại Việt Nam, góp phần nâng cao an toàn và hiệu quả quản lý.
- Các bước tiếp theo bao gồm mở rộng triển khai hệ thống, nâng cấp phần cứng, và đào tạo nhân sự để đảm bảo vận hành ổn định và hiệu quả lâu dài.
Quý độc giả và các đơn vị quan tâm được khuyến khích áp dụng và phát triển thêm dựa trên kết quả nghiên cứu này nhằm nâng cao chất lượng giám sát an ninh trong thực tế.