Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và học máy, bài toán phân lớp và nhận dạng đóng vai trò then chốt trong nhiều ứng dụng thực tiễn như nhận dạng khuôn mặt, kiểm soát vào ra, và sinh trắc học. Theo ước tính, các bộ dữ liệu tiêu chuẩn như MNIST và CIFAR-10 với hàng chục nghìn ảnh đã được sử dụng rộng rãi để huấn luyện các mô hình phân lớp truyền thống. Tuy nhiên, các mô hình này thường giả định rằng tất cả dữ liệu kiểm tra đều thuộc về các lớp đã biết trong tập huấn luyện, dẫn đến hiệu quả thấp khi gặp dữ liệu mới không thuộc các lớp đó. Đây chính là vấn đề của bài toán phân lớp trong tập mở (open set classification), nơi mà mô hình phải nhận diện và phân biệt các đối tượng thuộc các lớp chưa biết trước đó.
Mục tiêu nghiên cứu của luận văn là phát triển và xây dựng giải thuật phân lớp tập mở nhằm nâng cao khả năng nhận dạng chính xác các đối tượng thuộc cả lớp đã biết và lớp chưa biết trong môi trường thực tế. Phạm vi nghiên cứu tập trung vào các mô hình học máy và học sâu, đặc biệt là ứng dụng trong nhận dạng khuôn mặt và kiểm soát vào ra tại các khu vực có an ninh cao. Nghiên cứu được thực hiện trong giai đoạn 2021-2023 tại Viện Toán ứng dụng và Tin học, Trường Đại học Bách Khoa Hà Nội.
Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác nhận dạng trong môi trường tập mở, giảm thiểu sai sót khi gặp dữ liệu mới, từ đó nâng cao hiệu quả và độ tin cậy của các hệ thống nhận dạng khuôn mặt và các ứng dụng an ninh khác. Các chỉ số đánh giá như tỷ lệ nhận dạng chính xác và tỷ lệ từ chối sai được cải thiện rõ rệt, góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong thực tế.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:
Phân lớp tập mở (Open Set Classification): Khái niệm tập mở được định nghĩa là môi trường mà ngoài các lớp đã biết (Known Known Classes - KKCs), còn tồn tại các lớp chưa biết (Unknown Unknown Classes - UUCs) không có trong tập huấn luyện. Mục tiêu là xây dựng hàm phân lớp có khả năng nhận diện và từ chối các mẫu thuộc lớp chưa biết, giảm thiểu rủi ro trong không gian mở (Open Space Risk).
Lý thuyết giá trị cực đại (Extreme Value Theory - EVT): Được sử dụng để mô hình hóa phân phối xác suất của các điểm dữ liệu cận biên, giúp xác định ranh giới phân lớp trong không gian mở. EVT hỗ trợ hiệu chuẩn các mô hình phân lớp nhằm phân biệt chính xác giữa các lớp đã biết và các mẫu chưa biết.
Mạng nơ-ron học sâu (Deep Neural Networks - DNNs): Các mô hình CNN như MTCNN, FaceNet được áp dụng để trích xuất đặc trưng khuôn mặt. Lớp OpenMax thay thế lớp Softmax truyền thống nhằm cải thiện khả năng nhận dạng trong tập mở bằng cách tính toán xác suất thuộc lớp chưa biết dựa trên phân phối Weibull.
Mô hình sinh (Generative Models): Mạng Generative Adversarial Networks (GAN) được sử dụng để tạo ra các mẫu dữ liệu giả lập thuộc lớp chưa biết, hỗ trợ huấn luyện mô hình phân lớp tập mở hiệu quả hơn.
Các khái niệm chính bao gồm: tập mở, rủi ro không gian mở, hàm phân lớp, phân phối Weibull, mạng OpenMax, mạng GAN, và các thuật toán học máy truyền thống như SVM, SRC.
Phương pháp nghiên cứu
Nguồn dữ liệu chính bao gồm các bộ dữ liệu chuẩn như MNIST, CIFAR-10, SVHN, cùng với dữ liệu thực tế về khuôn mặt và phương tiện giao thông tại một số địa phương. Bộ dữ liệu khuôn mặt được thu thập và xử lý qua các bước tiền xử lý như loại bỏ dữ liệu nhiễu, bổ sung dữ liệu thiếu bằng phương pháp trung bình hoặc hồi quy, và lựa chọn tập con bằng lấy mẫu ngẫu nhiên.
Phương pháp phân tích bao gồm:
Xây dựng và huấn luyện các mô hình phân lớp truyền thống (SVM, KNN) và mô hình học sâu (MTCNN, FaceNet).
Áp dụng lớp OpenMax để thay thế Softmax trong mạng học sâu nhằm xử lý bài toán phân lớp tập mở.
Sử dụng mạng GAN để tạo dữ liệu giả lập thuộc lớp chưa biết, tăng cường khả năng nhận dạng.
Đánh giá mô hình qua các chỉ số như độ chính xác phân lớp, tỷ lệ từ chối sai, và chỉ số Youden.
Quá trình nghiên cứu kéo dài từ tháng 01/2021 đến 04/2023, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện, kiểm thử và tối ưu hóa.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của mô hình phân lớp tập mở: Mô hình OpenMax kết hợp với mạng FaceNet đạt độ chính xác nhận dạng khuôn mặt trên 95% trong môi trường tập mở, cao hơn khoảng 10% so với mô hình sử dụng lớp Softmax truyền thống. Tỷ lệ từ chối sai (false rejection) giảm xuống dưới 5%, cho thấy khả năng phân biệt tốt các mẫu chưa biết.
Ứng dụng mạng GAN trong tạo dữ liệu giả lập: Việc sử dụng mạng GAN để sinh dữ liệu thuộc lớp chưa biết giúp cải thiện độ chính xác nhận dạng thêm khoảng 7%, đồng thời giảm thiểu sai số phân lớp nhầm lẫn giữa các lớp KKCs và UUCs.
So sánh các thuật toán học máy cổ điển: Thuật toán SVM biến thể W-SVM và POS-SVM cho thấy khả năng kiểm soát rủi ro không gian mở tốt hơn, với tỷ lệ nhận dạng chính xác đạt khoảng 85-88%, cao hơn 15% so với SVM truyền thống khi xử lý dữ liệu tập mở.
Ảnh hưởng của tiền xử lý dữ liệu: Việc xử lý dữ liệu thiếu và loại bỏ dữ liệu nhiễu trước khi huấn luyện giúp tăng hiệu suất mô hình lên khoảng 8%, đồng thời giảm thời gian huấn luyện xuống 20%.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện hiệu quả mô hình phân lớp tập mở là do việc áp dụng lớp OpenMax và mô hình GAN giúp mô hình nhận diện được các mẫu chưa biết và từ chối phân lớp sai. So với các nghiên cứu trước đây chỉ tập trung vào phân lớp tập đóng, kết quả này cho thấy bước tiến quan trọng trong việc ứng dụng học sâu cho bài toán phân lớp tập mở.
Biểu đồ so sánh độ chính xác giữa các mô hình truyền thống và mô hình đề xuất minh họa rõ ràng sự vượt trội của mô hình OpenMax + GAN. Bảng số liệu chi tiết cũng cho thấy tỷ lệ từ chối sai giảm đáng kể, góp phần nâng cao độ tin cậy của hệ thống nhận dạng khuôn mặt trong thực tế.
Tuy nhiên, việc lựa chọn ngưỡng phân lớp trong mô hình OpenMax và W-SVM vẫn còn phụ thuộc vào kinh nghiệm và đặc điểm dữ liệu, đây là điểm cần cải tiến trong các nghiên cứu tiếp theo. Ngoài ra, sự mất cân bằng dữ liệu giữa các lớp KKCs và UUCs cũng ảnh hưởng đến hiệu suất mô hình, đòi hỏi các kỹ thuật cân bằng dữ liệu hoặc học tăng cường được áp dụng.
Đề xuất và khuyến nghị
Phát triển mô hình phân lớp tập mở tích hợp GAN và OpenMax: Tiếp tục hoàn thiện và tối ưu hóa mô hình kết hợp mạng GAN để tạo dữ liệu giả lập và lớp OpenMax nhằm nâng cao độ chính xác nhận dạng khuôn mặt trong môi trường tập mở. Mục tiêu đạt độ chính xác trên 97% trong vòng 12 tháng tới. Chủ thể thực hiện: nhóm nghiên cứu tại Viện Toán ứng dụng và Tin học.
Xây dựng bộ dữ liệu đa dạng và cân bằng hơn: Thu thập và xử lý thêm dữ liệu khuôn mặt và các đối tượng chưa biết từ nhiều nguồn khác nhau, đảm bảo cân bằng giữa các lớp KKCs và UUCs để giảm thiểu sai số phân lớp. Thời gian thực hiện: 6 tháng. Chủ thể: phòng dữ liệu và nhóm phát triển sản phẩm.
Tối ưu hóa thuật toán lựa chọn ngưỡng phân lớp: Nghiên cứu và áp dụng các phương pháp tự động hiệu chuẩn ngưỡng dựa trên học máy hoặc tối ưu hóa đa mục tiêu để giảm sự phụ thuộc vào kinh nghiệm và đặc điểm dữ liệu. Mục tiêu giảm sai số phân lớp nhầm dưới 3%. Thời gian: 9 tháng. Chủ thể: nhóm nghiên cứu thuật toán.
Tích hợp mô hình vào hệ thống kiểm soát vào ra thực tế: Triển khai mô hình phân lớp tập mở vào sản phẩm nhận dạng khuôn mặt và kiểm soát vào ra tại các khu chung cư, nhà máy với quy mô thử nghiệm khoảng 5000 người dùng trong 6 tháng. Chủ thể: công ty công nghệ cao Skymap phối hợp với Viện Toán ứng dụng và Tin học.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành trí tuệ nhân tạo, học máy: Luận văn cung cấp cơ sở lý thuyết và các phương pháp hiện đại trong phân lớp tập mở, giúp mở rộng kiến thức và ứng dụng trong các đề tài nghiên cứu liên quan.
Chuyên gia phát triển sản phẩm nhận dạng khuôn mặt và an ninh: Các giải thuật và mô hình được đề xuất có thể áp dụng trực tiếp vào các hệ thống nhận dạng khuôn mặt, kiểm soát an ninh, giúp nâng cao hiệu quả và độ tin cậy sản phẩm.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI: Tham khảo để phát triển các giải pháp phân lớp tập mở, đặc biệt trong các ứng dụng thực tế như quản lý truy cập, điểm danh tự động, và giám sát an ninh.
Cơ quan quản lý và tổ chức nghiên cứu ứng dụng AI: Hiểu rõ hơn về thách thức và giải pháp trong phân lớp tập mở, từ đó xây dựng chính sách, định hướng nghiên cứu và đầu tư phù hợp.
Câu hỏi thường gặp
Phân lớp tập mở khác gì so với phân lớp truyền thống?
Phân lớp truyền thống giả định tất cả dữ liệu kiểm tra thuộc các lớp đã biết trong tập huấn luyện, trong khi phân lớp tập mở cho phép nhận diện và từ chối các mẫu thuộc lớp chưa biết, giúp giảm sai sót khi gặp dữ liệu mới.Làm thế nào để mô hình phân lớp tập mở nhận biết được dữ liệu chưa biết?
Các mô hình sử dụng kỹ thuật như lớp OpenMax thay thế Softmax, kết hợp phân phối Weibull và mạng GAN để tạo dữ liệu giả lập, từ đó xác định và từ chối các mẫu không thuộc lớp đã biết.Tại sao cần sử dụng mạng GAN trong phân lớp tập mở?
Mạng GAN giúp tạo ra các mẫu dữ liệu giả lập thuộc lớp chưa biết, hỗ trợ mô hình học sâu nhận diện tốt hơn các đối tượng mới, cải thiện độ chính xác và khả năng từ chối sai.Ngưỡng phân lớp trong mô hình OpenMax được xác định như thế nào?
Ngưỡng thường được hiệu chuẩn dựa trên dữ liệu huấn luyện và tập mở, tuy nhiên hiện nay vẫn còn phụ thuộc vào kinh nghiệm và đặc điểm dữ liệu, cần nghiên cứu thêm để tự động hóa quá trình này.Ứng dụng thực tế của phân lớp tập mở là gì?
Phân lớp tập mở được ứng dụng trong nhận dạng khuôn mặt tại các khu vực an ninh, kiểm soát vào ra, sinh trắc học, giúp hệ thống nhận diện chính xác người dùng đã đăng ký và từ chối người lạ, nâng cao an toàn và hiệu quả quản lý.
Kết luận
- Luận văn đã nghiên cứu và xây dựng thành công giải thuật phân lớp tập mở, kết hợp mạng học sâu và mô hình sinh để nâng cao hiệu quả nhận dạng trong môi trường thực tế.
- Mô hình OpenMax và mạng GAN được áp dụng hiệu quả, cải thiện độ chính xác nhận dạng khuôn mặt trên 95% và giảm tỷ lệ từ chối sai dưới 5%.
- Các thuật toán học máy truyền thống như SVM biến thể cũng được cải tiến để phù hợp với bài toán phân lớp tập mở.
- Đề xuất các giải pháp phát triển mô hình, xây dựng bộ dữ liệu cân bằng, tối ưu ngưỡng phân lớp và triển khai thực tế trong vòng 1-2 năm tới.
- Kêu gọi các nhà nghiên cứu, doanh nghiệp và tổ chức ứng dụng AI tiếp tục hợp tác để hoàn thiện và mở rộng ứng dụng phân lớp tập mở trong nhiều lĩnh vực.