I. Tổng Quan Vision Transformer Nhận Diện Khuôn Mặt Giới Thiệu
Thị giác máy tính (Computer Vision) và xử lý ngôn ngữ tự nhiên (NLP) là hai lĩnh vực nghiên cứu quan trọng của trí tuệ nhân tạo. Gần đây, thành tựu từ CNN được áp dụng vào NLP và ngược lại, thúc đẩy sự phát triển của cả hai. Trong NLP, kiến trúc Transformer dựa trên cơ chế Self-Attention đã trở thành lựa chọn hàng đầu. Kể từ khi Transformer ra đời năm 2017 với BERT, các mô hình NLP đạt kết quả State Of The Art (SOTA) đều dựa trên Transformer. Hệ thống GPT-3 siêu việt của OpenAI cũng được xây dựng trên nền tảng Transformer. Lấy cảm hứng từ Transformer trong NLP, nhóm tác giả từ Google đã áp dụng Transformer vào phân loại ảnh, tạo ra Vision Transformer (ViT) [1]. Giải pháp này chia ảnh thành nhiều patch không chồng lấn, biến đổi chúng thành vector, bổ sung token class như NLP và thông tin vị trí. Sau đó, xây dựng quan hệ giữa các patch vector qua cơ chế Multi Self-Attention (MSA) tương tự như xử lý từ trong NLP. Đầu ra của Transformer là vector ngữ cảnh đại diện cho ảnh, đưa vào bộ phân loại ảnh. ViT cho kết quả tương đương hoặc tốt hơn ResNet trong phân loại ảnh khi dữ liệu huấn luyện lớn.
1.1. Sự trỗi dậy của Vision Transformer trong Computer Vision
Vision Transformer (ViT) đánh dấu một bước tiến lớn trong việc áp dụng kiến trúc Transformer từ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) sang lĩnh vực thị giác máy tính (Computer Vision). ViT đã chứng minh khả năng cạnh tranh, thậm chí vượt trội so với các mô hình CNN truyền thống như ResNet, đặc biệt khi được huấn luyện trên các bộ dữ liệu lớn. Sự thành công của ViT mở ra một hướng đi mới cho các nghiên cứu và ứng dụng liên quan đến thị giác máy tính. Tham khảo thêm thông tin chi tiết tại [1].
1.2. Ứng dụng Self Attention trong Nhận Diện Khuôn Mặt
Cơ chế Self-Attention, trái tim của kiến trúc Transformer, cho phép mô hình tập trung vào các phần quan trọng nhất của hình ảnh khuôn mặt. Thay vì xử lý toàn bộ ảnh một cách đồng đều, Self-Attention giúp mô hình xác định và nhấn mạnh các đặc trưng quan trọng như mắt, mũi, miệng, từ đó cải thiện đáng kể độ chính xác của quá trình nhận diện. Cơ chế này cũng giúp mô hình xử lý tốt hơn các biến thể về ánh sáng, tư thế và biểu cảm khuôn mặt. Điều này góp phần tạo nên một hệ thống robust face recognition.
II. Thách Thức Nhận Diện Khuôn Mặt Dữ Liệu Huấn Luyện Hạn Chế
Khi dữ liệu huấn luyện đầy đủ, các mô hình nhận dạng khuôn mặt dựa trên ViT face recognition hoặc ResNet đều hoạt động tốt. Tuy nhiên, trong thực tế, việc có đủ dữ liệu huấn luyện là khó khăn. Ví dụ, truy tìm tội phạm qua camera công cộng hoặc nhận dạng khách hàng VIP chỉ có vài ảnh cho mỗi cá nhân. Điều này làm giảm độ chính xác của mô hình. Đề tài này thực hiện nhận dạng khuôn mặt bằng ViT trong điều kiện thiếu dữ liệu, so sánh độ chính xác với mạng CNN. Đồng thời, đề xuất cải tiến độ chính xác bằng cách áp dụng kỹ thuật Baby Learning algorithms trong quá trình tinh chỉnh. Đề tài sẽ xây dựng lại mô hình nhận diện khuôn mặt với dataset trung bình MSIM-RetinaFace, sử dụng ViT và ResNet, và hàm mất mát CosFace.
2.1. Bài toán Few Shot Learning trong Nhận Diện Khuôn Mặt
Bài toán few-shot learning trở nên đặc biệt quan trọng trong bối cảnh nhận diện khuôn mặt, khi số lượng ảnh cho mỗi cá nhân là rất hạn chế. Các mô hình truyền thống thường gặp khó khăn trong việc khái quát hóa (generalize) với ít dữ liệu huấn luyện, dẫn đến độ chính xác thấp. Do đó, cần có các phương pháp tiếp cận mới, giúp mô hình học được các đặc trưng quan trọng từ một số ít mẫu dữ liệu, đồng thời giảm thiểu overfitting (quá khớp). Few-shot learning face recognition là một hướng nghiên cứu đầy tiềm năng.
2.2. Ảnh hưởng của Kích Thước Dataset đến Hiệu Suất Mô Hình
Kích thước của dataset huấn luyện có ảnh hưởng trực tiếp đến face recognition performance. Dataset lớn cho phép mô hình học được các đặc trưng đa dạng và phức tạp, giảm thiểu bias và cải thiện khả năng khái quát hóa. Ngược lại, dataset nhỏ có thể dẫn đến overfitting và hiệu suất kém trên dữ liệu mới. Việc lựa chọn và xử lý dataset một cách cẩn thận là một yếu tố then chốt để xây dựng một hệ thống nhận diện khuôn mặt hiệu quả.
2.3. Sự cần thiết của dataset người Việt Nam
Việc sử dụng bộ dữ liệu khuôn mặt người Việt Nam là cần thiết để đánh giá chính xác hiệu suất của mô hình trong điều kiện thiếu dữ liệu. Các bộ dataset training thường không có khuôn mặt người Việt Nam, hoặc chỉ có một số ít khuôn mặt người Trung Quốc. Do đó, sau khi huấn luyện mô hình có thể chưa học được đầy đủ thông tin và đặc điểm khuôn mặt của người Việt Nam.
III. Giải Pháp Baby Learning Tối Ưu Nhận Diện Khuôn Mặt ViT
Đề tài sẽ kiểm tra độ chính xác của mô hình với các dataset công khai như LFW và các biến thể của nó. Đồng thời, xây dựng bộ dataset gồm 3.000 người Việt Nam (3 ảnh/người) để đánh giá mô hình trên môi trường thiếu dữ liệu. Quá trình tinh chỉnh sẽ được thực hiện với lượng dữ liệu ít chỉ gồm 1 ảnh/người hoặc 2 ảnh/người. Áp dụng kỹ thuật Baby Learning để gia tăng độ chính xác của mô hình, so sánh với trường hợp không sử dụng Baby Learning để đánh giá hiệu quả sau khi áp dụng. So sánh độ chính xác của mô hình khi áp dụng hai backbone network là Vision Transformer và mạng CNN.
3.1. Nguyên lý hoạt động của Baby Learning trong AI
Kỹ thuật Baby Learning, lấy cảm hứng từ cách trẻ em học hỏi, là một phương pháp huấn luyện mô hình máy học bắt đầu với dữ liệu đơn giản và dễ hiểu, sau đó dần dần tăng độ phức tạp của dữ liệu. Trong bài toán nhận diện khuôn mặt, có thể bắt đầu với ảnh khuôn mặt chính diện, ánh sáng tốt, rồi tăng dần độ khó bằng cách thêm ảnh có góc nghiêng, ánh sáng yếu hoặc bị che khuất. Cách tiếp cận này giúp mô hình học được các đặc trưng quan trọng một cách vững chắc, tránh bị quá tải bởi dữ liệu phức tạp ngay từ đầu. Đây là một dạng của Self-supervised learning for face recognition.
3.2. Tinh chỉnh Mô Hình ViT bằng Baby Learning
Quá trình tinh chỉnh mô hình ViT bằng Baby Learning bao gồm việc lựa chọn cẩn thận các mẫu dữ liệu ở mỗi giai đoạn huấn luyện. Bắt đầu với các mẫu dễ, đảm bảo mô hình có thể học được các đặc trưng cơ bản một cách chính xác. Sau đó, dần dần thêm các mẫu khó hơn để mô hình có thể xử lý các biến thể và nhiễu trong dữ liệu. Quá trình này có thể lặp lại nhiều lần cho đến khi mô hình đạt được độ chính xác mong muốn. Việc lựa chọn các mẫu dữ liệu phù hợp ở mỗi giai đoạn là rất quan trọng để đảm bảo hiệu quả của phương pháp Baby Learning.
IV. Kết Quả Nghiên Cứu Đánh Giá Hiệu Quả Baby Learning ViT
Đóng góp của đề tài là bộ dataset khuôn mặt của người Việt Nam để kiểm định độ chính xác của mô hình nhận dạng khuôn mặt trong điều kiện thiếu dữ liệu. Tổng bộ dữ liệu có 3000 ảnh. Đề tài so sánh ViT face recognition và ResNet khi được huấn luyện với bộ dữ liệu có kích thước trung bình và trong điều kiện tinh chỉnh dữ liệu không đầy đủ với bộ dataset khuôn mặt người Việt Nam. Cuối cùng, đề tài kiểm tra hiệu quả của kỹ thuật Baby Learning giúp gia tăng độ chính xác của mô hình trong điều kiện thiếu dữ liệu. Luận văn có một công bố khoa học đã được chấp nhận ở hội nghị quốc tế MAPR 2022.
4.1. Độ Chính Xác So Khớp Khuôn Mặt trên Dataset Công Khai
Đánh giá mô hình trên các dataset công khai như Labeled Faces in the Wild (LFW), Cross-Age LFW (CALFW) và Cross-Pose LFW (CPLFW) là một bước quan trọng để so sánh hiệu suất của mô hình với các nghiên cứu trước đây. Các dataset này cung cấp các thử thách khác nhau về độ tuổi, tư thế và biểu cảm khuôn mặt, giúp đánh giá khả năng khái quát hóa của mô hình. Kết quả trên các dataset này sẽ cho thấy liệu mô hình có thể hoạt động tốt trong các điều kiện khác nhau hay không.
4.2. Hiệu Quả Baby Learning trên Dataset Khuôn Mặt Việt Nam
Việc đánh giá hiệu quả của kỹ thuật Baby Learning trên dataset khuôn mặt Việt Nam là rất quan trọng, vì nó cho thấy liệu phương pháp này có thể cải thiện độ chính xác của mô hình trong điều kiện dữ liệu hạn chế hay không. So sánh kết quả khi sử dụng và không sử dụng Baby Learning sẽ cho thấy mức độ cải thiện mà phương pháp này mang lại. Điều này có ý nghĩa lớn trong các ứng dụng thực tế, nơi dữ liệu khuôn mặt người Việt Nam có thể khó thu thập.
4.3. Phân tích nguyên nhân dự đoán sai của ViT
Phân tích các trường hợp ViT dự đoán sai giúp hiểu rõ hơn về điểm yếu của mô hình và tìm ra các phương pháp cải thiện. Các yếu tố như tư thế khuôn mặt, biểu cảm khuôn mặt, ánh sáng và độ phân giải ảnh có thể ảnh hưởng đến độ chính xác của mô hình. Việc xác định các nguyên nhân chính gây ra lỗi dự đoán sẽ giúp tập trung vào việc khắc phục chúng trong các nghiên cứu tiếp theo.
V. Ứng Dụng Nhận Diện Khuôn Mặt ViT Bảo Mật và Y Tế
Công nghệ nhận diện khuôn mặt dựa trên Vision Transformer (ViT) và Baby Learning mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực khác nhau. Trong lĩnh vực bảo mật, nó có thể được sử dụng để kiểm soát truy cập, xác thực danh tính và giám sát an ninh. Trong lĩnh vực y tế, nó có thể được sử dụng để nhận diện bệnh nhân, theo dõi sức khỏe và hỗ trợ chẩn đoán. Ngoài ra, còn có các ứng dụng trong lĩnh vực marketing, robotics và surveillance. Các Ethical considerations in face recognition và Bias in face recognition cần được xem xét cẩn thận.
5.1. Nhận Diện Khuôn Mặt trong Kiểm Soát Truy Cập và An Ninh
Ứng dụng nhận diện khuôn mặt trong kiểm soát truy cập và an ninh giúp tăng cường bảo mật và hiệu quả. Thay vì sử dụng các phương pháp truyền thống như thẻ từ hoặc mật khẩu, hệ thống có thể tự động nhận diện người dùng và cấp quyền truy cập tương ứng. Điều này giúp ngăn chặn truy cập trái phép và giảm thiểu rủi ro an ninh. Đồng thời, nó cũng giúp đơn giản hóa quy trình quản lý và theo dõi truy cập.
5.2. Hỗ Trợ Chẩn Đoán và Theo Dõi Sức Khỏe trong Y Tế
Trong lĩnh vực y tế, nhận diện khuôn mặt có thể được sử dụng để nhận diện bệnh nhân, giúp giảm thiểu sai sót và cải thiện hiệu quả điều trị. Nó cũng có thể được sử dụng để theo dõi biểu cảm khuôn mặt và các dấu hiệu sinh tồn, giúp phát hiện sớm các vấn đề sức khỏe và đưa ra các biện pháp can thiệp kịp thời. Ngoài ra, nó còn có thể hỗ trợ các bác sĩ trong quá trình chẩn đoán, đặc biệt là trong các trường hợp liên quan đến các bệnh lý về thần kinh hoặc tâm lý.
VI. Tương Lai Nhận Diện Khuôn Mặt ViT Nghiên Cứu và Phát Triển
Nhận diện khuôn mặt sử dụng Vision Transformer và Baby Learning là một lĩnh vực đầy tiềm năng, với nhiều hướng nghiên cứu và phát triển trong tương lai. Các nghiên cứu có thể tập trung vào việc cải thiện độ chính xác và khả năng khái quát hóa của mô hình, đặc biệt trong điều kiện dữ liệu hạn chế hoặc môi trường phức tạp. Ngoài ra, cần chú trọng đến các vấn đề về đạo đức và bảo mật, đảm bảo rằng công nghệ được sử dụng một cách có trách nhiệm và minh bạch. Việc nghiên cứu và phát triển các phương pháp Explainable AI face recognition cũng rất quan trọng.
6.1. Tối Ưu Hóa Kiến Trúc ViT cho Nhận Diện Khuôn Mặt
Nghiên cứu tối ưu hóa kiến trúc ViT cho bài toán nhận diện khuôn mặt là một hướng đi đầy hứa hẹn. Các cải tiến có thể tập trung vào việc điều chỉnh các tham số của mô hình, thêm các lớp hoặc module đặc biệt, hoặc kết hợp ViT với các kiến trúc khác. Mục tiêu là tạo ra một mô hình có hiệu suất cao hơn, đồng thời giảm thiểu chi phí tính toán và năng lượng.
6.2. Giải Quyết Các Vấn Đề Về Bias và Đạo Đức trong Nhận Diện
Các vấn đề về bias và đạo đức trong nhận diện khuôn mặt cần được giải quyết một cách nghiêm túc. Các mô hình có thể bị bias đối với các nhóm người nhất định, dẫn đến sự phân biệt đối xử và bất công. Cần có các phương pháp để đánh giá và giảm thiểu bias trong dữ liệu và mô hình, đồng thời xây dựng các quy tắc và tiêu chuẩn đạo đức để đảm bảo rằng công nghệ được sử dụng một cách công bằng và có trách nhiệm.