Nghiên cứu nhận diện khuôn mặt bằng Vision Transformer và Baby Learning

Luận văn thạc sĩ nghiên cứu nhận diện khuôn mặt bằng vision transformer và baby learning, ứng dụng trong khoa học máy tính hiện đại.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU

1.1. ĐÓNG GÓP CỦA ĐỀ TÀI

2. CHƯƠNG 2: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

2.1. GIỚI THIỆU VỀ NHẬN DẠNG KHUÔN MẶT

2.2. BÓC TÁCH ẢNH KHUÔN MẶT

2.3. SO KHỚP KHUÔN MẶT

2.4. NHẬN DIỆN KHUÔN MẶT

2.5. BA THUỘC TÍNH CỦA MÔ HÌNH NHẬN DẠNG KHUÔN MẶT

3. CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU

3.1. MÔ HÌNH NHẬN DẠNG KHUÔN MẶT

3.2. PHƯƠNG PHÁP TỈNH CHỈNH KẾT HỢP KỸ THUẬT BABY LEARNING

3.3. MÔ HÌNH THỰC HIỆN CHO BÀI TOÁN SO KHỚP KHUÔN MẶT

3.4. MÔ HÌNH THỰC HIỆN CHO BÀI TOÁN NHẬN DIỆN KHUÔN MẶT

4. CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU

4.1. CÁC BỘ DATASET DÙNG TRONG NGHIÊN CỨU

4.1.1. Vietnamese Face Dataset (VFD)

4.1.2. Bộ dataset VER4K

4.1.3. Bộ dataset REG2K

4.1.4. Labeled Faces in the Wild (LFW)

4.1.5. Cross-Age LFW (CALEW)

4.1.6. Cross-Pose LFW (CPLFW)

4.1.7. Celebrities in Frontal-Profile in the Wild (CFPW hay CFP-FP)

4.2. ĐỘ ĐỘ DÙNG TRONG MÔ HÌNH

4.3. CÀI ĐẶT MÔ HÌNH NHẬN DẠNG KHUÔN MẶT

4.4. BỘ DATASET CHO HUẤN LUYỆN VÀ TỈNH CHỈNH

4.5. MÔI TRƯỜNG THỰC HIỆN

4.6. KẾT QUẢ NGHIÊN CỨU

4.6.1. Kết quả so khớp khuôn mặt trên các dataset public

4.6.2. Kết quả so khớp khuôn mặt trên bộ dataset Việt Nam VER4K

4.6.3. Kết quả nhận diện khuôn mặt trên bộ dataset REGIK, REG2K

4.6.4. Hiệu quả của kỹ thuật Baby Learning lên độ chính xác mô hình

4.6.5. Đánh giá nguyên nhân dự báo sai của mô hình ViT

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

PHỤ LỤC I: THÔNG TIN VỀ ẢNH TRONG BỘ DATASET VFD

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Tổng Quan Vision Transformer Nhận Diện Khuôn Mặt Giới Thiệu

Thị giác máy tính (Computer Vision) và xử lý ngôn ngữ tự nhiên (NLP) là hai lĩnh vực nghiên cứu quan trọng của trí tuệ nhân tạo. Gần đây, thành tựu từ CNN được áp dụng vào NLP và ngược lại, thúc đẩy sự phát triển của cả hai. Trong NLP, kiến trúc Transformer dựa trên cơ chế Self-Attention đã trở thành lựa chọn hàng đầu. Kể từ khi Transformer ra đời năm 2017 với BERT, các mô hình NLP đạt kết quả State Of The Art (SOTA) đều dựa trên Transformer. Hệ thống GPT-3 siêu việt của OpenAI cũng được xây dựng trên nền tảng Transformer. Lấy cảm hứng từ Transformer trong NLP, nhóm tác giả từ Google đã áp dụng Transformer vào phân loại ảnh, tạo ra Vision Transformer (ViT) [1]. Giải pháp này chia ảnh thành nhiều patch không chồng lấn, biến đổi chúng thành vector, bổ sung token class như NLP và thông tin vị trí. Sau đó, xây dựng quan hệ giữa các patch vector qua cơ chế Multi Self-Attention (MSA) tương tự như xử lý từ trong NLP. Đầu ra của Transformer là vector ngữ cảnh đại diện cho ảnh, đưa vào bộ phân loại ảnh. ViT cho kết quả tương đương hoặc tốt hơn ResNet trong phân loại ảnh khi dữ liệu huấn luyện lớn.

1.1. Sự trỗi dậy của Vision Transformer trong Computer Vision

Vision Transformer (ViT) đánh dấu một bước tiến lớn trong việc áp dụng kiến trúc Transformer từ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) sang lĩnh vực thị giác máy tính (Computer Vision). ViT đã chứng minh khả năng cạnh tranh, thậm chí vượt trội so với các mô hình CNN truyền thống như ResNet, đặc biệt khi được huấn luyện trên các bộ dữ liệu lớn. Sự thành công của ViT mở ra một hướng đi mới cho các nghiên cứu và ứng dụng liên quan đến thị giác máy tính. Tham khảo thêm thông tin chi tiết tại [1].

1.2. Ứng dụng Self Attention trong Nhận Diện Khuôn Mặt

Cơ chế Self-Attention, trái tim của kiến trúc Transformer, cho phép mô hình tập trung vào các phần quan trọng nhất của hình ảnh khuôn mặt. Thay vì xử lý toàn bộ ảnh một cách đồng đều, Self-Attention giúp mô hình xác định và nhấn mạnh các đặc trưng quan trọng như mắt, mũi, miệng, từ đó cải thiện đáng kể độ chính xác của quá trình nhận diện. Cơ chế này cũng giúp mô hình xử lý tốt hơn các biến thể về ánh sáng, tư thế và biểu cảm khuôn mặt. Điều này góp phần tạo nên một hệ thống robust face recognition.

II. Thách Thức Nhận Diện Khuôn Mặt Dữ Liệu Huấn Luyện Hạn Chế

Khi dữ liệu huấn luyện đầy đủ, các mô hình nhận dạng khuôn mặt dựa trên ViT face recognition hoặc ResNet đều hoạt động tốt. Tuy nhiên, trong thực tế, việc có đủ dữ liệu huấn luyện là khó khăn. Ví dụ, truy tìm tội phạm qua camera công cộng hoặc nhận dạng khách hàng VIP chỉ có vài ảnh cho mỗi cá nhân. Điều này làm giảm độ chính xác của mô hình. Đề tài này thực hiện nhận dạng khuôn mặt bằng ViT trong điều kiện thiếu dữ liệu, so sánh độ chính xác với mạng CNN. Đồng thời, đề xuất cải tiến độ chính xác bằng cách áp dụng kỹ thuật Baby Learning algorithms trong quá trình tinh chỉnh. Đề tài sẽ xây dựng lại mô hình nhận diện khuôn mặt với dataset trung bình MSIM-RetinaFace, sử dụng ViT và ResNet, và hàm mất mát CosFace.

2.1. Bài toán Few Shot Learning trong Nhận Diện Khuôn Mặt

Bài toán few-shot learning trở nên đặc biệt quan trọng trong bối cảnh nhận diện khuôn mặt, khi số lượng ảnh cho mỗi cá nhân là rất hạn chế. Các mô hình truyền thống thường gặp khó khăn trong việc khái quát hóa (generalize) với ít dữ liệu huấn luyện, dẫn đến độ chính xác thấp. Do đó, cần có các phương pháp tiếp cận mới, giúp mô hình học được các đặc trưng quan trọng từ một số ít mẫu dữ liệu, đồng thời giảm thiểu overfitting (quá khớp). Few-shot learning face recognition là một hướng nghiên cứu đầy tiềm năng.

2.2. Ảnh hưởng của Kích Thước Dataset đến Hiệu Suất Mô Hình

Kích thước của dataset huấn luyện có ảnh hưởng trực tiếp đến face recognition performance. Dataset lớn cho phép mô hình học được các đặc trưng đa dạng và phức tạp, giảm thiểu bias và cải thiện khả năng khái quát hóa. Ngược lại, dataset nhỏ có thể dẫn đến overfitting và hiệu suất kém trên dữ liệu mới. Việc lựa chọn và xử lý dataset một cách cẩn thận là một yếu tố then chốt để xây dựng một hệ thống nhận diện khuôn mặt hiệu quả.

2.3. Sự cần thiết của dataset người Việt Nam

Việc sử dụng bộ dữ liệu khuôn mặt người Việt Nam là cần thiết để đánh giá chính xác hiệu suất của mô hình trong điều kiện thiếu dữ liệu. Các bộ dataset training thường không có khuôn mặt người Việt Nam, hoặc chỉ có một số ít khuôn mặt người Trung Quốc. Do đó, sau khi huấn luyện mô hình có thể chưa học được đầy đủ thông tin và đặc điểm khuôn mặt của người Việt Nam.

III. Giải Pháp Baby Learning Tối Ưu Nhận Diện Khuôn Mặt ViT

Đề tài sẽ kiểm tra độ chính xác của mô hình với các dataset công khai như LFW và các biến thể của nó. Đồng thời, xây dựng bộ dataset gồm 3.000 người Việt Nam (3 ảnh/người) để đánh giá mô hình trên môi trường thiếu dữ liệu. Quá trình tinh chỉnh sẽ được thực hiện với lượng dữ liệu ít chỉ gồm 1 ảnh/người hoặc 2 ảnh/người. Áp dụng kỹ thuật Baby Learning để gia tăng độ chính xác của mô hình, so sánh với trường hợp không sử dụng Baby Learning để đánh giá hiệu quả sau khi áp dụng. So sánh độ chính xác của mô hình khi áp dụng hai backbone network là Vision Transformer và mạng CNN.

3.1. Nguyên lý hoạt động của Baby Learning trong AI

Kỹ thuật Baby Learning, lấy cảm hứng từ cách trẻ em học hỏi, là một phương pháp huấn luyện mô hình máy học bắt đầu với dữ liệu đơn giản và dễ hiểu, sau đó dần dần tăng độ phức tạp của dữ liệu. Trong bài toán nhận diện khuôn mặt, có thể bắt đầu với ảnh khuôn mặt chính diện, ánh sáng tốt, rồi tăng dần độ khó bằng cách thêm ảnh có góc nghiêng, ánh sáng yếu hoặc bị che khuất. Cách tiếp cận này giúp mô hình học được các đặc trưng quan trọng một cách vững chắc, tránh bị quá tải bởi dữ liệu phức tạp ngay từ đầu. Đây là một dạng của Self-supervised learning for face recognition.

3.2. Tinh chỉnh Mô Hình ViT bằng Baby Learning

Quá trình tinh chỉnh mô hình ViT bằng Baby Learning bao gồm việc lựa chọn cẩn thận các mẫu dữ liệu ở mỗi giai đoạn huấn luyện. Bắt đầu với các mẫu dễ, đảm bảo mô hình có thể học được các đặc trưng cơ bản một cách chính xác. Sau đó, dần dần thêm các mẫu khó hơn để mô hình có thể xử lý các biến thể và nhiễu trong dữ liệu. Quá trình này có thể lặp lại nhiều lần cho đến khi mô hình đạt được độ chính xác mong muốn. Việc lựa chọn các mẫu dữ liệu phù hợp ở mỗi giai đoạn là rất quan trọng để đảm bảo hiệu quả của phương pháp Baby Learning.

IV. Kết Quả Nghiên Cứu Đánh Giá Hiệu Quả Baby Learning ViT

Đóng góp của đề tài là bộ dataset khuôn mặt của người Việt Nam để kiểm định độ chính xác của mô hình nhận dạng khuôn mặt trong điều kiện thiếu dữ liệu. Tổng bộ dữ liệu có 3000 ảnh. Đề tài so sánh ViT face recognition và ResNet khi được huấn luyện với bộ dữ liệu có kích thước trung bình và trong điều kiện tinh chỉnh dữ liệu không đầy đủ với bộ dataset khuôn mặt người Việt Nam. Cuối cùng, đề tài kiểm tra hiệu quả của kỹ thuật Baby Learning giúp gia tăng độ chính xác của mô hình trong điều kiện thiếu dữ liệu. Luận văn có một công bố khoa học đã được chấp nhận ở hội nghị quốc tế MAPR 2022.

4.1. Độ Chính Xác So Khớp Khuôn Mặt trên Dataset Công Khai

Đánh giá mô hình trên các dataset công khai như Labeled Faces in the Wild (LFW), Cross-Age LFW (CALFW) và Cross-Pose LFW (CPLFW) là một bước quan trọng để so sánh hiệu suất của mô hình với các nghiên cứu trước đây. Các dataset này cung cấp các thử thách khác nhau về độ tuổi, tư thế và biểu cảm khuôn mặt, giúp đánh giá khả năng khái quát hóa của mô hình. Kết quả trên các dataset này sẽ cho thấy liệu mô hình có thể hoạt động tốt trong các điều kiện khác nhau hay không.

4.2. Hiệu Quả Baby Learning trên Dataset Khuôn Mặt Việt Nam

Việc đánh giá hiệu quả của kỹ thuật Baby Learning trên dataset khuôn mặt Việt Nam là rất quan trọng, vì nó cho thấy liệu phương pháp này có thể cải thiện độ chính xác của mô hình trong điều kiện dữ liệu hạn chế hay không. So sánh kết quả khi sử dụng và không sử dụng Baby Learning sẽ cho thấy mức độ cải thiện mà phương pháp này mang lại. Điều này có ý nghĩa lớn trong các ứng dụng thực tế, nơi dữ liệu khuôn mặt người Việt Nam có thể khó thu thập.

4.3. Phân tích nguyên nhân dự đoán sai của ViT

Phân tích các trường hợp ViT dự đoán sai giúp hiểu rõ hơn về điểm yếu của mô hình và tìm ra các phương pháp cải thiện. Các yếu tố như tư thế khuôn mặt, biểu cảm khuôn mặt, ánh sáng và độ phân giải ảnh có thể ảnh hưởng đến độ chính xác của mô hình. Việc xác định các nguyên nhân chính gây ra lỗi dự đoán sẽ giúp tập trung vào việc khắc phục chúng trong các nghiên cứu tiếp theo.

V. Ứng Dụng Nhận Diện Khuôn Mặt ViT Bảo Mật và Y Tế

Công nghệ nhận diện khuôn mặt dựa trên Vision Transformer (ViT) và Baby Learning mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực khác nhau. Trong lĩnh vực bảo mật, nó có thể được sử dụng để kiểm soát truy cập, xác thực danh tính và giám sát an ninh. Trong lĩnh vực y tế, nó có thể được sử dụng để nhận diện bệnh nhân, theo dõi sức khỏe và hỗ trợ chẩn đoán. Ngoài ra, còn có các ứng dụng trong lĩnh vực marketing, robotics và surveillance. Các Ethical considerations in face recognition và Bias in face recognition cần được xem xét cẩn thận.

5.1. Nhận Diện Khuôn Mặt trong Kiểm Soát Truy Cập và An Ninh

Ứng dụng nhận diện khuôn mặt trong kiểm soát truy cập và an ninh giúp tăng cường bảo mật và hiệu quả. Thay vì sử dụng các phương pháp truyền thống như thẻ từ hoặc mật khẩu, hệ thống có thể tự động nhận diện người dùng và cấp quyền truy cập tương ứng. Điều này giúp ngăn chặn truy cập trái phép và giảm thiểu rủi ro an ninh. Đồng thời, nó cũng giúp đơn giản hóa quy trình quản lý và theo dõi truy cập.

5.2. Hỗ Trợ Chẩn Đoán và Theo Dõi Sức Khỏe trong Y Tế

Trong lĩnh vực y tế, nhận diện khuôn mặt có thể được sử dụng để nhận diện bệnh nhân, giúp giảm thiểu sai sót và cải thiện hiệu quả điều trị. Nó cũng có thể được sử dụng để theo dõi biểu cảm khuôn mặt và các dấu hiệu sinh tồn, giúp phát hiện sớm các vấn đề sức khỏe và đưa ra các biện pháp can thiệp kịp thời. Ngoài ra, nó còn có thể hỗ trợ các bác sĩ trong quá trình chẩn đoán, đặc biệt là trong các trường hợp liên quan đến các bệnh lý về thần kinh hoặc tâm lý.

VI. Tương Lai Nhận Diện Khuôn Mặt ViT Nghiên Cứu và Phát Triển

Nhận diện khuôn mặt sử dụng Vision Transformer và Baby Learning là một lĩnh vực đầy tiềm năng, với nhiều hướng nghiên cứu và phát triển trong tương lai. Các nghiên cứu có thể tập trung vào việc cải thiện độ chính xác và khả năng khái quát hóa của mô hình, đặc biệt trong điều kiện dữ liệu hạn chế hoặc môi trường phức tạp. Ngoài ra, cần chú trọng đến các vấn đề về đạo đức và bảo mật, đảm bảo rằng công nghệ được sử dụng một cách có trách nhiệm và minh bạch. Việc nghiên cứu và phát triển các phương pháp Explainable AI face recognition cũng rất quan trọng.

6.1. Tối Ưu Hóa Kiến Trúc ViT cho Nhận Diện Khuôn Mặt

Nghiên cứu tối ưu hóa kiến trúc ViT cho bài toán nhận diện khuôn mặt là một hướng đi đầy hứa hẹn. Các cải tiến có thể tập trung vào việc điều chỉnh các tham số của mô hình, thêm các lớp hoặc module đặc biệt, hoặc kết hợp ViT với các kiến trúc khác. Mục tiêu là tạo ra một mô hình có hiệu suất cao hơn, đồng thời giảm thiểu chi phí tính toán và năng lượng.

6.2. Giải Quyết Các Vấn Đề Về Bias và Đạo Đức trong Nhận Diện

Các vấn đề về bias và đạo đức trong nhận diện khuôn mặt cần được giải quyết một cách nghiêm túc. Các mô hình có thể bị bias đối với các nhóm người nhất định, dẫn đến sự phân biệt đối xử và bất công. Cần có các phương pháp để đánh giá và giảm thiểu bias trong dữ liệu và mô hình, đồng thời xây dựng các quy tắc và tiêu chuẩn đạo đức để đảm bảo rằng công nghệ được sử dụng một cách công bằng và có trách nhiệm.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nhận diện khuôn mặt sử dụng vision transformer và baby learning

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng khuôn mặt là một lĩnh vực trọng điểm trong thị giác máy tính với ứng dụng rộng rãi trong an ninh, thương mại và công nghệ thông tin. Theo báo cáo ngành, các mô hình học sâu hiện nay đạt hiệu suất cao khi được huấn luyện trên bộ dữ liệu lớn, ví dụ như MSIM-RetinaFace với 5,1 triệu ảnh của 93.000 người. Tuy nhiên, trong thực tế, nhiều ứng dụng gặp phải thách thức khi dữ liệu huấn luyện bị thiếu hụt, đặc biệt là với các cá nhân có ít ảnh đại diện, như trong truy tìm tội phạm hoặc nhận diện khách hàng VIP.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá mô hình nhận dạng khuôn mặt sử dụng Vision Transformer (ViT) kết hợp kỹ thuật Baby Learning nhằm cải thiện độ chính xác trong điều kiện thiếu dữ liệu huấn luyện. Phạm vi nghiên cứu tập trung vào bộ dữ liệu khuôn mặt người Việt Nam với khoảng 3.000 cá nhân, mỗi người có 3 ảnh, thu thập trong năm 2022 tại Việt Nam. Nghiên cứu cũng so sánh hiệu quả của ViT với mạng CNN truyền thống (ResNet101) trên các bộ dữ liệu công khai và bộ dữ liệu riêng.

Ý nghĩa nghiên cứu được thể hiện qua việc cung cấp giải pháp nâng cao độ chính xác nhận dạng khuôn mặt trong điều kiện dữ liệu hạn chế, góp phần thúc đẩy ứng dụng thực tế trong các hệ thống an ninh và dịch vụ cá nhân hóa tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba thành phần lý thuyết chính:

Vision Transformer (ViT): Mô hình ViT xử lý ảnh bằng cách chia ảnh thành các patch nhỏ, biến đổi thành vector embedding, và sử dụng cơ chế Multi-head Self-Attention để xây dựng mối quan hệ giữa các patch. ViT được chứng minh cho hiệu quả cao trong phân loại ảnh khi có bộ dữ liệu lớn.
CosFace - Large Margin Cosine Loss: Hàm mất mát CosFace được sử dụng để tăng khả năng phân biệt các vector đặc trưng khuôn mặt bằng cách chuyển không gian Euclide sang không gian góc, giúp tăng biên phân cách giữa các lớp, nâng cao độ chính xác nhận dạng.
Baby Learning: Phương pháp huấn luyện tăng dần số lượng mẫu dữ liệu trong từng lớp, giúp cải thiện hiệu suất mô hình trong điều kiện dữ liệu huấn luyện hạn chế. Baby Learning cũng mở rộng số lượng layer được tinh chỉnh dần dần để tránh overfitting.

Các khái niệm chính bao gồm: bóc tách ảnh khuôn mặt (RetinaFace), so khớp khuôn mặt (L2 distance), nhận diện khuôn mặt (SVM, CosFace), và kỹ thuật tinh chỉnh mô hình (Baby Learning).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm:

Bộ dữ liệu huấn luyện MSIM-RetinaFace (5,1 triệu ảnh, 93.000 người).
Bộ dữ liệu kiểm thử công khai: LFW và các biến thể (CALFW, CPLFW, CFPW, AgeDB-30).
Bộ dữ liệu riêng của người Việt Nam: VFD (3.000 người, 3 ảnh/người), được chia thành VER4K (so khớp khuôn mặt), REGIK và REG2K (nhận diện khuôn mặt).

Phương pháp phân tích:

Huấn luyện mô hình ViT và ResNet101 từ đầu trên MSIM-RetinaFace.
Tinh chỉnh mô hình trên bộ dữ liệu người Việt Nam với số lượng ảnh hạn chế (1-2 ảnh/người).
Áp dụng kỹ thuật Baby Learning trong quá trình tinh chỉnh để tăng dần số lượng ảnh và số layer được huấn luyện lại.
Đánh giá độ chính xác qua các bài toán so khớp và nhận diện khuôn mặt sử dụng các phương pháp L2 distance, SVM và CosFace.
Thời gian nghiên cứu kéo dài từ đầu năm 2022 đến cuối năm 2022, thực hiện trên môi trường Google Colab Pro+ với GPU P100.

Cỡ mẫu nghiên cứu gồm 3.000 người Việt Nam với tổng số ảnh khoảng 9.000 ảnh, đảm bảo tính đại diện cho đặc điểm khuôn mặt người Việt trong điều kiện thiếu dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất so khớp khuôn mặt trên bộ dữ liệu công khai:
Mô hình ResNet101 đạt độ chính xác cao hơn ViT trên các bộ dữ liệu LFW và biến thể, với độ chính xác trên 99% so với khoảng 98,5% của ViT. Điều này phù hợp với các nghiên cứu trước đây khi huấn luyện trên bộ dữ liệu kích thước trung bình.
Hiệu quả trên bộ dữ liệu Việt Nam VER4K:
Khi kiểm thử trên VER4K, độ chính xác của cả hai mô hình giảm đáng kể do sự khác biệt phân phối dữ liệu huấn luyện và kiểm thử. Tuy nhiên, ViT cho kết quả tốt hơn ResNet101 (89,63% so với 89,30%), cho thấy ViT có khả năng thích ứng tốt hơn trong điều kiện thiếu dữ liệu đặc trưng.
Nhận diện khuôn mặt trên bộ dữ liệu REGIK và REG2K:
Khi không tinh chỉnh, độ chính xác nhận diện khuôn mặt chỉ đạt khoảng 56-58%. Sau khi tinh chỉnh với 1-2 ảnh/người và áp dụng Baby Learning, độ chính xác tăng lên đáng kể, với ViT đạt gần 76% và ResNet101 tăng gần 26% so với không tinh chỉnh.
Ảnh hưởng của kỹ thuật Baby Learning:
Baby Learning giúp tăng độ chính xác mô hình lên khoảng 6% đối với ViT và 7% đối với ResNet101 so với tinh chỉnh thông thường. Số lượng layer được mở băng dần dần trong quá trình tinh chỉnh giúp tránh overfitting và tối ưu hóa hiệu suất.

Thảo luận kết quả

Nguyên nhân chính khiến ViT vượt trội hơn ResNet trong điều kiện thiếu dữ liệu là do ViT có tính tổng quát hóa cao hơn và ít phụ thuộc vào inductive bias của ảnh so với CNN. ResNet, với inductive bias cao, yêu cầu dữ liệu huấn luyện đầy đủ hơn để đạt hiệu quả tối ưu.

Kết quả cũng cho thấy việc áp dụng Baby Learning là cần thiết để cải thiện hiệu quả mô hình trong thực tế, đặc biệt khi dữ liệu huấn luyện hạn chế. So sánh với các nghiên cứu quốc tế, độ chính xác của mô hình trong luận văn thấp hơn một chút do giới hạn về phần cứng và batch size nhỏ (64 so với 512-1024), ảnh hưởng đến tốc độ hội tụ và hiệu quả huấn luyện.

Dữ liệu thu thập từ người Việt Nam với đa dạng tư thế và biểu cảm khuôn mặt làm tăng độ khó cho mô hình, nhưng cũng giúp đánh giá thực tế hơn về khả năng ứng dụng của mô hình trong môi trường thực tế.

Biểu đồ so sánh độ chính xác giữa ViT và ResNet trên các bộ dữ liệu, cũng như biểu đồ thể hiện sự cải thiện độ chính xác theo số lượng layer được tinh chỉnh trong Baby Learning, sẽ minh họa rõ nét các phát hiện này.

Đề xuất và khuyến nghị

Áp dụng kỹ thuật Baby Learning trong tinh chỉnh mô hình:
Tăng dần số lượng ảnh huấn luyện và số layer được mở băng để tinh chỉnh, nhằm tối ưu hóa độ chính xác trong điều kiện dữ liệu hạn chế. Thời gian thực hiện: 3-6 tháng. Chủ thể: các nhóm nghiên cứu và doanh nghiệp phát triển AI.
Phát triển bộ dữ liệu khuôn mặt đa dạng đặc trưng vùng miền:
Thu thập thêm dữ liệu khuôn mặt người Việt Nam với đa dạng độ tuổi, giới tính, tư thế và biểu cảm để nâng cao khả năng tổng quát của mô hình. Thời gian: 6-12 tháng. Chủ thể: các tổ chức nghiên cứu và cơ quan an ninh.
Tăng cường hạ tầng tính toán để mở rộng batch size huấn luyện:
Đầu tư phần cứng GPU mạnh hơn để tăng batch size, giúp mô hình hội tụ nhanh và đạt hiệu quả cao hơn. Thời gian: 6 tháng. Chủ thể: các trung tâm nghiên cứu và doanh nghiệp AI.
Kết hợp ViT với các kỹ thuật học sâu khác:
Nghiên cứu tích hợp ViT với mạng CNN hoặc các mô hình attention khác để tận dụng ưu điểm của từng kiến trúc, nâng cao độ chính xác và tốc độ xử lý. Thời gian: 12 tháng. Chủ thể: các nhóm nghiên cứu AI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo:
Cung cấp kiến thức chuyên sâu về ứng dụng Vision Transformer và kỹ thuật Baby Learning trong nhận dạng khuôn mặt, hỗ trợ phát triển đề tài nghiên cứu mới.
Doanh nghiệp phát triển công nghệ nhận dạng khuôn mặt:
Áp dụng các giải pháp nâng cao độ chính xác trong điều kiện dữ liệu hạn chế, đặc biệt trong các ứng dụng an ninh, bán lẻ và dịch vụ khách hàng.
Cơ quan an ninh và quản lý:
Sử dụng kết quả nghiên cứu để cải thiện hệ thống nhận dạng khuôn mặt trong truy tìm tội phạm, kiểm soát ra vào và giám sát an ninh công cộng.
Nhà phát triển phần mềm và kỹ sư AI:
Tham khảo mô hình, thuật toán và phương pháp huấn luyện để xây dựng các hệ thống nhận dạng khuôn mặt hiệu quả, phù hợp với điều kiện dữ liệu thực tế.

Câu hỏi thường gặp

Vision Transformer khác gì so với mạng CNN trong nhận dạng khuôn mặt?
ViT xử lý ảnh bằng cách chia thành các patch và sử dụng cơ chế attention để học mối quan hệ giữa các patch, trong khi CNN sử dụng các lớp tích chập để trích xuất đặc trưng cục bộ. ViT có khả năng tổng quát hóa tốt hơn khi dữ liệu đa dạng, nhưng CNN có inductive bias giúp học nhanh hơn với dữ liệu hạn chế.
Baby Learning giúp cải thiện mô hình như thế nào?
Baby Learning tăng dần số lượng ảnh huấn luyện và số layer được tinh chỉnh, giúp mô hình học hiệu quả hơn trong điều kiện dữ liệu ít, tránh overfitting và nâng cao độ chính xác.
Tại sao cần bộ dữ liệu khuôn mặt người Việt Nam riêng biệt?
Bộ dữ liệu huấn luyện lớn hiện nay chủ yếu chứa khuôn mặt người nước ngoài, thiếu đặc trưng vùng miền. Dữ liệu người Việt Nam giúp mô hình học được đặc điểm riêng, nâng cao độ chính xác khi áp dụng thực tế tại Việt Nam.
CosFace có ưu điểm gì so với các hàm mất mát khác?
CosFace chuyển không gian Euclide sang không gian góc, tăng biên phân cách giữa các lớp, giúp phân biệt đặc trưng khuôn mặt tốt hơn so với softmax truyền thống, đồng thời phù hợp với cả ViT và CNN.
Làm thế nào để đánh giá độ chính xác của mô hình nhận dạng khuôn mặt?
Độ chính xác được đánh giá qua các bài toán so khớp (face verification) và nhận diện (face identification) sử dụng các bộ dữ liệu chuẩn, đo lường tỷ lệ dự đoán đúng trên tổng số mẫu kiểm thử, kết hợp các phương pháp như L2 distance, SVM và CosFace.

Kết luận

Luận văn đã xây dựng và đánh giá thành công mô hình nhận dạng khuôn mặt sử dụng Vision Transformer kết hợp kỹ thuật Baby Learning, phù hợp với điều kiện dữ liệu thiếu hụt.
So sánh với mạng CNN ResNet101, ViT thể hiện ưu thế trong môi trường dữ liệu hạn chế, đặc biệt trên bộ dữ liệu người Việt Nam.
Kỹ thuật Baby Learning giúp tăng độ chính xác mô hình lên đến 6-7%, giảm thiểu hiện tượng overfitting khi tinh chỉnh với dữ liệu ít.
Bộ dữ liệu khuôn mặt người Việt Nam do tác giả thu thập đóng góp quan trọng cho nghiên cứu và ứng dụng thực tế tại Việt Nam.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cấp hạ tầng tính toán và nghiên cứu tích hợp mô hình để nâng cao hiệu quả nhận dạng khuôn mặt.

Kêu gọi hành động: Các nhà nghiên cứu và doanh nghiệp trong lĩnh vực AI nên áp dụng và phát triển thêm các kỹ thuật như Baby Learning kết hợp ViT để nâng cao hiệu quả nhận dạng khuôn mặt trong thực tế, đặc biệt tại các thị trường có dữ liệu hạn chế như Việt Nam.

Trích đoạn nội dung tài liệu

Mở đầu Thứ hai, đề tài thực hiện so sánh hai backbone network là ViT và ResNet trong khi được huấn luyện với bộ dữ liệu có kích thước trung bình và trong điều kiện tỉnh chỉnh dữ liệu không đầy đủ với bộ dataset của khuôn mặt người Việt Nam. Cuối cùng là dé tài sẽ kiểm tra hiệu quả của kỹ thuật Baby Learning giúp gia tăng độ chính xác của mô hình trong điều kiện thiếu dữ liệu huấn luyện. Ngoài ra luận văn cũng có một công, bố khoa học đã được chấp nhận ở hội nghị quốc tế MAPR 2022 như sau: Chi-Phuc Tran, Anh-Khoa Nguyen Vu, and Vinh-Tiep Nguyen (2022), "Baby Learning with Vision Transformer for Face Recognition", Proceedings of the 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp. Tổng quan về đề tài nghiên cứu Chương 2.

TONG QUAN VE DE TÀI NGHIÊN CỨU 2. Giới thiệu về nhận dạng khuôn mặt Bài toán nhận dạng khuôn mặt là quá trình tìm kiếm dé phát hiện khuôn mặt người trong một bức ảnh, thực hiện tách ảnh khuôn mặt ra khỏi ảnh gốc và thực hiện một trong hai tác vụ sau [4]: So khớp khuôn mặt (face verification): Kiêm tra hai ảnh khuôn mặt của cùng một người hay hai người khác nhau. v Nhân diện khuôn mặt (face identification): Kiểm tra ảnh khuôn mặt là ai trong bộ dữ liệu có sẵn. Bóc tách ảnh khuôn mặt Bóc tách khuôn mặt là giai đoạn tiền xử lý cần thiết cho các ứng dụng nhận dạng khuôn mặt, phân tích khuôn mặt.

Các yếu tố ảnh hưởng nhiều đến phát hiện khuôn mặt gồm có mặt có bị che khuất hay không, tư thế của khuôn mặt và mức độ sáng của bức ảnh. Theo [5], các mô hình CNN phát hiện khuôn mặt có thê được phân loại dựa trên một số tiêu chí như ở dang kim tự tháp anh (image pyramid) hoặc kim tự tháp đặc điểm (feature pyramid), một giai đoạn (one-state) hay hai giai đoạn (two-state), mô hình hóa ngữ cảnh và mô hình đa tác vụ. Hiện nay, hai mô hình cho kết quả phát hiện khuôn mặt tốt nhất ở thời điểm hiện tại là Multi-task Cascaded Convolutional Networks (MTCNN) [6] và RetinaFace [5]. Trong đó, RetinaFace là đại diện cho trường phái kim tự tháp đặc điểm, một giai đoạn kết hợp với module ngữ cảnh.

RetinaFace cho kết quả tốt kể cả khi kích thước khuôn mặt nhỏ. Quá trình tách khuôn mặt ra khỏi ảnh gốc thường được thực hiện cùng với tác vụ căn chỉnh ảnh khuôn mặt và sau đó thay đổi kích thước ảnh khuôn mặt về kích thước mong muốn để làm đầu vào cho các mạng học sâu phía sau. Phát hiện Boc Can chỉnh | >| | ảnh khuôn >| ảnh khu¿ >| và thay đổi mật mật kích thước | Module bóc tách ảnh khuôn mật Hình 2.1: Quá trình bóc tách ảnh khuôn mặt ra khỏi ảnh gốc 1 Chương 2. Tổng quan về đề tài nghiên cứu 2.

So khóp gương mặt So khớp khuôn mặt là kiểm tra một cặp ảnh và ra kết luận là cặp ảnh đó của cùng một người hay của hai người khác nhau. Đầu tiên, cặp ảnh mặt người sẽ được bóc tách ra từ ảnh gốc như ở phần trên. Cặp ảnh khuôn mặt được đưa vào module trích xuất vector đặc trưng, thường là mô hình học sâu đã được huấn luyện trước đó để tạo ra cặp vector đặc trưng. Cặp vector đặc trưng được đưa vào module kiểm tra độ phù hợp.

Module này kiểm tra khoảng cách Euclide d của cặp vector đặc trưng (L2 distance). Nếu giá trị d này cao hơn một ngưỡng giá trị được định nghĩa trước D (giá trị này tìm được trong quá trình huấn luyện) thì cặp ảnh gốc thuộc hai người khác nhau. Ngược lại, cặp ảnh gốc là của cùng một cá nhân. Module so khớp cập ảnh khuôn mat die! /ẾMĐGRVKO |Cặp ảnhkhuôncầnmatso khớp | > Module bóc tách Module tích xuất Ti một người ‘Module đánh giá "Senior | —”|Veeor6œctơng | — >|69Phôhepoia2K L2 hàng) 'Kiểm tra khoảng cách2 vector ` 2 = sid8 Vector | Vector d, so sánh với gia trị được định.

nghĩa trước D, D tim được. Ỷ trong qua trình huấn luyén Kết quả so khớp. Ảnh người. Ảnh khuôn mật Vector đặc trưng.

khuôn mặt Hình 2.2: Quá trình so khớp cặp ảnh khuôn mặt 2. Nhận diện khuôn mặt Nhận diện khuôn mặt là kiểm tra ảnh của một người có nằm trong bộ dữ liệu ảnh đã đã được lưu trữ trước đó hay không. Đầu tiên, bộ các ảnh đã biết (facebank) được trích xuất đặc trưng thành bộ vector đặc trưng với thông tin định danh cá nhân và lưu trữ vào hệ thống, ký hiệu bộ vector đặc trưng là {x;, y;} Đầu vào của quá trình nhận diện khuôn mặt là đưa vào ảnh của một người. Ảnh này được bóc tách ảnh khuôn mặt ra và ảnh khuôn mặt được chuyển thành vector đặc trưng query x„.

Vector x„ 4 này sẽ được so sánh khoảng cách với từng vector đặc trưng trong bộ {x;,y;} để tìm ra khoảng cách nhỏ nhất đụ đến x, Nếu d, bé hơn giá trị D được định nghĩa trước đó (D tìm thấy trong quá trình huấn luyện) thì ảnh gốc đó chính là ảnh của người y, có thông tin được lưu trữ ở hệ thống. Nếu không thì ảnh gốc không phải ảnh của 12 Chương 2. Tổng quan về đề tài nghiên cứu các cá nhân được lưu trữ trong hệ thống. Ngoài cách tính khoảng cách thông qua L2 distance như trên, vector ảnh có thé được phân loại thông qua SVM hoặc CosFace đề tìm ra lớp (tương ứng với id của cá nhân) cần tìm.

“Các ảnh cần lưu tor “Các vector đặc trưng của (Facebank) Taesbank (xi yi) h 1 „| Module bóc tách ‘Module trích xuất kemsiil lussdul [eer cảnh Khuôn mat >| vector đặc trưng. ree Kétiugn Ảnh query ‘Anh tim idm tương ứng với cá TL. wae Module tích suất Module so sảnh xạ [nhân có nhân yk rong facebank | | [cto query xa | | đặc tưng 6x, yi} | Hoge ảnh tim kiêm không có Vengtacebank Hình 2.Phương pháp nhận diện khuôn mặt 2. Ba thuộc tính của mô hình nhận dạng khuôn mặt Một mô hình nhận dạng khuôn mặt dựa trên mạng học sâu thường được phân biệt với nhau bởi ba thuộc tính gồm có bộ dữ liệu (dataset) dùng cho huấn luyện (training) va tinh chỉnh (finetuning), kiến trúc mang học sâu cùng với cấu hình (backbone network) và hàm mắt mát (loss function) sử dụng [7].

huấn ayer tinh |———\ Thuộc tính 1: Dataset er Hàn mắt nát Pe fgiễ lộc tính 3: : Nhãn. ij] Bài toán so Khớp khuôn mat | Thuộc tính 2: —— Ảnh kiểm thử |—————>| |———>*‡ = Bài toán nhận diện - khuôn mặt Hình 2.Mô hình nhận dạng khuôn mặt Thuộc tính đầu tiên là dữ liệu huấn luyện, tinh chỉnh. Dữ liệu huấn luyện này giúp cho mô hình học được và phân biệt được các đặc điểm bậc cao tạo ra từ mạng học sâu. Dữ liệu huấn luyện cần phải phù hợp với dữ liệu kiểm thử và dữ liệu áp dụng trên thực tế.

Ví dụ mô hình sẽ áp dụng để nhận dạng khuôn mặt người Việt Nam thì trong dữ liệu huấn luyện phải có ảnh của người Việt Nam. Lượng dữ liệu huấn luyện càng lớn thì hiệu suất càng cao và thậm chí tăng theo hàm mũ logarit [§]. Tổng quan về đề tài nghiên cứu Hiện nay các bộ dataset lớn thì chỉ được sử dụng cho nội bộ ở các công ty lớn như JFT-300M (300 triệu ảnh) [8] của Google. Các bộ dataset được công bố công khai thường có kích thước nhỏ (vài nghìn đến vài trăm nghìn ảnh) hoặc trung bình (vải triệu ảnh).

Các bộ dataset công khai điển hình như LFW [9], VGG-Face [10], VGG2-Face [11], CAISA-WebFace [12], UMD-Face [13], MegaFace [14], MS- Celeb-IM [15]. Đề tài nay sử dung phiên bản được làm sạch của MS-Celeb-IM là MSIM-RetinaFace với 5.1 triệu ảnh của 93K người dé huấn luyện mô hình từ đầu và kiểm thử bằng LFW và các biến thể. Ngoài ra, đề tài cũng sử dụng bộ dữ liệu 3.000 người Việt Nam mà tác giả tự thu thập để dùng cho quá trình tỉnh chỉnh (finetune). Thuộc tính thứ hai là kiến trúc mạng và cấu hình.

Hiện nay các kiến trúc mạng tích chập (CNN) vẫn đang thống trị trong các ứng dụng thị giác máy tính. Mạng học sâu sẽ học các đặc điểm ảnh khuôn mặt người và biến thành các vector đặc điểm phục vụ cho ứng dụng nhận diện khuôn mặt. Cụ thể các vector ảnh của cùng một người sẽ có khoảng cách nhỏ. Vector ảnh của các cá nhân khác nhau sẽ có khoảng cách tương đối xa.

Đề tài này sẽ sử dụng đại diện của CNN là ResNet và Vision Transformer làm kiến trúc mạng trong mô hình nhận dạng khuôn mặt để so sánh kết quả của 2 mô hình CNN và ViT. “Thuộc tính thứ ba là thiết kế hàm mắt mát. Hàm mắt mát trước đây thường dựa trên khoảng cách Euclide. Các hàm mắt mát sau này được thiết kế dựa trên cosin và góc cho kết quả vượt trội hơn hẳn.

Các hàm mat mát điển hình gồm có SphereFace [16], CosFace [3], ArcFace [7]. Đề tài này sử dụng CosFace làm hàm mắt mát vì CosFace hoạt động tốt với cả hai kiến trúc mạng là ViT và ResNet. Các công trình nghiên cứu có liên quan 2. L2 distance 1⁄2 distance đo khoảng cách Euclide giữa 2 vector.

Khoảng cách L2 distance có thé được tính trực tiếp hoặc gián tiếp thông qua thuật toán KNN với K=1 và độ do khoảng cách là Euclide. Trong bài toán so khớp khuôn mặt, nếu khoảng cách giữa hai vector khuôn mặt bé hơn một khoảng cách được định nghĩa trước (khoảng cách này tìm được trong quá trình huấn luyện) thì hai vector này của cùng một người. Nếu khoảng cách giữa hai vector lớn hơn ngưỡng thì hai vector này là ảnh khuôn mặ của hai cá nhân khác nhau. Trong bài toán nhận diện khuôn mặt, mỗi vector query được đo khoảng cách đến các vector khuôn mặt trong facebank.

Khoảng cách ngắn nhất đến một vector nào 14 Chương 2. Tổng quan về đề tài nghiên cứu đó trong facebank sẽ được kiểm tra nếu dưới ngưỡng thì sẽ tương ứng với cá nhân có anh trong facebank. Còn nếu khoảng cách ngắn nhất lớn hơn ngưỡng thì ảnh này không thuộc của các cá nhân có ảnh trong facebank. Khoảng cách L2 distance giữa hai vector x và y được tính như sau: đ(x,y)=((Ö (xi=y;Ÿ) (2.x,) là toa độ của vector x va (y,,y;,.,y„) là tọa độ vector y.

Support Vector Machine Support Vector Machine (SVM) được dùng chủ yếu trong bài toán phân loại. Gia sửa bai toán phân loại được thực hiện trong không gian n chiều. Trong quá trình huấn luyện, K nhóm vector được dán nhãn và được mô hình học máy xây dựng thành một mặt phẳng không gian dé phân tách K nhóm này. Khi có một vector mới, SVM sẽ dựa trên mô hình máy học trong quá trình huấn luyện dé phân chia vector mới này thuộc phân nhóm nào trong K nhóm đã học.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Nhận diện khuôn mặt sử dụng Vision Transformer và Baby Learning" khám phá những công nghệ tiên tiến trong lĩnh vực nhận diện khuôn mặt, đặc biệt là việc áp dụng mô hình Vision Transformer. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về cách thức hoạt động của các thuật toán học sâu mà còn nhấn mạnh lợi ích của việc sử dụng Baby Learning để cải thiện độ chính xác và hiệu suất của hệ thống nhận diện. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà công nghệ này có thể được áp dụng trong thực tế, từ việc nhận diện khuôn mặt trong các ứng dụng an ninh đến việc phát triển các hệ thống tương tác người-máy.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu "Đồ án hcmute xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập", nơi bạn sẽ tìm thấy thông tin về việc kết hợp nhận diện khuôn mặt với cảm xúc. Ngoài ra, tài liệu "Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa face recognition performance comparison between knearest neighbors algorithm and selforganized map" sẽ giúp bạn so sánh hiệu suất giữa các thuật toán khác nhau trong nhận diện khuôn mặt. Cuối cùng, tài liệu "Đồ án hcmute nhận dạng cảm xúc trên khuôn mặt người" sẽ cung cấp cái nhìn sâu sắc về cách nhận diện cảm xúc có thể được tích hợp vào các hệ thống nhận diện khuôn mặt. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực đang phát triển này.

#công nghệ AI

#xử lý hình ảnh

#nhận diện khuôn mặt

#ứng dụng học máy

#học sâu trong nhận diện

Chủ đề

Công nghệ nhận diện khuôn mặt

Mô hình Vision Transformer

Học máy và Baby Learning

Xu hướng AI trong nhận diện hình ảnh