Tổng quan nghiên cứu

Nhận dạng khuôn mặt là một lĩnh vực trọng điểm trong thị giác máy tính với ứng dụng rộng rãi trong an ninh, thương mại và công nghệ thông tin. Theo báo cáo ngành, các mô hình học sâu hiện nay đạt hiệu suất cao khi được huấn luyện trên bộ dữ liệu lớn, ví dụ như MSIM-RetinaFace với 5,1 triệu ảnh của 93.000 người. Tuy nhiên, trong thực tế, nhiều ứng dụng gặp phải thách thức khi dữ liệu huấn luyện bị thiếu hụt, đặc biệt là với các cá nhân có ít ảnh đại diện, như trong truy tìm tội phạm hoặc nhận diện khách hàng VIP.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá mô hình nhận dạng khuôn mặt sử dụng Vision Transformer (ViT) kết hợp kỹ thuật Baby Learning nhằm cải thiện độ chính xác trong điều kiện thiếu dữ liệu huấn luyện. Phạm vi nghiên cứu tập trung vào bộ dữ liệu khuôn mặt người Việt Nam với khoảng 3.000 cá nhân, mỗi người có 3 ảnh, thu thập trong năm 2022 tại Việt Nam. Nghiên cứu cũng so sánh hiệu quả của ViT với mạng CNN truyền thống (ResNet101) trên các bộ dữ liệu công khai và bộ dữ liệu riêng.

Ý nghĩa nghiên cứu được thể hiện qua việc cung cấp giải pháp nâng cao độ chính xác nhận dạng khuôn mặt trong điều kiện dữ liệu hạn chế, góp phần thúc đẩy ứng dụng thực tế trong các hệ thống an ninh và dịch vụ cá nhân hóa tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba thành phần lý thuyết chính:

  1. Vision Transformer (ViT): Mô hình ViT xử lý ảnh bằng cách chia ảnh thành các patch nhỏ, biến đổi thành vector embedding, và sử dụng cơ chế Multi-head Self-Attention để xây dựng mối quan hệ giữa các patch. ViT được chứng minh cho hiệu quả cao trong phân loại ảnh khi có bộ dữ liệu lớn.

  2. CosFace - Large Margin Cosine Loss: Hàm mất mát CosFace được sử dụng để tăng khả năng phân biệt các vector đặc trưng khuôn mặt bằng cách chuyển không gian Euclide sang không gian góc, giúp tăng biên phân cách giữa các lớp, nâng cao độ chính xác nhận dạng.

  3. Baby Learning: Phương pháp huấn luyện tăng dần số lượng mẫu dữ liệu trong từng lớp, giúp cải thiện hiệu suất mô hình trong điều kiện dữ liệu huấn luyện hạn chế. Baby Learning cũng mở rộng số lượng layer được tinh chỉnh dần dần để tránh overfitting.

Các khái niệm chính bao gồm: bóc tách ảnh khuôn mặt (RetinaFace), so khớp khuôn mặt (L2 distance), nhận diện khuôn mặt (SVM, CosFace), và kỹ thuật tinh chỉnh mô hình (Baby Learning).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm:

  • Bộ dữ liệu huấn luyện MSIM-RetinaFace (5,1 triệu ảnh, 93.000 người).
  • Bộ dữ liệu kiểm thử công khai: LFW và các biến thể (CALFW, CPLFW, CFPW, AgeDB-30).
  • Bộ dữ liệu riêng của người Việt Nam: VFD (3.000 người, 3 ảnh/người), được chia thành VER4K (so khớp khuôn mặt), REGIK và REG2K (nhận diện khuôn mặt).

Phương pháp phân tích:

  • Huấn luyện mô hình ViT và ResNet101 từ đầu trên MSIM-RetinaFace.
  • Tinh chỉnh mô hình trên bộ dữ liệu người Việt Nam với số lượng ảnh hạn chế (1-2 ảnh/người).
  • Áp dụng kỹ thuật Baby Learning trong quá trình tinh chỉnh để tăng dần số lượng ảnh và số layer được huấn luyện lại.
  • Đánh giá độ chính xác qua các bài toán so khớp và nhận diện khuôn mặt sử dụng các phương pháp L2 distance, SVM và CosFace.
  • Thời gian nghiên cứu kéo dài từ đầu năm 2022 đến cuối năm 2022, thực hiện trên môi trường Google Colab Pro+ với GPU P100.

Cỡ mẫu nghiên cứu gồm 3.000 người Việt Nam với tổng số ảnh khoảng 9.000 ảnh, đảm bảo tính đại diện cho đặc điểm khuôn mặt người Việt trong điều kiện thiếu dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất so khớp khuôn mặt trên bộ dữ liệu công khai:
    Mô hình ResNet101 đạt độ chính xác cao hơn ViT trên các bộ dữ liệu LFW và biến thể, với độ chính xác trên 99% so với khoảng 98,5% của ViT. Điều này phù hợp với các nghiên cứu trước đây khi huấn luyện trên bộ dữ liệu kích thước trung bình.

  2. Hiệu quả trên bộ dữ liệu Việt Nam VER4K:
    Khi kiểm thử trên VER4K, độ chính xác của cả hai mô hình giảm đáng kể do sự khác biệt phân phối dữ liệu huấn luyện và kiểm thử. Tuy nhiên, ViT cho kết quả tốt hơn ResNet101 (89,63% so với 89,30%), cho thấy ViT có khả năng thích ứng tốt hơn trong điều kiện thiếu dữ liệu đặc trưng.

  3. Nhận diện khuôn mặt trên bộ dữ liệu REGIK và REG2K:
    Khi không tinh chỉnh, độ chính xác nhận diện khuôn mặt chỉ đạt khoảng 56-58%. Sau khi tinh chỉnh với 1-2 ảnh/người và áp dụng Baby Learning, độ chính xác tăng lên đáng kể, với ViT đạt gần 76% và ResNet101 tăng gần 26% so với không tinh chỉnh.

  4. Ảnh hưởng của kỹ thuật Baby Learning:
    Baby Learning giúp tăng độ chính xác mô hình lên khoảng 6% đối với ViT và 7% đối với ResNet101 so với tinh chỉnh thông thường. Số lượng layer được mở băng dần dần trong quá trình tinh chỉnh giúp tránh overfitting và tối ưu hóa hiệu suất.

Thảo luận kết quả

Nguyên nhân chính khiến ViT vượt trội hơn ResNet trong điều kiện thiếu dữ liệu là do ViT có tính tổng quát hóa cao hơn và ít phụ thuộc vào inductive bias của ảnh so với CNN. ResNet, với inductive bias cao, yêu cầu dữ liệu huấn luyện đầy đủ hơn để đạt hiệu quả tối ưu.

Kết quả cũng cho thấy việc áp dụng Baby Learning là cần thiết để cải thiện hiệu quả mô hình trong thực tế, đặc biệt khi dữ liệu huấn luyện hạn chế. So sánh với các nghiên cứu quốc tế, độ chính xác của mô hình trong luận văn thấp hơn một chút do giới hạn về phần cứng và batch size nhỏ (64 so với 512-1024), ảnh hưởng đến tốc độ hội tụ và hiệu quả huấn luyện.

Dữ liệu thu thập từ người Việt Nam với đa dạng tư thế và biểu cảm khuôn mặt làm tăng độ khó cho mô hình, nhưng cũng giúp đánh giá thực tế hơn về khả năng ứng dụng của mô hình trong môi trường thực tế.

Biểu đồ so sánh độ chính xác giữa ViT và ResNet trên các bộ dữ liệu, cũng như biểu đồ thể hiện sự cải thiện độ chính xác theo số lượng layer được tinh chỉnh trong Baby Learning, sẽ minh họa rõ nét các phát hiện này.

Đề xuất và khuyến nghị

  1. Áp dụng kỹ thuật Baby Learning trong tinh chỉnh mô hình:
    Tăng dần số lượng ảnh huấn luyện và số layer được mở băng để tinh chỉnh, nhằm tối ưu hóa độ chính xác trong điều kiện dữ liệu hạn chế. Thời gian thực hiện: 3-6 tháng. Chủ thể: các nhóm nghiên cứu và doanh nghiệp phát triển AI.

  2. Phát triển bộ dữ liệu khuôn mặt đa dạng đặc trưng vùng miền:
    Thu thập thêm dữ liệu khuôn mặt người Việt Nam với đa dạng độ tuổi, giới tính, tư thế và biểu cảm để nâng cao khả năng tổng quát của mô hình. Thời gian: 6-12 tháng. Chủ thể: các tổ chức nghiên cứu và cơ quan an ninh.

  3. Tăng cường hạ tầng tính toán để mở rộng batch size huấn luyện:
    Đầu tư phần cứng GPU mạnh hơn để tăng batch size, giúp mô hình hội tụ nhanh và đạt hiệu quả cao hơn. Thời gian: 6 tháng. Chủ thể: các trung tâm nghiên cứu và doanh nghiệp AI.

  4. Kết hợp ViT với các kỹ thuật học sâu khác:
    Nghiên cứu tích hợp ViT với mạng CNN hoặc các mô hình attention khác để tận dụng ưu điểm của từng kiến trúc, nâng cao độ chính xác và tốc độ xử lý. Thời gian: 12 tháng. Chủ thể: các nhóm nghiên cứu AI.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo:
    Cung cấp kiến thức chuyên sâu về ứng dụng Vision Transformer và kỹ thuật Baby Learning trong nhận dạng khuôn mặt, hỗ trợ phát triển đề tài nghiên cứu mới.

  2. Doanh nghiệp phát triển công nghệ nhận dạng khuôn mặt:
    Áp dụng các giải pháp nâng cao độ chính xác trong điều kiện dữ liệu hạn chế, đặc biệt trong các ứng dụng an ninh, bán lẻ và dịch vụ khách hàng.

  3. Cơ quan an ninh và quản lý:
    Sử dụng kết quả nghiên cứu để cải thiện hệ thống nhận dạng khuôn mặt trong truy tìm tội phạm, kiểm soát ra vào và giám sát an ninh công cộng.

  4. Nhà phát triển phần mềm và kỹ sư AI:
    Tham khảo mô hình, thuật toán và phương pháp huấn luyện để xây dựng các hệ thống nhận dạng khuôn mặt hiệu quả, phù hợp với điều kiện dữ liệu thực tế.

Câu hỏi thường gặp

  1. Vision Transformer khác gì so với mạng CNN trong nhận dạng khuôn mặt?
    ViT xử lý ảnh bằng cách chia thành các patch và sử dụng cơ chế attention để học mối quan hệ giữa các patch, trong khi CNN sử dụng các lớp tích chập để trích xuất đặc trưng cục bộ. ViT có khả năng tổng quát hóa tốt hơn khi dữ liệu đa dạng, nhưng CNN có inductive bias giúp học nhanh hơn với dữ liệu hạn chế.

  2. Baby Learning giúp cải thiện mô hình như thế nào?
    Baby Learning tăng dần số lượng ảnh huấn luyện và số layer được tinh chỉnh, giúp mô hình học hiệu quả hơn trong điều kiện dữ liệu ít, tránh overfitting và nâng cao độ chính xác.

  3. Tại sao cần bộ dữ liệu khuôn mặt người Việt Nam riêng biệt?
    Bộ dữ liệu huấn luyện lớn hiện nay chủ yếu chứa khuôn mặt người nước ngoài, thiếu đặc trưng vùng miền. Dữ liệu người Việt Nam giúp mô hình học được đặc điểm riêng, nâng cao độ chính xác khi áp dụng thực tế tại Việt Nam.

  4. CosFace có ưu điểm gì so với các hàm mất mát khác?
    CosFace chuyển không gian Euclide sang không gian góc, tăng biên phân cách giữa các lớp, giúp phân biệt đặc trưng khuôn mặt tốt hơn so với softmax truyền thống, đồng thời phù hợp với cả ViT và CNN.

  5. Làm thế nào để đánh giá độ chính xác của mô hình nhận dạng khuôn mặt?
    Độ chính xác được đánh giá qua các bài toán so khớp (face verification) và nhận diện (face identification) sử dụng các bộ dữ liệu chuẩn, đo lường tỷ lệ dự đoán đúng trên tổng số mẫu kiểm thử, kết hợp các phương pháp như L2 distance, SVM và CosFace.

Kết luận

  • Luận văn đã xây dựng và đánh giá thành công mô hình nhận dạng khuôn mặt sử dụng Vision Transformer kết hợp kỹ thuật Baby Learning, phù hợp với điều kiện dữ liệu thiếu hụt.
  • So sánh với mạng CNN ResNet101, ViT thể hiện ưu thế trong môi trường dữ liệu hạn chế, đặc biệt trên bộ dữ liệu người Việt Nam.
  • Kỹ thuật Baby Learning giúp tăng độ chính xác mô hình lên đến 6-7%, giảm thiểu hiện tượng overfitting khi tinh chỉnh với dữ liệu ít.
  • Bộ dữ liệu khuôn mặt người Việt Nam do tác giả thu thập đóng góp quan trọng cho nghiên cứu và ứng dụng thực tế tại Việt Nam.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cấp hạ tầng tính toán và nghiên cứu tích hợp mô hình để nâng cao hiệu quả nhận dạng khuôn mặt.

Kêu gọi hành động: Các nhà nghiên cứu và doanh nghiệp trong lĩnh vực AI nên áp dụng và phát triển thêm các kỹ thuật như Baby Learning kết hợp ViT để nâng cao hiệu quả nhận dạng khuôn mặt trong thực tế, đặc biệt tại các thị trường có dữ liệu hạn chế như Việt Nam.