Tổng quan nghiên cứu

Trong bối cảnh đại dịch Covid-19 diễn biến phức tạp, việc tổ chức học và thi trực tuyến trở thành nhu cầu cấp thiết nhằm đảm bảo an toàn sức khỏe và duy trì hoạt động giáo dục. Theo ước tính, tỷ lệ sử dụng các hệ thống học tập trực tuyến (LMS) tại Việt Nam đã tăng trưởng nhanh chóng trong giai đoạn 2020-2022. Tuy nhiên, các nền tảng hiện tại chủ yếu tập trung vào quản lý học tập mà chưa có giải pháp hiệu quả để chống gian lận trong thi cử trực tuyến, dẫn đến nguy cơ giảm sút chất lượng đào tạo và tính công bằng trong đánh giá năng lực học sinh, sinh viên.

Luận văn tập trung nghiên cứu và phát triển giải pháp ứng dụng công nghệ phân tích khuôn mặt, bao gồm nhận dạng khuôn mặt và theo dõi ánh nhìn, tích hợp vào hệ thống LMS nhằm cảnh báo sớm các hành vi gian lận trong thi trực tuyến. Phạm vi nghiên cứu được thực hiện tại Trường Quốc Tế - Đại học Quốc Gia Hà Nội trong năm 2021-2022, với mục tiêu xây dựng mô-đun nhận dạng khuôn mặt có khả năng xác thực thí sinh ngay cả khi đeo khẩu trang và theo dõi ánh nhìn để phát hiện các hành vi không tập trung hoặc gian lận.

Giải pháp này không chỉ góp phần nâng cao chất lượng giảng dạy và đánh giá trong bối cảnh giáo dục trực tuyến mà còn hỗ trợ các cơ sở giáo dục trong việc tổ chức các kỳ thi công bằng, minh bạch. Kết quả thử nghiệm cho thấy hệ thống có độ chính xác nhận dạng khuôn mặt đạt gần 99%, tốc độ xử lý nhanh với mức FPS khoảng 21,2 trên thiết bị Macbook Pro 15 2020, đáp ứng yêu cầu thực tiễn trong giám sát thi trực tuyến.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: công nghệ nhận dạng khuôn mặt và theo dõi ánh nhìn.

  1. Nhận dạng khuôn mặt (Face Recognition):

    • Sử dụng mạng nơ-ron tích chập (CNN) như AlexNet, ResNet để trích xuất đặc trưng khuôn mặt.
    • Áp dụng các mô hình học sâu tiên tiến như FaceNet với hàm mất mát Triplet Loss và ArcFace với Additive Margin Loss để tăng độ chính xác nhận dạng, đặc biệt trong điều kiện khuôn mặt có biến dạng hoặc đeo khẩu trang.
    • Các thuật toán phát hiện khuôn mặt như Viola-Jones, HOG-SVM, MTCNN, YOLO được sử dụng để xác định vị trí khuôn mặt trong ảnh đầu vào.
    • Kỹ thuật căn chỉnh khuôn mặt (face alignment) dựa trên 68 điểm landmark giúp chuẩn hóa hình ảnh trước khi trích xuất đặc trưng.
  2. Theo dõi ánh nhìn (Gaze Tracking):

    • Sử dụng bản đồ 68 điểm landmark trên khuôn mặt để xác định tư thế và hướng nhìn của thí sinh.
    • Áp dụng các quy tắc sinh trắc học để phân tích góc nhìn dựa trên vị trí các điểm mốc như sống mũi, mắt, miệng.
    • Sử dụng bộ dữ liệu MPIIGaze với hơn 213 nghìn ảnh để huấn luyện và đánh giá mô hình theo dõi ánh nhìn.

Các khái niệm chính bao gồm: mạng nơ-ron tích chập (CNN), hàm mất mát Triplet Loss, Additive Margin Loss, face landmark, face alignment, gaze tracking.

Phương pháp nghiên cứu

  • Nguồn dữ liệu:

    • Hình ảnh khuôn mặt thí sinh được thu thập qua webcam trong quá trình thi trực tuyến.
    • Bộ dữ liệu chuẩn MPIIGaze và 300W được sử dụng để huấn luyện và đánh giá các mô hình nhận dạng và theo dõi ánh nhìn.
    • Dữ liệu thử nghiệm thực tế được thu thập tại Trường Quốc Tế - Đại học Quốc Gia Hà Nội.
  • Phương pháp phân tích:

    • Xây dựng mô hình CNN dựa trên kiến trúc ResNet để trích xuất đặc trưng khuôn mặt.
    • Huấn luyện mô hình nhận dạng khuôn mặt sử dụng hàm mất mát ArcFace để đạt độ chính xác cao.
    • Phát triển mô hình theo dõi ánh nhìn dựa trên phân tích các điểm landmark và quy tắc sinh trắc học.
    • Tích hợp các mô-đun nhận dạng và theo dõi ánh nhìn vào hệ thống LMS thông qua API để giám sát và cảnh báo gian lận.
    • Đánh giá hiệu suất mô hình qua các chỉ số độ chính xác nhận dạng, tốc độ xử lý (FPS), và tỷ lệ cảnh báo đúng/sai.
  • Timeline nghiên cứu:

    • Giai đoạn 1 (6 tháng): Tổng quan, thu thập dữ liệu, xây dựng mô hình nhận dạng khuôn mặt.
    • Giai đoạn 2 (4 tháng): Phát triển mô hình theo dõi ánh nhìn và tích hợp vào hệ thống LMS.
    • Giai đoạn 3 (2 tháng): Thử nghiệm thực tế, đánh giá và hoàn thiện giải pháp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng khuôn mặt:

    • Mô hình ArcFace đạt độ chính xác 99,83% trên tập dữ liệu LFW và 98,02% trên tập YTF.
    • Trong thử nghiệm thực tế, hệ thống nhận dạng khuôn mặt có độ tin cậy trung bình trên 95% ngay cả khi thí sinh đeo khẩu trang.
  2. Hiệu suất theo dõi ánh nhìn:

    • Mô hình theo dõi ánh nhìn dựa trên 68 điểm landmark đạt độ chính xác ước tính trên 90% trong việc phân loại hướng nhìn sang trái, phải, lên trên và xuống dưới.
    • Tốc độ suy luận đạt 46ms, tương đương 21,2 FPS trên thiết bị Macbook Pro 15 2020, đảm bảo khả năng giám sát thời gian thực.
  3. Khả năng cảnh báo gian lận:

    • Hệ thống phát hiện các hành vi vi phạm như thí sinh không có mặt trong khung hình, nhìn ra ngoài phạm vi màn hình, xuất hiện nhiều khuôn mặt trong vùng quan sát với tỷ lệ cảnh báo chính xác trên 85%.
    • So sánh với các nền tảng thi trực tuyến hiện có, giải pháp này cung cấp mức độ giám sát chi tiết và tự động hơn, giảm tải cho cán bộ coi thi.
  4. Tính ổn định và đa nền tảng:

    • Giải pháp hoạt động ổn định trên các hệ điều hành Windows, MacOS và Linux với mức tiêu thụ tài nguyên phần cứng hợp lý, phù hợp với đa dạng thiết bị của người dùng.

Thảo luận kết quả

Nguyên nhân thành công của giải pháp đến từ việc ứng dụng các mô hình học sâu tiên tiến như ArcFace và CNN trong nhận dạng khuôn mặt, giúp tăng độ chính xác và khả năng nhận diện trong điều kiện khuôn mặt bị che khuất bởi khẩu trang. Việc sử dụng 68 điểm landmark để theo dõi ánh nhìn dựa trên các quy tắc sinh trắc học giúp mô hình có thể hoạt động hiệu quả mà không cần thiết bị chuyên dụng như eye tracker.

So với các nghiên cứu trước đây tập trung vào nhận dạng khuôn mặt hoặc theo dõi ánh nhìn riêng lẻ, luận văn đã tích hợp đồng bộ hai công nghệ này vào hệ thống LMS, tạo thành giải pháp toàn diện cho giám sát thi trực tuyến. Kết quả thử nghiệm thực tế tại Trường Quốc Tế - Đại học Quốc Gia Hà Nội cho thấy giải pháp có thể áp dụng rộng rãi trong các kỳ thi trực tuyến hiện nay.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng giữa các mô hình (FaceNet, ArcFace, phương pháp truyền thống), bảng thống kê tỷ lệ cảnh báo gian lận chính xác và sai lệch, cũng như biểu đồ FPS trên các thiết bị khác nhau để minh họa hiệu suất hệ thống.

Đề xuất và khuyến nghị

  1. Triển khai rộng rãi giải pháp tích hợp nhận dạng khuôn mặt và theo dõi ánh nhìn trong các hệ thống LMS:

    • Mục tiêu: Giảm thiểu gian lận trong thi cử trực tuyến xuống dưới 5% trong vòng 12 tháng.
    • Chủ thể thực hiện: Các trường đại học, trung tâm đào tạo trực tuyến.
    • Hành động: Tích hợp API Face ID vào hệ thống LMS hiện có, đào tạo cán bộ sử dụng.
  2. Phát triển thêm các tính năng phân tích cảm xúc thí sinh trong quá trình thi:

    • Mục tiêu: Nâng cao chất lượng đánh giá tâm lý và thái độ thí sinh, hỗ trợ cải tiến đề thi.
    • Chủ thể thực hiện: Các nhà phát triển phần mềm giáo dục, nhóm nghiên cứu.
    • Hành động: Nghiên cứu và tích hợp mô-đun nhận dạng cảm xúc dựa trên biểu cảm khuôn mặt.
  3. Tăng cường bảo mật và quyền riêng tư dữ liệu khuôn mặt:

    • Mục tiêu: Đảm bảo tuân thủ các quy định về bảo vệ dữ liệu cá nhân trong vòng 6 tháng.
    • Chủ thể thực hiện: Ban quản lý hệ thống LMS, chuyên gia pháp lý.
    • Hành động: Áp dụng mã hóa dữ liệu, xây dựng chính sách bảo mật rõ ràng.
  4. Tối ưu hóa hiệu suất và giảm thiểu tài nguyên tiêu thụ:

    • Mục tiêu: Giảm thời gian suy luận xuống dưới 30ms, tăng FPS lên trên 30 trên các thiết bị phổ biến trong 1 năm.
    • Chủ thể thực hiện: Nhóm kỹ thuật phát triển phần mềm.
    • Hành động: Nghiên cứu và áp dụng các kỹ thuật tối ưu hóa mô hình CNN, sử dụng phần cứng tăng tốc.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý giáo dục và cán bộ tổ chức thi:

    • Lợi ích: Hiểu rõ công nghệ giám sát thi trực tuyến hiện đại, áp dụng giải pháp chống gian lận hiệu quả.
    • Use case: Lựa chọn và triển khai hệ thống LMS tích hợp nhận dạng khuôn mặt cho kỳ thi trực tuyến.
  2. Nhà phát triển phần mềm giáo dục và công nghệ:

    • Lợi ích: Nắm bắt kiến thức về mô hình học sâu trong nhận dạng khuôn mặt và theo dõi ánh nhìn, phát triển API tích hợp.
    • Use case: Xây dựng các sản phẩm phần mềm LMS có tính năng giám sát thi trực tuyến nâng cao.
  3. Nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo và thị giác máy tính:

    • Lợi ích: Tham khảo phương pháp ứng dụng CNN, ArcFace, và kỹ thuật theo dõi ánh nhìn trong môi trường thực tế.
    • Use case: Phát triển các nghiên cứu tiếp theo về nhận dạng khuôn mặt và phân tích hành vi người dùng.
  4. Cán bộ pháp lý và chuyên gia bảo mật dữ liệu:

    • Lợi ích: Hiểu các vấn đề liên quan đến bảo mật và quyền riêng tư khi áp dụng công nghệ nhận dạng khuôn mặt trong giáo dục.
    • Use case: Xây dựng khung pháp lý và chính sách bảo vệ dữ liệu cá nhân trong các hệ thống LMS.

Câu hỏi thường gặp

  1. Giải pháp nhận dạng khuôn mặt có chính xác khi thí sinh đeo khẩu trang không?

    • Có. Mô hình sử dụng ArcFace kết hợp mạng ResNet được huấn luyện đặc biệt để nhận dạng khuôn mặt có khẩu trang, đạt độ chính xác trên 95% trong thử nghiệm thực tế.
  2. Hệ thống có thể phát hiện các hành vi gian lận nào trong thi trực tuyến?

    • Hệ thống cảnh báo khi thí sinh không có mặt trong khung hình, nhìn ra ngoài phạm vi màn hình, xuất hiện nhiều khuôn mặt trong vùng quan sát, hoặc không tập trung vào bài thi.
  3. Tốc độ xử lý của hệ thống có đáp ứng được giám sát thời gian thực không?

    • Có. Trên thiết bị Macbook Pro 15 2020, hệ thống đạt tốc độ suy luận 46ms, tương đương 21,2 FPS, đủ để giám sát liên tục trong kỳ thi trực tuyến.
  4. Giải pháp có thể tích hợp với các hệ thống LMS hiện có không?

    • Có. Giải pháp được đóng gói dưới dạng API dễ dàng tích hợp với các nền tảng LMS phổ biến trên nhiều hệ điều hành như Windows, MacOS, Linux.
  5. Làm thế nào để bảo vệ quyền riêng tư của thí sinh khi sử dụng công nghệ nhận dạng khuôn mặt?

    • Dữ liệu khuôn mặt được mã hóa và lưu trữ an toàn, chỉ sử dụng cho mục đích xác thực và giám sát thi cử. Ngoài ra, cần xây dựng chính sách bảo mật rõ ràng và tuân thủ các quy định pháp luật về bảo vệ dữ liệu cá nhân.

Kết luận

  • Luận văn đã phát triển thành công giải pháp tích hợp công nghệ nhận dạng khuôn mặt và theo dõi ánh nhìn vào hệ thống LMS nhằm chống gian lận trong thi cử trực tuyến.
  • Mô hình ArcFace và CNN được áp dụng hiệu quả, đạt độ chính xác nhận dạng khuôn mặt trên 99% và khả năng nhận diện khi đeo khẩu trang.
  • Mô hình theo dõi ánh nhìn dựa trên 68 điểm landmark giúp phát hiện hành vi gian lận với độ chính xác cao và tốc độ xử lý phù hợp giám sát thời gian thực.
  • Giải pháp đã được thử nghiệm thực tế tại Trường Quốc Tế - Đại học Quốc Gia Hà Nội, cho kết quả tích cực và có thể triển khai rộng rãi.
  • Các bước tiếp theo bao gồm mở rộng tính năng phân tích cảm xúc, tối ưu hóa hiệu suất và tăng cường bảo mật dữ liệu nhằm hoàn thiện hệ thống giám sát thi trực tuyến toàn diện.

Các cơ sở giáo dục và nhà phát triển phần mềm được khuyến khích nghiên cứu, áp dụng và phát triển thêm giải pháp này để nâng cao chất lượng và tính công bằng trong giáo dục trực tuyến hiện đại.