Tổng quan nghiên cứu
Trong bối cảnh giáo dục hiện đại, việc đánh giá hạnh kiểm của học sinh đóng vai trò quan trọng trong việc nâng cao chất lượng dạy và học. Theo ước tính, mỗi học kỳ tại các trường phổ thông có khoảng 10 tiết tự học, trong đó hoạt động của học sinh cần được giám sát chặt chẽ để đảm bảo hiệu quả học tập và rèn luyện. Tuy nhiên, việc giám sát thủ công bằng con người không chỉ tốn kém mà còn thiếu tính khách quan và hiệu quả. Do đó, nghiên cứu xây dựng hệ thống giám sát tự động hoạt động của học sinh trong tiết tự học nhằm đánh giá xếp loại hạnh kiểm là một giải pháp thiết thực và cấp thiết.
Mục tiêu chính của luận văn là phát triển một hệ thống phần mềm sử dụng công nghệ trí tuệ nhân tạo (AI), học máy (Machine Learning) và học sâu (Deep Learning) để nhận dạng khuôn mặt và hành động của học sinh trong lớp học, từ đó tự động đánh giá hạnh kiểm dựa trên các tiêu chí như điểm danh, hành vi đi lại, đứng, nằm trong tiết học. Phạm vi nghiên cứu tập trung vào xử lý hình ảnh và video thu thập từ camera giám sát tại các lớp học của trường THCS Long Bình, tỉnh Đồng Nai, với dữ liệu thu thập từ 45 học sinh khối lớp 8, tổng cộng hơn 5000 ảnh khuôn mặt và hành động.
Ý nghĩa của nghiên cứu thể hiện qua việc hỗ trợ giáo viên trong công tác đánh giá hạnh kiểm một cách chính xác, khách quan và tiết kiệm thời gian. Hệ thống còn góp phần nâng cao hiệu quả quản lý lớp học, đồng thời ứng dụng công nghệ hiện đại vào giáo dục, mở ra hướng phát triển mới cho các trường học trong việc áp dụng trí tuệ nhân tạo vào giám sát và đánh giá học sinh.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên nền tảng các lý thuyết và mô hình tiên tiến trong lĩnh vực trí tuệ nhân tạo và học máy, cụ thể:
Trí tuệ nhân tạo (Artificial Intelligence - AI): Là ngành khoa học nghiên cứu phát triển các hệ thống máy tính có khả năng thực hiện các nhiệm vụ thông minh như con người, bao gồm nhận thức, học tập và ra quyết định.
Học máy (Machine Learning - ML): Là nhánh của AI tập trung vào việc xây dựng các mô hình máy tính có khả năng học từ dữ liệu và cải thiện hiệu suất theo thời gian mà không cần lập trình cụ thể.
Học sâu (Deep Learning - DL): Là một nhánh của học máy sử dụng mạng nơ-ron nhân tạo nhiều lớp để học các đặc trưng phức tạp từ dữ liệu lớn, đặc biệt hiệu quả trong xử lý hình ảnh và video.
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Là mô hình mạng nơ-ron nhân tạo chuyên biệt cho xử lý ảnh, với các lớp tích chập, gộp chung và kết nối đầy đủ giúp trích xuất đặc trưng hình ảnh hiệu quả.
Mô hình Yolo (You Only Look Once): Thuật toán phát hiện đối tượng trong ảnh/video theo thời gian thực, nổi bật với tốc độ xử lý nhanh và độ chính xác cao, phiên bản mới nhất là Yolo v8.
Các khái niệm chính bao gồm nhận dạng khuôn mặt (Face Recognition), nhận dạng hành động (Action Recognition), các lớp trong CNN như lớp tích chập, lớp gộp chung, lớp kết nối đầy đủ, và các thuật toán tối ưu hóa như hàm kích hoạt ReLU, hàm Softmax.
Phương pháp nghiên cứu
Nguồn dữ liệu chính được thu thập từ camera giám sát tại trường THCS Long Bình, gồm hơn 5000 ảnh màu kích thước 640x640 pixel, bao gồm ảnh khuôn mặt và các hành động của học sinh (đứng, ngồi, nằm). Bộ dữ liệu được chia thành hai tập: T_face (ảnh khuôn mặt) và T_action (ảnh hành động).
Phương pháp phân tích sử dụng mạng nơ-ron tích chập CNN kết hợp với mô hình Yolo v8 để huấn luyện và nhận dạng khuôn mặt, hành động học sinh. Quá trình nghiên cứu gồm các bước:
Tiền xử lý ảnh: chuẩn hóa kích thước, gán nhãn ảnh bằng công cụ Makesence.ai.
Xây dựng mô hình học sâu: huấn luyện mạng CNN và Yolo v8 trên nền tảng Python, sử dụng thư viện OpenCV, face recognition, và các thư viện học máy.
Thử nghiệm và đánh giá: huấn luyện mô hình trên Google Colab với cỡ mẫu 4500 ảnh huấn luyện, 500 ảnh kiểm thử, sử dụng kỹ thuật 5-fold cross-validation để đánh giá độ chính xác.
Triển khai phần mềm hệ thống giám sát tự động, tích hợp nhận dạng khuôn mặt và hành động, xuất kết quả đánh giá hạnh kiểm dưới dạng file Excel.
Timeline nghiên cứu kéo dài trong năm 2023, từ thu thập dữ liệu, xây dựng mô hình, thử nghiệm đến hoàn thiện hệ thống.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Độ chính xác nhận dạng khuôn mặt: Mô hình CNN kết hợp Yolo v8 đạt độ chính xác trung bình khoảng 92% trong việc nhận dạng khuôn mặt học sinh trên bộ dữ liệu T_face, vượt trội so với các phiên bản Yolo trước đó (Yolo v7 đạt khoảng 87%).
Hiệu quả nhận dạng hành động: Hệ thống nhận dạng các hành động đứng, ngồi, nằm với độ chính xác trung bình 89% trên bộ dữ liệu T_action, giúp phân loại hành vi học sinh trong tiết tự học một cách chính xác.
Tự động đánh giá hạnh kiểm: Qua 10 tiết tự học mỗi học kỳ, hệ thống tự động điểm danh và ghi nhận các hành vi không phù hợp như đi lại, đứng, nằm, từ đó đưa ra xếp loại hạnh kiểm với độ tin cậy trên 85%, giúp giảm tải công việc cho giáo viên.
Tốc độ xử lý: Hệ thống có khả năng xử lý video thời gian thực với tốc độ khoảng 30 khung hình/giây, đảm bảo giám sát liên tục và kịp thời.
Thảo luận kết quả
Nguyên nhân của độ chính xác cao trong nhận dạng khuôn mặt và hành động là nhờ việc áp dụng mô hình Yolo v8 với kiến trúc mạng CNN sâu, kết hợp kỹ thuật tiền xử lý ảnh và gán nhãn chính xác. So với các nghiên cứu trước đây sử dụng Yolo v4 hoặc Yolo v5, hệ thống này cải thiện khoảng 5-7% về độ chính xác nhận dạng.
Kết quả đánh giá hạnh kiểm tự động cho thấy tính khả thi và hiệu quả trong thực tế, giúp giáo viên có dữ liệu khách quan để nhận xét học sinh. Biểu đồ ROC Curve và biểu đồ Confidence Curve minh họa rõ ràng hiệu suất của mô hình trong việc phân loại chính xác các hành động và khuôn mặt.
Tuy nhiên, một số hạn chế còn tồn tại như độ chính xác giảm nhẹ khi điều kiện ánh sáng kém hoặc khi học sinh có hành động phức tạp hơn. Do đó, cần tiếp tục mở rộng bộ dữ liệu và cải tiến mô hình để nâng cao khả năng nhận dạng trong các điều kiện đa dạng.
Đề xuất và khuyến nghị
Triển khai hệ thống giám sát tự động tại các trường học: Khuyến nghị các trường phổ thông trang bị camera và phần mềm giám sát tự động để hỗ trợ đánh giá hạnh kiểm, giảm thiểu sai sót và tăng tính khách quan. Thời gian triển khai dự kiến trong vòng 6 tháng.
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu hình ảnh và video từ nhiều lớp học, nhiều điều kiện ánh sáng khác nhau để nâng cao độ chính xác và khả năng khái quát của mô hình. Chủ thể thực hiện là bộ phận công nghệ thông tin của nhà trường phối hợp với nhóm nghiên cứu.
Cập nhật và nâng cấp mô hình AI: Áp dụng các phiên bản mới của Yolo hoặc các thuật toán học sâu tiên tiến hơn để cải thiện hiệu suất nhận dạng, đặc biệt trong các tình huống phức tạp. Thời gian nghiên cứu và thử nghiệm khoảng 12 tháng.
Đào tạo giáo viên và nhân viên kỹ thuật: Tổ chức các khóa đào tạo về sử dụng hệ thống, phân tích dữ liệu và bảo trì phần mềm để đảm bảo vận hành hiệu quả. Chủ thể thực hiện là phòng đào tạo và công nghệ thông tin của trường, thời gian đào tạo 3 tháng.
Đối tượng nên tham khảo luận văn
Giáo viên và cán bộ quản lý giáo dục: Hỗ trợ trong việc đánh giá hạnh kiểm học sinh một cách khách quan, tiết kiệm thời gian và nâng cao hiệu quả quản lý lớp học.
Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Tham khảo các ứng dụng thực tiễn của AI, học máy và học sâu trong lĩnh vực giáo dục, đặc biệt là nhận dạng khuôn mặt và hành động.
Các đơn vị phát triển phần mềm giáo dục: Áp dụng công nghệ nhận dạng hình ảnh và video để phát triển các sản phẩm hỗ trợ giám sát và đánh giá học sinh.
Các trường học và tổ chức giáo dục: Có thể triển khai hệ thống giám sát tự động để nâng cao chất lượng giảng dạy và quản lý học sinh, đồng thời áp dụng công nghệ hiện đại vào môi trường giáo dục.
Câu hỏi thường gặp
Hệ thống giám sát tự động hoạt động như thế nào?
Hệ thống sử dụng camera để thu thập hình ảnh và video, sau đó áp dụng mô hình học sâu CNN kết hợp Yolo v8 để nhận dạng khuôn mặt và hành động học sinh, từ đó tự động đánh giá hạnh kiểm dựa trên các tiêu chí đã định sẵn.Độ chính xác của hệ thống có đảm bảo không?
Theo kết quả thử nghiệm, hệ thống đạt độ chính xác nhận dạng khuôn mặt khoảng 92% và nhận dạng hành động khoảng 89%, đủ để hỗ trợ giáo viên trong việc đánh giá hạnh kiểm một cách khách quan và hiệu quả.Hệ thống có thể áp dụng cho các cấp học khác không?
Có thể mở rộng áp dụng cho các cấp học khác nhau, tuy nhiên cần thu thập thêm dữ liệu đặc thù và điều chỉnh mô hình phù hợp với đặc điểm hành vi của học sinh từng cấp.Hệ thống có xử lý được trong điều kiện ánh sáng yếu không?
Hiện tại, độ chính xác giảm nhẹ khi ánh sáng kém, do đó cần bổ sung các kỹ thuật tiền xử lý ảnh hoặc sử dụng camera có chất lượng cao hơn để cải thiện hiệu quả.Chi phí triển khai hệ thống có cao không?
Chi phí chủ yếu là đầu tư camera và phần mềm, tuy nhiên so với lợi ích tiết kiệm nhân lực và nâng cao chất lượng đánh giá, đây là khoản đầu tư hợp lý và có thể được triển khai dần theo từng giai đoạn.
Kết luận
Luận văn đã xây dựng thành công hệ thống giám sát tự động nhận dạng khuôn mặt và hành động học sinh trong tiết tự học, hỗ trợ đánh giá xếp loại hạnh kiểm với độ chính xác cao.
Ứng dụng mô hình mạng nơ-ron tích chập CNN kết hợp Yolo v8 giúp cải thiện hiệu suất nhận dạng so với các phiên bản trước.
Hệ thống có khả năng xử lý video thời gian thực, phù hợp với môi trường giám sát lớp học hiện đại.
Đề xuất triển khai rộng rãi tại các trường học nhằm nâng cao hiệu quả quản lý và đánh giá học sinh.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cấp mô hình và đào tạo nhân sự để đảm bảo vận hành hiệu quả. Mời các nhà quản lý giáo dục và chuyên gia công nghệ thông tin liên hệ để hợp tác phát triển và ứng dụng hệ thống.