Tổng quan nghiên cứu

Trong bối cảnh giáo dục hiện đại, việc ứng dụng công nghệ thị giác máy tính vào quá trình chấm thi trắc nghiệm tự động đang trở thành xu hướng tất yếu nhằm nâng cao hiệu quả và độ chính xác trong đánh giá học tập. Trường Đại học Phan Thiết hàng năm tổ chức các kỳ thi Toeic chuẩn đầu ra với số lượng bài thi lên đến hàng nghìn, gây áp lực lớn về thời gian và nhân lực cho công tác chấm thi thủ công. Các khó khăn như sai sót trong nhập số phách, mất phiếu kiểm tra, chậm trễ trong trả kết quả và thiếu tính bảo mật đã đặt ra nhu cầu cấp thiết về một hệ thống chấm thi tự động, chính xác và tiết kiệm chi phí.

Mục tiêu nghiên cứu của luận văn là xây dựng thuật toán trích xuất số phách trên phiếu trả lời trắc nghiệm dựa trên công nghệ nhận dạng chữ số viết tay sử dụng mạng Nơ-ron tích chập (CNN). Nghiên cứu tập trung vào việc phát triển mô hình nhận dạng chữ số viết tay từ 0 đến 9 và áp dụng vào việc chấm điểm tự động các bài thi trắc nghiệm đơn đáp án gồm 4 lựa chọn A, B, C, D. Phạm vi nghiên cứu giới hạn trong dữ liệu ảnh thu thập từ phiếu trả lời trắc nghiệm của Trung tâm Phát triển Nguồn nhân lực tại Trường Đại học Phan Thiết trong năm 2023.

Ý nghĩa của đề tài không chỉ nằm ở việc giảm tải công việc cho cán bộ chấm thi, tiết kiệm thời gian và chi phí, mà còn nâng cao tính chính xác, bảo mật và minh bạch trong quá trình chấm thi. Hệ thống được kỳ vọng sẽ tạo ra môi trường học tập hiệu quả hơn, đồng thời góp phần thúc đẩy ứng dụng công nghệ thông tin trong giáo dục đại học tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: xử lý ảnh kỹ thuật số và mạng Nơ-ron tích chập (CNN).

  • Xử lý ảnh kỹ thuật số: Bao gồm các kỹ thuật tiền xử lý ảnh như lọc mịn, nhị phân hóa ảnh, lấy ngưỡng Otsu, chỉnh nghiêng ảnh, phát hiện biên cạnh bằng thuật toán Canny và mã hóa hướng biên Freeman. Các kỹ thuật này giúp chuẩn hóa dữ liệu ảnh, giảm nhiễu và trích xuất đặc trưng quan trọng phục vụ cho quá trình nhận dạng.

  • Mạng Nơ-ron tích chập (CNN): Là mô hình học sâu được thiết kế đặc biệt cho các bài toán nhận dạng hình ảnh. CNN sử dụng các lớp tích chập để tự động trích xuất đặc trưng từ ảnh đầu vào, kết hợp với các lớp kết nối đầy đủ để phân loại chữ số viết tay. Mạng CNN có khả năng học các đặc trưng phức tạp và đạt độ chính xác cao trong nhận dạng chữ số viết tay.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm: điểm ảnh (pixel) và ảnh độ xám, thuật toán phát hiện biên cạnh (Canny), và mô hình mạng Nơ-ron tích chập (CNN).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập ảnh chữ số viết tay thu thập từ phiếu trả lời trắc nghiệm của sinh viên Trường Đại học Phan Thiết, kết hợp với bộ dữ liệu chuẩn MNIST để huấn luyện và đánh giá mô hình. Tổng số mẫu huấn luyện và kiểm thử khoảng vài nghìn ảnh, đảm bảo tính đa dạng và đại diện cho các biến thể chữ số viết tay.

Phương pháp phân tích bao gồm:

  • Tiền xử lý ảnh: lọc nhiễu, nhị phân hóa, chỉnh nghiêng và tách vùng số phách.
  • Xây dựng và huấn luyện mô hình CNN với kiến trúc gồm các lớp tích chập, lớp pooling và lớp fully connected.
  • Áp dụng thuật toán trích xuất số phách tự động trên phiếu trả lời trắc nghiệm.
  • Đánh giá hiệu suất mô hình qua các chỉ số độ chính xác, độ nhạy và độ đặc hiệu.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ tháng 1 đến tháng 9 năm 2023, với các giai đoạn thu thập dữ liệu, phát triển thuật toán, huấn luyện mô hình và thử nghiệm thực tế tại Trung tâm Phát triển Nguồn nhân lực của Trường Đại học Phan Thiết.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất nhận dạng chữ số viết tay: Mô hình CNN đạt độ chính xác nhận dạng trên tập kiểm thử khoảng 95%, vượt trội so với các phương pháp truyền thống như SVM (khoảng 85%) và đối sánh mẫu (khoảng 80%). Điều này chứng tỏ khả năng trích xuất đặc trưng và phân loại của CNN rất phù hợp với bài toán nhận dạng chữ số viết tay đa dạng.

  2. Tốc độ xử lý: Thuật toán trích xuất số phách và chấm điểm tự động xử lý trung bình mỗi phiếu trong vòng dưới 2 giây, giảm đáng kể so với thời gian chấm thủ công trung bình khoảng 5 phút mỗi phiếu. Tỷ lệ tiết kiệm thời gian lên đến 96%.

  3. Độ chính xác chấm điểm tự động: Hệ thống chấm điểm tự động đạt độ chính xác trên 98% so với kết quả chấm thủ công, đảm bảo tính khách quan và giảm thiểu sai sót do con người gây ra.

  4. Tính bảo mật và quản lý dữ liệu: Việc số hóa phiếu trả lời và tự động hóa quy trình chấm điểm giúp giảm nguy cơ mất phiếu, đồng thời dễ dàng lưu trữ và truy xuất dữ liệu khi cần thiết.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình CNN là khả năng học các đặc trưng phức tạp từ dữ liệu ảnh, bao gồm các biến thể về kích thước, độ nghiêng và nét chữ số viết tay khác nhau. So với các phương pháp truyền thống như SVM hay đối sánh mẫu, CNN không cần phải thiết kế đặc trưng thủ công mà tự động trích xuất đặc trưng phù hợp trong quá trình huấn luyện.

Kết quả này tương đồng với các nghiên cứu quốc tế về nhận dạng chữ số viết tay sử dụng CNN, đồng thời khẳng định tính khả thi của việc áp dụng công nghệ này trong môi trường giáo dục Việt Nam. Việc giảm thời gian chấm thi và tăng độ chính xác góp phần nâng cao hiệu quả quản lý kỳ thi, đồng thời tạo điều kiện thuận lợi cho giảng viên và cán bộ chấm thi.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các phương pháp nhận dạng, biểu đồ thời gian xử lý trung bình mỗi phiếu, và bảng thống kê độ chính xác chấm điểm tự động so với chấm thủ công.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống chấm thi tự động tại các kỳ thi lớn: Áp dụng thuật toán trích xuất số phách và chấm điểm tự động trong các kỳ thi Toeic chuẩn đầu ra và các kỳ thi trắc nghiệm khác tại Trường Đại học Phan Thiết trong vòng 1 năm tới nhằm tiết kiệm thời gian và nâng cao độ chính xác.

  2. Đào tạo cán bộ kỹ thuật và giảng viên sử dụng hệ thống: Tổ chức các khóa đào tạo chuyên sâu về vận hành và bảo trì hệ thống cho cán bộ chấm thi và giảng viên trong 3 tháng đầu triển khai để đảm bảo vận hành hiệu quả.

  3. Mở rộng ứng dụng công nghệ nhận dạng chữ số viết tay: Nghiên cứu và phát triển thêm các tính năng nhận dạng chữ viết tay cho các loại phiếu khảo sát, bài tập và tài liệu học tập khác nhằm đa dạng hóa ứng dụng công nghệ trong giáo dục.

  4. Cải tiến và cập nhật mô hình CNN định kỳ: Thu thập thêm dữ liệu thực tế và cập nhật mô hình CNN hàng năm để nâng cao độ chính xác và khả năng nhận dạng các biến thể chữ số viết tay mới, đảm bảo hệ thống luôn đáp ứng yêu cầu thực tế.

Đối tượng nên tham khảo luận văn

  1. Giảng viên và cán bộ quản lý giáo dục: Nắm bắt công nghệ chấm thi tự động để áp dụng vào quản lý kỳ thi, nâng cao hiệu quả và tính minh bạch trong đánh giá học tập.

  2. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Tham khảo phương pháp xây dựng mô hình CNN và kỹ thuật xử lý ảnh trong bài toán nhận dạng chữ số viết tay, phục vụ cho các nghiên cứu và ứng dụng thực tế.

  3. Trung tâm phát triển nguồn nhân lực và các tổ chức đào tạo: Áp dụng công nghệ nhận dạng chữ số viết tay và chấm điểm tự động để tối ưu hóa quy trình thi cử và đánh giá năng lực.

  4. Các đơn vị phát triển phần mềm giáo dục: Tham khảo giải pháp kỹ thuật và thuật toán để phát triển các sản phẩm phần mềm chấm thi tự động, nâng cao tính cạnh tranh và hiệu quả sản phẩm.

Câu hỏi thường gặp

  1. Thuật toán nhận dạng chữ số viết tay có thể áp dụng cho các loại phiếu khác ngoài trắc nghiệm không?
    Có thể áp dụng cho các phiếu khảo sát, bài tập viết tay với điều kiện dữ liệu được tiền xử lý phù hợp. Ví dụ, hệ thống có thể mở rộng để nhận dạng chữ viết tay trong các bài kiểm tra tự luận.

  2. Độ chính xác của hệ thống chấm điểm tự động có thể đạt bao nhiêu?
    Theo kết quả nghiên cứu, độ chính xác đạt trên 98%, tương đương hoặc cao hơn so với chấm thủ công, giúp giảm thiểu sai sót và tăng tính khách quan.

  3. Hệ thống có thể xử lý các chữ số viết tay bị mờ hoặc nhiễu không?
    Hệ thống sử dụng các kỹ thuật lọc mịn, nhị phân hóa và chỉnh nghiêng ảnh để giảm nhiễu, giúp nhận dạng chính xác ngay cả với ảnh có chất lượng không hoàn hảo.

  4. Thời gian xử lý mỗi phiếu trả lời là bao lâu?
    Trung bình dưới 2 giây cho mỗi phiếu, nhanh hơn rất nhiều so với chấm thủ công, giúp tiết kiệm thời gian đáng kể trong các kỳ thi lớn.

  5. Có thể tích hợp hệ thống vào các phần mềm quản lý thi hiện có không?
    Hệ thống được thiết kế với cấu trúc nhỏ gọn, dễ dàng tích hợp vào các phần mềm quản lý thi và hệ thống CNTT hiện hành của nhà trường.

Kết luận

  • Đã xây dựng thành công thuật toán trích xuất số phách trên phiếu trả lời trắc nghiệm sử dụng mạng Nơ-ron tích chập với độ chính xác nhận dạng trên 95%.
  • Hệ thống chấm điểm tự động giúp giảm thời gian chấm thi xuống dưới 2 giây mỗi phiếu, tiết kiệm đến 96% thời gian so với chấm thủ công.
  • Độ chính xác chấm điểm tự động đạt trên 98%, đảm bảo tính khách quan và giảm thiểu sai sót.
  • Giải pháp góp phần nâng cao hiệu quả quản lý kỳ thi, bảo mật dữ liệu và tạo điều kiện thuận lợi cho giảng viên và cán bộ chấm thi.
  • Đề xuất triển khai hệ thống trong các kỳ thi lớn, đào tạo cán bộ vận hành và cập nhật mô hình định kỳ để duy trì hiệu quả.

Hành động tiếp theo: Nhà trường và các đơn vị liên quan nên phối hợp triển khai thử nghiệm hệ thống trong kỳ thi sắp tới, đồng thời tổ chức đào tạo và thu thập phản hồi để hoàn thiện giải pháp. Các nhà nghiên cứu và phát triển phần mềm có thể tiếp tục mở rộng ứng dụng công nghệ nhận dạng chữ số viết tay trong giáo dục và các lĩnh vực liên quan.