## Tổng quan nghiên cứu
Trong bối cảnh đại dịch COVID-19 ảnh hưởng sâu rộng đến ngành giáo dục, việc chuyển đổi các thủ tục hành chính sang hình thức trực tuyến trở thành nhu cầu cấp thiết. Theo báo cáo của ngành, nhiều trường đại học đã triển khai xét tuyển và nhập học trực tuyến nhằm giảm thiểu tiếp xúc và đảm bảo an toàn cho sinh viên. Tuy nhiên, quá trình kiểm tra, đối chiếu hồ sơ sinh viên nhập học trực tuyến vẫn còn nhiều khó khăn do phụ thuộc vào thao tác thủ công của cán bộ tuyển sinh, dẫn đến mất nhiều thời gian và dễ xảy ra sai sót. Đặc biệt, việc kiểm tra giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi là khâu tốn nhiều công sức nhất.
Mục tiêu của nghiên cứu là xây dựng một phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản từ hình ảnh hồ sơ, nhằm tự động hóa và nâng cao độ chính xác trong quá trình kiểm tra. Nghiên cứu tập trung vào hai loại hồ sơ chính là giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi của sinh viên Trường Đại học Công nghệ Đồng Nai trong năm học 2021-2022. Phương pháp đề xuất sử dụng các mô hình học sâu tiên tiến để phát hiện và nhận dạng văn bản tiếng Việt trên hình ảnh hồ sơ, từ đó đối chiếu với dữ liệu gốc trên hệ thống.
Ý nghĩa của nghiên cứu được thể hiện qua việc giảm tải công tác kiểm tra hồ sơ, tiết kiệm thời gian và chi phí cho nhà trường, đồng thời nâng cao độ chính xác và tính minh bạch trong quy trình tuyển sinh trực tuyến. Kết quả nghiên cứu có thể áp dụng rộng rãi trong các trường đại học và các tổ chức giáo dục khác đang chuyển đổi số trong quản lý hồ sơ sinh viên.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình sau:
- **Nhận dạng ký tự quang học (OCR)**: Công nghệ chuyển đổi hình ảnh chứa văn bản thành dữ liệu văn bản số hóa, giúp tự động hóa việc trích xuất thông tin từ các tài liệu giấy hoặc ảnh chụp.
- **Mạng nơ-ron tích chập (CNN)**: Mô hình học sâu chuyên dụng cho xử lý ảnh, giúp phát hiện và phân loại các vùng chứa văn bản trong ảnh.
- **Mô hình phát hiện văn bản SAST (Single-Shot Arbitrarily-Shaped Text Detector)**: Sử dụng mạng FCN kết hợp khối chú ý theo ngữ cảnh (CAB) và phương pháp gán Point-to-Quad để phát hiện các vùng văn bản có hình dạng tùy ý, phù hợp với ảnh hồ sơ sinh viên có nhiều biến dạng.
- **Mô hình nhận dạng văn bản SRN (Semantic Reasoning Network)**: Mô hình học sâu có khả năng nhận dạng chính xác các ký tự trong vùng văn bản đã phát hiện, kết hợp lý luận ngữ nghĩa để nâng cao độ chính xác nhận dạng tiếng Việt.
- **Phương pháp đối sánh dữ liệu**: Sử dụng biểu thức chính tắc (Regular Expressions) và thư viện difflib để so sánh và đánh giá mức độ tương đồng giữa văn bản rút trích và dữ liệu gốc.
Các khái niệm chính bao gồm: phát hiện đối tượng, nhận dạng ký tự, mạng CNN, OCR, biểu thức chính tắc, và học sâu.
### Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ hồ sơ sinh viên nhập học năm 2021 của Trường Đại học Công nghệ Đồng Nai, gồm 1000 ảnh hồ sơ (800 ảnh dùng để huấn luyện, 200 ảnh dùng để kiểm thử). Ngoài ra, bộ dữ liệu VinAI với 2000 ảnh và 56000 chú thích cũng được sử dụng để tăng cường khả năng nhận dạng tiếng Việt.
Phương pháp nghiên cứu gồm các bước:
1. **Thu thập và phân loại dữ liệu**: Tổng hợp ảnh hồ sơ sinh viên, phân loại theo loại giấy tờ.
2. **Gán nhãn dữ liệu**: Sử dụng công cụ VOTT để đánh dấu vùng văn bản và gán nhãn chính xác.
3. **Tiền xử lý dữ liệu**: Chuẩn hóa ảnh, chuyển đổi định dạng phù hợp với mô hình PaddleOCR.
4. **Huấn luyện mô hình phát hiện văn bản SAST**: Xác định vùng chứa văn bản trên ảnh.
5. **Huấn luyện mô hình nhận dạng văn bản SRN**: Nhận dạng ký tự trong vùng văn bản đã phát hiện.
6. **Đối sánh kết quả rút trích với dữ liệu gốc**: Sử dụng biểu thức chính tắc và thuật toán so sánh chuỗi để đánh giá mức độ chính xác.
Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2021 đến 2022, tập trung tại Trường Đại học Công nghệ Đồng Nai.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình SAST đạt hiệu quả cao trong việc phát hiện vùng văn bản có hình dạng tùy ý, phù hợp với ảnh hồ sơ sinh viên có nhiều biến dạng do góc chụp và chất lượng ảnh không đồng nhất.
- Mô hình SRN cho kết quả nhận dạng văn bản tiếng Việt với độ chính xác vượt trội so với các mô hình OCR truyền thống, đặc biệt trong việc nhận dạng các ký tự có dấu và chữ viết tay.
- Tỷ lệ chính xác rút trích thông tin trên giấy chứng nhận tốt nghiệp tạm thời đạt khoảng 92%, trên giấy chứng nhận kết quả thi đạt khoảng 89%.
- So sánh với các công cụ OCR phổ biến như Tesseract và ABBYY FineReader, mô hình đề xuất cho kết quả chính xác hơn từ 5-10% trên dữ liệu tiếng Việt.
### Thảo luận kết quả
Nguyên nhân của kết quả tích cực là do mô hình SAST sử dụng khối chú ý theo ngữ cảnh (CAB) giúp xử lý tốt các vùng văn bản khó phân đoạn, đồng thời phương pháp gán Point-to-Quad cho phép mô tả chính xác hình dạng đa giác của văn bản cong hoặc nghiêng. Mô hình SRN kết hợp lý luận ngữ nghĩa giúp nhận dạng chính xác các ký tự tiếng Việt có dấu, khắc phục hạn chế của các mô hình OCR truyền thống.
So với các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh hoặc tiếng Trung, nghiên cứu này đã mở rộng ứng dụng OCR cho tiếng Việt với độ chính xác cao hơn, phù hợp với đặc thù hồ sơ sinh viên tại Việt Nam. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng thống kê tỷ lệ nhận dạng thành công trên từng loại giấy tờ.
Ý nghĩa của kết quả là giúp giảm thiểu sai sót trong kiểm tra hồ sơ, tiết kiệm thời gian cho cán bộ tuyển sinh và nâng cao hiệu quả quản lý hồ sơ sinh viên trong môi trường giáo dục hiện đại.
## Đề xuất và khuyến nghị
- **Triển khai hệ thống tự động kiểm tra hồ sơ**: Áp dụng mô hình SAST và SRN vào quy trình kiểm tra hồ sơ trực tuyến để giảm thời gian xử lý ít nhất 50% trong vòng 6 tháng tới, do phòng công nghệ thông tin trường đại học thực hiện.
- **Nâng cao chất lượng dữ liệu đầu vào**: Khuyến khích sinh viên tải lên ảnh hồ sơ có chất lượng cao, đúng chuẩn kích thước và góc chụp, nhằm tăng độ chính xác rút trích văn bản, thực hiện liên tục trong năm học.
- **Đào tạo cán bộ sử dụng công cụ hỗ trợ**: Tổ chức các khóa đào tạo cho cán bộ tuyển sinh về cách sử dụng hệ thống kiểm tra tự động, đảm bảo vận hành hiệu quả, trong vòng 3 tháng đầu năm học.
- **Mở rộng ứng dụng cho các loại hồ sơ khác**: Nghiên cứu và phát triển thêm mô hình nhận dạng cho các loại giấy tờ khác như học bạ, giấy khai sinh, nhằm hoàn thiện quy trình số hóa hồ sơ sinh viên trong 1-2 năm tới.
- **Cập nhật và bảo trì mô hình định kỳ**: Thường xuyên cập nhật dữ liệu huấn luyện và tinh chỉnh mô hình để duy trì độ chính xác trên 90%, do đội ngũ kỹ thuật thực hiện hàng quý.
## Đối tượng nên tham khảo luận văn
- **Cán bộ tuyển sinh và quản lý giáo dục**: Nắm bắt công nghệ mới giúp tự động hóa quy trình kiểm tra hồ sơ, giảm thiểu sai sót và tăng hiệu quả công việc.
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Tham khảo phương pháp ứng dụng học sâu trong xử lý ảnh và nhận dạng văn bản tiếng Việt.
- **Các trường đại học và cơ sở đào tạo**: Áp dụng mô hình để nâng cao chất lượng quản lý hồ sơ sinh viên, đặc biệt trong bối cảnh chuyển đổi số.
- **Doanh nghiệp phát triển phần mềm giáo dục**: Tìm hiểu công nghệ OCR và mô hình học sâu để phát triển các sản phẩm hỗ trợ quản lý giáo dục và tuyển sinh trực tuyến.
## Câu hỏi thường gặp
1. **Phương pháp rút trích văn bản này có áp dụng cho các loại giấy tờ khác ngoài hồ sơ sinh viên không?**
Phương pháp có thể mở rộng cho các loại giấy tờ khác như học bạ, giấy khai sinh, tuy nhiên cần thu thập và huấn luyện thêm dữ liệu phù hợp để đảm bảo độ chính xác.
2. **Mô hình có thể xử lý ảnh hồ sơ có chất lượng kém hoặc góc chụp không chuẩn như thế nào?**
Mô hình SAST với khối chú ý theo ngữ cảnh giúp phát hiện văn bản trong ảnh có biến dạng, còn SRN hỗ trợ nhận dạng chính xác ngay cả khi ảnh bị nghiêng hoặc mờ, tuy nhiên chất lượng ảnh tốt vẫn giúp nâng cao hiệu quả.
3. **Tỷ lệ chính xác của mô hình so với các công cụ OCR phổ biến là bao nhiêu?**
Mô hình đề xuất đạt độ chính xác khoảng 90% trở lên, cao hơn từ 5-10% so với các công cụ như Tesseract và ABBYY FineReader trên dữ liệu tiếng Việt.
4. **Quy trình huấn luyện mô hình được thực hiện như thế nào?**
Dữ liệu được thu thập từ hồ sơ sinh viên và bộ dữ liệu VinAI, được gán nhãn bằng công cụ VOTT, sau đó chia thành tập huấn luyện và kiểm thử, huấn luyện mô hình SAST và SRN trên nền tảng PaddleOCR.
5. **Làm thế nào để đối sánh kết quả rút trích với dữ liệu gốc?**
Sử dụng biểu thức chính tắc để lọc thông tin định dạng cố định như số báo danh, CMND/CCCD, ngày sinh, kết hợp thư viện difflib để so sánh chuỗi và đánh giá mức độ tương đồng, từ đó xác định mức độ chấp nhận hồ sơ.
## Kết luận
- Đã xây dựng thành công phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản tiếng Việt từ hình ảnh hồ sơ nhập học.
- Mô hình kết hợp SAST và SRN cho hiệu quả phát hiện và nhận dạng văn bản cao, phù hợp với đặc thù hồ sơ sinh viên.
- Kết quả thực nghiệm trên 1000 ảnh hồ sơ sinh viên và bộ dữ liệu VinAI cho thấy độ chính xác rút trích đạt trên 90%.
- Phương pháp giúp giảm thiểu thời gian và sai sót trong kiểm tra hồ sơ, nâng cao hiệu quả quản lý tuyển sinh trực tuyến.
- Đề xuất triển khai hệ thống tự động, mở rộng ứng dụng và duy trì cập nhật mô hình trong các giai đoạn tiếp theo để nâng cao hiệu quả sử dụng.
Hành động tiếp theo là triển khai thử nghiệm hệ thống tại Trường Đại học Công nghệ Đồng Nai và thu thập phản hồi để hoàn thiện mô hình, đồng thời nghiên cứu mở rộng cho các loại hồ sơ khác. Các tổ chức giáo dục và nhà phát triển phần mềm được khuyến khích áp dụng và phát triển dựa trên kết quả nghiên cứu này nhằm thúc đẩy chuyển đổi số trong giáo dục.