Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản luận văn thạc sĩ công nghệ thông tin

Luận văn thạc sĩ nghiên cứu Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản luận văn thạc sĩ, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Trường đại học

Trường Đại Học Lạc Hồng

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan đề tài

1.2. Ý nghĩa khoa học và thực tiễn của đề tài

1.2.1. Tính khoa học

1.2.2. Tính ứng dụng

1.3. Mục tiêu của luận văn

1.4. Phát biểu bài toán

1.5. Phạm vi bài toán

1.6. Mô tả chung về hệ thống

1.7. Đóng góp của luận văn

1.8. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Giới thiệu

2.2. Một số cơ sở lý thuyết

2.2.1. Nhận dạng đối tượng

2.2.2. Phát hiện và nhận dạng ký tự

2.2.3. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN)

2.3. Một số công trình nghiên cứu liên quan

2.3.1. Một số mô hình phát hiện đối tượng

2.3.2. Một số công cụ nhận dạng ký tự quang học OCR (Optical Character Recognition)

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Trình phân đoạn văn bản

3.2. Trình nhận dạng văn bản

3.3. Mô hình rút trích văn bản

3.4. Phương pháp đối sánh

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng dữ liệu huấn luyện

4.2. Đánh dấu dữ liệu

4.3. Tiền xử lý dữ liệu

4.4. Huấn luyện dữ liệu nhận dạng văn bản với Paddle-OCR

4.5. Cài đặt chương trình ứng dụng demo

4.6. Môi trường và ngôn ngữ cài đặt

4.7. Kết quả thực nghiệm

4.8. Đối sánh với dữ liệu gốc

4.9. So sánh mô hình đề xuất với các phương pháp OCR khác

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Phương Pháp Hỗ Trợ Kiểm Tra Hồ Sơ Sinh Viên

Đại dịch COVID-19 đã thúc đẩy các trường đại học áp dụng phương pháp xét tuyển và nhập học trực tuyến. Sau khi trúng tuyển, sinh viên nộp hồ sơ trực tuyến, và quá trình kiểm tra, đối chiếu hồ sơ trở nên khó khăn. Hồ sơ điện tử bao gồm giấy chứng nhận tốt nghiệp tạm thời, giấy chứng nhận kết quả thi, giấy khai sinh, học bạ, CMND/CCCD… Việc kiểm tra thủ công tốn thời gian và dễ xảy ra sai sót. Sự phát triển của công nghệ thông tin và trí tuệ nhân tạo mở ra hướng giải quyết bằng cách rút trích dữ liệu từ hình ảnh văn bản. Luận văn này tập trung vào xây dựng mô hình rút trích thông tin từ hồ sơ trực tuyến của sinh viên, tự động kiểm tra và so sánh với dữ liệu có sẵn, giúp giảm tải công tác kiểm tra, tăng tính chính xác và tiết kiệm thời gian.

1.1. Tầm Quan Trọng Của Kiểm Tra Hồ Sơ Sinh Viên Trực Tuyến

Kiểm tra hồ sơ sinh viên trực tuyến là một bước quan trọng trong quy trình tuyển sinh hiện đại. Nó đảm bảo tính chính xác và đầy đủ của thông tin, đồng thời giúp nhà trường quản lý dữ liệu hiệu quả hơn. Việc áp dụng các phương pháp tự động hóa, như trích xuất văn bản, có thể giảm thiểu sai sót và tiết kiệm thời gian cho cán bộ tuyển sinh. Theo tài liệu gốc, việc kiểm tra thủ công phụ thuộc hoàn toàn vào cán bộ kiểm tra, dẫn đến tốn thời gian và dễ xảy ra sai sót.

1.2. Các Loại Hồ Sơ Sinh Viên Cần Kiểm Tra

Hồ sơ sinh viên bao gồm nhiều loại giấy tờ quan trọng như giấy chứng nhận tốt nghiệp tạm thời, giấy chứng nhận kết quả thi, giấy khai sinh, học bạ và CMND/CCCD. Trong đó, giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi là những giấy tờ tiên quyết để xác nhận sinh viên đủ điều kiện trúng tuyển. Việc kiểm tra tính xác thực và khớp thông tin trên các giấy tờ này là vô cùng quan trọng. Các thông tin này cần được đánh giá một cách cẩn thận để đảm bảo tính hợp lệ của hồ sơ.

II. Thách Thức Trong Kiểm Tra Hồ Sơ Sinh Viên Bằng Trích Xuất

Việc rút trích văn bản từ hình ảnh hồ sơ sinh viên gặp nhiều thách thức do chất lượng hình ảnh không đồng nhất, góc chụp không chuẩn. Các mô hình hiện tại thường hỗ trợ tiếng Anh, tiếng Trung, tiếng Nhật, nhưng chưa hoàn thiện cho tiếng Việt. Luận văn này tập trung vào nghiên cứu, đề xuất và sử dụng mô hình hỗ trợ rút trích thông tin từ hồ sơ sinh viên, tự động kiểm tra và so sánh với dữ liệu có sẵn. Mục tiêu là giảm tải công tác kiểm tra, tăng tốc độ, độ chính xác và tiết kiệm thời gian. Một trong những thách thức lớn nhất là hình ảnh hồ sơ do người dùng tải lên, chất lượng không đồng đều.

2.1. Vấn Đề Chất Lượng Hình Ảnh Hồ Sơ Sinh Viên

Chất lượng hình ảnh hồ sơ sinh viên không đồng nhất là một thách thức lớn. Hình ảnh có thể bị mờ, méo, hoặc có độ phân giải thấp, gây khó khăn cho việc trích xuất văn bản. Góc chụp không chuẩn cũng làm ảnh hưởng đến khả năng nhận dạng ký tự. Cần có các phương pháp tiền xử lý ảnh hiệu quả để cải thiện chất lượng hình ảnh trước khi thực hiện trích xuất thông tin.

2.2. Hạn Chế Về Ngôn Ngữ Tiếng Việt Trong OCR

Nhiều mô hình OCR hiện tại chưa hỗ trợ tốt cho tiếng Việt, hoặc chỉ ở mức độ cơ bản. Điều này gây khó khăn cho việc nhận dạng văn bản tiếng Việt trong hồ sơ sinh viên. Cần có các nghiên cứu và phát triển các mô hình OCR chuyên biệt cho tiếng Việt để nâng cao độ chính xác và hiệu quả. Theo tài liệu gốc, nhiều mô hình chỉ hỗ trợ tiếng Anh, tiếng Trung, tiếng Nhật, gây khó khăn cho việc xử lý hồ sơ tiếng Việt.

2.3. Khó Khăn Trong Việc Đối Sánh Dữ Liệu Trích Xuất

Việc đối sánh dữ liệu trích xuất từ hình ảnh với dữ liệu có sẵn trên hệ thống cũng gặp nhiều khó khăn. Dữ liệu có thể không khớp hoàn toàn do lỗi nhận dạng, sai sót trong quá trình nhập liệu, hoặc sự khác biệt về định dạng. Cần có các thuật toán đối sánh thông minh để xử lý các trường hợp này và đưa ra kết quả chính xác nhất.

III. Phương Pháp Rút Trích Văn Bản Hỗ Trợ Kiểm Tra Hồ Sơ

Luận văn nghiên cứu mô hình phát hiện (detection) kết hợp với nhận dạng (recognition) để rút trích thông tin từ văn bản trên ảnh. Nghiên cứu cách áp dụng cho văn bản tiếng Việt và xử lý ảnh với góc chụp khác nhau. Áp dụng mô hình cho bài toán kiểm tra hồ sơ sinh viên Trường Đại học Công nghệ Đồng Nai, đưa ra mức độ chấp nhận của nội dung văn bản so với dữ liệu gốc. Mô hình này giúp giải quyết bài toán tự động hóa quy trình kiểm tra hồ sơ.

3.1. Mô Hình Phát Hiện Và Nhận Dạng Văn Bản OCR

Mô hình OCR là trái tim của hệ thống trích xuất văn bản. Nó bao gồm hai giai đoạn chính: phát hiện văn bản (text detection) và nhận dạng văn bản (text recognition). Giai đoạn phát hiện văn bản xác định vị trí của các vùng chứa văn bản trong hình ảnh. Giai đoạn nhận dạng văn bản chuyển đổi các vùng văn bản này thành văn bản dạng số. Các mô hình học máy (Machine Learning) và xử lý ngôn ngữ tự nhiên (NLP) được sử dụng để xây dựng các mô hình OCR hiệu quả.

3.2. Xử Lý Ảnh Với Góc Chụp Và Chất Lượng Khác Nhau

Để xử lý ảnh với góc chụp và chất lượng khác nhau, cần áp dụng các kỹ thuật tiền xử lý ảnh như xoay ảnh, điều chỉnh độ sáng, và tăng cường độ tương phản. Các kỹ thuật này giúp cải thiện chất lượng hình ảnh và tăng độ chính xác của quá trình trích xuất văn bản. Ngoài ra, các mô hình học sâu có khả năng học các đặc trưng invariant với góc nhìn và chất lượng ảnh, giúp mô hình hoạt động tốt hơn trong các điều kiện khác nhau.

3.3. So Sánh Và Đánh Giá Mức Độ Chấp Nhận Của Dữ Liệu

Sau khi trích xuất văn bản, cần so sánh dữ liệu trích xuất với dữ liệu gốc trên hệ thống. Các thuật toán so sánh chuỗi và đối sánh mẫu được sử dụng để xác định mức độ tương đồng giữa hai tập dữ liệu. Mức độ chấp nhận được tính toán dựa trên tỷ lệ phần trăm các ký tự hoặc từ khớp nhau. Ngưỡng chấp nhận có thể được điều chỉnh để phù hợp với yêu cầu cụ thể của từng loại hồ sơ.

IV. Thực Nghiệm Và Đánh Giá Hiệu Quả Phương Pháp Kiểm Tra

Luận văn thực hiện việc rút trích thông tin trên giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi của sinh viên Trường Đại học Công nghệ Đồng Nai, so sánh với dữ liệu trên hệ thống. Nghiên cứu các phương pháp liên quan đến phát hiện đối tượng, giúp nhận dạng văn bản tốt hơn. So sánh hiệu năng của các mô hình và thử nghiệm trên tiếng Việt. Gán nhãn và tạo thêm dữ liệu văn bản tiếng Việt để huấn luyện. Dữ liệu thu thập từ hồ sơ sinh viên năm học 2021-2022.

4.1. Xây Dựng Dữ Liệu Huấn Luyện Cho Mô Hình

Việc xây dựng dữ liệu huấn luyện là một bước quan trọng để đảm bảo hiệu quả của mô hình. Dữ liệu huấn luyện bao gồm các hình ảnh hồ sơ sinh viên đã được gán nhãn, chỉ ra vị trí của các vùng chứa văn bản và nội dung của chúng. Dữ liệu cần đa dạng về chất lượng hình ảnh, góc chụp, và phông chữ để mô hình có thể học được các đặc trưng tổng quát. Theo tài liệu gốc, dữ liệu được thu thập từ hồ sơ sinh viên năm học 2021-2022 của trường Đại học Công nghệ Đồng Nai.

4.2. Huấn Luyện Mô Hình Phát Hiện Và Nhận Dạng Văn Bản

Sau khi có dữ liệu huấn luyện, mô hình phát hiện và nhận dạng văn bản được huấn luyện. Quá trình huấn luyện bao gồm việc điều chỉnh các tham số của mô hình để tối ưu hóa hiệu suất trên dữ liệu huấn luyện. Các kỹ thuật như học sâu và mạng nơ-ron tích chập (CNN) được sử dụng để xây dựng các mô hình mạnh mẽ và chính xác.

4.3. Đánh Giá Hiệu Quả Của Mô Hình Trên Dữ Liệu Thực Tế

Sau khi huấn luyện, mô hình được đánh giá trên dữ liệu thực tế để đo lường hiệu quả của nó. Các chỉ số đánh giá như độ chính xác, độRecall, và F1-score được sử dụng để đánh giá khả năng của mô hình trong việc trích xuất văn bản chính xác từ hình ảnh hồ sơ sinh viên. Kết quả đánh giá giúp xác định các điểm mạnh và điểm yếu của mô hình, từ đó đưa ra các cải tiến phù hợp.

V. Kết Luận Và Hướng Phát Triển Phương Pháp Kiểm Tra

Luận văn nghiên cứu các phương pháp liên quan đến phát hiện đối tượng, giúp cho việc nhận dạng văn bản tốt hơn. Đồng thời, luận văn cũng nghiên cứu các phương pháp nhận dạng để có thể rút trích được thông tin trong văn bản. Từ các phương pháp liên quan, học viên tiến hành so sánh hiệu năng của các mô hình và tiến hành thử nghiệm trên tiếng Việt. Ngoài ra, học viên tiến hành gán nhãn và tạo thêm dữ liệu văn bản tiếng Việt để có thể phục vụ cho giai đoạn huấn luyện.

5.1. Tóm Tắt Kết Quả Nghiên Cứu Về Trích Xuất Văn Bản

Nghiên cứu đã thành công trong việc xây dựng và đánh giá một phương pháp trích xuất văn bản hiệu quả cho hồ sơ sinh viên. Phương pháp này kết hợp các kỹ thuật phát hiện và nhận dạng văn bản tiên tiến, đồng thời xử lý các thách thức liên quan đến chất lượng hình ảnh và ngôn ngữ tiếng Việt. Kết quả cho thấy phương pháp này có tiềm năng lớn trong việc tự động hóa quy trình kiểm tra hồ sơ sinh viên.

5.2. Hướng Phát Triển Của Phương Pháp Trong Tương Lai

Trong tương lai, phương pháp này có thể được phát triển theo nhiều hướng khác nhau. Một hướng là cải thiện khả năng xử lý các loại hồ sơ khác nhau, như giấy khai sinh, học bạ, và CMND/CCCD. Một hướng khác là tích hợp phương pháp này với các hệ thống quản lý hồ sơ sinh viên hiện có. Ngoài ra, có thể nghiên cứu các kỹ thuật khai phá dữ liệu văn bản để phân tích văn bản và trích xuất thông tin hữu ích từ hồ sơ sinh viên.

08/06/2025

Bạn đang xem trước tài liệu:

Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản luận văn thạc sĩ công nghệ thông tin

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh đại dịch COVID-19 ảnh hưởng sâu rộng đến ngành giáo dục, việc chuyển đổi các thủ tục hành chính sang hình thức trực tuyến trở thành nhu cầu cấp thiết. Theo báo cáo của ngành, nhiều trường đại học đã triển khai xét tuyển và nhập học trực tuyến nhằm giảm thiểu tiếp xúc và đảm bảo an toàn cho sinh viên. Tuy nhiên, quá trình kiểm tra, đối chiếu hồ sơ sinh viên nhập học trực tuyến vẫn còn nhiều khó khăn do phụ thuộc vào thao tác thủ công của cán bộ tuyển sinh, dẫn đến mất nhiều thời gian và dễ xảy ra sai sót. Đặc biệt, việc kiểm tra giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi là khâu tốn nhiều công sức nhất.

Mục tiêu của nghiên cứu là xây dựng một phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản từ hình ảnh hồ sơ, nhằm tự động hóa và nâng cao độ chính xác trong quá trình kiểm tra. Nghiên cứu tập trung vào hai loại hồ sơ chính là giấy chứng nhận tốt nghiệp tạm thời và giấy chứng nhận kết quả thi của sinh viên Trường Đại học Công nghệ Đồng Nai trong năm học 2021-2022. Phương pháp đề xuất sử dụng các mô hình học sâu tiên tiến để phát hiện và nhận dạng văn bản tiếng Việt trên hình ảnh hồ sơ, từ đó đối chiếu với dữ liệu gốc trên hệ thống.

Ý nghĩa của nghiên cứu được thể hiện qua việc giảm tải công tác kiểm tra hồ sơ, tiết kiệm thời gian và chi phí cho nhà trường, đồng thời nâng cao độ chính xác và tính minh bạch trong quy trình tuyển sinh trực tuyến. Kết quả nghiên cứu có thể áp dụng rộng rãi trong các trường đại học và các tổ chức giáo dục khác đang chuyển đổi số trong quản lý hồ sơ sinh viên.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

- **Nhận dạng ký tự quang học (OCR)**: Công nghệ chuyển đổi hình ảnh chứa văn bản thành dữ liệu văn bản số hóa, giúp tự động hóa việc trích xuất thông tin từ các tài liệu giấy hoặc ảnh chụp.
- **Mạng nơ-ron tích chập (CNN)**: Mô hình học sâu chuyên dụng cho xử lý ảnh, giúp phát hiện và phân loại các vùng chứa văn bản trong ảnh.
- **Mô hình phát hiện văn bản SAST (Single-Shot Arbitrarily-Shaped Text Detector)**: Sử dụng mạng FCN kết hợp khối chú ý theo ngữ cảnh (CAB) và phương pháp gán Point-to-Quad để phát hiện các vùng văn bản có hình dạng tùy ý, phù hợp với ảnh hồ sơ sinh viên có nhiều biến dạng.
- **Mô hình nhận dạng văn bản SRN (Semantic Reasoning Network)**: Mô hình học sâu có khả năng nhận dạng chính xác các ký tự trong vùng văn bản đã phát hiện, kết hợp lý luận ngữ nghĩa để nâng cao độ chính xác nhận dạng tiếng Việt.
- **Phương pháp đối sánh dữ liệu**: Sử dụng biểu thức chính tắc (Regular Expressions) và thư viện difflib để so sánh và đánh giá mức độ tương đồng giữa văn bản rút trích và dữ liệu gốc.

Các khái niệm chính bao gồm: phát hiện đối tượng, nhận dạng ký tự, mạng CNN, OCR, biểu thức chính tắc, và học sâu.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ hồ sơ sinh viên nhập học năm 2021 của Trường Đại học Công nghệ Đồng Nai, gồm 1000 ảnh hồ sơ (800 ảnh dùng để huấn luyện, 200 ảnh dùng để kiểm thử). Ngoài ra, bộ dữ liệu VinAI với 2000 ảnh và 56000 chú thích cũng được sử dụng để tăng cường khả năng nhận dạng tiếng Việt.

Phương pháp nghiên cứu gồm các bước:

1. **Thu thập và phân loại dữ liệu**: Tổng hợp ảnh hồ sơ sinh viên, phân loại theo loại giấy tờ.
2. **Gán nhãn dữ liệu**: Sử dụng công cụ VOTT để đánh dấu vùng văn bản và gán nhãn chính xác.
3. **Tiền xử lý dữ liệu**: Chuẩn hóa ảnh, chuyển đổi định dạng phù hợp với mô hình PaddleOCR.
4. **Huấn luyện mô hình phát hiện văn bản SAST**: Xác định vùng chứa văn bản trên ảnh.
5. **Huấn luyện mô hình nhận dạng văn bản SRN**: Nhận dạng ký tự trong vùng văn bản đã phát hiện.
6. **Đối sánh kết quả rút trích với dữ liệu gốc**: Sử dụng biểu thức chính tắc và thuật toán so sánh chuỗi để đánh giá mức độ chính xác.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2021 đến 2022, tập trung tại Trường Đại học Công nghệ Đồng Nai.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình SAST đạt hiệu quả cao trong việc phát hiện vùng văn bản có hình dạng tùy ý, phù hợp với ảnh hồ sơ sinh viên có nhiều biến dạng do góc chụp và chất lượng ảnh không đồng nhất.
- Mô hình SRN cho kết quả nhận dạng văn bản tiếng Việt với độ chính xác vượt trội so với các mô hình OCR truyền thống, đặc biệt trong việc nhận dạng các ký tự có dấu và chữ viết tay.
- Tỷ lệ chính xác rút trích thông tin trên giấy chứng nhận tốt nghiệp tạm thời đạt khoảng 92%, trên giấy chứng nhận kết quả thi đạt khoảng 89%.
- So sánh với các công cụ OCR phổ biến như Tesseract và ABBYY FineReader, mô hình đề xuất cho kết quả chính xác hơn từ 5-10% trên dữ liệu tiếng Việt.

### Thảo luận kết quả

Nguyên nhân của kết quả tích cực là do mô hình SAST sử dụng khối chú ý theo ngữ cảnh (CAB) giúp xử lý tốt các vùng văn bản khó phân đoạn, đồng thời phương pháp gán Point-to-Quad cho phép mô tả chính xác hình dạng đa giác của văn bản cong hoặc nghiêng. Mô hình SRN kết hợp lý luận ngữ nghĩa giúp nhận dạng chính xác các ký tự tiếng Việt có dấu, khắc phục hạn chế của các mô hình OCR truyền thống.

So với các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh hoặc tiếng Trung, nghiên cứu này đã mở rộng ứng dụng OCR cho tiếng Việt với độ chính xác cao hơn, phù hợp với đặc thù hồ sơ sinh viên tại Việt Nam. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng thống kê tỷ lệ nhận dạng thành công trên từng loại giấy tờ.

Ý nghĩa của kết quả là giúp giảm thiểu sai sót trong kiểm tra hồ sơ, tiết kiệm thời gian cho cán bộ tuyển sinh và nâng cao hiệu quả quản lý hồ sơ sinh viên trong môi trường giáo dục hiện đại.

## Đề xuất và khuyến nghị

- **Triển khai hệ thống tự động kiểm tra hồ sơ**: Áp dụng mô hình SAST và SRN vào quy trình kiểm tra hồ sơ trực tuyến để giảm thời gian xử lý ít nhất 50% trong vòng 6 tháng tới, do phòng công nghệ thông tin trường đại học thực hiện.
- **Nâng cao chất lượng dữ liệu đầu vào**: Khuyến khích sinh viên tải lên ảnh hồ sơ có chất lượng cao, đúng chuẩn kích thước và góc chụp, nhằm tăng độ chính xác rút trích văn bản, thực hiện liên tục trong năm học.
- **Đào tạo cán bộ sử dụng công cụ hỗ trợ**: Tổ chức các khóa đào tạo cho cán bộ tuyển sinh về cách sử dụng hệ thống kiểm tra tự động, đảm bảo vận hành hiệu quả, trong vòng 3 tháng đầu năm học.
- **Mở rộng ứng dụng cho các loại hồ sơ khác**: Nghiên cứu và phát triển thêm mô hình nhận dạng cho các loại giấy tờ khác như học bạ, giấy khai sinh, nhằm hoàn thiện quy trình số hóa hồ sơ sinh viên trong 1-2 năm tới.
- **Cập nhật và bảo trì mô hình định kỳ**: Thường xuyên cập nhật dữ liệu huấn luyện và tinh chỉnh mô hình để duy trì độ chính xác trên 90%, do đội ngũ kỹ thuật thực hiện hàng quý.

## Đối tượng nên tham khảo luận văn

- **Cán bộ tuyển sinh và quản lý giáo dục**: Nắm bắt công nghệ mới giúp tự động hóa quy trình kiểm tra hồ sơ, giảm thiểu sai sót và tăng hiệu quả công việc.
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Tham khảo phương pháp ứng dụng học sâu trong xử lý ảnh và nhận dạng văn bản tiếng Việt.
- **Các trường đại học và cơ sở đào tạo**: Áp dụng mô hình để nâng cao chất lượng quản lý hồ sơ sinh viên, đặc biệt trong bối cảnh chuyển đổi số.
- **Doanh nghiệp phát triển phần mềm giáo dục**: Tìm hiểu công nghệ OCR và mô hình học sâu để phát triển các sản phẩm hỗ trợ quản lý giáo dục và tuyển sinh trực tuyến.

## Câu hỏi thường gặp

1. **Phương pháp rút trích văn bản này có áp dụng cho các loại giấy tờ khác ngoài hồ sơ sinh viên không?**  
Phương pháp có thể mở rộng cho các loại giấy tờ khác như học bạ, giấy khai sinh, tuy nhiên cần thu thập và huấn luyện thêm dữ liệu phù hợp để đảm bảo độ chính xác.

2. **Mô hình có thể xử lý ảnh hồ sơ có chất lượng kém hoặc góc chụp không chuẩn như thế nào?**  
Mô hình SAST với khối chú ý theo ngữ cảnh giúp phát hiện văn bản trong ảnh có biến dạng, còn SRN hỗ trợ nhận dạng chính xác ngay cả khi ảnh bị nghiêng hoặc mờ, tuy nhiên chất lượng ảnh tốt vẫn giúp nâng cao hiệu quả.

3. **Tỷ lệ chính xác của mô hình so với các công cụ OCR phổ biến là bao nhiêu?**  
Mô hình đề xuất đạt độ chính xác khoảng 90% trở lên, cao hơn từ 5-10% so với các công cụ như Tesseract và ABBYY FineReader trên dữ liệu tiếng Việt.

4. **Quy trình huấn luyện mô hình được thực hiện như thế nào?**  
Dữ liệu được thu thập từ hồ sơ sinh viên và bộ dữ liệu VinAI, được gán nhãn bằng công cụ VOTT, sau đó chia thành tập huấn luyện và kiểm thử, huấn luyện mô hình SAST và SRN trên nền tảng PaddleOCR.

5. **Làm thế nào để đối sánh kết quả rút trích với dữ liệu gốc?**  
Sử dụng biểu thức chính tắc để lọc thông tin định dạng cố định như số báo danh, CMND/CCCD, ngày sinh, kết hợp thư viện difflib để so sánh chuỗi và đánh giá mức độ tương đồng, từ đó xác định mức độ chấp nhận hồ sơ.

## Kết luận

- Đã xây dựng thành công phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản tiếng Việt từ hình ảnh hồ sơ nhập học.  
- Mô hình kết hợp SAST và SRN cho hiệu quả phát hiện và nhận dạng văn bản cao, phù hợp với đặc thù hồ sơ sinh viên.  
- Kết quả thực nghiệm trên 1000 ảnh hồ sơ sinh viên và bộ dữ liệu VinAI cho thấy độ chính xác rút trích đạt trên 90%.  
- Phương pháp giúp giảm thiểu thời gian và sai sót trong kiểm tra hồ sơ, nâng cao hiệu quả quản lý tuyển sinh trực tuyến.  
- Đề xuất triển khai hệ thống tự động, mở rộng ứng dụng và duy trì cập nhật mô hình trong các giai đoạn tiếp theo để nâng cao hiệu quả sử dụng.

Hành động tiếp theo là triển khai thử nghiệm hệ thống tại Trường Đại học Công nghệ Đồng Nai và thu thập phản hồi để hoàn thiện mô hình, đồng thời nghiên cứu mở rộng cho các loại hồ sơ khác. Các tổ chức giáo dục và nhà phát triển phần mềm được khuyến khích áp dụng và phát triển dựa trên kết quả nghiên cứu này nhằm thúc đẩy chuyển đổi số trong giáo dục.

Trích đoạn nội dung tài liệu

Chương 1: Trình bày tổng quan về đề tài của luận văn. - Chương 2: Trình bày chi tiết về bài toán, cơ sở lý thuyết quan trọng và một số nghiên cứu liên quan đến đề tài của luận văn. - Chương 3: Mô tả chi tiết về phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản. - Chương 4: Cài đặt hệ thống, thử nghiệm và đánh giá bộ dữ liệu của Trường Đại học Công nghệ Đồng Nai.

- Chương 5: Kết luận. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan 2.1 Giới thiệu Trong chương này, học viên sẽ giới thiệu về cơ sở lý thuyết các phương pháp được sử dụng trong luận văn. Đầu tiên, học viên sẽ giới thiệu các bước trong việc phát hiện và nhận dạng đối tượng. Sau đó, học viên sẽ đi tìm hiểu tổng quan, chi tiết về các công trình nghiên cứu trước đây cũng như phân tích các công trình nghiên cứu liên quan.

Nội dung chương sẽ được chia thành hai phần: Phần đầu nói về một số cơ sở lý thuyết về phát hiện và nhận dạng đối tượng. Phần thứ hai sẽ trình bày tổng quan các công trình nghiên cứu liên quan, từ đó tạo tiền đề cho việc xây dựng mô hình rút trích thông tin từ văn bản.2 Một số cơ sở lý thuyết 2. Nhận dạng đối tượng Ngày nay các bài toán về nhận dạng đã và đang được ứng dụng rất nhiều trong thực tế, thường được tập trung vào một số kiểu như: Nhận dạng đối tượng, nhận dạng âm thanh, nhận dạng văn bản. Một bài toán nhận dạng thông thường sẽ trải qua các bước sau [1]: Dữ liệu (ảnh, video) Tiền xử lý Huấn luyện Hậu xử lý Kết quả Hình 2.

Sơ đồ tổng quát của một hệ thống nhận dạng. 6 Tiền xử lý: Dữ liệu hình ảnh, video đầu vào thường là các tệp thu nhận từ máy quét, camera, các thiết bị ghi hình hay thiết bị thu hình khác. Hình ảnh có thể bị nhiễu (mất góc, nghiêng lệch, tối hoặc quá sáng…), nguyên nhân do điều kiện thu hạn chế. Để là tăng độ chính xác của lớp nhận dạng, chúng ta cần phải có quá trình tiền xử lý.

Quá trình này có thể bao gồm các chức năng: Nhị phân hóa ảnh, lọc nhiễu, xoay ảnh. Huấn luyện/Nhận dạng: Đây là giai đoạn quan trọng nhất, việc phân lớp, lựa chọn mô hình, thuật toán, sẽ quyết định đến tốc độ xử lý, độ chính xác của hệ thống. Hậu xử lý: Là giai đoạn nhằm tái hiện, ghép nối các dữ liệu đã huấn luyện thành các thông tin cụ thể để cho ra kết quả. Bên cạnh đó, việc phát hiện ra các lỗi nhận dạng sai, sẽ đóng vai trò vào việc điều chỉnh các ràng buộc, trọng số nhằm nâng cao chất lượng nhận dạng.

Phát hiện và nhận dạng ký tự Nhận dạng ký tự quang học (Optical Character Recognition - OCR) [2] là công nghệ nhận dạng chữ cái, chữ số, ký hiệu trên một file ảnh chụp hoặc pdf, sau đó trích xuất các trường thông tin trên hình ảnh và lưu trữ dưới dạng text nhằm số hóa tài liệu, cụ thể là các thông tin, dữ liệu trên ảnh chụp đó thành văn bản. Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số. Bài toán phát hiện và nhận dạng ký tự đã được nghiên cứu từ lâu, năm 1951 M.

Sheppard đã phát minh ra robot GISMO có thể đọc các ký hiệu âm nhạc cũng như các từ trên một trang in, vào những năm 1970 công ty Kurzweil Computer Products Inc của Mỹ đã cho ra đời hệ thống phông chữ Omni đầu tiên trên thế giới. Công nghệ OCR có khả năng nhận dạng phông chữ này. 7 Ngay lập tức, công nghệ OCR đã được tích hợp với công nghệ tổng hợp giọng nói (giọng máy), giúp máy có khả năng đọc hiểu văn bản. Ngoài sự đa dạng trong cách thức nhận dạng, OCR còn đa dạng về cách dùng, có thể được chia thành hai cách [3], dùng online và dùng offline như sau: - Nhận dạng offline: nhận dạng các văn bản in ra giấy hoặc các bản viết tay và nó đòi hỏi quá trình scan trên mặt giấy hoặc mặt vật liệu có chữ.

Cách này thường đòi hỏi con người phải thực hiện một số thao tác như phân loại, lưu trữ và chỉnh sửa văn bản trước khi scan. - Nhận dạng online: thường chỉ được dùng cho nhận dạng chữ viết tay được lưu trữ ở dạng kỹ thuật số, chúng ta thường dùng một loại bút đặc biệt (nhưng do sự thành công của các nghiên cứu gần đây mà giờ đã có các thiết bị khác thay thế). Việc nhận dạng online nhằm giúp con người giao tiếp với máy tính tốt hơn bằng cách viết tay thay vì gõ phím. Bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường, sau khi phát hiện được vùng ký tự, cần nhận dạng vùng ký tự đó.

Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các ký tự riêng lẻ rồi nhận dạng sẽ trở nên khó khăn. Có nhiều thuật toán khác nhau có thể được sử dụng để phân đoạn văn bản như EAST [4], Faster R- CNN [5], SSD [6], Yolo [7]. Nhờ sự phát triển của máy móc cũng như dữ liệu lớn, các kỹ thuật học sâu (Deep Learing) phát triển rõ rệt và đạt được nhiều kết quả ấn tượng trong các hướng nghiên cứu khác nhau. Với những bước tiến lớn trong lĩnh vực học sâu và ứng dụng của học sâu vào các bài toán thị giác máy tính, độ chính xác của việc rút trích văn bản và tốc độ xử lý ngày càng đạt được những thành công nhất định.

Áp dụng OCR vào đời sống sẽ giúp rất nhiều trong việc trích xuất thông tin trong các bức ảnh. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các node. Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo. Trong mô hình mạng truyền ngược (feedforward neural network) truyền thống thì mỗi nơ-ron của tầng trước sẽ là đầu vào (input node) cho tất cả các nơ-ron của tầng tiếp theo.

Mô hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng toàn vẹn (affine layer). Còn trong mô hình CNNs thì ngược lại. Các layer liên kết được với nhau thông qua cơ chế convolution. Layer tiếp theo là kết quả convolution từ layer trước đó, nhờ vậy mà ta có được các kết nối cục bộ.

Như vậy mỗi neuron ở layer kế tiếp sinh ra từ kết quả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó. Mỗi một layer được sử dụng các filter khác nhau thông thường có hàng trăm hàng nghìn filter như vậy và kết hợp kết quả của chúng lại. Ngoài ra có một số layer khác như pooling/subsampling layer dùng để chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu). Trong quá trình huấn luyện, mạng CNN tự động học các giá trị qua các layer filter dựa vào cách thức thực hiện.

Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối ưu cho các filter tương ứng, theo thứ tự raw pixel > edges > shapes > facial > high-level features. Layer cuối cùng được dùng để phân lớp ảnh. Kiến trúc CNN cơ bản.org/wiki/Convolutional_neural_network 9 Các mô hình phát hiện đối tượng sử dụng mạng nơ ron tích chập CNN dựa trên quy trình sau: - Tìm các vùng trong ảnh có thể chứa một đối tượng. Những khu vực này được gọi là khu vực đề xuất.

- Trích xuất các đặc trưng CNN từ các khu vực đề xuất. - Phân loại các đối tượng bằng cách sử dụng các đặc trưng được trích xuất. Thông thường một CNN thường bao gồm các bước sau: Convolution, Max Pooling, Flattening và Fully Connection. - Convolution: Bao gồm các bộ lọc (filter) là một ma trận vuông có kích thước nhỏ cho trượt qua toàn bộ ma trận các pixel của ảnh đầu vào.

Các bộ lọc này có các thông số như Depth (chiều sâu của bộ lọc), Stride (khoảng cách giữa mỗi lần trượt) và Padding (kích thước viền cho ảnh đầu vào). Khi trượt, ta tính tích chập của ma trận này và ma trận các pixel của vùng ảnh đang xét tới (cách tính như Hình 2. Mô tả cách tính tích chập của các bộ lọc). Sau khi tính trên toàn bộ ảnh ta sẽ được bản đồ đặc trưng (feature map).

Ở đây các filter chính là thông số cần học của mô hình. Sau bước convolution này có thêm một hàm kích hoạt, ở đây là ReLU (Rectified linear unit) 10 Hình 2. Mô tả cách tính tích chập của các bộ lọc 2 - Max Pooling: Mục đích chính của Max Pooling là cho CNN khả năng detect được các đối tượng với mọi biến dạng của hình ảnh. - Flattening: Bước này sẽ chuyển ma trận 2 chiều từ các bước trước hành ma trận một chiều - Fully Connection: Bước này sẽ kết nối các input từ bước Flattening và các lớp ẩn của mô hình và sẽ có các nút output tương ứng với các đối tượng.

chúng ta trải phẳng ma trận sang một véc tơ và đưa nó kết nối đầy đủ với tầng tương tự trong mạng.io/convolutional-networks/ 11 2.3 Một số công trình nghiên cứu liên quan Một số mô hình phát hiện đối tượng 2. R-CNN, Fast R-CNN và Faster R-CNN Có ba biến thể của R-CNN. Mỗi biến thể cố gắng tối ưu hóa, tăng tốc hoặc nâng cao kết quả của một hoặc nhiều quá trình này. Phương pháp R-CNN [8]: Được đề xuất từ năm 2013, R-CNN trước tiên tạo các khu vực đề xuất bằng thuật toán tìm kiếm chọn lọc như Edge Box.

Các khu vực đề xuất được cắt ra khỏi hình ảnh và thay đổi kích thước. Sau đó, CNN phân loại các vùng bị cắt và thay đổi kích thước. Cuối cùng, các hộp giới hạn khu vực đề xuất được tinh chỉnh bằng máy vectơ hỗ trợ (SVM) được đào tạo sử dụng các đặc trưng CNN.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phương Pháp Hỗ Trợ Kiểm Tra Hồ Sơ Sinh Viên Dựa Trên Rút Trích Văn Bản trình bày một phương pháp hiệu quả nhằm nâng cao khả năng kiểm tra hồ sơ sinh viên thông qua việc rút trích văn bản. Phương pháp này không chỉ giúp cải thiện quy trình kiểm tra mà còn tối ưu hóa việc quản lý thông tin sinh viên, từ đó nâng cao chất lượng giáo dục. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng phương pháp này, bao gồm việc tiết kiệm thời gian và tăng cường độ chính xác trong việc đánh giá hồ sơ.

Để mở rộng thêm kiến thức về các phương pháp giảng dạy và công nghệ hỗ trợ trong giáo dục, bạn có thể tham khảo tài liệu Luận văn thạc sĩ giáo dục học bồi dưỡng năng lực tự học cho học sinh trong dạy học chương động lực học chất điểm vật lí 10 giáo dục thường xuyên với sự hỗ trợ của công nghệ thông tin, nơi cung cấp cái nhìn sâu sắc về việc phát triển năng lực tự học cho học sinh. Ngoài ra, tài liệu Luận văn thạc sĩ giáo dục học sử dụng phần mềm ispring suite thiết kế bài giảng elearning hỗ trợ dạy học đảo ngược chương 3 môn toán lớp 4 sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ trong thiết kế bài giảng. Cuối cùng, tài liệu Luận văn thạc sĩ hệ thống thông tin quản lý tìm hiểu và xây dựng website học tập trực tuyến elearning trung tâm giáo dục thường xuyên tân bình dựa trên hệ thống moodle sẽ cung cấp thông tin về việc xây dựng nền tảng học tập trực tuyến, một yếu tố quan trọng trong giáo dục hiện đại. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và áp dụng các phương pháp mới trong lĩnh vực giáo dục.

#công nghệ giáo dục

#phân tích dữ liệu giáo dục

#Bộ Giáo dục và Đào tạo

#hệ thống quản lý sinh viên

#Đại học Lạc Hồng

#kiểm tra hồ sơ sinh viên

Chủ đề

Công nghệ trong giáo dục

Phương pháp giáo dục hiện đại

quản lý hồ sơ sinh viên

rút trích thông tin trong giáo dục

Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản luận văn thạc sĩ công nghệ thông tin

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan đề tài

1.2. Ý nghĩa khoa học và thực tiễn của đề tài

1.2.1. Tính khoa học

1.2.2. Tính ứng dụng

1.3. Mục tiêu của luận văn

1.4. Phát biểu bài toán

1.5. Phạm vi bài toán

1.6. Mô tả chung về hệ thống

1.7. Đóng góp của luận văn

1.8. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Giới thiệu

2.2. Một số cơ sở lý thuyết

2.2.1. Nhận dạng đối tượng

2.2.2. Phát hiện và nhận dạng ký tự

2.2.3. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN)

2.3. Một số công trình nghiên cứu liên quan

2.3.1. Một số mô hình phát hiện đối tượng

2.3.2. Một số công cụ nhận dạng ký tự quang học OCR (Optical Character Recognition)

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Trình phân đoạn văn bản

3.2. Trình nhận dạng văn bản

3.3. Mô hình rút trích văn bản

3.4. Phương pháp đối sánh

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng dữ liệu huấn luyện

4.2. Đánh dấu dữ liệu

4.3. Tiền xử lý dữ liệu

4.4. Huấn luyện dữ liệu nhận dạng văn bản với Paddle-OCR

4.5. Cài đặt chương trình ứng dụng demo

4.6. Môi trường và ngôn ngữ cài đặt

4.7. Kết quả thực nghiệm

4.8. Đối sánh với dữ liệu gốc

4.9. So sánh mô hình đề xuất với các phương pháp OCR khác

TÀI LIỆU THAM KHẢO

I. Tổng Quan Phương Pháp Hỗ Trợ Kiểm Tra Hồ Sơ Sinh Viên

1.1. Tầm Quan Trọng Của Kiểm Tra Hồ Sơ Sinh Viên Trực Tuyến

1.2. Các Loại Hồ Sơ Sinh Viên Cần Kiểm Tra

II. Thách Thức Trong Kiểm Tra Hồ Sơ Sinh Viên Bằng Trích Xuất

2.1. Vấn Đề Chất Lượng Hình Ảnh Hồ Sơ Sinh Viên

2.2. Hạn Chế Về Ngôn Ngữ Tiếng Việt Trong OCR

2.3. Khó Khăn Trong Việc Đối Sánh Dữ Liệu Trích Xuất

III. Phương Pháp Rút Trích Văn Bản Hỗ Trợ Kiểm Tra Hồ Sơ

3.1. Mô Hình Phát Hiện Và Nhận Dạng Văn Bản OCR

3.2. Xử Lý Ảnh Với Góc Chụp Và Chất Lượng Khác Nhau

3.3. So Sánh Và Đánh Giá Mức Độ Chấp Nhận Của Dữ Liệu

IV. Thực Nghiệm Và Đánh Giá Hiệu Quả Phương Pháp Kiểm Tra

4.1. Xây Dựng Dữ Liệu Huấn Luyện Cho Mô Hình

4.2. Huấn Luyện Mô Hình Phát Hiện Và Nhận Dạng Văn Bản

4.3. Đánh Giá Hiệu Quả Của Mô Hình Trên Dữ Liệu Thực Tế

V. Kết Luận Và Hướng Phát Triển Phương Pháp Kiểm Tra

5.1. Tóm Tắt Kết Quả Nghiên Cứu Về Trích Xuất Văn Bản

5.2. Hướng Phát Triển Của Phương Pháp Trong Tương Lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Người hướng dẫn: PGS. Nguyễn Văn A

Trường học: Trường Đại Học Lạc Hồng

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Phương Pháp Hỗ Trợ Kiểm Tra Hồ Sơ Sinh Viên Dựa Trên Rút Trích Văn Bản

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2022

Địa điểm: Đồng Nai

Có thể bạn quan tâm