Đánh Giá Phương Pháp Nhận Dạng Văn Bản Tiếng Việt Viết Tay Cấp Độ Từ

I. Tổng quan về nhận dạng văn bản tiếng Việt viết tay

Nhận dạng văn bản tiếng Việt viết tay là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và công nghệ nhận dạng. Bài toán này đặt ra nhiều thách thức do sự đa dạng trong phong cách viết, vị trí đặt dấu, và các yếu tố nhiễu từ môi trường. Tiếng Việt viết tay đặc biệt phức tạp với 224 ký tự, bao gồm các biến thể nguyên âm và dấu thanh, làm tăng độ khó của bài toán. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh, trong khi dữ liệu cho tiếng Việt còn hạn chế. Hai bộ dữ liệu chính là VNOnDB và UIT-HWDB được sử dụng, nhưng chúng thiếu các tính chất thực tế như nhiễu nền và độ mờ. Nghiên cứu này nhằm xây dựng một bộ dữ liệu thực tế hơn và đánh giá các phương pháp nhận dạng tiên tiến.

1.1. Thách thức trong nhận dạng tiếng Việt viết tay

Nhận dạng chữ viết tay tiếng Việt gặp nhiều thách thức do sự đa dạng trong phong cách viết và vị trí đặt dấu. Các dấu thanh không dính liền với ký tự chính, dẫn đến việc nhận dạng sai nếu dấu được đặt không chính xác. Ngoài ra, các yếu tố nhiễu từ môi trường như độ mờ, màu sắc mực, và bề mặt viết cũng làm tăng độ khó của bài toán. Phương pháp nhận dạng hiện tại chủ yếu dựa trên các bộ dữ liệu tổng hợp, thiếu tính thực tế, dẫn đến hiệu suất không cao khi áp dụng vào thực tế.

1.2. Tầm quan trọng của dữ liệu thực tế

Các nghiên cứu gần đây như của Yang và cộng sự [4] và Singh và cộng sự [6] chỉ ra rằng dữ liệu thực tế giúp cải thiện đáng kể hiệu suất của các mô hình nhận dạng. Bộ dữ liệu VNOnDB và UIT-HWDB tuy hữu ích nhưng thiếu các yếu tố thực tế như nhiễu nền và độ mờ. Nghiên cứu này tập trung vào việc xây dựng một bộ dữ liệu thực tế hơn, bao gồm 190.685 ảnh, nhiều hơn gần gấp đôi so với hai bộ dữ liệu hiện có. Bộ dữ liệu mới này sẽ giúp các mô hình nhận dạng đạt hiệu suất cao hơn khi áp dụng vào thực tế.

II. Phương pháp nhận dạng văn bản tiếng Việt viết tay

Các phương pháp nhận dạng tiên tiến như ViTSTR, ABINet, PARSeq, CLIP4STR, và SVTR-CPPD được đánh giá trong nghiên cứu này. Các phương pháp này kết hợp mô hình ngôn ngữ và cơ chế sửa nhãn dự đoán để cải thiện độ chính xác. OCR tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Các mô hình này được huấn luyện trên bộ dữ liệu mới xây dựng, bao gồm các ảnh chụp thực tế từ học bạ sinh viên và các cuộc thi như BKAI-OCR và Cinnamon. Kết quả thực nghiệm cho thấy các phương pháp này đạt hiệu suất cao hơn so với các bộ dữ liệu tổng hợp.

2.1. Đánh giá các phương pháp nhận dạng

Các phương pháp như ViTSTR và ABINet được đánh giá dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. ViTSTR sử dụng Vision Transformer để chia ảnh thành các patch nhỏ và xử lý chúng một cách hiệu quả. ABINet kết hợp mô hình ngôn ngữ và mô hình thị giác để cải thiện độ chính xác. Kết quả cho thấy các phương pháp này đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế so với dữ liệu tổng hợp.

2.2. Ứng dụng thực tế của các phương pháp

Các phương pháp nhận dạng này có thể được áp dụng trong các ứng dụng thực tế như số hóa tài liệu, đọc hóa đơn, và xử lý văn bản viết tay. Xử lý văn bản tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Nghiên cứu này cũng xây dựng một ứng dụng minh họa trên nền tảng web để thể hiện khả năng của các phương pháp nhận dạng trong thực tế.

III. Kết quả và đánh giá

Kết quả thực nghiệm cho thấy các phương pháp nhận dạng tiên tiến đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế. CLIP4STR và SVTR-CPPD là hai phương pháp nổi bật, đạt độ chính xác cao trong việc nhận dạng các ký tự tiếng Việt. Các phương pháp này cũng thể hiện khả năng xử lý các yếu tố nhiễu như độ mờ và nhiễu nền. Nghiên cứu này cũng chỉ ra rằng việc kết hợp mô hình ngôn ngữ và cơ chế sửa nhãn dự đoán giúp cải thiện đáng kể độ chính xác của các mô hình nhận dạng.

3.1. So sánh hiệu suất các phương pháp

Các phương pháp như CLIP4STR và SVTR-CPPD được so sánh dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. CLIP4STR sử dụng Contrastive Language-Image Pre-training để cải thiện độ chính xác, trong khi SVTR-CPPD kết hợp Character Counting và Character Ordering để xử lý các ký tự tiếng Việt. Kết quả cho thấy cả hai phương pháp đều đạt hiệu suất cao hơn so với các phương pháp truyền thống.

3.2. Ứng dụng minh họa

Một ứng dụng minh họa được xây dựng để thể hiện khả năng của các phương pháp nhận dạng trong thực tế. Ứng dụng này cho phép người dùng tải lên ảnh chứa văn bản viết tay và nhận kết quả nhận dạng ngay lập tức. Kết quả cho thấy các phương pháp nhận dạng tiên tiến có thể được áp dụng hiệu quả trong các ứng dụng thực tế như số hóa tài liệu và xử lý văn bản.

Khóa Luận Tốt Nghiệp: Đánh Giá Các Phương Pháp Nhận Dạng Văn Bản Tiếng Việt Viết Tay Cấp Độ Từ

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt van đề

1.2. Mục tiêu và phạm vi

1.2.1. Mục tiêu

1.2.2. Phạm vi

1.3. Đóng góp của khóa luận

1.4. Cấu trúc khóa luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Định nghĩa về văn bản trong ảnh

2.2. Mạng nơ-ron tích chập (CNN)

2.3. Mô hình Sequence-to-sequence

2.4. Mô hình Transformer

2.4.1. Tổng quan về mô hình Transformer

2.4.2. Mô hình Vision Transformer

2.4.2.1. Chia ảnh thành các phần nhỏ và duỗi thẳng

2.4.2.2. Những vị trí - Position Embedding

2.4.3. Contrastive Language-image Pre-training (CLIP)

2.5. Các nghiên cứu liên quan

2.5.1. Các hướng tiếp cận trong bài toán nhận dạng chữ viết tay

2.5.1.1. Hướng tiếp cận dựa trên CTC

2.5.1.2. Hướng tiếp cận dựa trên Attention Seq2Seq

2.5.2. Các bộ dữ liệu chữ viết tay tiếng Việt

3. CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN ÁP DỤNG CHO CHỮ VIẾT TAY TIẾNG VIỆT

3.1. Transformer Encoder, Decoder và cơ chế attention

3.2. Tổng quan về kiến trúc ABINet

3.3. Những hạn chế của các phương pháp trước

3.4. Mô hình Permuted Autoregressive Sequence

3.4.1. Permutation Language Modeling (PLM)

3.4.2. Kiến trúc mô hình

3.5. Mô hình CLIP4STR

3.5.1. Tổng quan về kiến trúc

3.5.2. Hàm mất mát cho huấn luyện

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng tập dữ liệu

4.2. Gán nhãn dữ liệu

4.3. Các độ đo sử dụng để đánh giá

4.4. Kết quả và đánh giá

4.5. Xây dựng ứng dụng minh họa

4.6. Đánh giá ứng dụng

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Tổng quan về nhận dạng văn bản tiếng Việt viết tay

1.1. Thách thức trong nhận dạng tiếng Việt viết tay

1.2. Tầm quan trọng của dữ liệu thực tế

II. Phương pháp nhận dạng văn bản tiếng Việt viết tay

2.1. Đánh giá các phương pháp nhận dạng

2.2. Ứng dụng thực tế của các phương pháp

III. Kết quả và đánh giá

3.1. So sánh hiệu suất các phương pháp

3.2. Ứng dụng minh họa

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyen Thanh Dat

Người hướng dẫn: ThS. Do Van Tien

Trường học: Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Đánh giá một số phương pháp nhận dạng văn bản trên tập dữ liệu chữ viết tay tiếng Việt cấp độ từ

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2023

Địa điểm: Hồ Chí Minh