I. Tổng quan về nhận dạng văn bản tiếng Việt viết tay
Nhận dạng văn bản tiếng Việt viết tay là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và công nghệ nhận dạng. Bài toán này đặt ra nhiều thách thức do sự đa dạng trong phong cách viết, vị trí đặt dấu, và các yếu tố nhiễu từ môi trường. Tiếng Việt viết tay đặc biệt phức tạp với 224 ký tự, bao gồm các biến thể nguyên âm và dấu thanh, làm tăng độ khó của bài toán. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh, trong khi dữ liệu cho tiếng Việt còn hạn chế. Hai bộ dữ liệu chính là VNOnDB và UIT-HWDB được sử dụng, nhưng chúng thiếu các tính chất thực tế như nhiễu nền và độ mờ. Nghiên cứu này nhằm xây dựng một bộ dữ liệu thực tế hơn và đánh giá các phương pháp nhận dạng tiên tiến.
1.1. Thách thức trong nhận dạng tiếng Việt viết tay
Nhận dạng chữ viết tay tiếng Việt gặp nhiều thách thức do sự đa dạng trong phong cách viết và vị trí đặt dấu. Các dấu thanh không dính liền với ký tự chính, dẫn đến việc nhận dạng sai nếu dấu được đặt không chính xác. Ngoài ra, các yếu tố nhiễu từ môi trường như độ mờ, màu sắc mực, và bề mặt viết cũng làm tăng độ khó của bài toán. Phương pháp nhận dạng hiện tại chủ yếu dựa trên các bộ dữ liệu tổng hợp, thiếu tính thực tế, dẫn đến hiệu suất không cao khi áp dụng vào thực tế.
1.2. Tầm quan trọng của dữ liệu thực tế
Các nghiên cứu gần đây như của Yang và cộng sự [4] và Singh và cộng sự [6] chỉ ra rằng dữ liệu thực tế giúp cải thiện đáng kể hiệu suất của các mô hình nhận dạng. Bộ dữ liệu VNOnDB và UIT-HWDB tuy hữu ích nhưng thiếu các yếu tố thực tế như nhiễu nền và độ mờ. Nghiên cứu này tập trung vào việc xây dựng một bộ dữ liệu thực tế hơn, bao gồm 190.685 ảnh, nhiều hơn gần gấp đôi so với hai bộ dữ liệu hiện có. Bộ dữ liệu mới này sẽ giúp các mô hình nhận dạng đạt hiệu suất cao hơn khi áp dụng vào thực tế.
II. Phương pháp nhận dạng văn bản tiếng Việt viết tay
Các phương pháp nhận dạng tiên tiến như ViTSTR, ABINet, PARSeq, CLIP4STR, và SVTR-CPPD được đánh giá trong nghiên cứu này. Các phương pháp này kết hợp mô hình ngôn ngữ và cơ chế sửa nhãn dự đoán để cải thiện độ chính xác. OCR tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Các mô hình này được huấn luyện trên bộ dữ liệu mới xây dựng, bao gồm các ảnh chụp thực tế từ học bạ sinh viên và các cuộc thi như BKAI-OCR và Cinnamon. Kết quả thực nghiệm cho thấy các phương pháp này đạt hiệu suất cao hơn so với các bộ dữ liệu tổng hợp.
2.1. Đánh giá các phương pháp nhận dạng
Các phương pháp như ViTSTR và ABINet được đánh giá dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. ViTSTR sử dụng Vision Transformer để chia ảnh thành các patch nhỏ và xử lý chúng một cách hiệu quả. ABINet kết hợp mô hình ngôn ngữ và mô hình thị giác để cải thiện độ chính xác. Kết quả cho thấy các phương pháp này đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế so với dữ liệu tổng hợp.
2.2. Ứng dụng thực tế của các phương pháp
Các phương pháp nhận dạng này có thể được áp dụng trong các ứng dụng thực tế như số hóa tài liệu, đọc hóa đơn, và xử lý văn bản viết tay. Xử lý văn bản tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Nghiên cứu này cũng xây dựng một ứng dụng minh họa trên nền tảng web để thể hiện khả năng của các phương pháp nhận dạng trong thực tế.
III. Kết quả và đánh giá
Kết quả thực nghiệm cho thấy các phương pháp nhận dạng tiên tiến đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế. CLIP4STR và SVTR-CPPD là hai phương pháp nổi bật, đạt độ chính xác cao trong việc nhận dạng các ký tự tiếng Việt. Các phương pháp này cũng thể hiện khả năng xử lý các yếu tố nhiễu như độ mờ và nhiễu nền. Nghiên cứu này cũng chỉ ra rằng việc kết hợp mô hình ngôn ngữ và cơ chế sửa nhãn dự đoán giúp cải thiện đáng kể độ chính xác của các mô hình nhận dạng.
3.1. So sánh hiệu suất các phương pháp
Các phương pháp như CLIP4STR và SVTR-CPPD được so sánh dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. CLIP4STR sử dụng Contrastive Language-Image Pre-training để cải thiện độ chính xác, trong khi SVTR-CPPD kết hợp Character Counting và Character Ordering để xử lý các ký tự tiếng Việt. Kết quả cho thấy cả hai phương pháp đều đạt hiệu suất cao hơn so với các phương pháp truyền thống.
3.2. Ứng dụng minh họa
Một ứng dụng minh họa được xây dựng để thể hiện khả năng của các phương pháp nhận dạng trong thực tế. Ứng dụng này cho phép người dùng tải lên ảnh chứa văn bản viết tay và nhận kết quả nhận dạng ngay lập tức. Kết quả cho thấy các phương pháp nhận dạng tiên tiến có thể được áp dụng hiệu quả trong các ứng dụng thực tế như số hóa tài liệu và xử lý văn bản.