Khóa Luận Tốt Nghiệp: Đánh Giá Các Phương Pháp Nhận Dạng Văn Bản Tiếng Việt Viết Tay Cấp Độ Từ

2023

130
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan về nhận dạng văn bản tiếng Việt viết tay

Nhận dạng văn bản tiếng Việt viết tay là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiêncông nghệ nhận dạng. Bài toán này đặt ra nhiều thách thức do sự đa dạng trong phong cách viết, vị trí đặt dấu, và các yếu tố nhiễu từ môi trường. Tiếng Việt viết tay đặc biệt phức tạp với 224 ký tự, bao gồm các biến thể nguyên âm và dấu thanh, làm tăng độ khó của bài toán. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh, trong khi dữ liệu cho tiếng Việt còn hạn chế. Hai bộ dữ liệu chính là VNOnDBUIT-HWDB được sử dụng, nhưng chúng thiếu các tính chất thực tế như nhiễu nền và độ mờ. Nghiên cứu này nhằm xây dựng một bộ dữ liệu thực tế hơn và đánh giá các phương pháp nhận dạng tiên tiến.

1.1. Thách thức trong nhận dạng tiếng Việt viết tay

Nhận dạng chữ viết tay tiếng Việt gặp nhiều thách thức do sự đa dạng trong phong cách viết và vị trí đặt dấu. Các dấu thanh không dính liền với ký tự chính, dẫn đến việc nhận dạng sai nếu dấu được đặt không chính xác. Ngoài ra, các yếu tố nhiễu từ môi trường như độ mờ, màu sắc mực, và bề mặt viết cũng làm tăng độ khó của bài toán. Phương pháp nhận dạng hiện tại chủ yếu dựa trên các bộ dữ liệu tổng hợp, thiếu tính thực tế, dẫn đến hiệu suất không cao khi áp dụng vào thực tế.

1.2. Tầm quan trọng của dữ liệu thực tế

Các nghiên cứu gần đây như của Yang và cộng sự [4] và Singh và cộng sự [6] chỉ ra rằng dữ liệu thực tế giúp cải thiện đáng kể hiệu suất của các mô hình nhận dạng. Bộ dữ liệu VNOnDBUIT-HWDB tuy hữu ích nhưng thiếu các yếu tố thực tế như nhiễu nền và độ mờ. Nghiên cứu này tập trung vào việc xây dựng một bộ dữ liệu thực tế hơn, bao gồm 190.685 ảnh, nhiều hơn gần gấp đôi so với hai bộ dữ liệu hiện có. Bộ dữ liệu mới này sẽ giúp các mô hình nhận dạng đạt hiệu suất cao hơn khi áp dụng vào thực tế.

II. Phương pháp nhận dạng văn bản tiếng Việt viết tay

Các phương pháp nhận dạng tiên tiến như ViTSTR, ABINet, PARSeq, CLIP4STR, và SVTR-CPPD được đánh giá trong nghiên cứu này. Các phương pháp này kết hợp mô hình ngôn ngữcơ chế sửa nhãn dự đoán để cải thiện độ chính xác. OCR tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Các mô hình này được huấn luyện trên bộ dữ liệu mới xây dựng, bao gồm các ảnh chụp thực tế từ học bạ sinh viên và các cuộc thi như BKAI-OCRCinnamon. Kết quả thực nghiệm cho thấy các phương pháp này đạt hiệu suất cao hơn so với các bộ dữ liệu tổng hợp.

2.1. Đánh giá các phương pháp nhận dạng

Các phương pháp như ViTSTRABINet được đánh giá dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. ViTSTR sử dụng Vision Transformer để chia ảnh thành các patch nhỏ và xử lý chúng một cách hiệu quả. ABINet kết hợp mô hình ngôn ngữmô hình thị giác để cải thiện độ chính xác. Kết quả cho thấy các phương pháp này đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế so với dữ liệu tổng hợp.

2.2. Ứng dụng thực tế của các phương pháp

Các phương pháp nhận dạng này có thể được áp dụng trong các ứng dụng thực tế như số hóa tài liệu, đọc hóa đơn, và xử lý văn bản viết tay. Xử lý văn bản tiếng Việt đặc biệt được chú trọng do sự phức tạp của ngôn ngữ này. Nghiên cứu này cũng xây dựng một ứng dụng minh họa trên nền tảng web để thể hiện khả năng của các phương pháp nhận dạng trong thực tế.

III. Kết quả và đánh giá

Kết quả thực nghiệm cho thấy các phương pháp nhận dạng tiên tiến đạt hiệu suất cao hơn khi sử dụng dữ liệu thực tế. CLIP4STRSVTR-CPPD là hai phương pháp nổi bật, đạt độ chính xác cao trong việc nhận dạng các ký tự tiếng Việt. Các phương pháp này cũng thể hiện khả năng xử lý các yếu tố nhiễu như độ mờ và nhiễu nền. Nghiên cứu này cũng chỉ ra rằng việc kết hợp mô hình ngôn ngữcơ chế sửa nhãn dự đoán giúp cải thiện đáng kể độ chính xác của các mô hình nhận dạng.

3.1. So sánh hiệu suất các phương pháp

Các phương pháp như CLIP4STRSVTR-CPPD được so sánh dựa trên độ chính xác và khả năng xử lý các yếu tố nhiễu. CLIP4STR sử dụng Contrastive Language-Image Pre-training để cải thiện độ chính xác, trong khi SVTR-CPPD kết hợp Character CountingCharacter Ordering để xử lý các ký tự tiếng Việt. Kết quả cho thấy cả hai phương pháp đều đạt hiệu suất cao hơn so với các phương pháp truyền thống.

3.2. Ứng dụng minh họa

Một ứng dụng minh họa được xây dựng để thể hiện khả năng của các phương pháp nhận dạng trong thực tế. Ứng dụng này cho phép người dùng tải lên ảnh chứa văn bản viết tay và nhận kết quả nhận dạng ngay lập tức. Kết quả cho thấy các phương pháp nhận dạng tiên tiến có thể được áp dụng hiệu quả trong các ứng dụng thực tế như số hóa tài liệu và xử lý văn bản.

21/02/2025
Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp nhận dạng văn bản trên tập dữ liệu chữ viết tay tiếng việt cấp độ từ
Bạn đang xem trước tài liệu : Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp nhận dạng văn bản trên tập dữ liệu chữ viết tay tiếng việt cấp độ từ

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Đánh Giá Phương Pháp Nhận Dạng Văn Bản Tiếng Việt Viết Tay Cấp Độ Từ" tập trung vào việc phân tích và đánh giá các phương pháp nhận dạng văn bản viết tay tiếng Việt ở cấp độ từ. Nó cung cấp cái nhìn sâu sắc về các kỹ thuật hiện đại, thách thức trong xử lý ngôn ngữ tự nhiên, và cách tối ưu hóa độ chính xác trong nhận dạng văn bản. Đây là nguồn tài liệu hữu ích cho các nhà nghiên cứu và chuyên gia trong lĩnh vực xử lý ngôn ngữ tiếng Việt, giúp họ nắm bắt được các phương pháp tiên tiến và ứng dụng thực tiễn.

Để mở rộng kiến thức về các phương pháp học sâu và ứng dụng trong xử lý ngôn ngữ, bạn có thể tham khảo Luận văn thạc sĩ HCMUTE phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu, nghiên cứu về cách phân loại cảm xúc trong văn bản tiếng Việt. Ngoài ra, Luận văn đề tài xây dựng mô hình ngôn ngữ cho tiếng Việt cung cấp cái nhìn tổng quan về việc xây dựng mô hình ngôn ngữ tiếng Việt, một yếu tố quan trọng trong nhận dạng văn bản. Cuối cùng, Luận văn tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu là tài liệu tham khảo hữu ích về ứng dụng học sâu trong xử lý văn bản pháp quy.

Tải xuống (130 Trang - 81.08 MB)