Đánh giá kiến trúc Transformer cho nhận diện văn bản

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Mục tiêu và phạm vi

1.2. Đóng góp của khóa luận

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Bài toán nhận diện văn bản trong ảnh

2.2. Các kiến thức cơ sở

2.2.1. Mạng nơ-ron tích chập (Convolutional Neural Network)

2.2.2. Phân đoạn ảnh (Image Segmentation)

2.2.3. HRNet: High-Resolution Network

2.2.4. Mạng nơ-ron hồi quy (Recurrent Neural Network)

2.2.4.1. Kiến trúc tổng quan

2.2.4.2. Cách hoạt động mạng

2.2.5. Long short term memory (LSTM)

2.2.6. Mô hình Sequence-to-Sequence

2.2.6.1. Cơ chế giải mã với thuật toán Greedy Search

2.2.6.2. Cơ chế giải mã với thuật toán Beam Search

2.2.7. Attention trong dịch máy

2.2.8. Attention trong mô tả ảnh

2.3. Các hướng tiếp cận phổ biến cho bài toán nhận diện văn bản trong ảnh

2.3.1. Hướng tiếp cận nắn thẳng văn bản (Rectification)

2.3.2. Hướng tiếp cận phân đoạn kí tự (Character Segmentation)

3. CHƯƠNG 3: ÁP DỤNG KIẾN TRÚC TRANSFORMER CHO BÀI TOÁN NHẬN DIỆN VĂN BẢN TRONG ẢNH

3.1. Tổng quan về kiến trúc Transformer

3.1.1. Kiến trúc tổng quan

3.1.2. Cơ chế tập trung nhiều đầu (Multi Head Attention)

3.2. Áp dụng kiến trúc Transformer để giải quyết bài toán nhận diện văn bản trong ảnh

3.2.1. Hướng chỉ áp dụng Transformer Encoder

3.2.2. Hướng chỉ áp dụng Transformer Decoder

3.2.3. Hướng áp dụng cả Transformer Encoder và Decoder

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Tổng quan quá trình xây dựng

4.2. Các độ đo sử dụng trong khóa luận

4.2.1. Độ chính xác nhận diện (Accuracy)

4.3. Cắt và chọn lọc các vùng ảnh chứa văn bản

4.4. Tổng hợp và tổ chức dữ liệu

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG MINH HỌA

5.1. Các thư viện yêu cầu

5.2. Cách cài đặt và sử dụng

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Tổng quan

Bài toán nhận diện văn bản trong ảnh (Scene Text Recognition) đóng vai trò quan trọng trong việc giúp máy tính hiểu thế giới xung quanh thông qua việc nhận diện văn bản xuất hiện trong đời sống. Bài toán này có đầu vào là ảnh chứa văn bản và đầu ra là nội dung văn bản. Ứng dụng của bài toán bao gồm hệ thống lưu trữ và truy vấn hình ảnh, xe tự lái, robot tự hành. Thách thức lớn nhất là sự đa dạng về hình dạng, phông chữ, màu sắc và kích thước của văn bản. Các phương pháp gần đây sử dụng kiến trúc Transformer dựa trên cơ chế Self-Attention để cải thiện độ chính xác và hiệu năng.

1.1 Mục tiêu và phạm vi

Mục tiêu chính của khóa luận là nghiên cứu và đánh giá các phương pháp nhận diện văn bản tiếng Việt trong ảnh sử dụng kiến trúc Transformer. Phạm vi nghiên cứu tập trung vào việc xây dựng bộ dữ liệu tiếng Việt, đánh giá các phương pháp như ViTSTR, SSCAN, VietOCR, và TransformerOCR so với các phương pháp truyền thống như ASTER và SCAN.

1.2 Đóng góp của khóa luận

Khóa luận đóng góp bằng cách hệ thống lại kiến thức về bài toán nhận diện văn bản trong ảnh, xây dựng bộ dữ liệu tiếng Việt gồm 110 nghìn ảnh huấn luyện và 10 nghìn ảnh kiểm thử, và đánh giá các phương pháp sử dụng Transformer. Ngoài ra, khóa luận còn xây dựng ứng dụng web minh họa nhận diện văn bản trong ảnh.

II. Cơ sở lý thuyết và các nghiên cứu liên quan

Chương này trình bày các khái niệm cơ bản về bài toán nhận diện văn bản trong ảnh và các phương pháp tiếp cận hiện nay. Bài toán này được coi là một dạng đặc biệt của OCR (Optical Character Recognition), với thách thức lớn từ sự đa dạng của văn bản trong cảnh tự nhiên. Các phương pháp tiếp cận bao gồm nắn thẳng văn bản, phân đoạn ký tự, và sử dụng cơ chế Attention.

2.1 Bài toán nhận diện văn bản trong ảnh

Văn bản trong ảnh có thể được phân loại theo hình thức (chữ viết tay, chữ in) và ngôn ngữ (tiếng Anh, tiếng Việt). Bài toán nhận diện văn bản cảnh (Scene Text Recognition) khó hơn so với OCR trong tài liệu scan do sự đa dạng về nền, hình thức, nhiễu, và hình dạng của văn bản.

2.2 Các kiến thức cơ sở

Mạng nơ-ron tích chập (CNN) là mô hình hiệu quả trong thị giác máy tính, mô phỏng cấu trúc não động vật. CNN sử dụng các lớp tích chập và lớp kích hoạt để xử lý hình ảnh. Ngoài ra, mạng nơ-ron hồi quy (RNN) và LSTM (Long Short-Term Memory) cũng được sử dụng để xử lý dữ liệu tuần tự trong bài toán nhận diện văn bản.

III. Áp dụng kiến trúc Transformer cho bài toán nhận diện văn bản trong ảnh

Chương này giới thiệu tổng quan về kiến trúc Transformer và các hướng áp dụng vào bài toán nhận diện văn bản trong ảnh. Transformer sử dụng cơ chế Self-Attention để tập trung vào các phần khác nhau của ảnh, giúp cải thiện độ chính xác so với các phương pháp truyền thống.

3.1 Tổng quan về kiến trúc Transformer

Transformer là mô hình dựa trên cơ chế Multi-Head Attention, cho phép mô hình tập trung vào các phần quan trọng của dữ liệu đầu vào. Cơ chế này giúp Transformer xử lý hiệu quả các bài toán xử lý ngôn ngữ tự nhiên và nhận diện văn bản.

3.2 Áp dụng Transformer vào nhận diện văn bản

Các phương pháp như ViTSTR, SSCAN, VietOCR, và TransformerOCR sử dụng Transformer để giải quyết bài toán nhận diện văn bản tiếng Việt trong ảnh. Các phương pháp này cho kết quả vượt trội so với các phương pháp truyền thống về độ chính xác và tốc độ xử lý.

IV. Thực nghiệm và đánh giá

Chương này trình bày quá trình xây dựng bộ dữ liệu tiếng Việt và kết quả đánh giá các phương pháp nhận diện văn bản sử dụng Transformer. Bộ dữ liệu gồm 110 nghìn ảnh huấn luyện và 10 nghìn ảnh kiểm thử được thu thập từ đời sống thường ngày ở Việt Nam.

4.1 Xây dựng bộ dữ liệu

Bộ dữ liệu được xây dựng với mục đích huấn luyện và kiểm thử các mô hình nhận diện văn bản tiếng Việt. Dữ liệu được thu thập từ các nguồn như biển hiệu, biển quảng cáo, và nhãn hiệu sản phẩm.

4.2 Kết quả đánh giá

Các phương pháp sử dụng Transformer như TransformerOCR và ViTSTR cho kết quả vượt trội về độ chính xác và tốc độ xử lý so với các phương pháp truyền thống như ASTER và SCAN. TransformerOCR đạt độ chính xác 82.35%, trong khi ViTSTR có tốc độ xử lý nhanh nhất.

V. Xây dựng ứng dụng minh họa

Chương này trình bày quá trình xây dựng ứng dụng web minh họa nhận diện văn bản tiếng Việt trong ảnh. Ứng dụng được phát triển để giúp người dùng dễ dàng nhận diện và trích xuất nội dung văn bản từ ảnh.

5.1 Các thư viện yêu cầu

Ứng dụng sử dụng các thư viện như TensorFlow, PyTorch, và Flask để xây dựng giao diện web và tích hợp các mô hình nhận diện văn bản.

5.2 Cách cài đặt và sử dụng

Ứng dụng được triển khai trên nền tảng web, cho phép người dùng tải lên ảnh và nhận kết quả nhận diện văn bản ngay lập tức. Giao diện thân thiện và dễ sử dụng.

VI. Kết luận và hướng phát triển

Khóa luận đã nghiên cứu và đánh giá các phương pháp nhận diện văn bản tiếng Việt trong ảnh sử dụng kiến trúc Transformer. Kết quả cho thấy các phương pháp này vượt trội so với các phương pháp truyền thống về độ chính xác và tốc độ xử lý. Hướng phát triển trong tương lai bao gồm cải thiện độ chính xác và mở rộng ứng dụng vào các lĩnh vực khác như dịch thuật và xe tự lái.

Khóa luận tốt nghiệp: Đánh giá kiến trúc Transformer trong nhận diện văn bản tiếng Việt