Khóa luận tốt nghiệp: Đánh giá kiến trúc Transformer trong nhận diện văn bản tiếng Việt

2021

93
1
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Mục tiêu và phạm vi

1.2. Đóng góp của khóa luận

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Bài toán nhận diện văn bản trong ảnh

2.2. Các kiến thức cơ sở

2.2.1. Mạng nơ-ron tích chập (Convolutional Neural Network)

2.2.2. Phân đoạn ảnh (Image Segmentation)

2.2.3. HRNet: High-Resolution Network

2.2.4. Mạng nơ-ron hồi quy (Recurrent Neural Network)

2.2.4.1. Kiến trúc tổng quan
2.2.4.2. Cách hoạt động mạng

2.2.5. Long short term memory (LSTM)

2.2.6. Mô hình Sequence-to-Sequence

2.2.6.1. Cơ chế giải mã với thuật toán Greedy Search
2.2.6.2. Cơ chế giải mã với thuật toán Beam Search

2.2.7. Attention trong dịch máy

2.2.8. Attention trong mô tả ảnh

2.3. Các hướng tiếp cận phổ biến cho bài toán nhận diện văn bản trong ảnh

2.3.1. Hướng tiếp cận nắn thẳng văn bản (Rectification)

2.3.2. Hướng tiếp cận phân đoạn kí tự (Character Segmentation)

3. CHƯƠNG 3: ÁP DỤNG KIẾN TRÚC TRANSFORMER CHO BÀI TOÁN NHẬN DIỆN VĂN BẢN TRONG ẢNH

3.1. Tổng quan về kiến trúc Transformer

3.1.1. Kiến trúc tổng quan

3.1.2. Cơ chế tập trung nhiều đầu (Multi Head Attention)

3.2. Áp dụng kiến trúc Transformer để giải quyết bài toán nhận diện văn bản trong ảnh

3.2.1. Hướng chỉ áp dụng Transformer Encoder

3.2.2. Hướng chỉ áp dụng Transformer Decoder

3.2.3. Hướng áp dụng cả Transformer Encoder và Decoder

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Tổng quan quá trình xây dựng

4.2. Các độ đo sử dụng trong khóa luận

4.2.1. Độ chính xác nhận diện (Accuracy)

4.3. Cắt và chọn lọc các vùng ảnh chứa văn bản

4.4. Tổng hợp và tổ chức dữ liệu

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG MINH HỌA

5.1. Các thư viện yêu cầu

5.2. Cách cài đặt và sử dụng

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tài liệu có tiêu đề Đánh giá kiến trúc Transformer cho nhận diện văn bản tiếng Việt trong ảnh cung cấp cái nhìn sâu sắc về việc áp dụng kiến trúc Transformer trong lĩnh vực nhận diện văn bản, đặc biệt là văn bản tiếng Việt trong hình ảnh. Bài viết phân tích hiệu quả của mô hình Transformer so với các phương pháp truyền thống, nhấn mạnh khả năng xử lý ngữ nghĩa và ngữ cảnh tốt hơn, từ đó nâng cao độ chính xác trong việc nhận diện văn bản.

Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ này, bao gồm khả năng cải thiện trải nghiệm người dùng trong các ứng dụng thực tế như nhận diện văn bản trong ảnh. Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo tài liệu Arbitrarily shaped text recognizer and translator for smart menu application, nơi cung cấp cái nhìn về cách nhận diện và dịch văn bản hình dạng tùy ý cho các ứng dụng thực đơn thông minh. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các ứng dụng thực tiễn của công nghệ nhận diện văn bản trong bối cảnh hiện đại.