Khóa Luận Tốt Nghiệp: Nhận Dạng Ký Tự Hán-Nôm Sử Dụng Học Sâu

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

2022

123
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Lý do chọn đề tài. Mục tiêu khóa luận. Đối tượng và phạm vi nghiên cứu. Các nội dung chính

2. CHƯƠNG 2: TỔNG QUAN

2.1. Giới thiệu đề tài. Tính ứng dụng của đề tài. NGHIÊN CỨU LIÊN QUAN. Tình hình nghiên cứu trên thế giới. Tình hình nghiên cứu trong nước

4. CHƯƠNG 4: NHẬN DẠNG KÝ TỰ QUANG HỌC (OCR)

4.1. Các khái niệm cơ bản. Phân loại hình ảnh chứa văn bản. OCR và HỌC

4.2. Các bước triển khai chính. Một số dataset cho văn bản phi cấu trúc. Một số công cụ mã nguồn mở. Các thành phần tính toán chính

4.3. Mạng Nơ-ron Tích chập (CNN). Các khái niệm cơ bản. Phân vùng ảnh (Image Segmentation). Các khái niệm cơ bản. Ý tưởng từ mạng FCN

4.4. Mạng Nơ-ron Hồi tiếp (RNN). Các khái niệm cơ bản. Nút Hồi tiếp có Cổng (GRU). Mạng Nơ-ron Hồi tiếp 2 chiều

4.5. Mô hình chuỗi sang chuỗi (Seq2Seq). Cơ chế Tập trung (Attention Mechanism). Các tính toán chính. Seq2Seq sử dụng Cơ chế Tập trung. Tự tập trung (Self-Attention). Kiến trúc Transformer

5. CHƯƠNG 5: BỘ DỮ LIỆU NOMNAOCR

5.1. Khai quát chung. Thu thập dữ liệu. Xây dựng hướng dẫn (Guideline). Gán nhãn tự động (Auto annotation). Quy trình đánh giá. Triển khai thực tế. Các khó khăn cùng hướng xử lý. Phân tích và chia dữ liệu. Bộ dữ liệu Synthetic Nom String

6. CHƯƠNG 6: CÁC PHƯƠNG PHÁP TIẾP CẬN

6.1. Khởi nguồn và lý do tiếp cận bằng Học sâu. Phát hiện văn bản (Text Detection). Tiếp cận theo Regression-based với EAST. Tiếp cận theo Segmentation-based với DBNet. Nhận dạng văn bản (Text Recognition). Tiếp cận theo hướng sinh mô tả cho ảnh. Kiến trúc Injection và Merging. Kiến trúc dựa trên Cơ chế Tập trung. Mạng Nơ-ron Hồi tiếp Tích chập (CRNN). Tiếp cận theo hướng Seq2Seq trong dịch máy. Các mô hình TransformerOCR

7. CHƯƠNG 7: CÀI ĐẶT THỬ NGHIỆM

7.1. Triển khai cho bài toán Text Detection. Triển khai cho bài toán Text Recognition. Các giai đoạn huấn luyện. Cài đặt phần Xử lý ngôn ngữ. Thuật toán tối ưu (Optimizer). Các thông số khác. Thử nghiệm với các Kết nối tắt

8. CHƯƠNG 8: ĐÁNH GIÁ VÀ KẾT QUẢ

8.1. Phương pháp đánh giá. Metrics đánh giá Text Detection và End-to-End. Metrics đánh giá với riêng Text Recognition. Kết quả thử nghiệm. Kết quả bài toán Text Detection. Kết quả tổng quan. Kết quả theo từng tác phẩm. Kết quả bài toán Text Recognition. Kết quả giai đoạn Pre-training. Kết quả Fine-tuning và Retraining. Kết quả các ngưỡng

8.2. Kết quả End-to-End. Kết quả trên toàn bộ ảnh. Kết quả chi tiết trên thơ và văn xuôi. Phân tích lỗi. Phân tích lỗi cho bài toán Text Detection

8.3. Phân tích lỗi cho bài toán Text Recognition

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Nhận Dạng Ký Tự Hán Nôm Sử Dụng Học Sâu

Nhận dạng ký tự Hán-Nôm là một lĩnh vực nghiên cứu quan trọng trong việc bảo tồn di sản văn hóa Việt Nam. Với sự phát triển của công nghệ học sâu, việc áp dụng các phương pháp như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi tiếp (RNN) đã mở ra nhiều cơ hội mới. Nghiên cứu này không chỉ giúp số hóa các tài liệu cổ mà còn tạo điều kiện cho việc nghiên cứu và giảng dạy về văn hóa Hán-Nôm.

1.1. Khái niệm về Nhận Dạng Ký Tự Hán Nôm

Nhận dạng ký tự Hán-Nôm là quá trình chuyển đổi hình ảnh chứa ký tự thành dạng văn bản có thể đọc được. Điều này giúp bảo tồn và phát huy giá trị của các tài liệu cổ.

1.2. Tầm quan trọng của Học Sâu trong Nhận Dạng Ký Tự

Học sâu cung cấp các phương pháp mạnh mẽ để cải thiện độ chính xác trong nhận dạng ký tự. Các mô hình như CNN và RNN đã chứng minh hiệu quả trong việc xử lý hình ảnh và ngữ nghĩa.

II. Vấn đề và Thách thức trong Nhận Dạng Ký Tự Hán Nôm

Mặc dù có nhiều tiến bộ, nhưng việc nhận dạng ký tự Hán-Nôm vẫn gặp phải nhiều thách thức. Các vấn đề như độ chính xác thấp, sự đa dạng trong cách viết và chất lượng hình ảnh là những yếu tố cần được giải quyết. Việc thiếu dữ liệu huấn luyện chất lượng cũng là một rào cản lớn.

2.1. Độ chính xác và độ tin cậy của mô hình

Độ chính xác của các mô hình nhận dạng ký tự Hán-Nôm thường không đạt yêu cầu. Cần có các phương pháp cải thiện để nâng cao độ tin cậy.

2.2. Sự đa dạng trong cách viết ký tự

Ký tự Hán-Nôm có nhiều biến thể và cách viết khác nhau, điều này gây khó khăn cho việc nhận dạng chính xác. Cần có các phương pháp để xử lý sự đa dạng này.

III. Phương pháp Học Sâu trong Nhận Dạng Ký Tự Hán Nôm

Các phương pháp học sâu như CNN và RNN đã được áp dụng để giải quyết bài toán nhận dạng ký tự Hán-Nôm. Những mô hình này giúp cải thiện đáng kể độ chính xác và hiệu suất của hệ thống nhận dạng. Việc sử dụng mạng nơ-ron hồi tiếp tích chập (CRNN) cũng đã cho thấy kết quả khả quan.

3.1. Mạng Nơ ron Tích chập CNN

CNN là một trong những phương pháp hiệu quả nhất trong nhận dạng hình ảnh. Nó giúp phát hiện các đặc trưng quan trọng của ký tự Hán-Nôm.

3.2. Mạng Nơ ron Hồi tiếp RNN

RNN cho phép xử lý dữ liệu theo chuỗi, rất hữu ích trong việc nhận dạng các ký tự liên tiếp trong văn bản Hán-Nôm.

3.3. Kết hợp CNN và RNN

Sự kết hợp giữa CNN và RNN tạo ra mô hình CRNN, giúp cải thiện đáng kể độ chính xác trong nhận dạng ký tự Hán-Nôm.

IV. Ứng dụng thực tiễn của Nhận Dạng Ký Tự Hán Nôm

Nhận dạng ký tự Hán-Nôm có nhiều ứng dụng thực tiễn trong việc bảo tồn văn hóa và lịch sử. Các hệ thống nhận dạng có thể được sử dụng để số hóa tài liệu cổ, giúp cho việc nghiên cứu và giảng dạy trở nên dễ dàng hơn. Ngoài ra, việc số hóa cũng giúp bảo tồn các tài liệu quý giá cho thế hệ tương lai.

4.1. Số hóa tài liệu cổ

Việc số hóa tài liệu cổ giúp bảo tồn và phát huy giá trị văn hóa. Các tài liệu này có thể được truy cập dễ dàng hơn qua internet.

4.2. Hỗ trợ nghiên cứu và giảng dạy

Các hệ thống nhận dạng ký tự Hán-Nôm giúp các nhà nghiên cứu và giảng viên dễ dàng truy cập và sử dụng tài liệu cổ trong giảng dạy và nghiên cứu.

V. Kết luận và Tương lai của Nhận Dạng Ký Tự Hán Nôm

Nhận dạng ký tự Hán-Nôm sử dụng học sâu đang mở ra nhiều cơ hội mới cho việc bảo tồn văn hóa. Tuy nhiên, cần tiếp tục nghiên cứu và phát triển các phương pháp mới để cải thiện độ chính xác và hiệu suất. Tương lai của lĩnh vực này hứa hẹn sẽ có nhiều tiến bộ, góp phần quan trọng vào việc bảo tồn di sản văn hóa Việt Nam.

5.1. Tiềm năng phát triển trong nghiên cứu

Nghiên cứu về nhận dạng ký tự Hán-Nôm có tiềm năng lớn trong việc phát triển các công nghệ mới, giúp cải thiện độ chính xác và hiệu suất.

5.2. Tầm quan trọng của việc bảo tồn văn hóa

Việc bảo tồn văn hóa thông qua nhận dạng ký tự Hán-Nôm là rất quan trọng, giúp giữ gìn di sản cho các thế hệ sau.

10/07/2025
Khóa luận tốt nghiệp khoa học dữ liệu nhận diện ký tự hán nôm sử dụng deep learning

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu nhận diện ký tự hán nôm sử dụng deep learning