Luận văn thạc sĩ: Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn

2021

62
9
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT

LỜI CAM ĐOAN

toc. MỤC LỤC

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG

DANH MỤC CHỮ VIẾT TẮT

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Đặt vấn đề và lý do chọn đề tài

1.2. Mục tiêu và giới hạn đề tài

1.2.1. Mục tiêu đề tài

1.2.2. Giới hạn đề tài

1.3. Cấu trúc luận văn

2. CHƯƠNG 2: KIẾN THỨC NỀN TẢNG

2.1. Lý thuyết đồ thị

2.2. Mạng nơ-ron nhân tạo Artificial Neural Network

2.2.1. Tổng quan mạng ANN

2.2.2. Một số hàm kích hoạt Activation function

2.3. Mạng nơ-ron tích chập Convolutional Neural Network

2.3.1. Tổng quan mạng CNN

2.3.2. Các kiểu tầng

2.3.3. Các siêu tham số của bộ lọc

2.3.4. Điều chỉnh siêu tham số

2.4. Mạng nơ-ron hồi quy Recurrent Neural Network

2.4.1. Tổng quan mạng RNN

2.4.2. Phân loại kiến trúc RNN

3. CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN

3.1. Connectionist Text Proposal Network

3.2. Nhận diện ký tự quang học

3.3. Mạng tích chập trên đồ thị Graph Convolutional Networks

3.3.1. Phương pháp quang phổ Spectral Methods

3.3.2. Phương pháp không gian Spatial Methods

3.4. Một số công trình trích xuất thông tin

4. CHƯƠNG 4: PHƯƠNG PHÁP THỰC HIỆN

4.1. Xử lý dữ liệu

4.2. Connectionist Text Proposal Network

4.3. Nhận diện ký tự quang học

4.4. Mô hình trích xuất thông tin

4.4.1. Định nghĩa bài toán

4.4.2. Trình mô hình đồ thị Graph Modeler

4.4.3. Thông tin đặc diện của nút Node representation

4.4.4. Bộ phân loại nút đồ thị Graph Node Classifier

4.4.5. Phương pháp đánh giá

5. CHƯƠNG 5: THỰC HIỆN VÀ ĐÁNH GIÁ

5.1. Connectionist Text Proposal Network

5.2. Nhận diện ký tự quang học

5.3. Mô hình trích xuất thông tin

5.4. Đánh giá toàn bộ hệ thống

6. CHƯƠNG 6: TỔNG KẾT

6.1. Tính khả năng và hạn chế

6.2. Định hướng trong tương lai

TÀI LIỆU THAM KHẢO

PHỤ LỤC LỆ TRÍCH NGANG

QUÁ TRÌNH CÔNG TÁC

Tóm tắt

I. Giới thiệu

Nghiên cứu phương pháp trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính đã trở thành một lĩnh vực quan trọng trong việc xử lý và phân tích dữ liệu hình ảnh. Các phương pháp hiện tại tập trung vào việc phát hiện đối tượng, nhận diện văn bản và trích xuất thông tin từ các tài liệu số hóa. Việc áp dụng các kỹ thuật học máycông nghệ nhận dạng đã giúp cải thiện đáng kể độ chính xác và hiệu quả của quá trình này. Mục tiêu chính của nghiên cứu này là phát triển một mô hình trích xuất thông tin sử dụng học sâuma trận đồ thị để tối ưu hóa các bước trong quy trình trích xuất.

1.1 Đặt vấn đề

Với sự gia tăng nhanh chóng của lượng dữ liệu tài liệu số hóa, nhu cầu về các phương pháp khai thác dữ liệu trở nên cấp thiết. Các phương pháp truyền thống thường gặp khó khăn trong việc xử lý các tài liệu phức tạp với nhiều định dạng khác nhau. Do đó, việc phát triển các phương pháp mới có khả năng xử lý và phân tích hình ảnh một cách tự động là rất cần thiết. Nghiên cứu này sẽ xem xét các phương pháp hiện có và đề xuất một giải pháp mới nhằm nâng cao khả năng nhận diện và trích xuất thông tin từ các tài liệu hình ảnh.

II. Phương pháp nghiên cứu

Nghiên cứu đề xuất một quy trình gồm ba bước chính: phát hiện đối tượng, phát hiện văn bản và nhận diện ký tự quang học (OCR). Mỗi bước sẽ sử dụng các mô hình học sâu khác nhau để tối ưu hóa hiệu suất. Cụ thể, bước phát hiện đối tượng sẽ sử dụng mô hình Mask R-CNN để xác định vị trí các đối tượng trong ảnh. Bước phát hiện văn bản sẽ áp dụng phương pháp CTPN (Connectionist Text Proposal Network) để phát hiện các vùng chứa văn bản trong ảnh. Cuối cùng, nhận diện ký tự quang học sẽ được thực hiện bằng Tesseract OCR, một công cụ mạnh mẽ được phát triển bởi Google.

2.1 Phát hiện đối tượng

Mô hình Mask R-CNN cho phép phát hiện và phân loại các đối tượng trong ảnh một cách chính xác. Phương pháp này sử dụng các mạng nơ-ron tích chập (CNN) để xác định các khu vực quan trọng trong ảnh, từ đó tạo ra các mặt nạ cho từng đối tượng. Việc phát hiện chính xác các đối tượng giúp cải thiện đáng kể chất lượng của các bước tiếp theo trong quy trình trích xuất thông tin.

2.2 Nhận diện văn bản

Phương pháp CTPN được sử dụng để xác định các vùng văn bản trong tài liệu. CTPN hoạt động bằng cách sử dụng một mạng nơ-ron để xác định các khung chứa văn bản, từ đó cho phép phát hiện và phân tích các thông tin văn bản một cách hiệu quả. Điều này rất quan trọng trong việc đảm bảo rằng thông tin cần thiết được trích xuất chính xác từ các tài liệu hình ảnh.

2.3 Nhận diện ký tự quang học

Bước cuối cùng trong quy trình là sử dụng Tesseract OCR để chuyển đổi các vùng văn bản đã phát hiện thành văn bản số. Tesseract là một trong những công cụ OCR mạnh mẽ nhất hiện nay, hỗ trợ nhiều ngôn ngữ và có khả năng nhận diện chính xác ngay cả trong các điều kiện ánh sáng không tốt. Việc tích hợp Tesseract vào quy trình giúp đảm bảo rằng thông tin được trích xuất là chính xác và có thể sử dụng cho các mục đích phân tích tiếp theo.

III. Kết quả và thảo luận

Nghiên cứu đã tiến hành thử nghiệm trên một tập dữ liệu gồm các ảnh tài liệu từ danh thiếp của nhiều công ty. Kết quả cho thấy mô hình đề xuất đạt được độ chính xác cao trong việc phát hiện và trích xuất thông tin, vượt trội hơn so với một số sản phẩm thương mại hiện có như Abbyy và BizConnect. Điều này chứng tỏ tính khả thi và hiệu quả của phương pháp được đề xuất trong việc xử lý và phân tích dữ liệu từ ảnh tài liệu.

3.1 Đánh giá hiệu suất

Các thử nghiệm cho thấy mô hình đạt được tỷ lệ chính xác cao trong việc phát hiện và nhận diện văn bản. Đặc biệt, việc sử dụng học sâu đã giúp cải thiện đáng kể khả năng nhận diện các ký tự phức tạp và các trường hợp có độ phân giải thấp. Đánh giá hiệu suất được thực hiện thông qua các chỉ số như tỷ lệ lỗi ký tự (CER) và độ chính xác toàn phần.

3.2 Ứng dụng thực tiễn

Phương pháp trích xuất thông tin từ ảnh tài liệu có thể được áp dụng rộng rãi trong nhiều lĩnh vực, từ quản lý tài liệu đến tự động hóa quy trình kinh doanh. Việc số hóa và trích xuất thông tin từ tài liệu giấy sẽ giúp tiết kiệm thời gian và chi phí, đồng thời nâng cao hiệu quả công việc. Hơn nữa, các mô hình học sâu có thể dễ dàng mở rộng và tùy chỉnh cho các loại dữ liệu khác nhau, tạo ra nhiều cơ hội ứng dụng trong tương lai.

05/01/2025

Bài viết "Luận văn thạc sĩ: Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính" trình bày một nghiên cứu sâu sắc về phương pháp trích xuất thông tin từ hình ảnh tài liệu, một lĩnh vực quan trọng trong khoa học máy tính. Nghiên cứu không chỉ giúp nâng cao hiệu quả xử lý và phân tích dữ liệu hình ảnh mà còn mở ra cơ hội ứng dụng trong nhiều lĩnh vực khác nhau như giáo dục, y tế và quản lý thông tin. Bài viết cung cấp cái nhìn tổng quát về các kỹ thuật hiện có và những thách thức trong việc phát triển các giải pháp trích xuất thông tin hiệu quả.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo thêm bài viết "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt", nơi trình bày các kỹ thuật nhận dạng văn bản và ứng dụng của chúng trong giáo dục. Bài viết khác, "Luận văn về ứng dụng công nghệ thông tin trong hệ thống lưu trữ và truyền tải hình ảnh phục vụ chuẩn đoán tại bệnh viện đa khoa Bình Dương", cũng liên quan đến việc sử dụng công nghệ hình ảnh trong y tế, giúp bạn có cái nhìn sâu hơn về ứng dụng thực tiễn của công nghệ này. Cuối cùng, bài viết "Luận văn thạc sĩ về nhận diện tạp chí hiện đại Nhật Bản qua học sâu và mô hình ngôn ngữ" sẽ cung cấp thêm thông tin về nhận diện hình ảnh và ngôn ngữ, một lĩnh vực liên quan mật thiết đến nghiên cứu trích xuất thông tin từ ảnh tài liệu.

Những tài liệu này không chỉ giúp bạn hiểu rõ hơn về các ứng dụng của công nghệ trong lĩnh vực khoa học máy tính mà còn mở ra nhiều hướng nghiên cứu và phát triển mới.