Luận văn nhận dạng ký tự quang cho văn bản có cấu trúc ứng dụng trong đọc chứng minh thư nhân dân

Tài liệu nghiên cứu Luận văn nhận dạng ký tự quang cho văn bản có cấu trúc ứng dụng trong đọc chứng minh thư nhân dân, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN

1.1. Tổng quan về nhận dạng ký tự quang

1.2. Các bước cơ bản bản nhận dạng ký tự quang học

2. CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ

2.1. Mô tả bài toán nhận dạng chứng minh nhân dân

2.2. Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

2.3. Phép biến đổi TPS

2.4. Sử dụng biến đổi Hough

2.5. Mô hình mạng học sâu SSD-V2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

3.1. Tập dữ liệu

3.2. Thiết lập thực nghiệm

3.3. Phân tích kết quả

KẾT LUẬN

DANH SÁCH TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Nhận dạng ký tự quang OCR

Nhận dạng ký tự quang (OCR) là một công nghệ quan trọng trong việc chuyển đổi văn bản từ hình ảnh thành dữ liệu số. Công nghệ này cho phép nhận diện và trích xuất thông tin từ các tài liệu có cấu trúc như chứng minh thư nhân dân. Việc áp dụng OCR giúp tiết kiệm thời gian và công sức trong việc nhập liệu, đồng thời nâng cao hiệu quả quản lý tài liệu. Đặc biệt, trong bối cảnh số hóa hiện nay, OCR trở thành một công cụ không thể thiếu trong nhiều lĩnh vực như ngân hàng, bảo hiểm và quản lý nhà nước. Theo nghiên cứu, việc áp dụng OCR cho văn bản có cấu trúc như chứng minh thư có thể đạt độ chính xác cao, nhờ vào các công nghệ học sâu hiện đại.

1.1. Các bước cơ bản trong nhận dạng ký tự quang học

Quá trình nhận dạng ký tự quang (OCR) thường bao gồm ba bước chính: tiền xử lý ảnh, phát hiện ký tự và nhận diện ký tự. Trong bước tiền xử lý, ảnh được cải thiện về chất lượng để giảm nhiễu và tăng độ rõ nét. Bước phát hiện ký tự sử dụng các mô hình học sâu để xác định vị trí của các ký tự trong ảnh. Cuối cùng, trong bước nhận diện ký tự, các ký tự được nhận diện và chuyển đổi thành văn bản số. Các mô hình như Tesseract và Google API thường được sử dụng, tuy nhiên, các mô hình học sâu như CRNN và LSTM đang ngày càng trở nên phổ biến nhờ vào khả năng xử lý tốt hơn trong các điều kiện khó khăn.

II. Kỹ thuật học sâu trong phân tích chứng minh thư

Kỹ thuật học sâu đã mang lại những bước tiến vượt bậc trong lĩnh vực nhận dạng ký tự quang (OCR). Đặc biệt, mô hình TPS-ResNet-BiLSTM-Attention đã được áp dụng để nhận diện văn bản trong chứng minh thư. Mô hình này cho phép xác định chính xác các vùng quan tâm trong ảnh, từ đó nâng cao độ chính xác của việc nhận diện ký tự. Việc sử dụng các phương pháp như CRAFT để xác định vùng quan tâm giúp tối ưu hóa quy trình nhận diện, giảm thiểu sai sót trong việc trích xuất thông tin. Các mô hình học sâu hiện nay không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý, tạo điều kiện thuận lợi cho việc ứng dụng trong thực tế.

2.1. Mô tả bài toán nhận dạng chứng minh nhân dân

Bài toán nhận dạng chứng minh thư bao gồm nhiều bước như xử lý ảnh, xác định vùng quan tâm và nhận diện ký tự. Đầu tiên, ảnh chứng minh thư cần được chuẩn hóa để loại bỏ các biến dạng do góc chụp. Sau đó, các mô hình học sâu sẽ được sử dụng để xác định vị trí của các ký tự trong ảnh. Cuối cùng, nội dung ký tự sẽ được nhận diện và chuyển đổi thành văn bản số. Việc áp dụng các mô hình như CRAFT và CRNN giúp nâng cao độ chính xác và hiệu quả trong việc nhận diện ký tự từ chứng minh thư.

III. Thực nghiệm và đánh giá kết quả

Thực nghiệm được thực hiện để đánh giá hiệu quả của các mô hình nhận diện ký tự quang (OCR) trong việc xử lý chứng minh thư. Các chỉ số như độ chính xác, tốc độ xử lý và khả năng nhận diện trong các điều kiện khác nhau được ghi nhận. Kết quả cho thấy rằng các mô hình học sâu như SSD và Transformer có khả năng nhận diện ký tự tốt hơn so với các phương pháp truyền thống. Đặc biệt, mô hình Transformer đã chứng minh được ưu thế trong việc xử lý văn bản có ngữ nghĩa, giúp cải thiện đáng kể độ chính xác của việc nhận diện ký tự.

3.1. Phân tích kết quả

Kết quả thực nghiệm cho thấy rằng việc áp dụng công nghệ học sâu trong nhận diện ký tự quang (OCR) mang lại nhiều lợi ích. Độ chính xác của các mô hình học sâu đạt trên 90%, cho thấy khả năng nhận diện ký tự trong các điều kiện khó khăn. Bên cạnh đó, thời gian xử lý cũng được rút ngắn đáng kể, giúp tăng hiệu quả công việc. Những kết quả này không chỉ có giá trị trong nghiên cứu mà còn có ứng dụng thực tiễn cao trong việc số hóa tài liệu và quản lý thông tin.

13/02/2025

Bạn đang xem trước tài liệu:

Luận văn nhận dạng ký tự quang cho văn bản có cấu trúc ứng dụng trong đọc chứng minh thư nhân dân

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng ký tự quang học (OCR) là một lĩnh vực quan trọng trong công nghệ xử lý ảnh và trí tuệ nhân tạo, với ứng dụng rộng rãi trong số hóa tài liệu, tự động hóa nhập liệu và nhận diện văn bản từ hình ảnh. Theo ước tính, việc số hóa tài liệu truyền thống có thể giảm thiểu đến 70% thời gian xử lý và lưu trữ, đồng thời nâng cao hiệu quả tra cứu thông tin. Luận văn tập trung vào bài toán nhận dạng ký tự quang học cho văn bản có cấu trúc, cụ thể là ứng dụng trong đọc chứng minh thư nhân dân, một loại giấy tờ tùy thân phổ biến tại Việt Nam. Nghiên cứu được thực hiện trong phạm vi thời gian năm 2022, với dữ liệu thu thập từ khoảng 580 ảnh chứng minh thư thực tế, nhằm phát triển một hệ thống nhận dạng tự động, chính xác và hiệu quả.

Mục tiêu chính của luận văn là xây dựng một phương pháp nhận dạng ký tự quang học ứng dụng kỹ thuật học sâu, kết hợp các mô hình tiên tiến như SSD-v2, CRAFT và Transformer để xử lý ảnh chứng minh thư bị biến dạng, nghiêng, mờ hoặc lóa. Nghiên cứu không chỉ tập trung vào việc nhận diện ký tự mà còn xử lý các bước tiền xử lý ảnh, xác định vùng quan tâm và chuẩn hóa ảnh nhằm nâng cao độ chính xác nhận dạng. Kết quả nghiên cứu có ý nghĩa lớn trong việc hỗ trợ tự động hóa quy trình kiểm tra, xác thực giấy tờ, giảm thiểu sai sót và tăng tốc độ xử lý trong các cơ quan hành chính, ngân hàng và các tổ chức cần xác minh thông tin cá nhân.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: nhận dạng ký tự quang học (OCR) và kỹ thuật học sâu (Deep Learning).

Nhận dạng ký tự quang học (OCR): Là quá trình chuyển đổi hình ảnh chứa văn bản thành dữ liệu số có thể xử lý. Các bước cơ bản gồm tiền xử lý ảnh, phát hiện ký tự và nhận diện ký tự. Văn bản được phân loại thành hai loại: văn bản có cấu trúc (như chứng minh thư) và văn bản phi cấu trúc (như biển hiệu, hóa đơn).
Kỹ thuật học sâu: Sử dụng các mô hình mạng nơ-ron tích chập (CNN), mạng thần kinh hồi tiếp (RNN), mạng LSTM và Transformer để trích xuất đặc trưng và nhận diện ký tự. Mô hình SSD-v2 được dùng để xác định vị trí 4 góc của chứng minh thư, mô hình CRAFT để phát hiện vùng ký tự, và mô hình Transformer (vietOCR) để nhận diện ký tự với cơ chế attention giúp cải thiện độ chính xác so với RNN và LSTM truyền thống.

Các khái niệm chính bao gồm:

Phép biến đổi TPS (Thin Plate Spline): Dùng để chỉnh sửa biến dạng ảnh, làm thẳng các ký tự bị nghiêng hoặc méo.
Biến đổi Hough: Phát hiện góc nghiêng của ảnh dựa trên phân tích đường thẳng trong không gian ảnh.
Intersection over Union (IoU): Đánh giá độ chính xác của hộp giới hạn trong nhận diện vật thể.
Attention Mechanism: Cơ chế giúp mô hình tập trung vào các phần quan trọng của chuỗi dữ liệu đầu vào, nâng cao hiệu quả nhận diện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm 580 ảnh chứng minh thư thu thập từ các nhóm Facebook chuyên tìm kiếm và trả lại giấy tờ, cùng bộ dữ liệu tự sinh gồm một triệu ảnh ký tự dùng để huấn luyện mô hình nhận diện ký tự.

Phương pháp nghiên cứu bao gồm:

Tiền xử lý ảnh: Xác định và chuẩn hóa vùng ảnh chứng minh thư bằng mô hình SSD-v2 để phát hiện 4 góc, sử dụng phép biến đổi TPS và biến đổi Hough để chỉnh sửa ảnh bị nghiêng, méo.
Phát hiện vùng ký tự: Áp dụng mô hình CRAFT để xác định chính xác vị trí từng ký tự trong ảnh.
Nhận diện ký tự: Sử dụng mô hình Transformer trong thư viện vietOCR với cơ chế attention để nhận dạng ký tự từ vùng ảnh đã được tách.

Phương pháp phân tích sử dụng các chỉ số như F1 score để đánh giá độ chính xác mô hình. Cỡ mẫu huấn luyện cho mô hình SSD-v2 là 300 ảnh, kiểm tra trên 280 ảnh. Thời gian huấn luyện mô hình SSD-v2 là khoảng 8 tiếng trên môi trường CPU Intel i7-10700F, GPU GTX 2070 8GB, RAM 32GB, sử dụng thư viện Pytorch 1.0.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác xác định góc chứng minh thư: Mô hình SSD-v2 đạt F1 score 97% trên bộ kiểm tra 280 ảnh, với 551 mẫu đúng và 10 mẫu sai do bị che góc. Kết quả này cho thấy mô hình có khả năng phát hiện chính xác vị trí 4 góc của chứng minh thư, giúp chuẩn hóa ảnh hiệu quả.
Hiệu quả phát hiện vùng ký tự bằng CRAFT: Mô hình CRAFT nhận diện chính xác các ký tự trong vùng ảnh chứng minh thư, ngay cả với ảnh bị nghiêng, mờ hoặc lóa. Các hộp giới hạn ký tự được xác định rõ ràng, tạo điều kiện thuận lợi cho bước nhận diện ký tự tiếp theo.
Nhận diện ký tự bằng mô hình Transformer (vietOCR): Mô hình Transformer cho kết quả nhận diện ký tự vượt trội so với các mô hình RNN và LSTM truyền thống, đặc biệt trong việc xử lý các chuỗi ký tự dài và có ngữ nghĩa phức tạp. Thời gian xử lý nhanh và khả năng nhận diện chính xác các ký tự tiếng Việt trong chứng minh thư được cải thiện rõ rệt.
Khả năng xử lý ảnh biến dạng: Hệ thống tổng thể có thể xử lý tốt các ảnh chứng minh thư bị biến dạng như nghiêng, méo, mất góc hoặc ánh sáng kém, nhờ sự kết hợp của các kỹ thuật tiền xử lý như TPS và biến đổi Hough.

Thảo luận kết quả

Nguyên nhân thành công của hệ thống là do sự kết hợp hiệu quả giữa các mô hình học sâu chuyên biệt cho từng bước xử lý: SSD-v2 cho phát hiện góc, CRAFT cho phát hiện ký tự và Transformer cho nhận diện ký tự. So với các nghiên cứu trước đây chỉ sử dụng mô hình truyền thống hoặc học máy cổ điển, hệ thống này đạt độ chính xác cao hơn khoảng 10-15% trong nhận diện ký tự trên ảnh chứng minh thư.

Kết quả có thể được trình bày qua biểu đồ F1 score so sánh giữa các mô hình SSD-v2, CRAFT và các mô hình truyền thống, cũng như bảng thống kê số lượng mẫu đúng/sai trong từng bước xử lý. Ngoài ra, biểu đồ thời gian xử lý trung bình cho mỗi ảnh cũng minh họa hiệu quả của hệ thống.

Tuy nhiên, do hạn chế về kích thước bộ dữ liệu thực tế (580 ảnh), kết quả có thể chưa phản ánh đầy đủ các trường hợp giới hạn như ảnh quá mờ hoặc bị che khuất nhiều. Luận văn đề xuất mở rộng bộ dữ liệu để cải thiện độ bao phủ và độ chính xác trong tương lai.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm nhiều ảnh chứng minh thư từ các nguồn khác nhau, đặc biệt là các trường hợp ảnh bị mờ, lóa hoặc che khuất để tăng độ đa dạng và độ chính xác của mô hình. Mục tiêu đạt ít nhất 2000 ảnh trong vòng 12 tháng, do nhóm nghiên cứu và cộng đồng hỗ trợ.
Tối ưu hóa mô hình nhận diện ký tự: Nghiên cứu và áp dụng các kiến trúc Transformer mới hơn hoặc kết hợp với kỹ thuật tăng cường dữ liệu (data augmentation) để nâng cao khả năng nhận diện ký tự trong điều kiện ảnh kém chất lượng. Thời gian thực hiện dự kiến 6 tháng, do nhóm phát triển AI đảm nhiệm.
Phát triển ứng dụng thực tế: Xây dựng phần mềm hoặc API tích hợp hệ thống nhận dạng ký tự quang học cho các cơ quan hành chính, ngân hàng nhằm tự động hóa quy trình kiểm tra giấy tờ. Mục tiêu triển khai thử nghiệm trong 9 tháng, phối hợp với các đơn vị đối tác.
Nâng cao khả năng xử lý ảnh phi cấu trúc: Mở rộng nghiên cứu sang nhận dạng văn bản phi cấu trúc như hóa đơn, biển số xe bằng cách điều chỉnh mô hình CRAFT và Transformer phù hợp. Thời gian nghiên cứu 1 năm, do nhóm nghiên cứu chuyên sâu về xử lý ảnh thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành hệ thống thông tin, trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong nhận dạng ký tự quang học, giúp phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển phần mềm xử lý ảnh và OCR: Các kỹ thuật và mô hình được trình bày có thể áp dụng để xây dựng hoặc cải tiến các hệ thống nhận dạng văn bản tự động, đặc biệt trong lĩnh vực giấy tờ tùy thân.
Cơ quan hành chính và tổ chức tài chính: Hệ thống nhận dạng chứng minh thư tự động giúp tăng tốc độ xử lý hồ sơ, giảm sai sót và nâng cao hiệu quả công việc.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI: Tham khảo để phát triển sản phẩm ứng dụng OCR cho các loại giấy tờ, tài liệu khác nhau, mở rộng thị trường và nâng cao chất lượng dịch vụ.

Câu hỏi thường gặp

Hệ thống có thể nhận diện chính xác khi ảnh chứng minh thư bị mờ hoặc lóa không?
Hệ thống sử dụng kỹ thuật tiền xử lý như TPS và mô hình học sâu giúp cải thiện khả năng nhận diện trong điều kiện ảnh mờ, lóa. Thực nghiệm cho thấy vẫn nhận diện được ký tự với độ chính xác cao trên nhiều ảnh bị biến dạng.
Tại sao chọn mô hình Transformer thay vì RNN hay LSTM?
Transformer xử lý song song các từ trong chuỗi, giảm thời gian huấn luyện và cải thiện khả năng ghi nhớ phụ thuộc dài, giúp nhận diện ký tự chính xác hơn, đặc biệt với ngôn ngữ có cấu trúc phức tạp như tiếng Việt.
Bộ dữ liệu huấn luyện có đủ lớn để đảm bảo độ chính xác không?
Bộ dữ liệu thực tế gồm 580 ảnh chứng minh thư và một triệu ảnh ký tự tự sinh giúp mô hình học tốt. Tuy nhiên, tác giả đề xuất mở rộng dữ liệu để bao phủ các trường hợp giới hạn và nâng cao độ chính xác.
Hệ thống có thể áp dụng cho các loại giấy tờ khác ngoài chứng minh thư không?
Về nguyên tắc, hệ thống có thể điều chỉnh để nhận dạng các loại giấy tờ có cấu trúc tương tự như hộ chiếu, giấy khai sinh, hoặc các văn bản có cấu trúc khác bằng cách huấn luyện lại mô hình với dữ liệu phù hợp.
Thời gian xử lý trung bình cho một ảnh chứng minh thư là bao lâu?
Thời gian xử lý trung bình trên môi trường thử nghiệm là vài giây cho mỗi ảnh, phù hợp để ứng dụng trong các hệ thống tự động hóa quy trình kiểm tra giấy tờ.

Kết luận

Luận văn đã xây dựng thành công hệ thống nhận dạng ký tự quang học cho chứng minh thư nhân dân dựa trên kỹ thuật học sâu, kết hợp SSD-v2, CRAFT và Transformer.
Mô hình SSD-v2 đạt F1 score 97% trong việc xác định góc ảnh, giúp chuẩn hóa ảnh hiệu quả.
Mô hình CRAFT và Transformer cho kết quả nhận diện ký tự chính xác ngay cả với ảnh bị biến dạng, mờ hoặc lóa.
Hệ thống có thể xử lý ảnh chứng minh thư trong điều kiện thực tế với độ chính xác và tốc độ xử lý cao.
Đề xuất mở rộng bộ dữ liệu và phát triển ứng dụng thực tế nhằm nâng cao hiệu quả và mở rộng phạm vi ứng dụng trong tương lai.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp nên tập trung vào mở rộng dữ liệu, tối ưu mô hình và tích hợp hệ thống vào quy trình làm việc thực tế nhằm khai thác tối đa tiềm năng của công nghệ nhận dạng ký tự quang học.

Trích đoạn nội dung tài liệu

CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1. Tổng quan về nhận dạng ký tự quang Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty nào mở rộng quy mô và để phù hợp phải thay đổi cách họ nhìn vào công nghệ và thích nghi với sự thay đổi nhanh chóng của công nghệ. Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google Earth sử dụng NLP để xác định địa chỉ hoặc làm thế nào có thể đọc văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý. Đó chính là bài toán nhận dạng ký tự quang học (OCR) được thực hiện trong luận văn này.

Nhận dạng ký tự quang học là ứng dụng công nghệ chuyên dùng để đọc text ở file ảnh. Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu. Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ và thuận tiện trong việc tra cứu thông tin. Hiện nay đối với ảnh chụp văn bản cần nhận dạng, ta có thể chia ra làm 2 loại : - Văn bản có cấu trúc: Văn bản trong một tài liệu đánh máy thường xuất hiện trong những nền tảng tiêu chuẩn, có hàng lối, phông chữ tiêu chuẩn.

Các văn bản này thường gặp ở những giấy tờ tùy thân như chứng minh thư nhân dân, giấy khai sinh, hộ chiếu hay có thể là trang sách. Đối với loại dữ liệu này, việc trích xuất đặc trưng, xác định vị trí ký tự và nhận dạng ký tự sẽ không khó nếu văn bản không bị mờ, nhòe hoặc điều kiện ánh sáng quá thiếu. Văn bản phi cấu trúc: Văn bản tại các vị trí ngẫu nhiên trong một khung cảnh tự nhiên. Văn bản thưa thớt, không có cấu trúc hàng thích hợp, nền phức tạp, tại vị trí ngẫu nhiên trong ảnh và không có phông chữ chuẩn.

Những văn bản này có thể là biển hiệu quảng cáo, hóa đơn, biển số xe hoặc chữ viết tay. Trong phạm vi luận văn, các kí tự nằm trên sản phẩm có thể được gọi là văn bản phi cấu trúc vì chúng có màu sắc, vị trí ngẫu nhiên trong ảnh. 10 Hình 1: Văn bản có cấu trúc Hình SEQ Hình \* ARABIC 1: Văn bản có cấu trúc Hình SEQ Hình \* ARABIC 2: Văn bản phi cấu trúc Hình 2: Văn bản phi cấu trúc 1. Các bước cơ bản bản nhận dạng ký tự quang học Trước khi có sự bùng nổ của công nghệ học sâu vào năm 2012, nhận dạng ký tự quang học vẫn là một vấn đề thách thức đặc biệt là khi hình ảnh văn bản được chụp trong môi trường không bị giới hạn.

Khi hình ảnh chứa nền phức tạp, nhiễu, phông chữ khác nhau và biến dạng hình học trong hình ảnh. Điều đó được thể hiện rất rõ trong các trường hợp hóa đơn khách hàng chụp gửi lại cho chúng ta có thể ở trong những điều kiện rất xấu như lóa (do giấy in hóa đơn rất bóng), bị nhàu nát, không đủ sáng, bị ướt. Chính trong những tình huống như vậy, nhận dạng ký tự quang học kết hợp cùng học sâu là biện pháp tốt nhất được sử dụng để nhận dạng văn bản. 11 Hình 3: Sơ đồ cơ bản của một hệ thống nhận dạng ký tự quang học Bất kỳ một hệ thống nhận dạng ký tự quang học nào đều tuân theo 3 bước sau: - Tiền xử lý ảnh: Trước khi xác định được vị trí các kí tự, ảnh cần được tiền xử lý để đạt được một số yêu cầu nhất định.

Ảnh có thể được nâng cao chất lượng, phân cụm để giảm số lượng giá trị trong ảnh, lọc nhiễu sử dụng các bộ lọc như Gaussian, Median hoặc có thể đưa về hệ màu đen trắng đối với những bài toán có nền đơn giản như phân loại biển số xe để giảm chiều dữ liệu cũng như kích thước dữ liệu. Đối với một số bài toán sử dụng công nghệ học sâu, ảnh sẽ được thay đổi kích thước nhất định để phù hợp với mô hình. Quá trình tiền xử lý này cần thực hiện sao cho giảm nhiễu và các thông tin ngoại lai nhiều nhất tuy nhiên vẫn phải giữ lại được những thông tin cần thiết cho quá trình xác định và nhận diện sau này. - Phát hiện ký tự: Sau khi ảnh được tiền xử lý, ta sẽ tiến hành xác định vị trí của ký tự hoặc nhóm các kí tự có cấu trúc giống nhau.

Mục tiêu của nhận diện ký tự tương tự như các bài toán xác định vật thể với vật thể đặc thù ở đây là vị trí của các ký tự. Hiện nay, với sự bùng nổ của công nghệ học sâu, các mô hình được sinh ra để giải quyết những bài toán với độ chính xác cao lên tới hơn 90% có thể được kể đến như DB, Text Fusnet[13], CRAFT[14],. Các mô hình này cho kết quả nhận diện tốt trên các bộ văn bản có cấu trúc lẫn những văn bản phi cấu trúc, tiêu biểu như nhận diện biển báo (một loại kĩ thuật trên không chỉ thể hiện được kết quả tốt trên các bộ văn bản có cấu trúc mà còn ở cả các loại văn bản phi cấu trúc tiêu biểu nhất là biển báo - loại văn bản cảnh). Hình 4: Kết quả nhận diện hộp giới hạn sử dụng mô hình xác định ký tự 12 - Nhận diện ký tự: Sau khi đã xác định các các hộp giới hạn, từng hộp sẽ được xử lý để nhận dạng được các kí tự có trong vùng ảnh đó đó và ghép thành từ cụ thể.

Hiện nay, một số công cụ thông dụng thường được sử dụng Tesseract, Google API tuy nhiên khi gặp những trường hợp ảnh bị mờ hoặc méo thường sẽ cho ra kết quả không được tốt. Các mô hình học sâu hiện nay thường dùng cho bài toán này như CRNN, ASTER, MORAN, DAN có cấu trúc chung là biến đổi ảnh - trích xuất đặc trưng - mô hình tuần tự - dự đoán. Trong đó mô hình tuần tự và dự đoán là 2 phần đóng vai trò quan trọng nhất của một mô hình nhận dạng ký tự với các kiến trúc nổi tiếng là LSTM, CTC và Attention. CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ Phần lớn các mô hình dùng cho nhận diện ký tự hiện nay đều dựa trên công thức: Biến đổi ảnh - Trích xuất đặc trưng - Mô hình hóa tuần tự - Dự đoán.

Với mô hình SOTA trong những năm gần đây là TPS- ResNet - BiLSTM - Attention, quyết định sử dụng mô hình này phục vụ cho bài toán Text Recognition cho chứng minh thư. Mô tả bài toán nhận dạng chứng minh nhân dân Hình 5: Chứng minh thư mẫu cũ 13 Với bài toán nhận diện ký tự quang học cho dữ liệu là ảnh chứng minh thư, có rất nhiều quy trình được đề xuất, trong đó thường bao gồm các bước sau: - Xử lý ảnh, xác định vùng quan tâm chưa chứng minh thư. Do ảnh chụp chứng minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh trước khi cho vào mô hình nhận diện. Các phương pháp thường được sử dụng là: xác định biên của chứng minh thư, xác định góc của chứng minh thư.

Xác định biên của chứng minh minh thư có thể sử dụng các kỹ thuật như tìm đường biên trong xử lý ảnh, phân vùng đối tượng, xác định các góc của chứng minh thư. Từ đó, tác giả có thể xác định được tâm xoay và ma trận chuyển vị để từ đó thu được ảnh vùng quan tâm ở vị trí tốt được sử dụng cho phần nhận diện ký tự ở bước 2. - Xác định hộp giới hạn của từng dòng ký tự của ảnh. Các hộp giới hạn ứng với từng dòng ký tự của ảnh.

Phần xác định ký tự này có thể sử dụng các mô hình nhận diện vật thể phổ biến hoặc dùng các mô hình chuyên biệt cho các bài toán xác định văn bản cảnh như: CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT,. - Nhận diện nội dung các ký tự trong các hình giới hạn ký tự. Phần nhận dạng ký tự có thể sử dụng các framework như Tesseract hoặc các mô hình về nhận dạng ký tự văn bản cảnh: CRNN-CTC loss, Attention-OCR,. Ví dụ 1 ảnh sau khi thực hiện qua 2 bước xác định góc và xác định ký tự.

Hình 6: Hộp giới hạn của vùng chữ nhận diện được 14 Hình 7: Kết quả nhận diện text với từng trường thông tin trong chứng minh thư Pipeline của mô hình được mô tả như sau Ảnh Tách Trích Mô Phân Tách đầu chữ xuất hình loại nốt đối vào đặc hóa trong đồ tượng trưng đồ thị thị Hình 8: Pipeline của hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần kinh đồ thị. - Sử dụng mạng thần kinh đồ thị để xác định các trường thông tin. Đầu tiên, ta cần nhận diện được chữ trong văn bản, các chữ này được đưa qua mô hình trích xuất đặc trưng. Những đặc trưng này biểu diễn mối liên hệ giữa vị trí của các từ trong văn bản với nhau.

Những dữ liệu này được đưa qua một mô hình đồ thị để phân loại đặc trưng này thuộc những nốt nào. Các nút ở đây chính là các hộp giới hạn thu được sau bước xác định ký tự. Dựa vào kết quả phân loại này, ta sẽ có kết quả cuối cùng là các trường thông tin của văn bản. Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học Phương pháp học sâu hiện nay đã đạt được nhiều thành tựu trong ứng dụng nhận dạng, xử lý hình ảnh.

Do đó, trong luận văn này, tác giả không sử dụng phương pháp học máy cổ điển mà sử dụng phương pháp học sâu để xử lý bài toán nhận dạng ký tự quang học cho văn bản có cấu trúc ứng dụng trong đọc thông tin trong chứng minh thư. 15 Bài toán nhận diện ký tự quang học được chia làm ba phần: - Xử lý ảnh, phát hiện vùng ROI của chứng minh thư: sử dụng phương pháp học sâu để xác định góc của chứng minh thư. Từ đó, xoay thẳng chứng minh thư để tăng chất lượng nhận diện ký tự. - Xác định vùng vùng quan tâm dựa trên cấu trúc văn bản bản sử dụng mô hình CRAFT.

Vùng quan tâm sẽ chứa từng ký tự của văn bản, bốn góc của vùng quan tâm tạo thành hình chữ nhật.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Nhận dạng ký tự quang OCR cho văn bản cấu trúc - Ứng dụng đọc CMND" trình bày về công nghệ nhận dạng ký tự quang (OCR) và ứng dụng của nó trong việc đọc và xử lý thông tin từ chứng minh nhân dân (CMND). Bài viết nêu bật những lợi ích của việc sử dụng OCR trong việc tự động hóa quá trình nhận diện văn bản, giúp tiết kiệm thời gian và nâng cao độ chính xác trong việc thu thập dữ liệu. Đặc biệt, công nghệ này có thể hỗ trợ trong việc quản lý hồ sơ và cải thiện trải nghiệm người dùng trong các dịch vụ công.

Nếu bạn muốn tìm hiểu sâu hơn về chủ đề này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ nhận dạng ký tự quang cho văn bản có cấu trúc ứng dụng trong đọc chứng minh thư nhân dân, nơi cung cấp cái nhìn chi tiết hơn về các phương pháp và ứng dụng của OCR trong lĩnh vực này. Đây là cơ hội tuyệt vời để mở rộng kiến thức của bạn về công nghệ nhận dạng văn bản và ứng dụng thực tiễn của nó.

#xử lý hình ảnh

#công nghệ nhận dạng

#nhận dạng ký tự quang

#chứng minh thư nhân dân

#văn bản cấu trúc

#ứng dụng OCR

Chủ đề

Ứng dụng của OCR trong đời sống

Công nghệ nhận dạng ký tự quang

Xử lý và phân tích văn bản

Phát triển phần mềm đọc tài liệu

Luận văn nhận dạng ký tự quang cho văn bản có cấu trúc ứng dụng trong đọc chứng minh thư nhân dân

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN

1.1. Tổng quan về nhận dạng ký tự quang

1.2. Các bước cơ bản bản nhận dạng ký tự quang học

2. CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ

2.1. Mô tả bài toán nhận dạng chứng minh nhân dân

2.2. Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

2.3. Phép biến đổi TPS

2.4. Sử dụng biến đổi Hough

2.5. Mô hình mạng học sâu SSD-V2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

3.1. Tập dữ liệu

3.2. Thiết lập thực nghiệm

3.3. Phân tích kết quả

KẾT LUẬN

DANH SÁCH TÀI LIỆU THAM KHẢO

I. Giới thiệu về Nhận dạng ký tự quang OCR

1.1. Các bước cơ bản trong nhận dạng ký tự quang học

II. Kỹ thuật học sâu trong phân tích chứng minh thư

2.1. Mô tả bài toán nhận dạng chứng minh nhân dân

III. Thực nghiệm và đánh giá kết quả

3.1. Phân tích kết quả

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Đình Mậu

Người hướng dẫn: TS. Nguyễn Trọng Khánh

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Hệ thống thông tin

Đề tài: Nhận Dạng Ký Tự Quang Cho Văn Bản Cấu Trúc - Ứng Dụng Đọc CMND

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2022

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm