Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân

Đồ án nghiên cứu ocr id card, áp dụng công nghệ tiên tiến, tối ưu giải pháp kỹ thuật cho bài toán ., phục vụ nghiên cứu và ứng dụng thực tiễn

Người đăng

Ẩn danh

Phí lưu trữ

30 Point

Tóm tắt

I. Toàn cảnh đồ án OCR nhận dạng Chứng minh nhân dân CMND

Trong kỷ nguyên số, việc tự động hóa quy trình nhập liệu và xác thực thông tin từ giấy tờ tùy thân là một yêu cầu cấp thiết. Đồ án OCR nhận dạng Chứng minh nhân dân ra đời như một giải pháp công nghệ, ứng dụng thị giác máy tính và học sâu để giải quyết bài toán này. Về cơ bản, công nghệ nhận dạng ký tự quang học (Optical Character Recognition - OCR) cho phép máy tính "đọc" và chuyển đổi hình ảnh chứa văn bản (chữ đánh máy hoặc viết tay) thành dữ liệu text có thể xử lý được. Đây là công nghệ nền tảng cho nhiều ứng dụng thực tiễn, đặc biệt là trong lĩnh vực eKYC (định danh khách hàng điện tử), nơi việc xác minh danh tính nhanh chóng và chính xác đóng vai trò then chốt. Đồ án này không chỉ dừng lại ở việc ứng dụng một mô hình OCR có sẵn mà còn đề xuất một pipeline kết hợp nhiều mô hình để tối ưu hóa độ chính xác cho Tiếng Việt – một ngôn ngữ có dấu thanh phức tạp. Cụ thể, nghiên cứu tập trung vào việc trích xuất thông tin CMND và Căn cước công dân (CCCD), từ đó hỗ trợ các thủ tục hành chính, pháp lý, giao dịch ngân hàng trở nên nhanh chóng và giảm thiểu sai sót do con người. Việc triển khai một hệ thống hoàn chỉnh từ tiền xử lý ảnh đến xây dựng API và giao diện người dùng cũng là một phần quan trọng của đồ án, thể hiện khả năng ứng dụng thực tế của một luận văn nhận dạng ký tự.

1.1. Tầm quan trọng của nhận dạng ký tự quang học trong eKYC

Công nghệ nhận dạng ký tự quang học là xương sống của các hệ thống eKYC hiện đại. Thay vì phải nhập liệu thủ công các thông tin trên CMND/CCCD, người dùng chỉ cần chụp ảnh giấy tờ, và hệ thống sẽ tự động bóc tách thông tin giấy tờ. Quá trình này giúp giảm đáng kể thời gian định danh, nâng cao trải nghiệm khách hàng và tăng cường hiệu suất cho các tổ chức như ngân hàng, công ty tài chính, viễn thông. Hơn nữa, việc tự động hóa giúp giảm thiểu rủi ro sai sót so với phương pháp thủ công, đảm bảo tính toàn vẹn và chính xác của dữ liệu khách hàng. Một hệ thống OCR CMND mạnh mẽ là bước đầu tiên để xây dựng một quy trình onboarding khách hàng hoàn toàn trực tuyến, an toàn và hiệu quả.

1.2. Mục tiêu và đối tượng nghiên cứu của đồ án OCR CMND

Mục tiêu chính của đồ án là xây dựng một hệ thống có khả năng trích xuất thông tin CMND và CCCD từ ảnh chụp với độ chính xác cao. Đối tượng nghiên cứu cốt lõi là ảnh chụp các loại giấy tờ tùy thân này trong nhiều điều kiện khác nhau: ánh sáng yếu, ảnh bị блик, chụp nghiêng, hoặc có nền phức tạp. Đồ án không chỉ tập trung vào thuật toán OCR mà còn nghiên cứu sâu về các phương pháp xử lý ảnh CMND để nâng cao chất lượng đầu vào, từ đó cải thiện hiệu suất nhận dạng. Một mục tiêu quan trọng khác là triển khai hệ thống dưới dạng một ứng dụng web client-server, sử dụng ReactJS cho frontend và Flask API cho backend, chứng minh tính khả thi và ứng dụng thực tế của giải pháp.

II. Top 3 thách thức lớn nhất khi thực hiện OCR nhận dạng CMND

Việc phát triển một hệ thống OCR CMND chính xác không hề đơn giản. Các nhà phát triển phải đối mặt với nhiều thách thức từ dữ liệu, tài nguyên tính toán đến sự phức tạp của chính ngôn ngữ. Thách thức đầu tiên và lớn nhất là vấn đề dữ liệu. CMND/CCCD chứa thông tin cá nhân nhạy cảm, do đó việc thu thập một bộ dữ liệu lớn và đa dạng để huấn luyện mô hình là cực kỳ khó khăn. Theo tài liệu nghiên cứu, đa phần dữ liệu có sẵn trên internet là dữ liệu giả (fake data), không phản ánh đúng thực tế. Thách thức thứ hai liên quan đến tài nguyên phần cứng. Các bài toán thuộc lĩnh vực thị giác máy tính và Deep Learning OCR đòi hỏi cấu hình máy tính mạnh, đặc biệt là GPU, để tăng tốc quá trình huấn luyện và xử lý. Việc thiếu hụt tài nguyên có thể kéo dài thời gian nghiên cứu và gây ra các sự cố không đáng có. Cuối cùng, việc triển khai thực tế cũng đặt ra nhiều vấn đề, từ việc đảm bảo kết nối mạng ổn định trong mô hình client-server đến việc tối ưu hiệu năng của các mô hình học sâu trên server để đáp ứng yêu cầu xử lý thời gian thực từ người dùng. Những thách thức này đòi hỏi một phương pháp tiếp cận toàn diện, từ khâu chuẩn bị dữ liệu đến tối ưu hóa thuật toán OCR.

2.1. Khó khăn về dữ liệu và tài nguyên tính toán phần cứng

Nguồn dữ liệu là yếu tố sống còn đối với bất kỳ đồ án tốt nghiệp AI nào, đặc biệt là Deep Learning OCR. Việc thiếu một bộ dữ liệu CMND/CCCD thực tế, đa dạng về góc chụp, ánh sáng và chất lượng là rào cản lớn nhất. Dữ liệu giả được tạo ra từ GAN hoặc Photoshop không thể bao quát hết các biến thể trong thực tế. Bên cạnh đó, các mô hình học sâu như trong VietOCR hay EasyOCR yêu cầu tài nguyên GPU lớn để huấn luyện và thực thi. Việc thiếu GPU sẽ làm chậm đáng kể tốc độ tính toán, khiến quá trình thử nghiệm và tinh chỉnh mô hình trở nên kém hiệu quả.

2.2. Vấn đề xử lý ảnh CMND chất lượng thấp và đa dạng

Chất lượng ảnh đầu vào ảnh hưởng trực tiếp đến độ chính xác của quá trình OCR nhận dạng CMND. Trong thực tế, ảnh do người dùng cung cấp thường gặp các vấn đề như: mờ, nhiễu, lóa sáng do đèn flash, chụp nghiêng, hoặc nền ảnh phức tạp. Mỗi vấn đề này đều có thể khiến các thuật toán OCR nhận dạng sai hoặc không nhận dạng được ký tự. Do đó, giai đoạn tiền xử lý ảnh trở nên cực kỳ quan trọng, đòi hỏi phải áp dụng các kỹ thuật phù hợp để chuẩn hóa và nâng cao chất lượng ảnh trước khi đưa vào mô hình nhận dạng.

2.3. Độ phức tạp của thuật toán OCR cho Tiếng Việt có dấu

Tiếng Việt với hệ thống dấu thanh phong phú (sắc, huyền, hỏi, ngã, nặng) là một thách thức lớn cho các mô hình nhận dạng ký tự quang học. Nhiều mô hình OCR mã nguồn mở phổ biến được huấn luyện chủ yếu trên các ngôn ngữ không dấu, dẫn đến hiệu suất kém khi áp dụng cho Tiếng Việt. Đây là lý do nghiên cứu đề xuất sử dụng Tesseract OCR Tiếng Việt hoặc các mô hình chuyên biệt như VietOCR. Việc kết hợp các mô hình, như dùng EasyOCR để phát hiện vùng chứa văn bản và VietOCR để nhận dạng, là một hướng đi thông minh để tận dụng điểm mạnh của từng công cụ, từ đó cải thiện độ chính xác chung cho bài toán ocr cccd.

III. Phương pháp tiền xử lý ảnh CMND hiệu quả trong đồ án OCR

Chất lượng của quá trình nhận dạng ký tự quang học phụ thuộc rất lớn vào giai đoạn tiền xử lý ảnh. Đây là bước không thể thiếu để chuẩn hóa và cải thiện chất lượng ảnh đầu vào, giúp mô hình OCR hoạt động hiệu quả hơn. Nghiên cứu đã thử nghiệm và áp dụng một loạt các kỹ thuật xử lý ảnh bằng thư viện OpenCV nhận dạng CMND. Các phương pháp cơ bản như làm mờ (Blur Gaussian, Bilateral Blur) được sử dụng để giảm nhiễu hạt trong ảnh. Kỹ thuật điều chỉnh độ sáng (Brightness) và độ tương phản (Contrast) giúp xử lý các trường hợp ảnh quá tối hoặc bị chói sáng. Đặc biệt, phương pháp cân bằng lược đồ xám (Histogram Equalization) tỏ ra rất hiệu quả trong việc xử lý ảnh bị lóa do đèn flash. Một bước đột phá trong đồ án là việc sử dụng Corner Detector để tự động phát hiện 4 góc của CMND/CCCD. Dựa vào 4 góc này, hệ thống có thể thực hiện các phép biến đổi hình học để cắt và xoay ảnh về đúng dạng hình chữ nhật, loại bỏ phần nền không cần thiết. Quá trình này được gọi là bóc tách thông tin giấy tờ khỏi nền, một bước quan trọng để mô hình OCR chỉ tập trung vào vùng chứa thông tin. Ngoài ra, các phép toán hình thái học như Erosion và Dilation cũng được sử dụng trên ảnh nhị phân để loại bỏ các đốm nhiễu nhỏ hoặc làm liền mạch các ký tự bị đứt gãy.

3.1. Kỹ thuật cải thiện chất lượng ảnh Blur Brightness Contrast

Để khử nhiễu và làm mịn ảnh, kỹ thuật Blur được áp dụng. Blur Gaussian là bộ lọc đơn giản, trong khi Blur Bilateral phức tạp hơn nhưng giữ lại được các cạnh sắc nét của đối tượng. Đối với các ảnh chụp trong điều kiện thiếu sáng hoặc quá sáng, việc điều chỉnh Brightness (độ sáng) và Contrast (độ tương phản) là cần thiết. Tài liệu gốc đề xuất thực hiện các thao tác này trên không gian màu HSV, chỉ thay đổi kênh V (Value) để bảo toàn sắc thái màu gốc của ảnh, mang lại kết quả tự nhiên hơn so với việc chỉnh sửa trên từng kênh RGB.

3.2. Áp dụng Corner Detector để tự động định vị giấy tờ

Corner Detector là một kỹ thuật quan trọng trong xử lý ảnh CMND. Quá trình này bao gồm các bước: phát hiện cạnh (Edge Detection) để tìm các đường viền (contour), sau đó rút gọn đường viền để chỉ giữ lại các đỉnh góc. Hệ thống sẽ lọc và chọn đường viền có diện tích lớn nhất và có 4 đỉnh, tương ứng với hình dạng của CMND/CCCD. Dựa vào tọa độ 4 góc tìm được, một phép biến đổi hình học (affine transform) được áp dụng để "căn chỉnh" ảnh, đảm bảo vùng thông tin được tách biệt hoàn toàn khỏi nền, tối ưu cho bước nhận dạng ký tự sau đó.

3.3. Cân bằng Histogram và các phép biến đổi hình thái học

Cân bằng Histogram là một giải pháp mạnh để xử lý các trường hợp ảnh bị chói sáng cục bộ, thường xảy ra khi chụp ảnh bằng điện thoại có đèn flash. Kỹ thuật này phân bổ lại cường độ của các pixel, làm cho ảnh trở nên hài hòa và rõ nét hơn. Bên cạnh đó, các phép toán hình thái học như Erosion (co lại) và Dilation (giãn ra) được dùng trên ảnh nhị phân. Opening (Erosion rồi đến Dilation) giúp loại bỏ nhiễu, trong khi Closing (Dilation rồi đến Erosion) có tác dụng lấp đầy các khoảng trống hoặc lỗ hổng bên trong đối tượng ký tự.

IV. Hướng dẫn xây dựng mô hình Deep Learning OCR với Python

Trái tim của đồ án OCR nhận dạng Chứng minh nhân dân là mô hình học sâu. Thay vì tự xây dựng từ đầu, một cách tiếp cận hiệu quả là sử dụng và kết hợp các pre-trained model mạnh mẽ. Nghiên cứu này đề xuất một pipeline thông minh, tận dụng thế mạnh của các thư viện Python OCR mã nguồn mở. Cụ thể, pipeline xử lý bao gồm ba giai đoạn chính. Giai đoạn đầu là phát hiện vùng chứa văn bản (Box Detection), sử dụng EasyOCR. EasyOCR có khả năng phát hiện các hộp giới hạn (bounding box) xung quanh từng từ hoặc cụm từ một cách hiệu quả trên nhiều ngôn ngữ. Tuy nhiên, khả năng nhận dạng Tiếng Việt của nó chưa phải là tốt nhất. Do đó, ở giai đoạn hai - nhận dạng văn bản (Text Recognition), các hộp giới hạn được cắt ra và đưa vào mô hình VietOCR. VietOCR là một mô hình chuyên biệt cho Tiếng Việt, được huấn luyện trên một tập dữ liệu lớn, cho độ chính xác vượt trội. Sự kết hợp này mang lại hiệu quả cao: phát hiện nhanh và chính xác của EasyOCR cộng với khả năng nhận dạng Tiếng Việt xuất sắc của VietOCR. Giai đoạn cuối cùng là hậu xử lý (Post-processing). Sau khi trích xuất được văn bản thô, thư viện Pyvi được dùng để chuẩn hóa text (ví dụ: chuyển thành chữ hoa), và thuật toán OCR Levenshtein Distance được tích hợp để so khớp và ánh xạ văn bản đã nhận dạng vào các trường thông tin tiêu chuẩn (Họ tên, Ngày sinh, Quê quán,...).

4.1. Kết hợp EasyOCR và VietOCR Tối ưu nhận dạng Tiếng Việt

Giải pháp cốt lõi của luận văn nhận dạng ký tự này là pipeline lai ghép. EasyOCR được sử dụng cho nhiệm vụ đầu tiên: phát hiện vị trí của các vùng chứa văn bản trên ảnh. Sau đó, thay vì để EasyOCR tự nhận dạng, hệ thống sẽ cắt các vùng ảnh này ra và chuyển cho VietOCR. VietOCR, với kiến trúc dựa trên Transformer và được huấn luyện chuyên sâu cho Tiếng Việt, sẽ đảm nhận việc trích xuất văn bản từ các vùng ảnh đó. Cách làm này tối ưu hóa độ chính xác, đặc biệt là với các ký tự có dấu phức tạp, một điểm yếu của nhiều mô hình OCR đa ngôn ngữ.

4.2. Sử dụng Pyvi và thuật toán Levenshtein để chuẩn hóa text

Sau khi VietOCR trả về kết quả, văn bản vẫn ở dạng thô và có thể chứa lỗi. Giai đoạn hậu xử lý bắt đầu bằng việc sử dụng Pyvi, một bộ công cụ xử lý ngôn ngữ tự nhiên Tiếng Việt, để chuẩn hóa text (ví dụ: đưa về chữ in hoa). Bước tiếp theo là "Fit Template", sử dụng khoảng cách Levenshtein. Thuật toán này đo lường "khoảng cách" hay độ khác biệt giữa hai chuỗi ký tự. Hệ thống sẽ so khớp văn bản nhận dạng được với các mẫu trường thông tin (template) đã định sẵn (ví dụ: "Họ và tên:", "Ngày, tháng, năm sinh:") để tìm ra mẫu phù hợp nhất và trích xuất đúng thông tin tương ứng.

4.3. Kiến trúc pipeline và trích xuất thông tin CMND tự động

Toàn bộ quy trình được đóng gói thành một pipeline tự động. Đầu tiên, ảnh đầu vào trải qua bước tiền xử lý ảnh. Tiếp theo, EasyOCR thực hiện box detection. Các box này được nhóm lại thành các dòng (line detection). Mỗi dòng sau đó được đưa vào VietOCR để nhận dạng. Văn bản thô được chuẩn hóa bằng Pyvi. Cuối cùng, thuật toán so khớp template dựa trên Levenshtein Distance sẽ tìm và trích xuất thông tin CMND vào các trường dữ liệu có cấu trúc (JSON). Pipeline này đảm bảo một luồng xử lý liền mạch và hiệu quả từ ảnh thô đến dữ liệu cuối cùng.

V. Ứng dụng thực tiễn Mã nguồn nhận dạng CCCD và Demo

Một đồ án tốt nghiệp AI thành công không chỉ nằm ở thuật toán mà còn ở khả năng triển khai thành một sản phẩm thực tế. Đồ án này đã xây dựng một ứng dụng web hoàn chỉnh theo kiến trúc Client-Server để demo khả năng nhận dạng cccd gắn chip và CMND. Phía Client (giao diện người dùng) được xây dựng bằng ReactJS, một thư viện JavaScript mạnh mẽ giúp tạo ra giao diện tương tác, đáp ứng tốt trên nhiều thiết bị. Người dùng có thể dễ dàng tải ảnh lên và lựa chọn các tùy chọn tiền xử lý ảnh như tự động (auto), tùy chỉnh (custom) hoặc không xử lý (none). Phía Server được xây dựng bằng Flask API, một micro-framework của Python, rất nhẹ và phù hợp để triển khai các mô hình AI. Server nhận yêu cầu từ Client, bao gồm ảnh và các tùy chọn, sau đó thực thi toàn bộ pipeline OCR đã mô tả. Sau khi xử lý xong, server trả về kết quả bao gồm ảnh đã được cắt và căn chỉnh cùng với dữ liệu văn bản đã được bóc tách thông tin giấy tờ dưới dạng JSON. Hệ thống cũng được thiết kế để xử lý các trường hợp ngoại lệ, chẳng hạn như khi người dùng tải lên tệp không phải ảnh, ảnh không chứa văn bản, hoặc quá trình nhận dạng thất bại. Việc cung cấp source code OCR CMND và mã nguồn nhận dạng CCCD là một đóng góp giá trị cho cộng đồng, giúp các sinh viên và nhà phát triển khác có thể học hỏi và phát triển tiếp.

5.1. Xây dựng Front end với ReactJS và Back end với Flask API

Kiến trúc client-server được lựa chọn để tách biệt giao diện người dùng và phần xử lý logic nặng. ReactJS đảm nhiệm việc xây dựng một giao diện người dùng trực quan, cho phép upload ảnh và tùy chỉnh các tham số. Axios, một thư viện HTTP client, được sử dụng để gửi yêu cầu từ ReactJS đến server một cách hiệu quả. Ở phía backend, Flask API đóng vai trò nhận request, gọi đến các module xử lý ảnh CMND và mô hình Deep Learning OCR, sau đó đóng gói kết quả và gửi response về cho client. Việc sử dụng Flask-CORS cũng được đề cập để xử lý các vấn đề chia sẻ tài nguyên giữa các domain khác nhau.

5.2. Phân tích kết quả và các trường hợp ngoại lệ cần xử lý

Kết quả trả về cho người dùng bao gồm ảnh đã được crop chỉ chứa thông tin và một đối tượng JSON chứa các trường dữ liệu đã được trích xuất. Nghiên cứu cũng chỉ ra các biện pháp xử lý lỗi thực tế: bỏ qua nếu định dạng tệp không phải ảnh, chuẩn hóa tên tệp để tránh lỗi đọc file, trả về "None" nếu ảnh không chứa văn bản hoặc VietOCR nhận dạng lỗi. Đặc biệt, hệ thống có thể trả về toàn bộ văn bản OCR được nếu không thể khớp với bất kỳ mẫu CMND/CCCD nào, phòng trường hợp người dùng tải lên một loại giấy tờ khác.

VI. Tương lai của công nghệ OCR và hướng phát triển đồ án

Công nghệ nhận dạng ký tự quang học đang không ngừng phát triển và trở thành một phần không thể thiếu trong quá trình chuyển đổi số. Đồ án OCR nhận dạng Chứng minh nhân dân này đã đặt một nền móng vững chắc, tuy nhiên vẫn còn nhiều tiềm năng để cải tiến và mở rộng. Hướng phát triển đầu tiên là tiếp tục nâng cao hiệu quả của quá trình tiền xử lý ảnh. Việc nghiên cứu các thuật toán tự động xoay ảnh (auto-rotation) và phát hiện giấy tờ trong các điều kiện phức tạp hơn (auto-detect) sẽ giúp hệ thống trở nên mạnh mẽ và thân thiện hơn với người dùng. Thứ hai, việc cải thiện khả năng OCR CMND cho Tiếng Việt vẫn là một mục tiêu dài hạn. Điều này có thể được thực hiện bằng cách thu thập thêm dữ liệu huấn luyện hoặc tinh chỉnh (fine-tuning) các mô hình học sâu hiện có. Một hướng mở rộng đầy hứa hẹn là phát triển hệ thống để có thể nhận dạng nhiều loại giấy tờ khác nhau như bằng lái xe, hộ chiếu, hóa đơn, hợp đồng. Đặc biệt, việc nghiên cứu và tích hợp khả năng nhận dạng chữ viết tay sẽ mở ra vô số ứng dụng mới. Trong tương lai, hệ thống có thể tích hợp thêm các công cụ tìm kiếm trực tiếp từ văn bản OCR được hoặc thậm chí là một trình phiên dịch đa ngôn ngữ, biến nó thành một công cụ bóc tách thông tin giấy tờ toàn diện.

6.1. Cải tiến thuật toán OCR và mở rộng cho nhiều loại giấy tờ

Hướng phát triển ưu tiên là cải thiện độ chính xác của thuật toán OCR. Điều này bao gồm việc thử nghiệm các kiến trúc mô hình mới và cập nhật các phiên bản pre-trained model của VietOCR hoặc Tesseract OCR Tiếng Việt. Đồng thời, việc mở rộng phạm vi bài toán để hệ thống có thể xử lý các loại giấy tờ khác ngoài CMND/CCCD như hộ chiếu, giấy phép lái xe, thẻ bảo hiểm y tế... sẽ làm tăng giá trị ứng dụng thực tiễn của sản phẩm, đáp ứng nhu cầu đa dạng của thị trường eKYC.

6.2. Tiềm năng tích hợp nhận dạng CCCD gắn chip và chữ viết tay

Một hướng đi mang tính đột phá là nghiên cứu công nghệ nhận dạng CCCD gắn chip, kết hợp OCR với việc đọc dữ liệu từ chip NFC để tăng cường bảo mật và độ chính xác. Bên cạnh đó, việc phát triển một bộ OCR chuyên dụng cho chữ viết tay là một thách thức lớn nhưng đầy tiềm năng. Nếu thành công, hệ thống có thể được ứng dụng để số hóa các biểu mẫu, đơn từ viết tay, mở ra một thị trường ứng dụng hoàn toàn mới cho công nghệ nhận dạng ký tự quang học tại Việt Nam.

10/07/2025

Bạn đang xem trước tài liệu:

Đồ án ocr id card

Tải đầy đủ

Trích đoạn nội dung tài liệu

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH ---------- ĐỒ ÁN: OCR ID CARD Thành viên: Trần Hoàng Sơn : 18521351 Nguyễn Trường Thịnh : 18521447 Nguyễn Văn Thịnh : 18521448 Phạm Ngọc Trường : 18521571 Lớp: CS406.KHCL GVHD: TS. Mai Tiến Dũng Mc lc I. Bảng phân công. GIỚI THIỆU VỀ ĐỀ TÀI.

Lý do chọn đề tài:. Tổng quan về bài toán. Đối tượng nghiên cứu:. Các thách thức:.

Các bước triển khai:. Các phương pháp tiền xử lý ảnh. Tổng quan các model được sử dng. Giải thuật AI.

Xây dựng mô hình. Tổng quan về pipeline. Tổng quan về pipeline. Nhận xét về core AI.

Các trường hợp ngoại lệ. Kết quả quá trình OCR. Phương hướng phát triển. Bảng phân công Thông tin thành viên Công việc Tên MSSV  Xây dựng kiến trúc hệ thống 1852157 Phạm Ngọc Trường (Leader)  Core AI 1  Flask API 1852135  Reactjs Trần Hoàng Sơn 1  Deep model 1852144  Corner detector Nguyễn Trường Thịnh 7  Một số phép xử lý ảnh 1852144  Reactjs Nguyễn Văn Thịnh 8  Một số phép xử lý ảnh II.

GIỚI THIỆU VỀ ĐỀ TÀI 1. Lý do chọn đề tài: 4 - Lý do khách quan:  OCR (Optical Character Recognition): là quá trình nhận dạng ký tự quang học từ hình ảnh để chuyển các hình ảnh của chữ viết tay hoặc đánh máy thành văn bản tài liệu cho máy tính có thể đọc và hiểu được.  Đây là tiền đề cho nhiều bài toán quan trọng trong việc ứng dụng NLP (Natural Language Processing – Xử lý ngôn ngữ tự nhiên) trong thực tế bên cạnh speed- to-text (chuyển đổi ngôn ngữ tiếng nói thành text)  Trong khuôn khổ đồ án, nội dung đề tài tập chung chủ yếu vào việc trích xuất dữ liệu text từ các loại giấy tờ định danh người dùng như chứng minh nhân dân, căn cước công dân,… qua đó hỗ trợ quá trình làm thủ tục giấy tờ hành chính pháp lý được nhanh chóng. - Lý do chủ quan:  Ứng dụng công nghệ xử lý ảnh vào bước tiền xử lý trước quá trình OCR, nhằm cải thiện hiệu suất cũng như chất lượng của mô hình.

 Tìm hiểu cách triển khai phần mềm chạy trong thực tế với môi trường phát triển là web, thiết kế theo dạng là client – server, công nghệ sử dụng ở frontend là Reactjs, công nghệ sử dụng ở backend là Flask API. Tổng quan về bài toán - Các dự án OCR open source hiện này phải kể đến tesseractOCR, easyOCR, paddleOCR,. Về ưu nhược điểm thì mô hình nào cũng có, những mô hình training trên nhiều ngôn ngữ thì thường có một ngôn ngữ là core, là mục tiêu chính của mô hình. Điển hình như ở các loại chữ tượng hình như tiếng Trung, tiếng Hàn, tiếng Nhật, paddleOCR là mô hình có độ chính xác cao nhất.

Đối với các ngôn ngữ dựa trên ký tự aphalbet, không bao gồm dấu thanh thì easyOCR lại là mô hình mạnh 5 hơn cả. Riêng đối với tiếng việt, ngôn ngữ mà ông cha ta sáng tạo ra, những mô hình kể trên thường không đạt được độ chính xác cao. - Qua đó nhóm chung em đề xuất việc phối hợp nhiều mô hình khác nhau với core dựa trên detect của easyOCR và recognize của vietOCR (mô hình OCR trên tiếng việt mạnh nhất hiện nay). Ở phần sau nhóm chúng em sẽ trình bày rõ hơn về việc kết hợp này.

Đối tượng nghiên cứu: - Ảnh chụp chứng minh nhân dân, căn cước công dân 4. Các thách thức: - Đối với dataset:  Đối tượng nghiên cứu của đề tài là dữ liệu nhạy cảm vì thế nhóm gặp khó khăn trong quá trình crawl data, lượng dữ liệu ít  Đa phần các dữ liệu lấy được từ các nguồn trên internet đều là fake data được sinh ra dựa trên một kiến trúc GAN, hoặc các quá trình xử lý/ cắt ghép ảnh của photoshop - Đối với tài nguyên phục vụ quá trình nghiên cứu:  Do bài toán thuộc nhiều lĩnh vực từ Computer Vision, Deep Learning, NLP và một phần AI. Các bài toán thuộc những lĩnh vực này yêu cầu cấu hình phần cứng cao để tăng tốc độ tính toán. Giảm thiểu thời gian chờ và sai sót do hiện tượng crash trong quá trình tính toán.

- Đối với quá trình triển khai thực tế  Vì triển khai theo dạng client – server nên kết nối mạng là vấn đề tối quan trọng.  Backend sử dụng nhiều model deep learning nên yêu cầu server có hỗ trợ GPU 5. Các bước triển khai: 6 1. Xây dựng pipeline xử lý 2.

Thử nghiệm các model deep 3. Xây dựng các module tiền xử lý ảnh 4. Xử lý logic cho AI 5. Apply model deep có tích hợp AI 6.

Xây dựng API qua Flask 7. Xử lý lỗi về HTTP protocol, cũng như các trường hợp exception trong logic 8. Xây dựng app React 9. Responsive và thiết kế animation cho app 10.

Connect Flask server với React 11. Thử nghiệm hàng loạt III. Các phương pháp tiền xử lý ảnh 1. Blur gaussian - Blur là quá trình làm mịn ảnh, khử nhiễu.

Nguyên tắc chung của quá trình này là nhân ma trận ảnh với một ma trận lọc (kernel) - Blur gaussian là bộ lọc đơn giản nhất - Đây là một kernel của gaussian - Kết quả ảnh sau khi trải qua quá trình blur gaussian: các pixel ảnh trong khu vực được khoanh vùng đỏ giảm hiện tượng bị rỗ một các rõ rệt, song phần viền cạnh lại bị làm mờ 8 1. Blur bilateral - Tương tự Blur gaussian: bilateral cũng sử dụng một ma trận lọc như gaussian. - So với gaussian, bilateral chỉ tính toán trên các điểm ảnh cùng mức năng lượng, qua đó đảm bảo được độ dốc của biên cạnh sau quá trình tính toán - Kết quả của blur bilateral: các điểm ảnh nhiễu được làm mờ song vùng biên cạnh vẫn được đảm bảo 9 1. Brightness - Brightness là quá trình xử lý độ sáng cho hình ảnh.

Tùy theo điều kiện ảnh đầu vào mà ta tăng hay giảm độ sáng cho phù hợp. Increase brightness : - Thực hiện khi ảnh đầu vào quá tối, chụp trong điều kiện thiếu sáng - Ví dụ về ảnh thiếu sáng : - Cách thực hiện: để tăng sáng cho ảnh mức xám, đơn giản ta chỉ cần cộng thêm một giá trị cho mọi pixel. với const > 0 - Đối với ảnh màu, ta thực hiện tương tự như ảnh mức xám nhưng trên từng kênh màu riêng biệt. - Ở đây nhóm chúng em đề xuất đến việc sửa dụng kênh màu HSV để bảo toàn sắc thái màu của ảnh đầu vào.

- Trong đó :  H (hue) là vùng sắc thái màu  S (saturation) là độ bão hòa màu  V (value) là độ sáng - Thông thường với các kênh mau RGB, việc tăng sáng là quá trình công thêm một const cho lần lượt cả 3 kênh R, G, B. Song với việc thực hiện tăng sáng trên kênh HSV, ta chỉ việc tăng giá trị cho kênh V (value) để đạt được hiệu quả như mong muốn. - Kết quả thực nghiệm: tùy theo điều kiện ảnh đầu vào, mà ta điều chỉnh tham số cho phù hợp. Decrease brightness : - Thực hiện khi ảnh đầu vào bị chói sáng, nhiều nguồn sáng mạnh.

- Trong thực tế, ít khi ta thực hiện thao tác này. - Cách thực hiện: tương tự với Increase brightness với const < 0 11 - Kết quả thực nghiệm: tùy theo điều kiện ảnh đầu vào, mà ta điều chỉnh tham số cho phù hợp. Contrast - Contrast hay còn gọi là độ tương phản, nó thể hiện sự chênh lệch độ sáng giữa các vùng sáng tối khác nhau trong ảnh. - Cách thực hiện: với contrast là hệ số tương phản - Trong thực tế, việc tăng giảm giảm độ tương phản thường đi kèm với việc tăng giảm độ sáng để đạt được hiệu quả tốt nhất, lúc này, cách thực hiện sẽ là: - Với contrast và const có xu hướng ngược nhau :  Khi contrast > 1 thì const < 0  Khi contrast < 1 thì const > 0 - Ví dụ khi ta có matrix :  Mức độ tương phản hiện tại giữa 2 pixel liền kề là 90 – 50 = 40 - Với contrast = 2 và const = -50  Mức độ tương phản giữa 2 pixel liền kề lúc này là 130 – 50 = 80 - Kết quả thực nghiệm :  Trường hợp contrast > 1 và const < 0 12   Trường hợp contrast < 1 và const > 0 1.

Histogram - Histogram là biểu đồ phân bố mật độ dữ liệu, cụ thể ở đây là cường độ của mỗi pixel ảnh (0 đến 255) - Dựa vào biểu đồ histogram ta có thể nhận định được thiên hướng của bức ảnh, các vùng sáng phân bổ như thế nào để điều chính mang lại sự hài hòa cho bức ảnh 13 - Cân bằng histogram là quá trình phân bổ lại cường độ của các pixel để tạo nên sự hài hòa trong bức ảnh - Ví dụ về một biểu đồ histogram có xu hướng tập trung vào 2 cụm giá trị: - Còn đây là bức ảnh tương ứng với biểu đồ histogram bên trên: các vùng ảnh bị phân chia rõ rệt, thiếu đi sự hài hòa. 14 - Biểu đồ histogram sau khi được cân bằng: cường độ của các pixel không còn tập trung như trước, mà được phân bổ rải đều khắp các giá trị - Kết quả bức ảnh sau khi được cân bằng histogram - Thực nghiệm thực tế cho thấy, histogram là giải pháp tốt để xử lý các trường hợp ảnh chụp bị chói sáng từ đèn flash của điện thoại - Ví dụ thực tế khi cân bằng histogram trên ảnh cmnd chụp từ điện thoại. Corner detector - Là quá trình dò tìm các góc tồn tại trong hình ảnh - Dựa vào vị trí 4 góc tìm được, mà ta tiến hành các phép biến đổi homography để thu được hình mới chỉ chứa CMND/CCCD. 6 - Các bước thực hiện:  Bước 1: Edge detection.

 Thông qua các đặc trưng về cạnh, ta tìm được tập hợp các điểm contour (đường viền)   Bước 2: Rút gọn contour  Ta chỉ giữ lại các góc của contour 17  Trong trường hợp có nhiều hơn 1 tập hợp contour. Ta chỉ xét đến contour có diện tích lớn nhất và có 4 đỉnh. Lý do ta chỉ xét đến các contour có 4 đỉnh là vì input của bài toán chỉ bao gồm ảnh CMND/CCCD, và các loại giấy tờ này thì có hình chữ nhật và có 4 đỉnh.  Bước 3 : Sắp xếp lại danh sách đỉnh contour theo vị trí của hệ trục tọa độ  Dựa vào danh sách đỉnh contour này, ta tiến hành bounding box và affine transform.

- Dưới đây là một số ví dụ khi chạy thực tế: 18 - Nhận xét:  Phương pháp này hoạt động chưa thực sự hiệu quả.  Thiếu khả năng nội suy khi một góc bị che khuất.  Dễ bị nhiễu khi background phức tạp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

"Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân" là một nghiên cứu đột phá về công nghệ nhận dạng ký tự quang học (OCR) nhằm tự động trích xuất thông tin từ chứng minh nhân dân. Đề tài này mang lại lợi ích to lớn trong việc số hóa dữ liệu, giảm thiểu đáng kể sai sót thủ công và tăng tốc các quy trình xác minh thông tin, đặc biệt hữu ích cho các tổ chức cần xử lý lượng lớn hồ sơ khách hàng và tài liệu định danh.

Để mở rộng kiến thức về công nghệ này và các lĩnh vực liên quan, bạn có thể đi sâu hơn qua các tài liệu hữu ích khác. Nền tảng cho mọi hệ thống như OCR chính là kỹ thuật xử lý ảnh, và bạn có thể nắm vững kiến thức cơ bản từ Giáo trình nhận dạng và xử lý ảnh. Để hiểu rõ hơn về một bước quan trọng trong quy trình xử lý hình ảnh, đó là việc cô lập các thành phần cần thiết để nhận dạng, hãy tham khảo Xây dựng ứng dụng tách đối tượng từ ảnh. Ngoài ra, để thấy cách công nghệ xử lý ảnh và trí tuệ nhân tạo được ứng dụng rộng rãi trong các hệ thống phân loại phức tạp, ví dụ như trong nông nghiệp, Luận án tiến sĩ nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo sẽ là một nguồn tài liệu tuyệt vời. Mỗi liên kết này là một cơ hội để bạn đào sâu hơn, khám phá các khía cạnh khác nhau của công nghệ nhận dạng và xử lý hình ảnh, từ đó mở rộng tầm nhìn và ứng dụng của mình.

#Công nghệ OCR tiếng Việt

#Đồ án OCR nhận dạng CMND

#Trích xuất thông tin Căn Cước Công Dân

#Tiền xử lý ảnh trong OCR

#Mô hình easyOCR và vietOCR

#Xây dựng API OCR với Flask

Chủ đề

Ứng dụng trí tuệ nhân tạo

Thị giác máy tính và xử lý ảnh

Công nghệ Nhận dạng Ký tự Quang học (OCR)

Phát triển phần mềm AI Client-Server

Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân

I. Toàn cảnh đồ án OCR nhận dạng Chứng minh nhân dân CMND

1.1. Tầm quan trọng của nhận dạng ký tự quang học trong eKYC

1.2. Mục tiêu và đối tượng nghiên cứu của đồ án OCR CMND

II. Top 3 thách thức lớn nhất khi thực hiện OCR nhận dạng CMND

2.1. Khó khăn về dữ liệu và tài nguyên tính toán phần cứng

2.2. Vấn đề xử lý ảnh CMND chất lượng thấp và đa dạng

2.3. Độ phức tạp của thuật toán OCR cho Tiếng Việt có dấu

III. Phương pháp tiền xử lý ảnh CMND hiệu quả trong đồ án OCR

3.1. Kỹ thuật cải thiện chất lượng ảnh Blur Brightness Contrast

3.2. Áp dụng Corner Detector để tự động định vị giấy tờ

3.3. Cân bằng Histogram và các phép biến đổi hình thái học

IV. Hướng dẫn xây dựng mô hình Deep Learning OCR với Python

4.1. Kết hợp EasyOCR và VietOCR Tối ưu nhận dạng Tiếng Việt

4.2. Sử dụng Pyvi và thuật toán Levenshtein để chuẩn hóa text

4.3. Kiến trúc pipeline và trích xuất thông tin CMND tự động

V. Ứng dụng thực tiễn Mã nguồn nhận dạng CCCD và Demo

5.1. Xây dựng Front end với ReactJS và Back end với Flask API

5.2. Phân tích kết quả và các trường hợp ngoại lệ cần xử lý

VI. Tương lai của công nghệ OCR và hướng phát triển đồ án

6.1. Cải tiến thuật toán OCR và mở rộng cho nhiều loại giấy tờ

6.2. Tiềm năng tích hợp nhận dạng CCCD gắn chip và chữ viết tay

THÔNG TIN CHI TIẾT

Đề tài: Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân

Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân

I. Toàn cảnh đồ án OCR nhận dạng Chứng minh nhân dân CMND

1.1. Tầm quan trọng của nhận dạng ký tự quang học trong eKYC

1.2. Mục tiêu và đối tượng nghiên cứu của đồ án OCR CMND

II. Top 3 thách thức lớn nhất khi thực hiện OCR nhận dạng CMND

2.1. Khó khăn về dữ liệu và tài nguyên tính toán phần cứng

2.2. Vấn đề xử lý ảnh CMND chất lượng thấp và đa dạng

2.3. Độ phức tạp của thuật toán OCR cho Tiếng Việt có dấu

III. Phương pháp tiền xử lý ảnh CMND hiệu quả trong đồ án OCR

3.1. Kỹ thuật cải thiện chất lượng ảnh Blur Brightness Contrast

3.2. Áp dụng Corner Detector để tự động định vị giấy tờ

3.3. Cân bằng Histogram và các phép biến đổi hình thái học

IV. Hướng dẫn xây dựng mô hình Deep Learning OCR với Python

4.1. Kết hợp EasyOCR và VietOCR Tối ưu nhận dạng Tiếng Việt

4.2. Sử dụng Pyvi và thuật toán Levenshtein để chuẩn hóa text

4.3. Kiến trúc pipeline và trích xuất thông tin CMND tự động

V. Ứng dụng thực tiễn Mã nguồn nhận dạng CCCD và Demo

5.1. Xây dựng Front end với ReactJS và Back end với Flask API

5.2. Phân tích kết quả và các trường hợp ngoại lệ cần xử lý

VI. Tương lai của công nghệ OCR và hướng phát triển đồ án

6.1. Cải tiến thuật toán OCR và mở rộng cho nhiều loại giấy tờ

6.2. Tiềm năng tích hợp nhận dạng CCCD gắn chip và chữ viết tay

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Đề tài: Đồ Án OCR Nhận Dạng Chứng Minh Nhân Dân