Nghiên Cứu Bóc Tách Thông Tin Trong Chứng Minh Thư Sử Dụng Học Sâu

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

2021

57
2
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Nghiên Cứu Bóc Tách Thông Tin Từ Chứng Minh Thư

Nhận dạng mẫu là một ngành khoa học thuộc lĩnh vực học máy (hay trí tuệ nhân tạo), tập trung vào việc phân loại dữ liệu (các mẫu) vào các lớp khác nhau. Mẫu có thể là bất kỳ thực thể nào cần được nhận ra, ví dụ như chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng. Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng được mở rộng, từ tự động hóa quy trình sản xuất công nghiệp đến dự báo thời tiết, dự báo cháy rừng, hay là một phần quan trọng trong các hệ thống máy tính thông minh. Một trong những ứng dụng phổ biến hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hóa các trang tài liệu giấy như sách, báo, tạp chí. Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và đã có những sản phẩm thương mại như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY.

1.1. Giới Thiệu Bài Toán Bóc Tách Thông Tin CMND CCCD

Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát, còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, như phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu. Đối với lớp bài toán này, việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể. Trên thế giới đã có nhiều phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp) và được ứng dụng trong nhiều lĩnh vực như làm thủ tục hải quan, các giao dịch ở các cửa hàng, khách sạn. Ở Việt Nam, loại thẻ chứa thông tin cá nhân được sử dụng nhiều nhất là Chứng minh thư nhân dân (CMND). Do đó, luận văn này đề xuất một phương pháp phân tích ảnh CMND dựa trên việc phân tích và nhận dạng biểu mẫu với kỹ thuật xử lý hình ảnh thông minh.

1.2. Mục Tiêu Nghiên Cứu Sử Dụng Học Sâu Deep Learning

Luận văn tập trung vào các vấn đề sau: Tổng quan về phân tích ảnh tài liệu. Giới thiệu một số thuật toán nhận diện ký tự bằng các phương pháp xử lý ảnh mô hình học sâu. Thực hiện cài đặt và đánh giá kết quả đạt được với phương pháp đã chọn đối với dữ liệu giấy chứng minh thư nhân dân. Đưa ra đánh giá và hướng phát triển trong tương lai. Nội dung của luận văn thạc sĩ gồm các chương, mục chính: Chương 1. Tổng quan về phát hiện, nhận dạng ký tự, sự phát triển của học máy và học sâu. Chương 2: Giới thiệu về mạng Convolution Neural Network. Chương 3: Mô hình mạng pixellink cho phát hiện văn bản. Chương 4: Giới thiệu về Convolution Recurrent Neural Network. Chương 5: Cài đặt thử nghiệm và kết quả. Kết luận. Tài liệu tham khảo.

II. Thách Thức Giải Pháp OCR Chứng Minh Thư Bằng Học Sâu

OCR (Optical Character Recognition) là công nghệ nhận dạng chữ cái, chữ số, kí hiệu trong ảnh số, thường được dùng với tài liệu đã scanned, nhưng một số trường hợp khác cũng được sử dụng, như sử dụng để nhận dạng chữ trên danh thiếp, căn cước, biển số xe. Những năm gần đây, những bước tiến lớn trong lĩnh vực học sâu (DL) và ứng dụng của DL vào các bài toán thị giác máy tính để giải các bài toán khó và đạt được một số thành công nhất định. Áp dụng OCR vào đời sống sẽ giúp con người rất nhiều trong việc trích xuất thông tin cũng như lấy thông tin là chữ, kí tự, con số trong các bức ảnh. Bài toán bao gồm nhận dạng và phát hiện các đối tượng là kí tự, chuỗi các kí tự, giải quyết bài toán tạo ra nhiều ứng dụng khác nhau như trích xuất thông tin trên một bức ảnh, giảm chi phí cũng như thời gian trong quá trình nhập liệu. Áp dụng được nhiều nơi cũng như nhu cầu khác nhau trong việc trích xuất thông tin.

2.1. Vấn Đề Trong Nhận Dạng Ký Tự Quang Học OCR

Bài toán phát hiện và nhận dạng kí tự đã được nghiên cứu từ lâu và có những bước chuyển mình đáng kể, trong hơn thập kỷ trở lại đây, nhờ sự phát triển của máy móc cũng như dữ liệu lớn, thì các kỹ thuật học sâu phát triển rõ rệt và đạt được nhiều kết quả ấn tượng trong các hướng nghiên cứu khác nhau. Việc áp dụng học sâu vào phát hiện và nhận dạng ký tự đã đạt được kết quả khả quan, điều này hứa hẹn cho nhưng hướng nghiên cứu mới, cũng như là số hóa tài liệu một cách nhanh chóng. Trong khuôn khổ luận văn, tôi xin phép trình bày về phương pháp áp dụng học sâu vào bài toán bóc tách thông tin trong chứng minh thư. Để giải quyết bài toán tôi chia bài toán thành hai vấn đề chính là phát hiện và nhận dạng, mỗi giai đoạn áp dụng công nghệ khác nhau, nhưng đều áp dụng học sâu để giải quyết vấn đề.

2.2. Giải Pháp Học Sâu Cho Phát Hiện và Nhận Dạng Ký Tự

Hiện nay, có rất nhiều phương pháp áp dụng cho bài toán phát hiện đối tượng như SSD [3], YOLO [4], CTPN [2],… Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự. Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn. Nên qua thực nghiệm tôi thấy mạng CRNN cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.

III. Mạng CNN Nền Tảng Trích Xuất Đặc Trưng Ảnh CMND

Mạng CNN (Convolutional Neural Network) được sử dụng rộng rãi, áp dụng rất nhiều trong trích xuất đặc trưng của ảnh, người ta sử dụng CNN nhiều trong các bài toán nhận biết cũng như phân loại hình ảnh. Trong bài toán phân loại hình ảnh sử dụng CNN thì đầu vào là một ảnh số, máy tính dựa vào các giá trị điểm ảnh sau đó đưa ra kết luận loại mà bức ảnh thuộc về cho bài toán phân loại, máy tính chỉ nhìn thấy bức ảnh như một mảng của các giá trị điểm ảnh. Một bức ảnh thể hiện bởi ba thông số W, H, D trong đó W là chiều rộng của ảnh, là số lượng điểm ảnh trên một hàng của ma trận ảnh, còn H là chiều cao của ảnh, là số lượng điểm ảnh trên một cột của ma trận ảnh, D là chiều hay còn gọi là độ sâu của ảnh, ví dụ một ảnh tạo bởi 3 kênh màu RGB và có chiều cao là 6 và chiều rộng là 6 thì được kí hiệu là 6 × 6 × 3 ví dụ đối với ảnh có kích thước dài và rộng như trên nhưng mà là ảnh một kênh màu, như ảnh xám được kí hiệu là 6 × 6 × 1. Trong DL thì đầu vào đi qua một chuỗi các tầng CNN với các bộ lọc. Kết hợp với các tầng gộp (Pooling) và kết nối đầy đủ (fully connected) và ở tầng cuối áp dụng hàm Softmax để đưa ra xác suất mà đối tượng thuộc về lớp trong bài toán phân loại.

3.1. Tầng Tích Chập Convolution Layer Trong CNN

Ở tầng Convolution là tầng đầu tiên giúp trích xuất đặc trưng của ảnh, tầng Convolution trình bày mối quan hệ giữa các giá trị điểm ảnh bằng học các đặc trưng ảnh, sử dụng các cửa sổ hình vuông trên ảnh đầu vào. Để trích xuất đặc trưng ảnh, sử dụng một phép tính toán học với bộ lọc và ma trận điểm ảnh đầu vào. Ví dụ: Về trích xuất đặc trưng của ảnh sử dụng tích chập Một ma trận ảnh có chiều: h×w×d Một bộ lọc có: fh × fw × d Đầu ra một ma trận ảnh có chiều: (h-fh+1 ) × (w - fw +1 ) × 1

3.2. Các Thành Phần Quan Trọng Của Mạng CNN

Bước nhảy là số lượng của điểm ảnh được nhảy qua trên ma trận đầu vào, khi bước nhảy là một thì chúng di chuyển bộ lọc một điểm ảnh sau mỗi lần, khi bước nhảy là hai thì bộ lọc sẽ di chuyển qua hai điểm ảnh sau mỗi lần. Thi thoảng bộ lọc không vừa với ảnh đầu vào, chúng ta sẽ có hai tùy chọn đó là: • Đệm thêm các giá trị 0 vào viền sao cho vừa khít • Bỏ đi phần của bức ảnh nếu bộ lọc không khít. Hàm ReLu cho hoạt động phi tuyến tính, hàm được...

IV. Mô Hình Mạng Pixellink Phát Hiện Văn Bản Trong CMND

Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự. Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.

4.1. Cấu Trúc và Nguyên Lý Hoạt Động Của Mạng Pixellink

Hiện nay, có rất nhiều phương pháp áp dụng cho bài toán phát hiện đối tượng như SSD [3], YOLO [4], CTPN [2],… Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự.

4.2. Ưu Điểm và Hạn Chế Của Mô Hình Pixellink

Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.

V. CRNN Giải Pháp Nhận Dạng Chuỗi Ký Tự Trong Chứng Minh Thư

Qua thực nghiệm tôi thấy mạng CRNN (Convolutional Recurrent Neural Network) cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.

5.1. Kết Hợp CNN và RNN Trong Mô Hình CRNN

Nên qua thực nghiệm tôi thấy mạng CRNN cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.

5.2. Ứng Dụng CRNN Trong Nhận Dạng Văn Bản Biến Đổi

Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.

VI. Kết Quả Triển Vọng Nghiên Cứu Bóc Tách Thông Tin CMND

Chương 5 trình bày về cài đặt thử nghiệm và kết quả đạt được. Các kết quả thực nghiệm cho thấy tiềm năng của việc áp dụng học sâu vào bài toán bóc tách thông tin từ chứng minh thư. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn.

6.1. Đánh Giá Độ Chính Xác và Tốc Độ Xử Lý Của Mô Hình

Các kết quả thực nghiệm cho thấy tiềm năng của việc áp dụng học sâu vào bài toán bóc tách thông tin từ chứng minh thư. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn.

6.2. Hướng Phát Triển và Ứng Dụng Thực Tế Của Nghiên Cứu

Vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn. Các hướng phát triển có thể bao gồm cải thiện kiến trúc mạng, sử dụng dữ liệu huấn luyện lớn hơn và đa dạng hơn, và áp dụng các kỹ thuật tiền xử lý và hậu xử lý ảnh.

05/06/2025
Luận văn nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu
Bạn đang xem trước tài liệu : Luận văn nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tóm tắt nghiên cứu "Nghiên Cứu Bóc Tách Thông Tin Trong Chứng Minh Thư Sử Dụng Học Sâu" tập trung vào việc ứng dụng các kỹ thuật học sâu (Deep Learning) để tự động trích xuất thông tin từ chứng minh thư (CMT). Nghiên cứu này mang lại lợi ích lớn trong việc số hóa và tự động hóa quy trình xử lý CMT, giúp tiết kiệm thời gian, giảm thiểu sai sót và nâng cao hiệu quả công việc trong nhiều lĩnh vực như ngân hàng, tài chính, hành chính công. Việc bóc tách thông tin chính xác từ CMT cho phép các hệ thống tự động xác minh danh tính, điền thông tin vào biểu mẫu, và thực hiện các tác vụ khác một cách nhanh chóng và hiệu quả.

Nếu bạn quan tâm đến việc tìm hiểu sâu hơn về ứng dụng của Deep Learning trong xử lý ảnh, bạn có thể tham khảo thêm Luận văn nghiên cứu kỹ thuật deep learning và ứng dụng trong phân loại ảnh tại đây. Tài liệu này sẽ cung cấp cho bạn cái nhìn tổng quan về các kỹ thuật Deep Learning và cách chúng được áp dụng để giải quyết các bài toán phân loại ảnh, từ đó mở rộng kiến thức của bạn về lĩnh vực này.