I. Tổng Quan Nghiên Cứu Bóc Tách Thông Tin Từ Chứng Minh Thư
Nhận dạng mẫu là một ngành khoa học thuộc lĩnh vực học máy (hay trí tuệ nhân tạo), tập trung vào việc phân loại dữ liệu (các mẫu) vào các lớp khác nhau. Mẫu có thể là bất kỳ thực thể nào cần được nhận ra, ví dụ như chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng. Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng được mở rộng, từ tự động hóa quy trình sản xuất công nghiệp đến dự báo thời tiết, dự báo cháy rừng, hay là một phần quan trọng trong các hệ thống máy tính thông minh. Một trong những ứng dụng phổ biến hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hóa các trang tài liệu giấy như sách, báo, tạp chí. Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và đã có những sản phẩm thương mại như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY.
1.1. Giới Thiệu Bài Toán Bóc Tách Thông Tin CMND CCCD
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát, còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, như phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu. Đối với lớp bài toán này, việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể. Trên thế giới đã có nhiều phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp) và được ứng dụng trong nhiều lĩnh vực như làm thủ tục hải quan, các giao dịch ở các cửa hàng, khách sạn. Ở Việt Nam, loại thẻ chứa thông tin cá nhân được sử dụng nhiều nhất là Chứng minh thư nhân dân (CMND). Do đó, luận văn này đề xuất một phương pháp phân tích ảnh CMND dựa trên việc phân tích và nhận dạng biểu mẫu với kỹ thuật xử lý hình ảnh thông minh.
1.2. Mục Tiêu Nghiên Cứu Sử Dụng Học Sâu Deep Learning
Luận văn tập trung vào các vấn đề sau: Tổng quan về phân tích ảnh tài liệu. Giới thiệu một số thuật toán nhận diện ký tự bằng các phương pháp xử lý ảnh mô hình học sâu. Thực hiện cài đặt và đánh giá kết quả đạt được với phương pháp đã chọn đối với dữ liệu giấy chứng minh thư nhân dân. Đưa ra đánh giá và hướng phát triển trong tương lai. Nội dung của luận văn thạc sĩ gồm các chương, mục chính: Chương 1. Tổng quan về phát hiện, nhận dạng ký tự, sự phát triển của học máy và học sâu. Chương 2: Giới thiệu về mạng Convolution Neural Network. Chương 3: Mô hình mạng pixellink cho phát hiện văn bản. Chương 4: Giới thiệu về Convolution Recurrent Neural Network. Chương 5: Cài đặt thử nghiệm và kết quả. Kết luận. Tài liệu tham khảo.
II. Thách Thức Giải Pháp OCR Chứng Minh Thư Bằng Học Sâu
OCR (Optical Character Recognition) là công nghệ nhận dạng chữ cái, chữ số, kí hiệu trong ảnh số, thường được dùng với tài liệu đã scanned, nhưng một số trường hợp khác cũng được sử dụng, như sử dụng để nhận dạng chữ trên danh thiếp, căn cước, biển số xe. Những năm gần đây, những bước tiến lớn trong lĩnh vực học sâu (DL) và ứng dụng của DL vào các bài toán thị giác máy tính để giải các bài toán khó và đạt được một số thành công nhất định. Áp dụng OCR vào đời sống sẽ giúp con người rất nhiều trong việc trích xuất thông tin cũng như lấy thông tin là chữ, kí tự, con số trong các bức ảnh. Bài toán bao gồm nhận dạng và phát hiện các đối tượng là kí tự, chuỗi các kí tự, giải quyết bài toán tạo ra nhiều ứng dụng khác nhau như trích xuất thông tin trên một bức ảnh, giảm chi phí cũng như thời gian trong quá trình nhập liệu. Áp dụng được nhiều nơi cũng như nhu cầu khác nhau trong việc trích xuất thông tin.
2.1. Vấn Đề Trong Nhận Dạng Ký Tự Quang Học OCR
Bài toán phát hiện và nhận dạng kí tự đã được nghiên cứu từ lâu và có những bước chuyển mình đáng kể, trong hơn thập kỷ trở lại đây, nhờ sự phát triển của máy móc cũng như dữ liệu lớn, thì các kỹ thuật học sâu phát triển rõ rệt và đạt được nhiều kết quả ấn tượng trong các hướng nghiên cứu khác nhau. Việc áp dụng học sâu vào phát hiện và nhận dạng ký tự đã đạt được kết quả khả quan, điều này hứa hẹn cho nhưng hướng nghiên cứu mới, cũng như là số hóa tài liệu một cách nhanh chóng. Trong khuôn khổ luận văn, tôi xin phép trình bày về phương pháp áp dụng học sâu vào bài toán bóc tách thông tin trong chứng minh thư. Để giải quyết bài toán tôi chia bài toán thành hai vấn đề chính là phát hiện và nhận dạng, mỗi giai đoạn áp dụng công nghệ khác nhau, nhưng đều áp dụng học sâu để giải quyết vấn đề.
2.2. Giải Pháp Học Sâu Cho Phát Hiện và Nhận Dạng Ký Tự
Hiện nay, có rất nhiều phương pháp áp dụng cho bài toán phát hiện đối tượng như SSD [3], YOLO [4], CTPN [2],… Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự. Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn. Nên qua thực nghiệm tôi thấy mạng CRNN cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.
III. Mạng CNN Nền Tảng Trích Xuất Đặc Trưng Ảnh CMND
Mạng CNN (Convolutional Neural Network) được sử dụng rộng rãi, áp dụng rất nhiều trong trích xuất đặc trưng của ảnh, người ta sử dụng CNN nhiều trong các bài toán nhận biết cũng như phân loại hình ảnh. Trong bài toán phân loại hình ảnh sử dụng CNN thì đầu vào là một ảnh số, máy tính dựa vào các giá trị điểm ảnh sau đó đưa ra kết luận loại mà bức ảnh thuộc về cho bài toán phân loại, máy tính chỉ nhìn thấy bức ảnh như một mảng của các giá trị điểm ảnh. Một bức ảnh thể hiện bởi ba thông số W, H, D trong đó W là chiều rộng của ảnh, là số lượng điểm ảnh trên một hàng của ma trận ảnh, còn H là chiều cao của ảnh, là số lượng điểm ảnh trên một cột của ma trận ảnh, D là chiều hay còn gọi là độ sâu của ảnh, ví dụ một ảnh tạo bởi 3 kênh màu RGB và có chiều cao là 6 và chiều rộng là 6 thì được kí hiệu là 6 × 6 × 3 ví dụ đối với ảnh có kích thước dài và rộng như trên nhưng mà là ảnh một kênh màu, như ảnh xám được kí hiệu là 6 × 6 × 1. Trong DL thì đầu vào đi qua một chuỗi các tầng CNN với các bộ lọc. Kết hợp với các tầng gộp (Pooling) và kết nối đầy đủ (fully connected) và ở tầng cuối áp dụng hàm Softmax để đưa ra xác suất mà đối tượng thuộc về lớp trong bài toán phân loại.
3.1. Tầng Tích Chập Convolution Layer Trong CNN
Ở tầng Convolution là tầng đầu tiên giúp trích xuất đặc trưng của ảnh, tầng Convolution trình bày mối quan hệ giữa các giá trị điểm ảnh bằng học các đặc trưng ảnh, sử dụng các cửa sổ hình vuông trên ảnh đầu vào. Để trích xuất đặc trưng ảnh, sử dụng một phép tính toán học với bộ lọc và ma trận điểm ảnh đầu vào. Ví dụ: Về trích xuất đặc trưng của ảnh sử dụng tích chập Một ma trận ảnh có chiều: h×w×d Một bộ lọc có: fh × fw × d Đầu ra một ma trận ảnh có chiều: (h-fh+1 ) × (w - fw +1 ) × 1
3.2. Các Thành Phần Quan Trọng Của Mạng CNN
Bước nhảy là số lượng của điểm ảnh được nhảy qua trên ma trận đầu vào, khi bước nhảy là một thì chúng di chuyển bộ lọc một điểm ảnh sau mỗi lần, khi bước nhảy là hai thì bộ lọc sẽ di chuyển qua hai điểm ảnh sau mỗi lần. Thi thoảng bộ lọc không vừa với ảnh đầu vào, chúng ta sẽ có hai tùy chọn đó là: • Đệm thêm các giá trị 0 vào viền sao cho vừa khít • Bỏ đi phần của bức ảnh nếu bộ lọc không khít. Hàm ReLu cho hoạt động phi tuyến tính, hàm được...
IV. Mô Hình Mạng Pixellink Phát Hiện Văn Bản Trong CMND
Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự. Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.
4.1. Cấu Trúc và Nguyên Lý Hoạt Động Của Mạng Pixellink
Hiện nay, có rất nhiều phương pháp áp dụng cho bài toán phát hiện đối tượng như SSD [3], YOLO [4], CTPN [2],… Trong cuộc thi ICDAR 2015 kỹ thuật học sâu sử dụng mô hình mạng Pixellink để phát hiện các đối tượng kí tự đứng vị trí cao. Phương pháp Pixellink cho kết quả tốt trên bài toán phát hiện ký tự.
4.2. Ưu Điểm và Hạn Chế Của Mô Hình Pixellink
Sau khi phát hiện được vùng ký tự, mình cần nhận dạng vùng ký tự đó, bài toán nhận dạng ký tự sẽ khác với nhận dạng các đối tượng thông thường. Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.
V. CRNN Giải Pháp Nhận Dạng Chuỗi Ký Tự Trong Chứng Minh Thư
Qua thực nghiệm tôi thấy mạng CRNN (Convolutional Recurrent Neural Network) cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.
5.1. Kết Hợp CNN và RNN Trong Mô Hình CRNN
Nên qua thực nghiệm tôi thấy mạng CRNN cho kết quả khá tốt trong bài toán nhận dạng chuỗi, nên đã áp dụng mô hình mạng cho luận văn này. Do tính chất chuỗi nên dùng mô hình mạng CRNN có thể nhớ những thông tin trước đó. Bản chất của mô hình mạng CRNN là sự kết hợp của hai mạng CNN và RNN với nhau.
5.2. Ứng Dụng CRNN Trong Nhận Dạng Văn Bản Biến Đổi
Cấu trúc chuỗi trên ảnh có độ dài thay đổi khác nhau, nên sử dụng các phương pháp nhận dạng đối tượng tuyền thống rất khó để có thể thực hiện được, việc tách thành các kí tự riêng lẻ rồi nhận dạng sẽ trở nên cực kì khó khăn.
VI. Kết Quả Triển Vọng Nghiên Cứu Bóc Tách Thông Tin CMND
Chương 5 trình bày về cài đặt thử nghiệm và kết quả đạt được. Các kết quả thực nghiệm cho thấy tiềm năng của việc áp dụng học sâu vào bài toán bóc tách thông tin từ chứng minh thư. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn.
6.1. Đánh Giá Độ Chính Xác và Tốc Độ Xử Lý Của Mô Hình
Các kết quả thực nghiệm cho thấy tiềm năng của việc áp dụng học sâu vào bài toán bóc tách thông tin từ chứng minh thư. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn.
6.2. Hướng Phát Triển và Ứng Dụng Thực Tế Của Nghiên Cứu
Vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tốc độ xử lý cao hơn. Các hướng phát triển có thể bao gồm cải thiện kiến trúc mạng, sử dụng dữ liệu huấn luyện lớn hơn và đa dạng hơn, và áp dụng các kỹ thuật tiền xử lý và hậu xử lý ảnh.