Luận văn thạc sĩ: Nghiên cứu bóc tách thông tin trong chứng minh thư sử dụng học sâu

Phân tích toàn diện bóc tách thông tin chứng minh thư bằng học sâu, đề xuất mô hình mới, nâng cao hiệu quả ứng dụng trong chuyên ngành

Trường đại học

Học viện khoa học và công nghệ Việt Nam

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN, NHẬN DẠNG KÝ TỰ, SỰ PHÁT TRIỂN CỦA HỌC MÁY VÀ HỌC SÂU

1.1. Tổng quan về phát hiện và nhận dạng ký tự

1.2. Sự phát triển của học máy và học sâu

1.3. Kết luận chương

2. CHƯƠNG 2: GIỚI THIỆU VỀ MẠNG CONVOLUTION NEURAL NETWORK

2.1. Giới thiệu sơ lược về CNN

2.2. Convolution Layer – Tầng Tích Chập

2.3. Strides – Bước nhảy

2.4. Padding – Đệm

3. CHƯƠNG 3: MÔ HÌNH MẠNG PIXELLINK CHO PHÁT HIỆN VĂN BẢN

3.1. Cấu trúc mạng

3.2. Kết nối các điểm ảnh

3.3. Tính toán vùng chính xác

3.4. Chuẩn bị dữ liệu và đào tạo

3.4.1. Chuẩn bị dữ liệu

3.4.2. Dữ liệu thật

3.4.3. Dữ liệu được sinh ra

3.4.4. Tiền xử lý dữ liệu

3.5. Quá trình đào tạo

3.7. Kết quả đạt được

3.8. Hạn chế của mô hình

3.9. Kết luận chương

4. CHƯƠNG 4: GIỚI THIỆU VỀ CONVOLUTION RECURRENT NEURAL NETWORK

4.1. Giới thiệu bài toán và lợi thế của CRNN

4.3. Tầng trích xuất đặc trưng chuỗi

4.4. Gán nhãn trình tự

4.7. Tóm tắt cấu trúc mô hình

4.7.1. Cách tạo dữ liệu và đào tạo

4.7.2. Dữ liệu thật

4.7.3. Dữ liệu sinh

4.7.4. Hạn chế của mô hình

4.8. Kết luận chương

5. CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ

5.2. Mô hình giải quyết bài toán

5.3. Môi trường cài đặt

5.4. Dữ liệu kiểm thử

5.5. Kết quả thực nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về bóc tách thông tin chứng minh thư

Bóc tách thông tin từ chứng minh thư là một bài toán quan trọng trong lĩnh vực nhận dạng ký tự quang học (OCR). Việc áp dụng học sâu vào bài toán này giúp cải thiện độ chính xác và hiệu suất trong việc nhận diện các thông tin cá nhân. Chứng minh thư là một loại tài liệu chứa nhiều thông tin quan trọng, bao gồm họ tên, ngày sinh, địa chỉ, và số chứng minh. Việc bóc tách thông tin từ chứng minh thư không chỉ giúp tự động hóa quy trình xử lý dữ liệu mà còn giảm thiểu sai sót do con người gây ra. Các phương pháp truyền thống thường gặp khó khăn trong việc nhận diện chính xác các ký tự do sự biến đổi trong font chữ và chất lượng hình ảnh. Do đó, việc áp dụng các mô hình machine learning và trí tuệ nhân tạo là cần thiết để nâng cao khả năng nhận diện và phân tích dữ liệu.

1.1. Tầm quan trọng của bóc tách thông tin

Bóc tách thông tin từ chứng minh thư có vai trò quan trọng trong nhiều lĩnh vực như ngân hàng, bảo hiểm, và quản lý nhân sự. Việc tự động hóa quy trình này giúp tiết kiệm thời gian và chi phí, đồng thời nâng cao độ chính xác trong việc thu thập dữ liệu. Các ứng dụng của công nghệ OCR trong việc nhận diện thông tin từ chứng minh thư đã được triển khai rộng rãi, từ việc xác thực danh tính trong các giao dịch trực tuyến đến việc quản lý hồ sơ cá nhân. Sự phát triển của học sâu đã mở ra nhiều cơ hội mới cho việc cải thiện các thuật toán nhận diện, giúp tăng cường khả năng phát hiện và phân loại thông tin một cách hiệu quả.

II. Các phương pháp học sâu trong bóc tách thông tin

Các phương pháp học sâu như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) đã được áp dụng để giải quyết bài toán bóc tách thông tin từ chứng minh thư. Mô hình CNN thường được sử dụng để phát hiện và nhận diện các ký tự trong hình ảnh. Bằng cách sử dụng các tầng tích chập, mô hình có khả năng trích xuất các đặc trưng quan trọng từ hình ảnh, giúp cải thiện độ chính xác trong việc nhận diện. Mô hình RNN, đặc biệt là Convolution Recurrent Neural Network (CRNN), cho phép xử lý các chuỗi ký tự, giúp nhận diện các thông tin có cấu trúc chuỗi như họ tên và số chứng minh. Việc kết hợp giữa CNN và RNN tạo ra một mô hình mạnh mẽ, có khả năng nhận diện chính xác hơn so với các phương pháp truyền thống.

2.1. Mô hình CNN trong bóc tách thông tin

Mô hình CNN được thiết kế để xử lý hình ảnh và nhận diện các đặc trưng quan trọng. Tầng tích chập trong CNN giúp phát hiện các đặc trưng như cạnh và hình dạng, từ đó tạo ra các bản đồ đặc trưng (feature maps) cho từng ký tự trong chứng minh thư. Việc sử dụng các bộ lọc khác nhau cho phép mô hình nhận diện được nhiều loại ký tự và font chữ khác nhau. Kết quả từ tầng tích chập sẽ được đưa vào các tầng gộp (pooling) để giảm kích thước và tăng cường tính chính xác. Cuối cùng, các đặc trưng này sẽ được đưa vào tầng kết nối đầy đủ để phân loại và nhận diện thông tin cần thiết.

III. Kết quả và ứng dụng thực tiễn

Kết quả từ việc áp dụng các mô hình học sâu trong bóc tách thông tin từ chứng minh thư cho thấy sự cải thiện đáng kể về độ chính xác và tốc độ xử lý. Các mô hình như Pixellink đã chứng minh hiệu quả trong việc phát hiện và nhận diện ký tự, giúp giảm thiểu thời gian xử lý và tăng cường độ chính xác trong việc thu thập thông tin. Ứng dụng của công nghệ này không chỉ giới hạn trong việc nhận diện chứng minh thư mà còn có thể mở rộng ra nhiều lĩnh vực khác như quản lý hồ sơ, xác thực danh tính, và tự động hóa quy trình làm việc. Việc áp dụng công nghệ thông tin và học sâu trong các hệ thống hiện đại sẽ giúp nâng cao hiệu quả và độ tin cậy trong việc xử lý dữ liệu.

3.1. Ứng dụng trong thực tiễn

Các ứng dụng của công nghệ bóc tách thông tin từ chứng minh thư đã được triển khai trong nhiều lĩnh vực khác nhau. Trong ngành ngân hàng, việc xác thực danh tính khách hàng thông qua chứng minh thư giúp tăng cường bảo mật và giảm thiểu gian lận. Trong lĩnh vực bảo hiểm, việc tự động hóa quy trình thu thập thông tin từ chứng minh thư giúp tiết kiệm thời gian và chi phí. Ngoài ra, công nghệ này cũng có thể được áp dụng trong các hệ thống quản lý nhân sự, giúp tự động hóa quy trình lưu trữ và truy xuất thông tin cá nhân. Sự phát triển của học sâu và công nghệ OCR sẽ tiếp tục mở ra nhiều cơ hội mới cho việc cải thiện quy trình làm việc trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và học sâu, việc tự động hóa quá trình trích xuất thông tin từ các tài liệu giấy trở nên cấp thiết. Theo ước tính, việc số hóa và nhận dạng ký tự quang học (OCR) đã được ứng dụng rộng rãi trong nhiều lĩnh vực như thủ tục hành chính, giao dịch thương mại, và quản lý nhân sự. Tuy nhiên, bài toán bóc tách thông tin từ chứng minh thư nhân dân (CMND) vẫn còn nhiều thách thức do đặc thù cấu trúc phức tạp và đa dạng của các trường thông tin trên ảnh CMND.

Luận văn tập trung nghiên cứu bài toán bóc tách thông tin trong chứng minh thư sử dụng các kỹ thuật học sâu, đặc biệt là mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy xoắn (CRNN). Mục tiêu cụ thể là phát triển phương pháp phát hiện và nhận dạng chính xác các trường thông tin trên ảnh CMND, từ đó nâng cao hiệu quả tự động hóa trong xử lý tài liệu cá nhân. Nghiên cứu được thực hiện trong phạm vi dữ liệu ảnh CMND tại Việt Nam, với thời gian thu thập và xử lý dữ liệu trong năm 2021.

Ý nghĩa của nghiên cứu được thể hiện qua việc giảm thiểu thời gian và chi phí nhập liệu thủ công, đồng thời nâng cao độ chính xác trong trích xuất thông tin cá nhân. Các chỉ số hiệu suất như độ chính xác phát hiện vùng văn bản và tỷ lệ nhận dạng ký tự đạt được lần lượt trên 90% và 85%, cho thấy tiềm năng ứng dụng thực tiễn của phương pháp đề xuất.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính trong lĩnh vực học sâu và nhận dạng ký tự:

Mạng nơ-ron tích chập (CNN): Đây là mô hình chủ đạo trong việc trích xuất đặc trưng từ ảnh. CNN sử dụng các tầng tích chập (Convolution Layer) để phát hiện các đặc trưng cục bộ, kết hợp với các tầng gộp (Pooling Layer) nhằm giảm chiều dữ liệu và tăng tính khái quát. Hàm kích hoạt phi tuyến ReLU được áp dụng để xử lý dữ liệu phi tuyến tính, giúp mạng học được các đặc trưng phức tạp. Mạng CNN được sử dụng để phát hiện vùng văn bản trên ảnh CMND.
Mạng nơ-ron hồi quy xoắn (CRNN): Kết hợp giữa CNN và mạng nơ-ron hồi quy (RNN), CRNN được thiết kế để nhận dạng chuỗi ký tự có độ dài biến đổi. RNN, đặc biệt là biến thể LSTM, có khả năng ghi nhớ thông tin chuỗi dài hạn, giúp nhận dạng chính xác các chuỗi ký tự trên ảnh. Tầng transcription trong CRNN sử dụng thuật toán CTC (Connectionist Temporal Classification) để chuyển đổi đầu ra mạng thành chuỗi ký tự có ý nghĩa.

Các khái niệm chuyên ngành quan trọng bao gồm: OCR (Optical Character Recognition), Pixellink (mô hình phát hiện văn bản dựa trên phân loại điểm ảnh và liên kết điểm ảnh), LSTM (Long Short-Term Memory), và hàm mất mát Cross-Entropy.

Phương pháp nghiên cứu

Nguồn dữ liệu bao gồm khoảng 1500 ảnh CMND, trong đó 500 ảnh thật được gán nhãn thủ công bằng phần mềm LabelImg, và 1000 ảnh được sinh tự động bằng kỹ thuật xử lý ảnh nhằm tăng tính đa dạng và tổng quát của dữ liệu. Dữ liệu được tiền xử lý bằng các bộ lọc Gaussian và median để loại bỏ nhiễu, đồng thời chuẩn hóa kích thước ảnh về 512×512 pixel cho Pixellink và chiều cao 512 pixel cho CRNN.

Phương pháp phân tích gồm hai bước chính:

Phát hiện vùng văn bản: Sử dụng mô hình Pixellink với mạng VGG16 làm backbone để phân loại điểm ảnh text/non-text và tính điểm liên kết giữa các điểm ảnh kề nhau. Hàm mất mát tổng hợp gồm mất mát điểm ảnh và mất mát liên kết, với trọng số điều chỉnh λ = 2.1. Quá trình đào tạo sử dụng thuật toán SGD với momentum 0.9, weight decay 0.0005, tốc độ học ban đầu 0.001 trong 100 vòng, sau đó tăng lên 0.01. Thời gian đào tạo khoảng 72 giờ trên máy tính cấu hình Geforce GTX 1060, Core i5, RAM 8GB.
Nhận dạng chuỗi ký tự: Áp dụng mô hình CRNN với cấu trúc gồm tầng convolution, tầng recurrent (bidirectional LSTM 256 đơn vị ẩn mỗi chiều), và tầng transcription sử dụng CTC loss. Dữ liệu đầu vào là các vùng ảnh đã được cắt từ bước phát hiện, chuẩn hóa chiều cao 512 pixel. Tỷ lệ sử dụng dữ liệu thật và dữ liệu sinh trong đào tạo lần lượt là 70% và 30%.

Timeline nghiên cứu kéo dài trong năm 2021, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, đào tạo và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện văn bản bằng Pixellink: Mô hình đạt độ chính xác phát hiện vùng văn bản trên ảnh CMND khoảng 91%, với khả năng phân biệt tốt các vùng văn bản trong điều kiện nhiễu và biến dạng ảnh. So với các phương pháp như CRAFT, Pixellink cho kết quả ổn định hơn do gán nhãn ở mức cụm thay vì ký tự riêng lẻ, giảm thời gian gán nhãn và tăng hiệu quả đào tạo.
Độ chính xác nhận dạng ký tự của CRNN: Mô hình CRNN đạt tỷ lệ nhận dạng chính xác chuỗi ký tự trên vùng văn bản khoảng 85%, vượt trội so với các mô hình CNN thuần túy do khả năng xử lý chuỗi ký tự có độ dài biến đổi và ghi nhớ thông tin ngữ cảnh. Tuy nhiên, một số lỗi nhận dạng xảy ra với các ký tự có hình dạng tương tự như “l” và “1”, “3” và “8”, hoặc “p” và “q”.
Tác động của dữ liệu sinh: Việc bổ sung 1000 ảnh sinh tự động giúp tăng tính đa dạng dữ liệu, cải thiện khả năng tổng quát hóa của mô hình, giảm hiện tượng overfitting. Tỷ lệ sử dụng dữ liệu sinh trong đào tạo là 30%, giúp mô hình duy trì hiệu suất ổn định trên dữ liệu kiểm thử.
Hạn chế về kích thước ảnh đầu vào: Việc chuẩn hóa kích thước ảnh đầu vào về 512×512 pixel cho Pixellink và chiều cao 512 pixel cho CRNN gây ra hiện tượng vỡ ảnh và mất chi tiết, ảnh hưởng đến độ chính xác nhận dạng ở một số trường hợp. Thời gian xử lý ảnh kích thước lớn cũng tăng đáng kể, gây khó khăn trong ứng dụng thực tế.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc kết hợp Pixellink và CRNN là một giải pháp hiệu quả cho bài toán bóc tách thông tin trên ảnh CMND. Mô hình Pixellink tận dụng phân loại điểm ảnh và liên kết điểm ảnh để phát hiện vùng văn bản chính xác, trong khi CRNN xử lý chuỗi ký tự linh hoạt, phù hợp với đặc thù dữ liệu có độ dài biến đổi.

So sánh với các nghiên cứu trước đây, phương pháp này giảm thiểu được công sức gán nhãn dữ liệu ở mức ký tự, đồng thời cải thiện độ chính xác nhận dạng nhờ khả năng học chuỗi của CRNN. Tuy nhiên, các lỗi nhận dạng ký tự tương tự vẫn tồn tại, đòi hỏi các bước hậu xử lý hoặc tích hợp từ điển để nâng cao độ chính xác.

Dữ liệu sinh tự động đóng vai trò quan trọng trong việc mở rộng tập dữ liệu, giúp mô hình học được các biến thể phông chữ và điều kiện ảnh khác nhau. Việc sử dụng kỹ thuật tiền xử lý ảnh như lọc Gaussian và median cũng góp phần giảm nhiễu, nâng cao chất lượng dữ liệu đầu vào.

Các biểu đồ hàm mất mát trong quá trình đào tạo cho thấy mô hình hội tụ ổn định sau khoảng 50 epoch, với sự giảm dần của mất mát điểm ảnh và liên kết trong Pixellink, cũng như mất mát CTC trong CRNN. Bảng so sánh hiệu suất giữa các mô hình cho thấy sự vượt trội của phương pháp đề xuất so với các mô hình truyền thống.

Đề xuất và khuyến nghị

Tăng cường dữ liệu đào tạo đa dạng: Tiếp tục mở rộng dữ liệu sinh tự động với các phông chữ, kích thước và điều kiện ánh sáng khác nhau nhằm nâng cao khả năng tổng quát hóa của mô hình. Mục tiêu tăng tỷ lệ dữ liệu sinh lên 50% trong vòng 6 tháng tới, do nhóm nghiên cứu thực hiện.
Phát triển bước hậu xử lý nhận dạng: Áp dụng kỹ thuật chỉnh sửa ngôn ngữ dựa trên từ điển và mô hình ngôn ngữ để giảm thiểu lỗi nhận dạng ký tự tương tự, đặc biệt với các cặp ký tự dễ nhầm lẫn. Thời gian triển khai dự kiến 3 tháng, phối hợp với chuyên gia ngôn ngữ.
Tối ưu hóa kích thước ảnh đầu vào: Nghiên cứu các phương pháp tăng cường ảnh và kỹ thuật biến đổi kích thước ảnh không làm mất chi tiết nhằm cải thiện chất lượng ảnh đầu vào cho Pixellink và CRNN. Dự kiến hoàn thành trong 4 tháng, do nhóm kỹ thuật thực hiện.
Tăng tốc độ xử lý mô hình: Sử dụng các kỹ thuật tối ưu hóa mô hình như pruning, quantization hoặc triển khai trên phần cứng chuyên dụng để giảm thời gian xử lý ảnh kích thước lớn, hướng tới ứng dụng thực tế tại các cơ quan hành chính. Kế hoạch thực hiện trong 6 tháng, phối hợp với đối tác công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Học máy: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong nhận dạng ký tự và xử lý ảnh tài liệu, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển phần mềm OCR và xử lý ảnh: Các kỹ thuật Pixellink và CRNN được trình bày chi tiết giúp cải tiến các sản phẩm nhận dạng văn bản tự động, đặc biệt trong lĩnh vực xử lý giấy tờ cá nhân.
Cơ quan hành chính và tổ chức quản lý nhân sự: Áp dụng phương pháp tự động trích xuất thông tin từ CMND giúp giảm thiểu sai sót và tăng tốc độ xử lý hồ sơ, nâng cao hiệu quả công việc.
Doanh nghiệp cung cấp giải pháp nhận dạng và xác thực danh tính: Nghiên cứu này hỗ trợ phát triển các hệ thống xác thực tự động, tăng cường bảo mật và trải nghiệm người dùng trong các dịch vụ tài chính, ngân hàng.

Câu hỏi thường gặp

Phương pháp Pixellink khác gì so với các phương pháp phát hiện văn bản khác?
Pixellink phân loại điểm ảnh và tính điểm liên kết giữa các điểm ảnh kề nhau, không cần hồi quy hộp giới hạn như các phương pháp khác. Điều này giúp giảm thời gian gán nhãn và tăng hiệu quả phát hiện văn bản trên ảnh có nhiều nhiễu.
Tại sao lại sử dụng CRNN thay vì CNN thuần túy cho nhận dạng ký tự?
CRNN kết hợp CNN để trích xuất đặc trưng ảnh và RNN để xử lý chuỗi ký tự có độ dài biến đổi, giúp nhận dạng chính xác hơn các chuỗi ký tự trên ảnh, đặc biệt khi độ dài chuỗi không cố định.
Dữ liệu sinh tự động có ảnh hưởng như thế nào đến kết quả mô hình?
Dữ liệu sinh tự động giúp tăng tính đa dạng và tổng quát của tập dữ liệu, giảm hiện tượng overfitting và cải thiện khả năng dự đoán trên dữ liệu thực tế chưa từng thấy.
Làm thế nào để giảm lỗi nhận dạng các ký tự tương tự nhau?
Có thể áp dụng bước hậu xử lý dựa trên từ điển và mô hình ngôn ngữ để chỉnh sửa kết quả nhận dạng, đồng thời tăng cường dữ liệu đào tạo với các ví dụ chứa các ký tự dễ nhầm lẫn.
Mô hình có thể áp dụng cho các loại giấy tờ khác ngoài CMND không?
Về nguyên tắc, phương pháp có thể mở rộng cho các loại giấy tờ khác có cấu trúc tương tự, tuy nhiên cần điều chỉnh dữ liệu đào tạo và mô hình phù hợp với đặc điểm riêng của từng loại giấy tờ.

Kết luận

Luận văn đã phát triển thành công phương pháp bóc tách thông tin trên ảnh CMND bằng học sâu, kết hợp Pixellink và CRNN, đạt độ chính xác phát hiện và nhận dạng trên 85%.
Phương pháp gán nhãn ở mức cụm và sử dụng dữ liệu sinh tự động giúp giảm thời gian chuẩn bị dữ liệu và tăng tính đa dạng.
Mô hình CRNN xử lý hiệu quả chuỗi ký tự có độ dài biến đổi, phù hợp với bài toán nhận dạng văn bản trên ảnh CMND.
Các hạn chế về kích thước ảnh đầu vào và lỗi nhận dạng ký tự tương tự được xác định, làm cơ sở cho các nghiên cứu tiếp theo.
Đề xuất các giải pháp nâng cao dữ liệu, tối ưu mô hình và phát triển bước hậu xử lý nhằm ứng dụng rộng rãi trong thực tế.

Tiếp theo, nghiên cứu sẽ tập trung vào mở rộng dữ liệu đào tạo, cải tiến mô hình nhận dạng và triển khai thử nghiệm thực tế tại các cơ quan hành chính. Độc giả và các nhà nghiên cứu quan tâm được khuyến khích áp dụng và phát triển thêm dựa trên nền tảng này để nâng cao hiệu quả xử lý tài liệu tự động.

Trích đoạn nội dung tài liệu

Chương 1 tóm tắt về phát hiện và nhận dạng ký tự, quá trình hình thành và phát triển của trí tuệ nhân tạo, học máy và học sâu. Các kiến thức nền tảng này sẽ là nền tảng cơ bản trong liên quan đến định hướng nghiên cứu, tìm hiểu của luận văn. 17 Luan van CHƯƠNG 2. GIỚI THIỆU VỀ MẠNG CONVOLUTION NEURAL NETWORK 2.1 Giới thiệu sơ lược về CNN Mạng CNN được sử dụng rộng rãi, áp dụng rất nhiều trong trích xuất đặc trưng của ảnh, người ta sử dụng CNN nhiều trong các bài toán nhận biết cũng như phân loại hình ảnh.

Trong bài toán phân loại hình ảnh sử dụng CNN thì đầu vào là một ảnh số, máy tính dựa vào các giá trị điểm ảnh sau đó đưa ra kết luận loại mà bức ảnh thuộc về cho bài toán phân loại, máy tính chỉ nhìn thấy bức ảnh như một mảng của các giá trị điểm ảnh. Một bức ảnh thể hiện bởi ba thông số W, H, D trong đó W là chiều rộng của ảnh, là số lượng điểm ảnh trên một hàng của ma trận ảnh, còn H là chiều cao của ảnh, là số lượng điểm ảnh trên một cột của ma trận ảnh, D là chiều hay còn gọi là độ sâu của ảnh, ví dụ một ảnh tạo bởi 3 kênh màu RGB và có chiều cao là 6 và chiều rộng là 6 thì được kí hiệu là 6 × 6 × 3 ví dụ đối với ảnh có kích thước dài và rộng như trên nhưng mà là ảnh một kênh màu, như ảnh xám được kí hiệu là 6 × 6 × 1. Trong DL thì đầu vào đi qua một chuỗi các tầng CNN với các bộ lọc. Kết hợp với các tầng gộp (Pooling) và kết nối đầy đủ (fully connected) và ở tầng cuối áp dụng hàm Softmax để đưa ra xác suất mà đối tượng thuộc về lớp trong bài toán phân loại.

Dưới đây là luồng của mô hình bài toán phân loại sử dụng CNN Hình 2.1 Mô hình CNN sử dụng cho bài toán phân loại Sau đây ta sẽ đi chi tiết về CNN 2.2 Convolution Layer – Tầng Tích Chập 18 Luan van Ở tầng Convolution là tầng đầu tiên giúp trích xuất đặc trưng của ảnh, tầng Convolution trình bày mối quan hệ giữa các giá trị điểm ảnh bằng học các đặc trưng ảnh, sử dụng các cửa sổ hình vuông trên ảnh đầu vào. Để trích xuất đặc trưng ảnh, sử dụng một phép tính toán học với bộ lọc và ma trận điểm ảnh đầu vào. Ví dụ: Về trích xuất đặc trưng của ảnh sử dụng tích chập Một ma trận ảnh có chiều: h×w×d Một bộ lọc có: fh × fw × d Đầu ra một ma trận ảnh có chiều: (h-fh+1 ) × (w - fw +1 ) × 1 Hình 2.2 Nhân ma trận ảnh với bộ lọc Ví dụ: Xem một ma trận có kích thước 5 × 5 và có giá trị các điểm ảnh là 0 hoặc 1, xét một bộ lọc có kích thước 3 × 3 .3 Ma trận và bộ lọc Sau đó thực hiện tính tích chập của ma trận 5 × 5 với ma trận bộ lọc 3 × 3. Sẽ thu được một ma trận đầu ra gọi là 'Feature Map' 19 Luan van Hình 2.4 Kết quả thực hiện phép nhân Tích chập của một ảnh với các bộ lọc khác nhau sẽ đưa ra các kết qủa khác nhau, như phát hiện cạnh, làm mờ, làm sắc nét ảnh.

Hoạt động Bộ lọc Giữ nguyên 0 0 0 [ 0 1 0] 0 0 0 Phát hiện cạnh 1 0 −1 [0 0 0] −1 0 1 0 1 1 [1 −4 1] 0 1 1 −1 −1 −1 [−1 8 −1] −1 −1 −1 Làm sắc nét 0 −1 0 [−1 5 −1] 0 −1 0 Làm mờ 1 1 1 1 [ 1 1 1] 9 1 1 1 Làm mờ theo Gaussian 1 1 2 1 [ 2 4 2] 16 1 2 1 Bảng 2.1 Một số bộ lọc khác 2.3 Strides – Bước nhảy 20 Luan van Bước nhảy là số lượng của điểm ảnh được nhảy qua trên ma trận đầu vào, khi bước nhảy là một thì chúng di chuyển bộ lọc một điểm ảnh sau mỗi lần, khi bước nhảy là hai thì bộ lọc sẽ di chuyển qua hai điểm ảnh sau mỗi lần.5 Đầu ra của ma trận có bước nhảy là hai 2.4 Padding – Đệm Thi thoảng bộ lọc không vừa với ảnh đầu vào, chúng ta sẽ có hai tùy chọn đó là: • Đệm thêm các giá trị 0 vào viền sao cho vừa khít • Bỏ đi phần của bức ảnh nếu bộ lọc không khít 2.5 Non Linearity (ReLU) – Phi tuyến tính Hàm ReLu cho hoạt động phi tuyến tính, hàm được định nghĩa: f (x ) = max (0, x ) PT 0.6 Hoạt động của hàm ReLU 21 Luan van Hàm quan trọng bởi vì nếu không dùng các hàm khởi tạo, mạng chỉ là những hàm tuyến tính, sẽ không áp được hiệu quả được đối với các dữ liệu phi tuyến. Là các dữ liệu không thể phân tách bởi các đường thẳng hoặc mặt phẳng và siêu phẳng. Một số hàm khác thường được sử dụng là: • tanh • Sigmoid 2.6 Pooling Layer – Tầng gộp Tầng có chức năng giảm số lượng của tham số khi mà bức ảnh đầu vào lớn, giúp bỏ đi các thông tin dư thừa, giúp giảm chiều dữ liệu, chỉ giữ lại những thông tin quan trọng, có ba loại của tầng Pooling đó là: • Max Pooling – Chọn giá trị lớn nhất. • Average Pooling – Chọn giá trị trung bình.

• Sum Pooling – Chọn tổng vùng đó. Giải thích: Max Pooling lấy phần tử lớn nhất từ feature map – biểu đồ đặc trưng. Average Pooling lấy giá trị trung bình từ feature map – biểu đồ đặc trưng Sum Pooling lấy tổng các giá trị từ feature map – biểu đồ đặc trưng.7 Max Pooling 22 Luan van 2.7 Full Connected Layer – Tầng kết nối đầy đủ. Theo như tên gọi của nó, chúng ta trải phẳng ma trận sang một véc tơ và đưa nó kết nối đầy đủ với tầng tương tự trong mạng Hình 2.8 Mô tả tầng kết nối đầy đủ 2.8 Kết luận chương.

Trong chương 2 luận văn nghiên cứu về mạng nơ ron tích chập - Convolution neural network (CNN). Trong chương này luận văn đã tìm hiểu về cơ chế hoạt động của CNN trong bài toán nhận biết cũng như phân loại hình ảnh. 23 Luan van CHƯƠNG 3. MÔ HÌNH MẠNG PIXELLINK CHO PHÁT HIỆN VĂN BẢN Có rất nhiều phương pháp cũng như thuật toán để xác định văn bản như SSD [3], CRAFT [1], Pixellink [5].

vv Nhưng khi thử một số phương pháp như CRAFT [1] thì cho kết quả không tốt trên bộ trọng số có sẵn của họ, và phương pháp này sử dụng character Map nên làm dữ liệu tốn nhiều thời gian, dữ liệu phải gán nhãn ở mức độ kí tự. Nhưng Pixellink gán nhãn ở mức độ cụm nên việc gán nhãn dễ dàng và mất ít thời gian hơn. Trong khuôn khổ thời gian luận văn, tôi chỉ mới kịp gán nhãn và thử nghiệm theo Pixellink. Những năm gần đây, áp dụng DL vào phát hiện văn bản đã đạt được nhiều thành công lớn, đa số các phương pháp đều sử dụng ít nhất hai phương thức đó là: • Phân loại mỗi điểm ảnh.

• Hồi quy hộp. Trong đó phân loại điểm ảnh là xác đinh mỗi giá trị điểm ảnh là văn bản hay không (text/non - text). Hồi quy viền xung quanh, là tìm ra các hình chữ nhật bao quanh văn bản đó. Những phương pháp trước đề xuất dùng ít nhất hai phương thức ở trên, nhưng nhận thấy sự không cần thiết của phương thức hồi quy hộp, bởi vì từ các điểm ảnh đã phân loại đã có thể suy ra các hộp chứa các văn bản đó.

Pixellink sử dụng hai cơ chế đó là phân loại các điểm ảnh và tính điểm số liên kết giữa các điểm ảnh kề nó, mỗi điểm ảnh có tối đa tám điểm ảnh kề nó. Việc phát hiện văn bản qua instance Segmentation là dự đoán các điểm ảnh thuộc văn bản và kết hợp các điểm ảnh đó vào các nhóm khác nhau, mỗi nhóm như thế gọi là một instance.1 Cấu trúc mạng 24 Luan van Để trích xuất đặc trưng của một bức ảnh thì ngoài các phương pháp học máy truyền thống như SIFT, SURF…, thì sự phát triển của học sâu ứng dụng của CNN để trích xuất đặc trưng cho thấy mang lại hiệu quả rõ rệt. Trong bài báo gốc của Pixellink họ đề xuất sử dụng mạng VGG16 để trích xuất đặc trưng, nhưng ở tầng kết nối đầy đủ thứ sáu, và tầng kết nối đầy đủ thứ bảy, được chuyển sang tầng Convolutation. Hàm số Softmax được sử dụng cho cả hai nhánh đó là dự đoán text/non-text và điểm số liên kết (Link Score) Hình 3.1 Mô hình mạng VGG16 25 Luan van Feature maps ở mỗi tầng CNN khác nhau sẽ được áp dụng cho quá trình upsample của ảnh sau khi đi qua các tầng CNN.

Tất cả các tầng pooling trừ tầng thứ 5 có bước nhảy là 2, còn tầng pooling thứ 5 có bước nhảy là 1 conv1 x 1,2(16) là tầng convoluation với kernels là 2 cho dự đoán text/non-text, 16 cho quá trình dự đoán liên kết với 8 hàng xóm xung quanh. Quá trình upsample người ta dùng bilinear interpolation để nội suy các điểm khác, sau đây tôi xin trình bày khái quát về bilinear interpolation Giả sử rằng chúng ta muốn tìm giá trị tại một điểm có tọa độ (x,y) nhưng không biết hàm số của nó, mà chỉ biết được giá trị của bốn điểm thuộc hàm số đó, chúng ta sẽ nội suy theo một phương sau đó nội suy theo phương còn lại. Giả sử đã biết trước giá trị tại 4 điểm: 𝑄11 = (𝑥1 , 𝑦1 ), 𝑄12 = (𝑥1 , 𝑦2 ), 𝑄21 = (𝑥2 , 𝑦1 ), 𝑄22 = (𝑥2 , 𝑦2 ) PT.0 Đầu tiên nội suy tuyến tính theo hướng x suy ra 𝑥2 − 𝑥 𝑥 − 𝑥1 𝑓(𝑥, 𝑦1 ) ≈ 𝑓(𝑄11 ) + 𝑓(𝑄21 ), PT.2 𝑥2 − 𝑥1 𝑥2 − 𝑥1 Sau đó nội suy theo hướng y 𝑦2 − 𝑦 𝑦 − 𝑦1 𝑓(𝑥, 𝑦) ≈ 𝑓(𝑥, 𝑦1 ) + · 𝑓(𝑥, 𝑦2 ) 𝑃𝑇.5 (𝑥2 − 𝑥1 )(𝑦2 − 𝑦1 ) 𝑓(𝑄21 )𝑓(𝑄22 ) 𝑦 − 𝑦1 Như vậy có thể nội suy từ 4 điểm cho trước Hình ảnh dưới đây mô tả quá trình phát hiện văn bản của pixellink 26 Luan van Hình 3.2 Quá trình của Pixellink 3.2 Kết nối các điểm ảnh Dự đoán phân loại mỗi lớp cho mỗi điểm ảnh và dự đoán liên kết giữa các điểm ảnh, hai ngưỡng riêng biệt này có thể được áp dụng tách rời nhau. Những điểm ảnh được dự đoán là văn bản, sau đó chúng được nhóm lại thành từng nhóm với nhau bằng cách sử dụng liên kết.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Nghiên cứu bóc tách thông tin trong chứng minh thư sử dụng học sâu" của tác giả Phạm Văn Dương, dưới sự hướng dẫn của PGS. Ngô Quốc Tạo, được thực hiện tại Học viện Khoa học và Công nghệ Việt Nam vào năm 2021. Nghiên cứu này tập trung vào việc áp dụng các kỹ thuật học sâu để tự động hóa quá trình bóc tách thông tin từ chứng minh thư, một vấn đề quan trọng trong lĩnh vực hệ thống thông tin. Bài viết không chỉ cung cấp cái nhìn sâu sắc về các phương pháp học sâu mà còn mở ra hướng đi mới cho việc xử lý và quản lý thông tin cá nhân trong các ứng dụng thực tiễn.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục và các lĩnh vực liên quan, bạn có thể tham khảo bài viết "Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa", nơi nghiên cứu về việc áp dụng công nghệ thông tin trong giáo dục. Ngoài ra, bài viết "Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói" cũng sẽ cung cấp thêm thông tin về việc sử dụng học sâu trong các bài toán nhận diện, tương tự như nghiên cứu của bạn. Cuối cùng, bài viết "Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ" sẽ giúp bạn hiểu rõ hơn về ứng dụng của học sâu trong lĩnh vực nhận diện giọng nói, một lĩnh vực có nhiều điểm tương đồng với nghiên cứu của bạn.

#Luận văn Thạc sĩ

#trí tuệ nhân tạo

#xử lý ảnh

#nhận diện văn bản

#bóc tách thông tin

#chứng minh thư

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin

Xử lý và phân tích dữ liệu

Công nghệ học sâu

Ứng dụng trí tuệ nhân tạo trong nhận diện văn bản