Luận Văn Tốt Nghiệp Về Mô Hình Nhận Dạng Chữ Viết Tay Trong Các Biểu Mẫu Cố Định

Khám phá luận văn tốt nghiệp về mô hình nhận dạng chữ viết tay trong biểu mẫu cố định, ứng dụng trong khoa học máy tính và công nghệ nhận dạng.

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn tốt nghiệp

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Trong thực tiễn

1.2. Trong nghiên cứu

1.3. Phạm vi và mục tiêu nghiên cứu

1.4. Quy trình cơ bản của hệ thống trích xuất thông tin

1.5. Nhận dạng chữ viết tay

1.6. Thách thức

1.7. Cấu trúc luận văn

2. CHƯƠNG 2: KIẾN THỨC NỀN TẢNG

2.1. Mô hình học sâu

2.2. Mô hình học sâu lan truyền thuận

2.3. Mạng neuron tích chập

2.4. Mạng neuron hồi quy

2.4.1. Mạng neuron hồi quy thông thường

2.4.2. Long Short-Term Memory

2.5. Thư viện và công cụ

3. CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN

3.1. Mô hình Markov ẩn

3.2. Bộ phân loại kết nối theo thời gian

3.2.1. Phân loại theo thời gian

3.2.2. Chuyển dữ liệu dạng ảnh sang chuỗi

3.3. Mô hình Convolutional Recurrent Neural Network

3.3.1. Tổng quan mô hình

3.3.2. Ưu điểm và nhược điểm

3.4. Mô hình chuỗi sang chuỗi

3.4.1. Mô hình chuỗi sang chuỗi áp dụng cơ chế tập trung

3.4.1.1. Kiến trúc chung của mô hình

3.4.1.2. Cơ chế tập trung

3.4.1.2.1. Hạn chế của cách tiếp cận sử dụng CTC

3.4.1.2.2. Hạn chế của cách tiếp cận theo mô hình Attention-based Seq2Seq

4. CHƯƠNG 4: HƯỚNG TIẾP CẬN

4.1. Phương pháp đề xuất sử dụng

4.1.1. Điểm cốt lõi của phương pháp

4.1.2. Mô hình Transformer

4.1.2.1. Cơ chế tự tập trung

4.1.2.2. Cơ chế tự tập trung đa đầu

4.1.2.6. Tổng kết về mô hình Transformer

4.2. Chi tiết kiến trúc mô hình tổng quát

4.2.1. Mạng lan truyền thuận theo vị trí

4.2.2. Lớp add và norm

4.2.3. Hàm mất mát và optimizer

4.3. Quá trình huấn luyện và kiểm tra mô hình

4.3.1. Phương pháp đánh giá

4.3.1.1. Tỉ lệ lỗi từ

4.3.1.2. Tỉ lệ lỗi ký tự

4.4. Tập dữ liệu

4.4.1. Tập dữ liệu tiếng Việt HANDS-VNOnDB2018

4.4.2. Tập dữ liệu chữ viết tay tiếng Việt của Cinnamon

4.4.3. Tập dữ liệu phiếu gửi Viettel post

4.5. Kết quả thí nghiệm

4.5.1. Kết quả trên tập dữ liệu VNOnDB

4.5.2. Kết quả trên tập dữ liệu Cinnamon

4.5.3. Kết quả trên tập dữ liệu Viettel post

6. CHƯƠNG 6: ỨNG DỤNG

7. CHƯƠNG 7: TỔNG KẾT

7.1. Kết quả đạt được

7.2. Hướng phát triển trong tương lai

A: KẾ HOẠCH LUẬN VĂN

Tóm tắt

I. Giới thiệu

Trong thời đại cách mạng công nghiệp 4.0, nhu cầu tự động hóa quy trình quản lý đang trở thành một yếu tố quan trọng trong sự phát triển của quốc gia. Việc xây dựng một hệ thống tự động thu thập và số hóa thông tin, đặc biệt là chữ viết tay, là một bài toán cần thiết. Các phương pháp truyền thống trong số hóa dữ liệu thường tốn thời gian và dễ xảy ra sai sót. Do đó, việc phát triển mô hình nhận dạng chữ viết tay trong các biểu mẫu cố định là rất quan trọng. Luận văn này tập trung vào việc xây dựng mô hình nhận dạng chữ viết tay tiếng Việt, sử dụng phiếu gửi của Viettel post làm mẫu chính. Qua đó, tác giả đã thu thập và gán nhãn một tập dữ liệu mới, đa dạng về nét chữ và phông nền, nhằm phục vụ cho bài toán nhận dạng.

1.1 Trong thực tiễn

Việc số hóa dữ liệu viết tay vẫn tồn tại do nhiều lý do như kiểm tra sự trùng khớp về nét chữ và bảo mật thông tin. Các biểu mẫu viết tay vẫn được sử dụng rộng rãi, mặc dù công nghệ số đang phát triển. Điều này tạo ra nhu cầu cho một hệ thống tự động hóa, giúp giảm thiểu thời gian và sai sót trong quá trình nhập liệu. Hệ thống sẽ quét tài liệu giấy và tự động trích xuất thông tin từ các vùng chữ viết tay, từ đó hỗ trợ việc quản lý dữ liệu hiệu quả hơn.

1.2 Trong nghiên cứu

Bài toán nhận dạng chữ viết tay đã được nghiên cứu trong hơn ba mươi năm, từ nhận dạng ký tự đến từ và dòng. Hai phương pháp chính là nhận dạng trực tuyến và ngoại tuyến. Luận văn này tập trung vào nhận dạng ngoại tuyến, phù hợp với mục tiêu nghiên cứu. Nhận dạng ngoại tuyến yêu cầu đầu vào là hình ảnh tĩnh của nét chữ, không có thông tin bổ sung về quá trình viết. Điều này tạo ra thách thức trong việc phát triển mô hình có khả năng nhận diện chính xác từ hình ảnh đã quét.

II. Kiến thức nền tảng

Phần này tập trung vào các mô hình học sâu và các phương pháp truyền thống trong nhận dạng chữ viết tay. Các mô hình như Hidden Markov Model (HMM), Convolutional Recurrent Neural Network (CRNN), và Attention-based Seq2Seq đều được phân tích. Đặc biệt, việc thay thế khối Long Short-Term Memory (LSTM) bằng khối Transformer trong mô hình Attention-based Seq2Seq đã cho thấy kết quả khả quan. Mô hình học sâu này cho phép khai thác tốt hơn các đặc trưng của dữ liệu chữ viết tay, từ đó nâng cao độ chính xác trong việc nhận diện.

2.1 Mô hình học sâu

Mô hình học sâu là một phương pháp hiệu quả trong nhận dạng chữ viết tay. Việc sử dụng mạng neuron tích chập (CNN) và mạng hồi quy (RNN) đã chứng minh được khả năng xử lý dữ liệu phức tạp. Mô hình học sâu lan truyền thuận giúp cải thiện khả năng nhận diện các ký tự viết tay, trong khi mạng neuron hồi quy cho phép xử lý dữ liệu theo chuỗi. Sự kết hợp của các phương pháp này mang lại hiệu quả cao trong việc nhận dạng chữ viết tay, đặc biệt là trong các biểu mẫu có bố cục cố định.

2.2 Mạng neuron hồi quy

Mạng neuron hồi quy, đặc biệt là LSTM, đã được áp dụng rộng rãi trong nhận dạng chữ viết tay. Tuy nhiên, việc thay thế LSTM bằng mô hình Transformer đã mở ra hướng đi mới với nhiều ưu điểm. Mô hình Transformer cho phép xử lý đồng thời các thông tin và giảm thiểu độ trễ trong nhận diện. Điều này rất quan trọng trong việc nhận dạng chữ viết tay, nơi mà thông tin cần được xử lý nhanh chóng và chính xác.

III. Các công trình liên quan

Nghiên cứu trước đây về nhận dạng chữ viết tay đã chỉ ra rằng có nhiều phương pháp khác nhau được áp dụng, từ mô hình Markov ẩn đến các mô hình học sâu. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng, ảnh hưởng đến độ chính xác và tốc độ nhận dạng. Việc phân tích các công trình liên quan giúp xác định khoảng trống trong nghiên cứu và hướng phát triển mô hình mới. Sự kết hợp giữa các phương pháp truyền thống và hiện đại sẽ tạo ra một mô hình mạnh mẽ hơn trong việc nhận dạng chữ viết tay.

3.1 Mô hình Markov ẩn

Mô hình Markov ẩn đã được sử dụng để nhận dạng chữ viết tay trong quá khứ. Tuy nhiên, mô hình này gặp khó khăn trong việc xử lý các chuỗi dữ liệu dài và phức tạp. Điều này đã dẫn đến sự phát triển của các phương pháp mới hơn như CRNN và Attention-based Seq2Seq, cho phép cải thiện độ chính xác trong nhận diện.

3.2 Mô hình Convolutional Recurrent Neural Network

CRNN kết hợp giữa CNN và RNN, cho phép khai thác cả thông tin không gian và chuỗi trong dữ liệu chữ viết tay. Mô hình này đã cho thấy hiệu quả cao trong nhiều bài toán nhận dạng, nhưng vẫn cần cải thiện để xử lý tốt hơn các mẫu chữ viết tay đa dạng và phức tạp.

IV. Hướng tiếp cận

Hướng tiếp cận của luận văn này là đề xuất một phương pháp mới sử dụng mô hình Transformer cho nhận dạng chữ viết tay. Mô hình Transformer sẽ thay thế LSTM trong mô hình Attention-based Seq2Seq, cho phép tăng cường khả năng nhận diện. Phương pháp này không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý, đáp ứng yêu cầu thực tiễn trong việc nhận dạng chữ viết tay trong các biểu mẫu cố định.

4.1 Phương pháp đề xuất

Phương pháp đề xuất trong luận văn này tập trung vào việc sử dụng mô hình Transformer để cải thiện độ chính xác trong nhận dạng chữ viết tay. Mô hình này cho phép xử lý đồng thời nhiều thông tin và giảm thiểu độ trễ trong nhận diện. Việc áp dụng mô hình Transformer sẽ giúp nâng cao hiệu suất của hệ thống nhận dạng, đặc biệt là trong các bài toán có dữ liệu lớn và đa dạng.

4.2 Chi tiết kiến trúc mô hình tổng quát

Kiến trúc mô hình tổng quát bao gồm các khối encoder và decoder của Transformer, cho phép nhận diện chữ viết tay một cách hiệu quả. Việc sử dụng cơ chế tự tập trung giúp mô hình khai thác tốt hơn các đặc trưng của dữ liệu, từ đó nâng cao độ chính xác trong việc nhận diện chữ viết tay. Điều này sẽ được chứng minh qua các thí nghiệm thực tế trong luận văn.

V. Kết quả thí nghiệm

Kết quả thí nghiệm cho thấy mô hình Transformer đạt được độ chính xác cao trong việc nhận diện chữ viết tay trong các biểu mẫu cố định. So với các mô hình trước đó như CRNN và Seq2Seq, mô hình Transformer đã chứng minh được ưu thế rõ rệt. Các chỉ số đánh giá như tỷ lệ lỗi từ và ký tự cho thấy sự cải thiện đáng kể, khẳng định tính hiệu quả của phương pháp đề xuất.

5.1 Kết quả trên tập dữ liệu VNOnDB

Mô hình Transformer đã được thử nghiệm trên tập dữ liệu VNOnDB và cho thấy độ chính xác cao hơn 24% so với mô hình CRNN. Điều này chứng tỏ rằng mô hình Transformer có khả năng nhận diện chữ viết tay tốt hơn, đặc biệt trong các trường hợp có độ phức tạp cao.

5.2 Kết quả trên tập dữ liệu Viettel post

Kết quả từ tập dữ liệu Viettel post cũng cho thấy mô hình Transformer hoạt động hiệu quả trong việc nhận diện chữ viết tay. Sự kết hợp giữa các phương pháp học sâu đã giúp cải thiện đáng kể độ chính xác, làm nổi bật khả năng của mô hình trong việc xử lý các biểu mẫu có bố cục cố định.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn tốt nghiệp khoa học máy tính xây dựng mô hình nhận dạng chữ viết tay trong các biểu mẫu có bố cục cố định

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh cách mạng công nghiệp 4.0, việc tự động hóa quá trình quản lý và số hóa dữ liệu trở thành nhu cầu cấp thiết của nhiều tổ chức, doanh nghiệp. Theo ước tính, hàng triệu biểu mẫu giấy vẫn được sử dụng và xử lý thủ công mỗi ngày tại các đơn vị hành chính, bưu chính và tài chính. Việc nhập liệu thủ công không chỉ tốn thời gian mà còn dễ phát sinh sai sót, ảnh hưởng đến hiệu quả công việc. Đặc biệt, chữ viết tay tiếng Việt trong các biểu mẫu có bố cục cố định như phiếu gửi của Viettel post chiếm tỷ lệ lớn trong dữ liệu cần số hóa. Tuy nhiên, nhận dạng chữ viết tay tiếng Việt vẫn là thách thức lớn do sự đa dạng về nét chữ, dấu thanh và phông nền phức tạp.

Mục tiêu nghiên cứu của luận văn là xây dựng mô hình nhận dạng chữ viết tay tiếng Việt trong các biểu mẫu có bố cục cố định, tập trung vào phiếu gửi của Viettel post. Nghiên cứu thực hiện trong khoảng thời gian từ tháng 10/2020 đến tháng 7/2021 tại TP. Hồ Chí Minh. Kết quả nghiên cứu không chỉ góp phần nâng cao hiệu quả số hóa dữ liệu mà còn hỗ trợ tự động hóa quy trình xử lý biểu mẫu, giảm thiểu sai sót và tăng tốc độ xử lý. Các chỉ số đánh giá hiệu quả bao gồm độ chính xác nhận dạng ký tự và tốc độ xử lý trên tập dữ liệu thực tế.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học sâu hiện đại trong lĩnh vực nhận dạng ký tự quang học (OCR), bao gồm:

- **Mạng neuron tích chập (CNN):** Được sử dụng để trích xuất đặc trưng không gian từ ảnh chữ viết tay, giảm thiểu số lượng tham số và tăng khả năng học các đặc trưng phức tạp.
- **Mạng neuron hồi quy (RNN) và Long Short-Term Memory (LSTM):** Giúp xử lý dữ liệu tuần tự, ghi nhớ thông tin ngữ cảnh trong chuỗi ký tự, giải quyết vấn đề phụ thuộc dài hạn trong chuỗi văn bản.
- **Mô hình Sequence to Sequence (Seq2Seq) với cơ chế Attention:** Tăng cường khả năng tập trung vào các phần quan trọng của chuỗi đầu vào, cải thiện độ chính xác nhận dạng.
- **Mô hình Transformer:** Thay thế khối LSTM trong mô hình Attention-based Seq2Seq, tận dụng cơ chế tự tập trung đa đầu (multi-head self-attention) để xử lý hiệu quả các chuỗi dài và phức tạp.

Các khái niệm chính bao gồm: nhận dạng ngoại tuyến (offline recognition), cơ chế tập trung (attention mechanism), và hậu xử lý (post-processing) nhằm nâng cao chất lượng kết quả.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu chữ viết tay tiếng Việt thu thập từ phiếu gửi Viettel post, bao gồm khoảng 1000 biểu mẫu với đa dạng nét chữ và phông nền. Dữ liệu được gán nhãn chi tiết từng vùng chữ viết tay (textline) để phục vụ huấn luyện và đánh giá mô hình.

Phương pháp phân tích sử dụng các mô hình học sâu kết hợp CNN, LSTM, và Transformer, được huấn luyện trên nền tảng PyTorch với kỹ thuật tối ưu Stochastic Gradient Descent (SGD). Quá trình nghiên cứu được thực hiện theo timeline từ thu thập dữ liệu, gán nhãn, xây dựng mô hình, huấn luyện, đánh giá đến phát triển ứng dụng trực quan hóa kết quả.

Cỡ mẫu huấn luyện khoảng 80% dữ liệu, phần còn lại dùng để kiểm thử và đánh giá. Phương pháp chọn mẫu là ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện của dữ liệu. Các chỉ số đánh giá bao gồm tỉ lệ lỗi ký tự (Character Error Rate - CER) và tỉ lệ lỗi từ (Word Error Rate - WER).

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Transformer thay thế cho LSTM trong kiến trúc Attention-based Seq2Seq đạt tỉ lệ lỗi ký tự giảm 24% so với mô hình CRNN kết hợp cơ chế Attention truyền thống trên tập dữ liệu Viettel post.
- Trên tập dữ liệu VNOnDB-line, mô hình Transformer cho kết quả vượt trội hơn hẳn so với Seq2Seq và CRNN, với độ chính xác nhận dạng tăng khoảng 15%.
- Mô hình Transformer thể hiện khả năng xử lý tốt các chuỗi dài và phức tạp nhờ cơ chế tự tập trung đa đầu, giảm thiểu hiện tượng mất thông tin khi chuỗi đầu vào dài.
- Hậu xử lý các trường dữ liệu giúp cải thiện độ chính xác nhận dạng lên thêm khoảng 5%, đặc biệt hiệu quả với các trường có dấu thanh phức tạp trong tiếng Việt.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do cơ chế tự tập trung đa đầu trong Transformer giúp mô hình tập trung vào các phần quan trọng của chuỗi đầu vào, đồng thời xử lý song song hiệu quả hơn so với LSTM tuần tự. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực nhận dạng ký tự quang học và dịch máy.

So sánh với các mô hình truyền thống như HMM hay CRNN, mô hình đề xuất không chỉ nâng cao độ chính xác mà còn giảm thời gian huấn luyện và dự đoán. Dữ liệu được trình bày qua biểu đồ so sánh tỉ lệ lỗi ký tự và từ giữa các mô hình, cũng như bảng thống kê chi tiết kết quả trên từng tập dữ liệu.

Ý nghĩa của nghiên cứu là mở ra hướng phát triển các hệ thống nhận dạng chữ viết tay tiếng Việt có độ chính xác cao, khả năng ứng dụng rộng rãi trong tự động hóa xử lý biểu mẫu, tài liệu hành chính và bưu chính.

## Đề xuất và khuyến nghị

- **Mở rộng thu thập dữ liệu:** Tăng cường thu thập dữ liệu chữ viết tay đa dạng hơn về nét chữ, phông nền và bố cục biểu mẫu nhằm nâng cao khả năng tổng quát của mô hình. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm nghiên cứu và đối tác bưu chính.
- **Cải tiến thuật toán hậu xử lý:** Phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên nâng cao để giảm thiểu lỗi nhận dạng do dấu thanh và ngữ cảnh. Mục tiêu giảm tỉ lệ lỗi ký tự thêm 5% trong 6 tháng tới, chủ thể: nhóm phát triển phần mềm.
- **Tối ưu hóa thời gian xử lý:** Nghiên cứu và áp dụng các kỹ thuật tăng tốc huấn luyện và dự đoán như pruning, lượng tử hóa mô hình để phù hợp với ứng dụng công nghiệp. Mục tiêu giảm thời gian xử lý xuống dưới 1 giây trên mỗi biểu mẫu, thời gian 6 tháng, chủ thể: nhóm kỹ thuật.
- **Phát triển ứng dụng trực quan:** Xây dựng giao diện người dùng thân thiện, hỗ trợ trực quan hóa kết quả nhận dạng và chỉnh sửa thủ công khi cần thiết. Thời gian 3-6 tháng, chủ thể: nhóm phát triển ứng dụng.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho nhân viên bưu chính và các đơn vị liên quan để áp dụng mô hình vào thực tế, đảm bảo hiệu quả vận hành. Thời gian 6 tháng, chủ thể: nhóm nghiên cứu và đối tác.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo:** Nắm bắt kiến thức về mô hình học sâu, kỹ thuật nhận dạng chữ viết tay tiếng Việt, phục vụ nghiên cứu và phát triển.
- **Doanh nghiệp và tổ chức bưu chính, hành chính:** Áp dụng mô hình nhận dạng tự động để nâng cao hiệu quả xử lý biểu mẫu, giảm chi phí và sai sót trong nhập liệu.
- **Nhà phát triển phần mềm và kỹ sư AI:** Tham khảo kiến trúc mô hình Transformer, kỹ thuật huấn luyện và tối ưu mô hình trong bài toán thực tế.
- **Chuyên gia xử lý ngôn ngữ tự nhiên và thị giác máy tính:** Tìm hiểu các phương pháp kết hợp học sâu và xử lý ngôn ngữ trong nhận dạng chữ viết tay tiếng Việt.

## Câu hỏi thường gặp

1. **Mô hình Transformer có ưu điểm gì so với LSTM trong nhận dạng chữ viết tay?**  
Transformer sử dụng cơ chế tự tập trung đa đầu giúp xử lý song song và tập trung vào các phần quan trọng của chuỗi, giảm thiểu mất thông tin khi chuỗi dài, từ đó nâng cao độ chính xác và tốc độ xử lý so với LSTM tuần tự.

2. **Tại sao cần thu thập dữ liệu chữ viết tay đa dạng?**  
Đa dạng dữ liệu giúp mô hình học được nhiều biến thể nét chữ, phông nền và bố cục khác nhau, tăng khả năng tổng quát và giảm lỗi khi áp dụng vào thực tế.

3. **Hậu xử lý có vai trò gì trong hệ thống nhận dạng?**  
Hậu xử lý giúp chỉnh sửa các lỗi do mô hình nhận dạng, đặc biệt là các lỗi liên quan đến dấu thanh và ngữ cảnh, từ đó cải thiện độ chính xác tổng thể của hệ thống.

4. **Làm thế nào để giảm thời gian xử lý mô hình trong ứng dụng thực tế?**  
Có thể áp dụng các kỹ thuật tối ưu mô hình như pruning, lượng tử hóa, và sử dụng phần cứng GPU hoặc TPU để tăng tốc độ huấn luyện và dự đoán.

5. **Ứng dụng của mô hình nhận dạng chữ viết tay trong đời sống?**  
Mô hình giúp tự động hóa nhập liệu biểu mẫu hành chính, bưu chính, tài liệu y tế, giáo dục, giảm sai sót và tăng hiệu quả công việc.

## Kết luận

- Đã xây dựng thành công mô hình nhận dạng chữ viết tay tiếng Việt trong biểu mẫu có bố cục cố định với độ chính xác cao, vượt trội so với các mô hình truyền thống.  
- Mô hình Transformer với cơ chế tự tập trung đa đầu là điểm nhấn công nghệ, giúp cải thiện đáng kể hiệu suất nhận dạng.  
- Thu thập và gán nhãn dữ liệu thực tế từ phiếu gửi Viettel post tạo nền tảng dữ liệu đa dạng và chất lượng cho huấn luyện.  
- Hệ thống hậu xử lý và ứng dụng trực quan hóa kết quả hỗ trợ nâng cao trải nghiệm người dùng và tính ứng dụng thực tế.  
- Đề xuất các hướng phát triển mở rộng về dữ liệu, thuật toán và ứng dụng nhằm hoàn thiện và triển khai mô hình trong công nghiệp trong thời gian tới.

Mời độc giả và các nhà nghiên cứu tiếp tục theo dõi và ứng dụng các kết quả nghiên cứu để phát triển các giải pháp nhận dạng chữ viết tay tiếng Việt hiệu quả hơn trong tương lai.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 GIỚI THIỆU 1.1 Trong thực tiễn Trong thời đại cách mạng công nghiệp 4.0 hiện nay, nhu cầu tự động hóa quá trình quản lý là một trong những yếu tố chính ảnh hưởng đến tốc độ phát triển của một quốc gia. Chính vì thế, việc xây dựng một hệ thống tự động thu thập và số hóa thông tin người dùng là một bài toán thực sự cần thiết và hữu ích. Theo truyền thống, quá trình số hóa dữ liệu là một công việc khá “rườm rà”, tốn nhiều tài nguyên, thời gian và công sức của con người. Đầu tiên, người dùng phải điền thông tin của họ vào một biểu mẫu bằng tay.

Tiếp theo, thông tin của mỗi trường trong biểu mẫu được nhân viên gõ thủ công vào máy tính. Có thể thấy, đây được xem là một giai đoạn vô cùng nhàm chán, đồng thời cũng dễ xảy ra sai sót trong quá trình nhập liệu. Hơn nữa, việc nhập liệu này phải lặp đi lặp lại rất nhiều lần với cùng số lượng biểu mẫu lớn. Ngày nay, một số công ty và đơn vị đã chuyển các hình thức giấy tờ sang biểu mẫu kỹ thuật số, tại đó khách hàng và nhân viên có thể nhập trực tiếp thông tin của mình lên đó mà không cần phải dùng đến bút.

Tuy nhiên, một số nơi khác vẫn giữ cách truyền thống, yêu cầu khách hàng của họ phải viết tay vì nhiều lý do riêng. Một trong số đó được dùng với mục đích kiểm tra sự trùng khớp về nét chữ, cũng như nhằm đảm bảo các tiêu chí bảo mật. Vì vậy, dữ liệu văn bản viết tay vẫn tồn tại bất chấp sự phát triển vượt bậc của công nghệ và sự phổ biến của các biểu mẫu dưới dạng kỹ thuật số. Điều này cho thấy rằng việc tạo ra một hệ thống tự động hóa để giải quyết các vấn đề liên quan đến chữ viết tay là vô cùng quan trọng.

Quá trình này sẽ được thực hiện với các bước sau đây. Trước hết, hình thức tài liệu trên giấy sẽ được quét bởi một máy scan hoặc chụp bằng 1 Giới thiệu 2 các thiết bị công nghệ để tạo ra hình ảnh. Tiếp theo sử dụng máy tính để tự động trích xuất thông tin người dùng, tập trung vào các vùng là chữ viết tay.1 thể hiện ví dụ về số hóa biểu mẫu có chữ viết tay trên một số trường ngữ nghĩa.1: Ví dụ về số hóa văn bản viết tay 1.2 Trong nghiên cứu Bài toán nhận dạng văn bản viết tay đã được nghiên cứu trong hơn ba mươi năm gần đây, được phát triển dần dần từ việc nhận dạng văn bản ở mức độ ký tự đến mức độ từ rồi đến mức độ dòng gồm nhiều từ. Nhận dạng chữ viết tay được chia thành hai lớp bài toán lớn sau: • Nhận dạng trực tuyến (online recognition) là nhận dạng các chữ trên màn hình ngay khi nó được viết.

Trong hệ nhận dạng này máy tính sẽ lưu lại các thông tin về nét chữ như thứ tự nét viết, hướng và tốc độ của nét. • Nhận dạng ngoại tuyến (offline recognition) là dự đoán chuỗi văn bản từ một vùng văn bản viết tay cố định từ hình ảnh đã được chụp hoặc quét. Sự khác biệt chính giữa hai phương pháp trên đó là dữ liệu đầu vào. Đối với phương pháp nhận dạng trực tuyến bao gồm tất cả các tọa độ của nét chữ được viết từ bút kỹ thuật số, cùng với hình ảnh của chúng được tạo ra từ sự chuyển động của bút.

Trong khi, với phương pháp nhận dạng ngoại tuyến thì đầu vào chỉ có hình ảnh của nét chữ đã được hình thành (ảnh tĩnh), không có thêm bất kì thông tin nào về dấu vết của chúng. Một điểm khác biệt nữa là hệ thống nhận dạng trực tuyến đòi hỏi phải nhanh và ngay lập tức, trong khi với hệ thống ngoại tuyến có thể thực thi với thời gian ràng buộc tương đối thoải mái. Trong luận văn này, chúng tôi sẽ chỉ thảo luận và tập trung vào phương pháp nhận dạng ngọai tuyến, vì nó phù hợp với phương hướng nghiên cứu cũng như mục đích cuối cùng của luận văn. 2 Giới thiệu 3 Về nguyên tắc, nhận dạng văn bản viết tay khác với nhận dạng đối tượng từ hình ảnh hay nhận dạng hành động từ video: • Đối với nhận dạng đối tượng: chỉ tập trung vào sự xuất hiện của đối tượng cần quan tâm trên một hình ảnh, chủ yếu khai thác thông tin không gian của chúng được thể hiện trên hình ảnh.

• Đối với nhận dạng hành động: cần biết một chuỗi dữ liệu tạm thời để ghi nhận lại sự thay đổi của hành động, có thể hiểu đó là một chuỗi các khung (frame) liên tục trong video về hành động của một đối tượng nào đó. • Cả hai đều không có bất kỳ cơ chế chỉnh sửa nào để hoàn thiện được kết quả cuối cùng. Mặt khác, đối với nhận dạng văn bản viết tay thì dữ liệu chúng ta có cả thông tin không gian và thông tin thời gian: • Hình dạng của các ký tự trên hình ảnh. • Trình tự sắp xếp của các kí tự, hay còn được gọi là chuỗi thông tin hay thông tin tuần tự (sequential information).

• Kết quả cuối cùng có thể được chỉnh sửa bằng các mô hình ngôn ngữ (language models) nếu cần (Hình 1.2: Nhận dạng chữ viết tay kết hợp mô hình ngôn ngữ Hơn nữa, theo thống kê cho thấy tiếng Việt có rất ít nghiên cứu về nhận dạng văn bản viết tay so với các ngôn ngữ Latinh khác, chẳng hạn như tiếng Anh hay tiếng Pháp. Vì vậy, với tư cách là sinh viên Việt Nam, chúng tôi mong muốn cống hiến công sức và kiến thức của mình để giải quyết bài toán liên quan đến ngôn ngữ mẹ đẻ là tiếng Việt.2 Phạm vi và mục tiêu nghiên cứu 1.1 Quy trình cơ bản của hệ thống trích xuất thông tin Trong một ứng dụng thực tế, bài toán nhận dạng chữ viết tay trong một biểu mẫu có bố cục cố định sẽ được thực hiện qua các bước như sau: 1. Phát hiện biểu mẫu và chuẩn hóa. Với giả định ảnh đầu vào là một biểu mẫu được chụp bằng các thiết bị di động, nên background của ảnh đầu vào sẽ chứa rất nhiều thứ không cần thiết, gây ảnh hưởng đến độ chính xác của bước nhận diện biểu mẫu và ảnh hưởng đến độ chính xác của toàn bộ bài toán.

Do đó, trước khi thực hiện phân tích bố cục và nhận diện văn bản thì ảnh đầu vào cần phải được làm sạch background và phải được chuẩn hóa. • Phát hiện biểu mẫu là quá trình sử dụng một số mô hình về phát hiện vật thể để nhận diện biểu mẫu. Kết quả đầu ra của quá trình này sẽ là tọa độ của hình chữ nhật vừa đủ bao lấy toàn bộ biểu mẫu. • Chuẩn hóa là sau quá trình phát hiện biểu mẫu, ảnh đầu vào đã được bỏ bớt một số vùng background không cần thiết, hệ thống sẽ thực hiện quá trình chuẩn hóa dựa trên ảnh này.

Cụ thể, quá trình chuẩn hóa sẽ tiến hành phát hiện các cạnh và tìm các giao điểm của các cạnh; từ đó phát hiện được bốn góc của biểu mẫu, kết hợp thêm các phép chiếu để căn chỉnh lại biểu mẫu thành một ảnh có bốn góc vuông. Phát hiện và phân loại vùng văn bản. Bước này có nhiệm vụ phát hiện vị trí và phân loại các vùng văn bản trong biểu mẫu, sau đó các vùng chữ viết tay (textline) sẽ được đưa vào hệ thống nhận diện ký tự quang học. Nhận dạng ký tự quang học.

Quá trình nhận dạng ký tự quang học (Optical Character Recognition - OCR) sẽ nhận vào một hình ảnh có chứa dòng chữ viết tay tiếng Việt, sau đó sẽ nhận dạng các ký tự bên trong ảnh đầu vào bằng việc chuyển từ ảnh thành dạng text có thể chỉnh sửa được trên các thiết bị công nghệ. Qua quá trình nhận dạng ký tự quang học, chúng ta sẽ nhận được đầu ra là các chuỗi ký tự có nghĩa, kết hợp thêm hậu xử lý (post-processing) và các kỹ thuật xử lý ngôn ngữ tự nhiên, hệ thống có thể rút trích những thông tin cần thiết từ ảnh đầu vào. Tuy nhiên với thời gian cho phép cũng như mục đích ban đầu của luận văn, chúng tôi chỉ tập trung vào module nhận dạng ký tự quang học, cụ thể hơn là bài toán nhận dạng chữ viết tay tiếng Việt bằng các mô hình học sâu đồng thời kết hợp với một số phương pháp hậu xử lý để cho ra kết quả cuối cùng. Điều này có nghĩa rằng, nhiệm vụ ở đây chỉ chuyển chữ viết tay trên hình ảnh thành text sau khi đã có ảnh của 4 Giới thiệu 5 vùng chữ viết tay, đối với module nhận diện vùng chữ viết tay sẽ được thực hiện trong tương lai và không thể hiện trong luận văn này.

Trong luận văn này, chúng tôi tiếp cận bài toán nhận dạng chữ viết tay đi từ mức độ từ đến mức độ dòng. Mục tiêu cuối cùng mà chúng tôi muốn hướng đến đó là tìm ra phương pháp phù hợp để giải quyết bài toán “Nhận dạng chữ viết tay tiếng Việt trong các biểu mẫu có bố cục cố định”, cụ thể hơn là nhận dạng được chữ viết tay trong biểu mẫu phiếu gửi của Viettel post.2 Nhận dạng chữ viết tay Tại đây chúng tôi sẽ trình bài sơ lược về nhận dạng chữ viết tay ở mức độ từ và mức độ dòng, cùng các giai đoạn nhận dạng chữ viết tay. Nhận dạng chữ viết tay ở mức độ từ: Một từ là một chuỗi các kí tự không chứa khoảng trắng. Giả sử rằng hình ảnh của từ đã được trích xuất ra từ các module trước (những module không được xem xét trong luận văn này), ví dụ như module phát hiện biểu mẫu hay module phát hiện dòng chữ viết tay.3 minh họa việc tách các từ trên cùng một dòng chữ thành các từ riêng biệt để tiến hành nhận dạng chữ viết ở mức độ từ.3: Minh họa nhận dạng ở mức độ từ Nhận dạng chữ viết tay ở mức độ dòng: Dòng là một chuỗi các ký tự tạo thành các từ và ngăn cách nhau bởi các khoảng trắng.

Tương tự như từ, hình ảnh của dòng chữ viết tay giả sử đã được cắt ra từ các modules trước.4 minh họa việc nhận dạng chữ viết ở mức độ dòng. 5 Giới thiệu 6 Hình 1.4: Minh họa nhận dạng ở mức độ dòng Bài toán của chúng ta gồm có hai giai đoạn đó là “giai đoạn ngoại tuyến” (offline phase) bao gồm việc huấn luyện, đánh giá mô hình và “giai đoạn trực tuyến” (online phase) chạy trên dữ liệu thực tế. • Đối với giai đoạn ngoại tuyến: – Đầu vào: Một cặp gồm ảnh chữ viết tay và text chứa từ hay dòng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn tốt nghiệp mang tiêu đề Luận Văn Tốt Nghiệp Về Mô Hình Nhận Dạng Chữ Viết Tay Trong Các Biểu Mẫu Cố Định của tác giả Nguyễn Thị Trúc Ly, dưới sự hướng dẫn của các giảng viên tại Đại học Bách Khoa - Đại học Quốc gia TP. HCM, tập trung vào việc xây dựng mô hình nhận dạng chữ viết tay. Nghiên cứu này không chỉ có ý nghĩa trong lĩnh vực khoa học máy tính mà còn mở ra nhiều ứng dụng thực tiễn trong việc tự động hóa quá trình xử lý văn bản, từ đó cải thiện hiệu quả công việc và giảm thiểu sai sót do con người gây ra.

Để tìm hiểu thêm về các công nghệ và ứng dụng trong lĩnh vực nhận dạng và xử lý dữ liệu, bạn có thể tham khảo thêm bài viết Ứng Dụng Thuật Toán Nhận Dạng Trong Điểm Danh Học Sinh, nơi nghiên cứu ứng dụng thuật toán nhận dạng trong việc điểm danh học sinh, hay Vận Dụng Thuật Toán Nhận Dạng Ảnh Để Điểm Danh Học Sinh Trong Lớp Học, một nghiên cứu tương tự về việc áp dụng công nghệ nhận dạng ảnh trong giáo dục. Những bài viết này không chỉ cung cấp thêm thông tin về các ứng dụng cụ thể của công nghệ nhận dạng mà còn mở rộng góc nhìn của bạn về khả năng của khoa học máy tính trong việc cải thiện quy trình học tập và giảng dạy.

#Phân tích dữ liệu

#trí tuệ nhân tạo

#nhận dạng chữ viết tay

#xử lý ảnh

#thuật toán nhận dạng

#mô hình học máy

Chủ đề

Công nghệ nhận dạng chữ viết tay

Ứng dụng của trí tuệ nhân tạo trong nhận dạng văn bản

Phát triển mô hình học máy cho nhận dạng chữ viết

Xu hướng nghiên cứu trong lĩnh vực xử lý ảnh