I. Tổng Quan Về Thuật Toán Nhận Dạng Chữ Viết Tay Hiện Nay
Bài toán nhận dạng đã xuất hiện từ lâu và thu hút nhiều sự quan tâm. Quá trình tin học hóa thúc đẩy ứng dụng nhận dạng vào thực tế, tập trung vào nhận dạng mẫu, tiếng nói và chữ. Nhận dạng chữ được quan tâm đặc biệt và đạt nhiều thành tựu. Ứng dụng thực tế bao gồm sao lưu sách báo, phân loại thư, thanh toán ngân hàng và lập thư viện cho người mù. Nghiên cứu về vấn đề này là rất cần thiết. Đề tài nhận dạng ký tự viết tay được chọn với mong muốn áp dụng vào bài toán thực tế. Bài toán cần giải quyết các yêu cầu: Nhận dạng ký tự từ ảnh đầu vào, trích chọn đặc trưng của ảnh, tiến hành nhận dạng với thuật toán Markov ẩn. "Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút được nhiều sự quan tâm, nghiên cứu." (Trích dẫn từ tài liệu gốc).
1.1. Lịch Sử Phát Triển Của Nhận Dạng Chữ Viết Tay OCR
Nhận dạng chữ được biết đến từ năm 1900. Sản phẩm thương mại có từ những năm 1950. Mô hình nhận dạng chữ viết được đề xuất từ năm 1951. Năm 1954, máy nhận dạng chữ đầu tiên được phát triển. Công ty IBM thương mại hóa hệ thống nhận dạng chữ năm 1967. Giai đoạn 2 (1980-1990) chứng kiến sự phát triển của phần cứng và phương pháp luận nhận dạng. Giai đoạn 3 (từ 1990 đến nay) chú trọng hệ thống nhận dạng thời gian thực và kết hợp kỹ thuật học máy như mạng nơ-ron, mô hình Markov ẩn, SVM và xử lý ngôn ngữ tự nhiên.
1.2. Tình Hình Nghiên Cứu Nhận Dạng Chữ Viết Tay Tại Việt Nam
Nhận dạng chữ viết tay được chia thành trực tuyến (online) và ngoại tuyến (offline). Tại Việt Nam, năm 2010, nhóm nghiên cứu Huỳnh Hữu Lộc đã đạt tiến bộ trong nhận dạng ký tự viết tay dựa trên thông tin tĩnh, đạt độ chính xác khoảng 95%. Tuy nhiên, sản phẩm chưa nhận dạng được chữ viết tay tiếng Việt. Nhận dạng chữ viết tay tiếng Việt hiện là hướng nghiên cứu được quan tâm và cần hoàn thiện.
II. Thách Thức Giải Pháp Trong Nhận Dạng Chữ Viết Tay OCR
Nhận dạng chữ in đã được giải quyết gần như trọn vẹn, nhưng nhận dạng chữ viết tay vẫn là thách thức lớn. Vấn đề này phụ thuộc vào người viết và sự biến đổi đa dạng trong cách viết. Nhận dạng chữ viết tay thường bao gồm năm giai đoạn: tiền xử lý, tách chữ, trích chọn đặc trưng, huấn luyện và nhận dạng, hậu xử lý. Giai đoạn trích chọn đặc điểm đóng vai trò quan trọng nhất. Các phương pháp điển hình bao gồm so trùng mẫu, dùng thống kê, mạng nơ-ron, mô hình markov ẩn, trí tuệ nhân tạo hoặc kết hợp các phương pháp trên. "Bài toàn này chưa thể giải quyết trọn vẹn được vì nó hoàn toàn phụ thuộc vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái sức khỏe, tinh thần của từng người viết." (Trích dẫn từ tài liệu gốc).
2.1. Các Giai Đoạn Chính Trong Quy Trình Nhận Dạng Chữ Viết Tay
Quy trình nhận dạng chữ viết tay bao gồm tiền xử lý (giảm nhiễu, chuẩn hóa), tách chữ (chia nhỏ văn bản), trích chọn đặc trưng (biểu diễn thông tin chữ viết), huấn luyện và nhận dạng (so trùng mẫu, thống kê, mạng nơ-ron), hậu xử lý (sử dụng thông tin ngữ cảnh). Quá trình bao gồm huấn luyện máy học và quá trình nhận dạng thực tế. Ảnh được chuyển về dạng nhị phân, cắt xén, làm mỏng để rút trích đặc điểm. Mô hình markov ẩn (Hidden Markov Model) có thể giải quyết vấn đề này.
2.2. Tiền Xử Lý Ảnh Chữ Viết Tay Bước Quan Trọng Đầu Tiên
Đầu vào là ảnh gốc thu được qua scanner. Ảnh ban đầu thường có chất lượng thấp do nhiễu, bị nghiêng, đứt nét. Cần tiền xử lý ảnh để nâng cao chất lượng, bao gồm khôi phục ảnh (lọc, khử nhiễu, quay ảnh) và tăng cường ảnh (lọc độ tương phản, làm trơn, nhị phân hóa). Giai đoạn tiền xử lý ảnh hưởng trực tiếp đến độ chính xác của quá trình nhận dạng, nhưng cũng làm tăng thời gian. Các thủ tục bao gồm chuyển xám, phân ngưỡng, lọc nhiễu, căn chỉnh độ lệch trang, làm trơn ảnh.
III. Phương Pháp Nhận Dạng Chữ Viết Tay Bằng Mô Hình Markov Ẩn
Mô hình Markov ẩn (HMM) được giới thiệu vào cuối những năm 1960 và có ứng dụng rộng rãi trong nhận dạng giọng nói, tính toán sinh học và xử lý ngôn ngữ tự nhiên. HMM là mô hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước. "Mô hình Markov ẩn (Hiden Markov Model - HMM) được giới thiệu vào cuối những năm 1960. Cho đến hiện nay nó có một ứng dụng khá rộng như trong nhận dạng giọng nói, tính toán sinh học (Computational Biology), và xử lý ngôn ngữ tự nhiên…" (Trích dẫn từ tài liệu gốc).
3.1. Cơ Sở Lý Thuyết Về Mô Hình Markov Ẩn Hidden Markov Model
HMM thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên các biểu hiện đầu ra có thể. Nhìn vào dãy các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái. Ta có thể tìm ra chuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cách tính. Một số hạn chế của mô hình Markov để tính được xác suất P(Y,X) thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X.
3.2. Ưu Điểm Và Hạn Chế Của Mô Hình Markov Ẩn Trong OCR
Để giải quyết các vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: Dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó. Hạn chế thứ hai gặp phải là việc sử dụng xác suất đồng thời P(Y, X) đôi khi không chính xác vì với một số bài toán thì việc sử dụng xác suất điều kiện P(Y | X) cho kết quả tốt hơn rất nhiều.
IV. Ứng Dụng Mạng Neural Trong Nhận Dạng Chữ Viết Tay Nâng Cao
Mạng Neural là phương pháp được sử dụng trong đồ án. Quá trình huấn luyện là quá trình học các tập mẫu để điều chỉnh trọng số liên kết. Giải thuật huấn luyện thường được dùng nhất là giải thuật lan truyền ngược sai số Back Progration. Đồ án sử mạng neural gồm 60 đầu vào được lấy bằng các ký tự đã được tách biên thành chuỗi Fourier gồm 6 thành phần liên thông và 10 giá trị đối với mỗi thành phần, sử dụng hàm Sigmoid làm hàm ngưỡng. "Quá trình huấn luyện là quá trình học các tập mẫu để điều chỉnh trọng số liên kết. Giải thuật huấn luyện thường được dùng nhất là giải thuật lan truyền ngược sai số Back Progration." (Trích dẫn từ tài liệu gốc).
4.1. Cấu Trúc Và Nguyên Lý Hoạt Động Của Mạng Neural Trong OCR
So với hai phương pháp còn lại, phương pháp sử dụng mạng Neural được lựa chọn là do những ưu điểm sau đây: Tính phi tuyến, mô hình tổng quát cho ánh xạ từ tập vào đến tập ra, có thể yêu cầu sự tiến hóa nhanh của hàm mục tiêu, chấp nhận lỗi ở các ví dụ học, thích ứng với nhiễu dữ liệu.
4.2. Ưu Điểm Của Mạng Neural So Với Các Phương Pháp Khác
Mạng Neural có nhiều ưu điểm như tính phi tuyến, khả năng mô hình hóa tổng quát, khả năng thích ứng với nhiễu và chấp nhận lỗi. Điều này làm cho nó trở thành một lựa chọn tốt cho bài toán nhận dạng chữ viết tay, nơi mà sự biến đổi và nhiễu là rất phổ biến.
V. Ứng Dụng Thực Tế Của Nhận Dạng Chữ Viết Tay Trong Đời Sống
Đồ án “Nghiên cứu phương pháp nhận dạng chữ viết tay và cài đặt chương trình thử nghiệm” được thực hiện với mục đích giải quyết một lớp con các bài toàn nhận dạng chữ viết tay, tập trung vào bước nhận dạng ký tự tiếng Việt đơn lẻ do đây là bước mà mọi hệ nhận dạng chữ viết tiếng Việt cần phải có. Từ đó tạo cơ sở để tiếp theo có thể xây dựng và phát triển một sản phẩm nhận dạng chữ viết tay hoàn chỉnh trên các thiết bị di động, áp dụng vào việc hỗ trợ việc học tập và sinh hoạt của người khiếm thị. "Đồ án “Nghiên cứu phương pháp nhận dạng chữ viết tay và cài đặt chương trình thử nghiệm” được thực hiện với mục đích giải quyết một lớp con các bài toàn nhận dạng chữ viết tay..." (Trích dẫn từ tài liệu gốc).
5.1. Ứng Dụng Trong Giáo Dục Và Hỗ Trợ Người Khiếm Thị
Ứng dụng nhận dạng chữ viết tay có thể hỗ trợ người khiếm thị trong việc tiếp cận thông tin và học tập. Bằng cách chuyển đổi chữ viết tay thành văn bản số, người khiếm thị có thể dễ dàng đọc và chỉnh sửa tài liệu.
5.2. Ứng Dụng Trong Xử Lý Văn Bản Và Nhập Liệu Tự Động
Nhận dạng chữ viết tay có thể được sử dụng để tự động hóa quá trình nhập liệu và xử lý văn bản, giúp tiết kiệm thời gian và công sức. Ví dụ, có thể sử dụng để chuyển đổi các biểu mẫu viết tay thành dữ liệu số.
VI. Kết Luận Hướng Phát Triển Thuật Toán Nhận Dạng Chữ Viết Tay
Đồ án sẽ tập trung vào phân tích 3 thành phần chính của một hệ nhận dạng: Tiền xử lý, trích chọn đặc trưng và huấn luyện bằng mô hình markov ẩn. Từ đó cài đặt chương trình mô phỏng trên PC bằng ngôn ngữ C#. Cần có những nghiên cứu sâu hơn về các phương pháp trích chọn đặc trưng hiệu quả hơn và các mô hình học sâu tiên tiến để nâng cao độ chính xác và khả năng ứng dụng của hệ thống nhận dạng chữ viết tay.
6.1. Tổng Kết Các Phương Pháp Đã Nghiên Cứu Và Triển Vọng
Các phương pháp nhận dạng chữ viết tay đã trải qua nhiều giai đoạn phát triển, từ các phương pháp truyền thống đến các phương pháp dựa trên học máy và học sâu. Triển vọng trong tương lai là sự kết hợp giữa các phương pháp này để tạo ra các hệ thống nhận dạng mạnh mẽ và linh hoạt hơn.
6.2. Đề Xuất Hướng Nghiên Cứu Tiếp Theo Để Nâng Cao Độ Chính Xác
Để nâng cao độ chính xác của hệ thống nhận dạng chữ viết tay, cần tập trung vào việc nghiên cứu các phương pháp trích chọn đặc trưng mới, sử dụng các mô hình học sâu tiên tiến và kết hợp thông tin ngữ cảnh để giảm thiểu sai sót.