Xác Định Font Chữ Ký Tự Sử Dụng Mô Hình Mạng CNN

Chuyên khảo phân tích Xác định font chữ của ký tự sử dụng mô hình mạng cnn, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Lạc Hồng

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lý do chọn đề tài

1.2. Mục tiêu đề tài

1.2.1. Mục tiêu tổng quát

1.2.2. Mục tiêu cụ thể

1.3. Nội dung nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Đóng góp đề tài

1.6. Cấu trúc của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Các nghiên cứu trong nước liên quan

2.2. Các nghiên cứu ngoài nước liên quan

2.3. Tổng quan bài toán phân lớp ảnh

2.3.1. Phân loại nhị phân

2.3.2. Phân loại đa lớp

2.3.3. Phân loại không cân bằng

2.4. Các thuật toán phân lớp máy học

2.4.1. K láng giềng gần nhất (k-Nearest-Neighbours k–NN)

2.4.2. Máy véc-tơ hỗ trợ (Support vector machines) (SVM)

2.4.3. Hồi quy luận lý (Logistic regression)

2.4.4. Mạng nơ-ron nhân tạo

2.4.5. Mạng nơ-ron tích chập

2.4.5.1. Khái niệm về mạng nơ ron tích chập

2.4.5.2. Mô hình mạng nơ ron tích chập

2.4.5.3. Xây dựng mạng nơ ron tích chập

2.4.5.3.1. Mạng được kết nối cục bộ

2.4.5.3.2. Chia sẻ tham số

2.4.5.3.3. Hàm kích hoạt

2.4.5.4. Tầng được kết nối đầy đủ

2.4.5.5. Các kiến trúc mạng tích chập phổ biến

3. CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

3.1. Xây dựng bộ dữ liệu LHFonts

3.2. Phương pháp thử nghiệm

3.2.1. Phân đoạn ký tự trong ảnh văn bản

3.2.2. Trích xuất đặc trưng sử dụng mạng CNN và kỹ thuật học chuyển tiếp (transfer learning)

3.2.3. Phương pháp nhận diện kiểu font dựa trên đặc trưng

3.2.3.1. Độ đo Precision và Recall

3.2.3.2. Độ đo trung bình điều hòa F1

3.2.4. Ứng dụng thực tiễn

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Cấu hình cài đặt

4.2. Kết quả chính

4.3. Nghiên cứu hiệu suất nhận diện font của các ký tự không nằm trong tập huấn luyện

4.4. Kết quả định tính

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Xác Định Font Chữ Ký Tự Bằng Mô Hình CNN

Trong thời đại công nghệ thông tin hiện nay, việc xác định font chữ của ký tự trở thành một vấn đề quan trọng. Mô hình mạng nơ-ron tích chập (CNN) đã được áp dụng để giải quyết bài toán này. Việc nhận diện font chữ không chỉ giúp chuẩn hóa tài liệu mà còn hỗ trợ trong việc xử lý văn bản tự động. Nghiên cứu này sẽ trình bày tổng quan về các phương pháp hiện có và ứng dụng của chúng trong việc xác định font chữ.

1.1. Khái Niệm Về Mạng Nơ Ron Tích Chập CNN

Mạng nơ-ron tích chập (CNN) là một trong những công nghệ tiên tiến trong lĩnh vực học sâu (Deep Learning). CNN được thiết kế để xử lý dữ liệu có cấu trúc dạng lưới, như hình ảnh. Các lớp tích chập trong CNN giúp trích xuất đặc trưng từ hình ảnh, từ đó hỗ trợ cho việc phân loại font chữ.

1.2. Tầm Quan Trọng Của Việc Nhận Diện Font Chữ

Việc nhận diện font chữ có ý nghĩa quan trọng trong nhiều lĩnh vực, từ xử lý văn bản đến nhận diện ký tự quang học (OCR). Nó giúp cải thiện khả năng truy xuất thông tin và đảm bảo tính nhất quán trong tài liệu. Hệ thống tự động nhận diện font chữ sẽ tiết kiệm thời gian và công sức cho người dùng.

II. Thách Thức Trong Việc Xác Định Font Chữ Ký Tự

Mặc dù công nghệ đã phát triển, nhưng việc xác định font chữ vẫn gặp nhiều thách thức. Các loại font chữ đa dạng và sự biến đổi trong cách viết có thể gây khó khăn cho các mô hình học máy. Bài viết này sẽ phân tích những thách thức chính trong việc nhận diện font chữ và cách mà mô hình CNN có thể giải quyết chúng.

2.1. Độ Phức Tạp Của Các Loại Font Chữ

Các loại font chữ khác nhau có thể có hình dạng và kích thước khác nhau, điều này làm cho việc phân loại trở nên khó khăn. Mô hình cần phải được huấn luyện trên một bộ dữ liệu đa dạng để có thể nhận diện chính xác.

2.2. Ảnh Hưởng Của Chất Lượng Hình Ảnh

Chất lượng hình ảnh đầu vào có thể ảnh hưởng lớn đến khả năng nhận diện của mô hình. Hình ảnh mờ, bị méo hoặc có nhiễu có thể dẫn đến sai sót trong việc xác định font chữ.

III. Phương Pháp Huấn Luyện Mô Hình CNN Để Nhận Diện Font Chữ

Để giải quyết vấn đề xác định font chữ, một phương pháp huấn luyện mô hình CNN hiệu quả là cần thiết. Bài viết này sẽ trình bày các bước chính trong quá trình huấn luyện mô hình, từ việc chuẩn bị dữ liệu đến việc tối ưu hóa mô hình.

3.1. Chuẩn Bị Dữ Liệu Huấn Luyện

Việc xây dựng bộ dữ liệu huấn luyện là bước quan trọng đầu tiên. Bộ dữ liệu cần phải bao gồm nhiều loại font chữ khác nhau và được gán nhãn chính xác để mô hình có thể học được các đặc trưng cần thiết.

3.2. Tối Ưu Hóa Mô Hình CNN

Tối ưu hóa mô hình CNN bao gồm việc điều chỉnh các tham số như số lượng lớp, kích thước kernel và tỷ lệ học. Việc này giúp cải thiện độ chính xác của mô hình trong việc nhận diện font chữ.

IV. Ứng Dụng Thực Tiễn Của Mô Hình Nhận Diện Font Chữ

Mô hình nhận diện font chữ bằng CNN có nhiều ứng dụng thực tiễn trong đời sống. Từ việc tự động hóa quy trình xử lý văn bản đến hỗ trợ trong các hệ thống OCR, mô hình này có thể mang lại nhiều lợi ích cho người dùng.

4.1. Tự Động Hóa Quy Trình Xử Lý Văn Bản

Hệ thống nhận diện font chữ có thể tự động hóa quy trình xử lý văn bản, giúp tiết kiệm thời gian và công sức cho người dùng. Điều này đặc biệt hữu ích trong các tổ chức cần xử lý lượng lớn tài liệu.

4.2. Hỗ Trợ Trong Các Hệ Thống OCR

Mô hình CNN có thể được tích hợp vào các hệ thống nhận diện ký tự quang học (OCR) để cải thiện độ chính xác trong việc nhận diện văn bản từ hình ảnh. Điều này giúp nâng cao hiệu quả trong việc trích xuất thông tin từ tài liệu số.

V. Kết Luận Và Hướng Phát Triển Trong Tương Lai

Nghiên cứu về xác định font chữ bằng mô hình CNN đã chỉ ra nhiều tiềm năng trong việc ứng dụng công nghệ học sâu vào thực tiễn. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết. Bài viết này sẽ tóm tắt những kết quả đạt được và đề xuất hướng phát triển trong tương lai.

5.1. Tóm Tắt Kết Quả Nghiên Cứu

Kết quả nghiên cứu cho thấy mô hình CNN có khả năng nhận diện font chữ với độ chính xác cao. Các thí nghiệm đã chứng minh tính hiệu quả của phương pháp này trong việc xử lý văn bản.

5.2. Đề Xuất Hướng Phát Triển

Trong tương lai, cần tiếp tục nghiên cứu để cải thiện độ chính xác của mô hình. Việc mở rộng bộ dữ liệu và áp dụng các kỹ thuật học sâu mới sẽ là những hướng đi tiềm năng cho nghiên cứu tiếp theo.

09/07/2025

Bạn đang xem trước tài liệu:

Xác định font chữ của ký tự sử dụng mô hình mạng cnn

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghiệp 4.0, lượng tài liệu văn bản số ngày càng gia tăng mạnh mẽ, đòi hỏi việc chuẩn hóa định dạng font chữ trở nên cấp thiết để đảm bảo tính nhất quán và dễ dàng tra cứu thông tin. Tại Việt Nam, theo Nghị định 30/2020/NĐ-CP có hiệu lực từ ngày 05/3/2020, các văn bản hành chính bắt buộc phải sử dụng font chữ Time New Roman và bộ mã ký tự Unicode theo tiêu chuẩn TCVN 6909:2001. Tuy nhiên, thực tế cho thấy nhiều văn bản số bị lẫn lộn font chữ do sao chép, dán từ nhiều nguồn hoặc do nhiều người cùng soạn thảo mà chưa chuẩn hóa. Việc chỉnh sửa thủ công các văn bản này rất tốn thời gian và công sức, đồng thời còn tiềm ẩn nguy cơ sai sót và dấu hiệu đạo văn.

Luận văn tập trung nghiên cứu phát triển một hệ thống tự động nhận diện font chữ của ký tự trong ảnh văn bản sử dụng mô hình mạng nơ-ron tích chập (CNN). Mục tiêu chính là xây dựng khung phương pháp phát hiện và phân loại các loại font chữ phổ biến, từ đó hỗ trợ tự động kiểm tra và chuẩn hóa định dạng font chữ trong tài liệu số hóa. Phạm vi nghiên cứu tập trung trên ảnh văn bản tiếng Việt với 5 loại font chữ phổ biến gồm Arial, Calibri-light, Time New Romans, Georgia và Verdana, với bộ dữ liệu khoảng 500 ảnh tài liệu. Nghiên cứu có ý nghĩa lớn trong việc nâng cao hiệu quả xử lý văn bản hành chính, tiết kiệm thời gian kiểm tra và tăng độ chính xác trong chuẩn hóa định dạng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Xử lý ảnh (Image Processing): Các kỹ thuật tiền xử lý ảnh như chuyển đổi ảnh màu sang ảnh xám, phân đoạn ký tự bằng thuật toán Otsu và tìm đường viền (contours) để tách ký tự trong ảnh văn bản.
Mạng nơ-ron nhân tạo (Artificial Neural Network): Mô hình mạng nơ-ron truyền thống với các đơn vị xử lý (neurons), trọng số kết nối và hàm kích hoạt.
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Mạng CNN với các tầng tích chập, gộp (pooling) và kết nối đầy đủ (fully connected), tận dụng kết nối cục bộ và chia sẻ tham số để giảm số lượng tham số, tăng tốc độ xử lý và nâng cao hiệu quả trích xuất đặc trưng.
Các thuật toán phân lớp máy học: Logistic Regression, Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Decision Tree và các thuật toán ensemble để phân loại font chữ dựa trên đặc trưng trích xuất từ CNN.
Kỹ thuật học chuyển tiếp (Transfer Learning): Sử dụng các bộ trọng số đã huấn luyện trên bộ dữ liệu ImageNet để tăng hiệu quả trích xuất đặc trưng và giảm thời gian huấn luyện.

Các khái niệm chính bao gồm: phân đoạn ký tự, trích xuất đặc trưng, học đặc trưng sâu, phân loại đa lớp, độ đo Precision, Recall và F1-score.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu LHFonts gồm khoảng 544 ảnh văn bản tiếng Việt được tạo ra từ các trang tin điện tử phổ biến, chuyển đổi sang 5 loại font chữ chính: Arial (108 ảnh), Calibri-light (106 ảnh), Time New Romans (101 ảnh), Georgia (108 ảnh) và Verdana (121 ảnh).
Phương pháp phân đoạn ký tự: Sử dụng thư viện OpenCV với quy trình gồm chuyển ảnh RGB sang ảnh xám, áp dụng thuật toán Otsu để tạo mặt nạ phân tách ký tự và nền, tìm contours để xác định vị trí ký tự, lọc các ký tự có diện tích hộp bao lớn hơn 10 pixel.
Phương pháp trích xuất đặc trưng: Áp dụng các kiến trúc mạng CNN phổ biến như VGG16, ResNet50, MobileNet và EfficientNet, sử dụng học chuyển tiếp từ bộ trọng số ImageNet để trích xuất đặc trưng vector 1 chiều biểu diễn ký tự.
Phương pháp phân loại font chữ: Thử nghiệm hai cách tiếp cận: (1) huấn luyện end-to-end mạng CNN để nhận diện font chữ trực tiếp; (2) sử dụng đặc trưng trích xuất từ CNN làm đầu vào cho các bộ phân loại máy học như Logistic Regression, SVM, KNN, Decision Tree.
Đánh giá mô hình: Sử dụng các chỉ số Precision, Recall, F1-score và Accuracy trung bình trên các lớp font chữ để đánh giá hiệu quả nhận diện.
Timeline nghiên cứu: Từ khảo sát lý thuyết, xây dựng bộ dữ liệu, phát triển mô hình, đến thử nghiệm và đánh giá kết quả trong năm 2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân đoạn ký tự: Phương pháp phân đoạn ký tự sử dụng thuật toán Otsu và tìm contours cho kết quả chính xác, giúp tách được các ký tự trong ảnh văn bản với độ chính xác cao, tạo điều kiện thuận lợi cho bước trích xuất đặc trưng.
Hiệu suất nhận diện font chữ: Mô hình CNN end-to-end đạt độ chính xác trung bình trên 90% trong việc phân loại 5 loại font chữ. Cụ thể, mạng ResNet50 và VGG16 cho kết quả F1-score lần lượt khoảng 92% và 90%, trong khi MobileNet và EfficientNet đạt khoảng 88-89%.
So sánh các bộ phân loại máy học: Khi sử dụng đặc trưng trích xuất từ CNN kết hợp với các bộ phân loại máy học, Logistic Regression và SVM cho kết quả tốt nhất với độ chính xác trên 85%, trong khi KNN và Decision Tree thấp hơn khoảng 80%.
Ảnh hưởng của học chuyển tiếp: Việc sử dụng trọng số học chuyển tiếp từ ImageNet giúp tăng hiệu quả trích xuất đặc trưng, giảm thời gian huấn luyện và cải thiện độ chính xác nhận diện font chữ khoảng 5-7% so với huấn luyện từ đầu.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao đến từ việc áp dụng mạng CNN với khả năng học đặc trưng sâu, giúp mô hình nhận diện được các mẫu hình thái đặc trưng riêng biệt của từng font chữ. Việc sử dụng học chuyển tiếp tận dụng kiến thức đã học từ bộ dữ liệu lớn ImageNet giúp mô hình nhanh chóng thích nghi với bài toán nhận diện font chữ tiếng Việt, vốn có đặc thù riêng về cấu trúc ký tự.

So với các nghiên cứu trước đây chỉ đạt độ chính xác khoảng 80% với các thuật toán truyền thống như SVM hay KNN, kết quả của luận văn đã cải thiện đáng kể, thể hiện sự ưu việt của mạng CNN trong bài toán phân loại font chữ. Các ma trận lỗi (confusion matrix) minh họa rõ ràng sự phân biệt tốt giữa các font chữ phổ biến như Times New Roman và Arial, giúp phát hiện chính xác các ký tự sai font trong văn bản.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh độ chính xác của các mô hình CNN khác nhau và bảng so sánh các chỉ số Precision, Recall, F1-score của từng bộ phân loại máy học, giúp trực quan hóa hiệu quả từng phương pháp.

Đề xuất và khuyến nghị

Phát triển hệ thống tự động kiểm tra font chữ: Xây dựng phần mềm hoặc API tích hợp mô hình CNN để tự động phân tích và phát hiện lỗi font chữ trong tài liệu số hóa, giúp giảm thiểu thời gian và công sức kiểm tra thủ công. Mục tiêu đạt độ chính xác trên 90% trong vòng 6 tháng, do các đơn vị hành chính và doanh nghiệp thực hiện.
Mở rộng bộ dữ liệu và đa dạng font chữ: Thu thập thêm dữ liệu với nhiều loại font chữ và kích thước khác nhau, bao gồm cả font chữ viết tay hoặc font đặc thù để nâng cao khả năng nhận diện. Thời gian thực hiện trong 12 tháng, do nhóm nghiên cứu và cộng đồng đóng góp.
Tối ưu hóa mô hình CNN cho thiết bị di động: Áp dụng kiến trúc mạng nhẹ như MobileNet hoặc EfficientNet để triển khai trên các thiết bị di động hoặc hệ thống nhúng, phục vụ kiểm tra font chữ trong môi trường thực tế. Mục tiêu giảm thời gian xử lý xuống dưới 1 giây trên thiết bị phổ thông, hoàn thành trong 9 tháng.
Phát triển giao diện người dùng thân thiện: Thiết kế giao diện trực quan cho người dùng cuối, cho phép tải lên tài liệu, xem kết quả phân tích và chỉnh sửa lỗi font chữ nhanh chóng. Thời gian phát triển dự kiến 6 tháng, do nhóm phát triển phần mềm đảm nhận.

Đối tượng nên tham khảo luận văn

Cán bộ văn phòng hành chính: Giúp tự động kiểm tra và chuẩn hóa font chữ trong các văn bản hành chính, tiết kiệm thời gian rà soát và nâng cao chất lượng tài liệu.
Nhà phát triển phần mềm và AI: Cung cấp cơ sở lý thuyết và phương pháp thực nghiệm để phát triển các ứng dụng nhận diện font chữ, xử lý ảnh văn bản và các hệ thống trí tuệ nhân tạo liên quan.
Giảng viên và sinh viên ngành Công nghệ Thông tin: Là tài liệu tham khảo về ứng dụng mạng CNN trong xử lý ảnh và phân loại đa lớp, đồng thời cung cấp ví dụ thực tiễn về xây dựng bộ dữ liệu và đánh giá mô hình.
Doanh nghiệp cung cấp dịch vụ số hóa tài liệu: Hỗ trợ phát triển các giải pháp tự động kiểm tra và chuẩn hóa tài liệu số hóa, nâng cao hiệu quả và độ chính xác trong quy trình xử lý tài liệu.

Câu hỏi thường gặp

Mạng CNN có ưu điểm gì trong nhận diện font chữ so với các thuật toán truyền thống?
Mạng CNN có khả năng học đặc trưng sâu và tự động trích xuất các mẫu hình thái phức tạp của ký tự, giúp phân biệt chính xác các font chữ khác nhau, trong khi các thuật toán truyền thống như SVM hay KNN phụ thuộc nhiều vào đặc trưng thủ công và thường có độ chính xác thấp hơn.
Bộ dữ liệu LHFonts được xây dựng như thế nào?
Bộ dữ liệu gồm khoảng 544 ảnh văn bản tiếng Việt được tạo từ các trang tin điện tử phổ biến, chuyển đổi sang 5 loại font chữ chính. Mỗi font có từ 100 đến 121 ảnh, đảm bảo đa dạng về kích thước và kiểu chữ để huấn luyện và đánh giá mô hình.
Học chuyển tiếp (transfer learning) giúp gì cho bài toán này?
Học chuyển tiếp tận dụng các trọng số đã được huấn luyện trên bộ dữ liệu lớn ImageNet, giúp mô hình CNN nhanh chóng học được các đặc trưng chung của ảnh, từ đó cải thiện hiệu quả trích xuất đặc trưng font chữ và giảm thời gian huấn luyện.
Làm thế nào để phân đoạn ký tự trong ảnh văn bản?
Sử dụng kỹ thuật chuyển ảnh sang ảnh xám, áp dụng thuật toán Otsu để tạo mặt nạ phân tách ký tự và nền, sau đó tìm contours để xác định vị trí từng ký tự, lọc các ký tự có diện tích hộp bao lớn hơn 10 pixel để đảm bảo chính xác.
Ứng dụng thực tiễn của hệ thống nhận diện font chữ tự động là gì?
Hệ thống giúp tự động kiểm tra và phát hiện lỗi font chữ trong tài liệu số hóa, tiết kiệm thời gian và công sức cho cán bộ văn phòng, nâng cao độ chính xác trong chuẩn hóa văn bản hành chính, đồng thời hỗ trợ phát hiện dấu hiệu sao chép, đạo văn.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu LHFonts gồm 5 loại font chữ phổ biến với hơn 500 ảnh văn bản tiếng Việt, phục vụ nghiên cứu nhận diện font chữ.
Phương pháp phân đoạn ký tự sử dụng thuật toán Otsu và tìm contours cho kết quả chính xác, tạo tiền đề cho bước trích xuất đặc trưng.
Mạng CNN với học chuyển tiếp từ ImageNet đạt độ chính xác nhận diện font chữ trên 90%, vượt trội so với các phương pháp truyền thống.
Kết hợp đặc trưng CNN với các bộ phân loại máy học như Logistic Regression và SVM cũng cho hiệu quả cao, mở rộng khả năng ứng dụng.
Hướng phát triển tiếp theo là mở rộng bộ dữ liệu, tối ưu mô hình cho thiết bị di động và phát triển giao diện người dùng thân thiện để ứng dụng thực tiễn.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp có thể triển khai hệ thống nhận diện font chữ tự động vào quy trình xử lý văn bản số hóa, góp phần nâng cao hiệu quả và chất lượng công việc. Hãy bắt đầu áp dụng các giải pháp này để chuẩn hóa tài liệu và tối ưu hóa quy trình làm việc ngay hôm nay!

Trích đoạn nội dung tài liệu

Chương 1. TỔNG QUAN: thực hiện giới thiệu về lý do chọn đề tài, mục đích nghiên cứu và nói tổng quát về phương pháp thực hiện nghiên cứu của đề tài. CƠ SỞ LÝ THUYẾT: báo cáo toàn diện nội dung tìm hiểu về lý thuyết đề cập ở Nội dung 1, bên cạnh đó có kết quả khảo sát của một vài cách tiếp cận trước đây liên quan đến bài toán. PHƯƠNG PHÁP NGHIÊN CÚU: báo cáo toàn diện và phương pháp nghiên cứu: 1) cách xây dựng bộ dữ liệu, một số thống kê về dữ liệu; 2) phương pháp đề xuất cho bài toán.

THỰC NGHIỆM VÀ ĐÁNH GIÁ: báo cáo kết quả thực nghiệm và nhận định, thảo luận. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: kết luận những nội dung đã hoàn thành và điểm lại những gì đã đạt và chưa đạt được, bên cạnh đó đề xuất một số ý tưởng cho việc phát triển bài toán trong tương lai. 5 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT Trong Chương 2, luận văn trình bày các cơ sở lý thuyết làm tiền đề cho nghiên cứu. Cụ thể, một số nghiên cứu liên quan trong nước và ngoài nước sẽ được khảo sát.

Bên cạnh đó, chương này cũng trình bày tổng quan về máy học, các thuật toán máy học, mạng nơ-ron tích chập và các kiến trúc mạng học sâu.1 Các nghiên cứu trong nước liên quan Tại Việt Nam, chưa có nhiều nghiên cứu tập trung vào việc phát hiện loại font chữ. Thay vào đó, các nghiên cứu trong nước thường tập trung phát hiện các loại ký tự, kiểu số viết tay. Ở phần này, luận văn trình bày một số nghiên cứu có liên quan đến hệ thống nhận diện chữ số và chữ viết. Vào năm 2010, trong luận văn thạc sĩ, ThS.

Bùi Văn Bằng thực hiện xây dựng hệ thống nhận diện chữ cái viết tay có thể cài đặt trên các thiết bị tablet [18]. Cụ thể, tác giả đã đề xuất một mạng nơ-ron hiệu quả để thực hiện học các đặc trưng của chữ cái, sau đó xác định một véc-tơ đầu ra có số phần tử bằng số lượng chữ trong bảng chữ cái. Tác giả thực hiện tinh chỉnh, chọn ra các hàm kích hoạt, chiến lược tiền xử lý hiệu quả cho mạng nơ-ron đề xuất, và tự chuẩn bị dữ liệu để huấn luyện và kiểm định. Tương tự, mạng nơ-ron nhân tạo là một công cụ vô cùng hiệu quả để học đặc trưng của các chữ cái.

Trong các nghiên cứu liên quan đến nhận diện chữ Hán-nôm, các tác giả trong các công trình [19][20][21] cũng thực hiện xây dựng và tinh chỉnh một mạng nơ-ron hiệu quả để học đặc trưng kiểu chữ Hán và Nôm giúp phân lớp hiệu quả. Với nhóm tác giả Anh Duc Le, Hung Tuan Nguyen and Masaki Nakagawa. Năm 2018 đề xuất mô hình xây dựng mô hình cho bài toán nhận dạng chữ viết tay gồm ba thành phần [22]: mạng CNN để trích xuất các đặc trưng, mạng BILSTM để mã hóa các đặc trưng đã trích xuất (bộ mã hóa BILSTM) và mạng LSTM để tạo văn bản đầu ra (bộ giải mã LSTM). Năm 2019 nhóm giới thiệu mô hình nhận dạng chữ viết tay tiếng Việt ngoại tuyến không giới hạn [23].

Mô hình bao gồm hai phần: DenseNet để trích xuất các đặc trưng bất biến và mạng LSTM để tạo văn bản đầu ra (bộ giải mã LSTM), được kết nối từ mạng CNN là phần mở rộng của mô hình. Đầu vào của CNN là hình ảnh văn bản viết tay và mục tiêu của bộ giải mã LSTM là văn bản tương ứng của hình ảnh đầu vào. Năm 2020, Trương Quang Vinh và các cộng sự đã trình bày một kiến trúc CNN hiệu quả để nhận dạng ký tự viết tay của Việt Nam [24]. Mô hình CNN của nhóm tác giả được xây dựng với 3 lớp chập và 2 lớp được kết nối đầy đủ.

Kỹ thuật bỏ lớp được kết hợp với các lớp được kết nối hoàn chỉnh để ngăn hiện tượng quá khớp. Các thử nghiệm trên cơ sở dữ liệu chữ viết tay cho thấy rằng mô hình của nhóm 6 nghiên cứu có thể đạt được độ chính xác xấp xỉ 97% theo công bố của nhóm nghiên cứu.2 Các nghiên cứu ngoài nước liên quan Đối tượng ảnh tài liệu văn bản được cộng đồng khoa học trên thế giới nghiên cứu rất sôi nổi, đa số các cách tiếp cận để giải quyết bài toán thường là sử dụng các kỹ thuật liên quan đến xử lý ảnh truyền thống kết hợp học máy (machine learning) và học sâu (deep learning). Bertrand và cộng sự vào năm 2015 [2] đã thực hiện một bài toán tương tự: phát hiện giả mạo trong ảnh tài liệu. Các tác giả định nghĩa một văn bản được giả mạo có ba yếu tố gây nghi ngờ: 1) sao chép và dán; 2) các từ, âm tiết lặp lại nhiều lần; 3) cả hai yếu tố trên.

Ở yếu tố số 1, việc sao chép và dán sẽ gây ra việc khác biệt nhiều font chữ, do đó đầu tiên các tác giả sẽ phát hiện liệu có nhiều hơn một loại font xuất hiện trong ảnh hay không, nếu có thì văn bản sẽ được xem xét là có sự xuất hiện của sao chép và dán. Sau đó, văn bản sẽ được tiếp tục xác định liệu có hay không nếu có sự lặp lại nhiều lần về âm tiết, nếu có thì văn bản đó sẽ bị nghi ngờ là giả mạo. Mô hình phân lớp được các tác giả sử dụng để phân loại các kiểu font chữ là mô hình CRF. Bharath và cộng sự vào năm 2017 [3] thục hiện phân loại 05 loại font chữ: Times new roman, Calibri, Cambria, Bodoni MT, Arial.

Các tác giả chuẩn bị một tập dữ liệu bao gồm 05 chữ cái in hoa và in thường:: Aa, Bb, Cc, Dd, Ee. 02 bộ phân loại K- nearest neighbour và Support Vector Machine được sử dụng để đánh giá hiệu quả phân lớp. Độ chính xác cao nhất thu được là 80% sử dụng mô hình Suppor Vector Machine. Vijayakumar và cộng sự vào năm 2020 [4] thực hiện nhận diện font chữ trong ảnh văn bản, cụ thể là phát hiện liệu trong văn bản có font chữ nào khác ngoài 03 font chính: times news roman, Arial black và Algerian.

Để giải quyết bài toán, tác giả chuẩn bị một tập dữ liệu bao gồm 468 ảnh huấn luyện và 234 ảnh thử nghiệm. Bên cạnh đó, các tác giả đề xuất mô hình CapsNet, một kiến trúc nơ-ron học sâu để phân lớp các loại font chữ. Tác giả đã chứng minh rằng mô hình CapsNet hiệu quả hơn các mô hình máy học truyền thống như Naïve Bayes, K-Nearest Neighbour và Decision Tree, đạt độ chính xác 96.153% trên tập thử nghiệm.3 Tổng quan bài toán phân lớp ảnh Bài toán phân loại thuộc loại học giám sát (supervised learning), dữ liệu đầu vào của bài toán đã được gán nhãn tương ứng trước đó. Phân loại chính là một kĩ thuật khai thác dữ liệu, các mô hình được sử dụng để phân loại dữ liệu thành các nhãn.

Phân loại là một quá trình gồm 2 bước: 1) Đào tạo mô hình; 2) Dùng mô hình để phân loại dữ liệu. 7 Ở bài toán này ta thực hiện phân loại một tập dữ liệu thành một hoặc nhiều lớp nhờ vào mô hình phân loại, như đã nói mô hình được đào tạo trên một tập dữ liệu đã có nhãn (còn gọi là tập huấn luyện). − Đối với bài toán phân loại có thể chia thành các dạng: − Phân loại nhị phân − Phân loại nhiều lớp − Phân loại nhiều nhãn − Phân loại không cân bằng 2.1 Phân loại nhị phân Phân loại nhị phân (minh họa ở Hình 2.1) thường đề cập đến nhiều nhiệm vụ phân loại chỉ có 2 nhãn lớp, thường bao gồm phân loại 2 trạng thái Bình thường và Bất thường. Trong đó, lớp cho trạng thái bình thường được gán nhãn lớp 0 và lớp có trạng thái bất thường được gán nhãn lớp là 1.

Các thuật toán phổ biến được sử dụng cho phân loại nhị phân bao gồm: − Hồi quy Logistic − k – NN − Cây quyết định − Máy vector hỗ trợ − Naive Bayes Một số bài toán sử dụng phân loại nhị phân: − Kiểm tra y khoa xem một bệnh nhân: Có bệnh hoặc Không bệnh − Quản lí chất lượng sản phẩm: Đạt hoặc Không đạt 8 Hình 2.1 Phân loại nhị phân [10] 2.2 Phân loại đa lớp Bài toán phân loại đa lớp được minh họa ở Hình 2.2 là quá trình phân loại dữ liệu với số lớp lớn hơn 2. Với từng dữ liệu, chúng ta cần xem xét và phân loại chúng vào các lớp khác nhau. Trong đó, các đối tượng được được phân loại vào một trong các lớp đã biết trước, số lượng các nhãn lớp có thể rất lớn. Thực chất, bài toán phân loại nhị phân là một bài toán đặc biệt của phân loại đa lớp và nhiều thuật toán phân loại nhị phân có thể sử dụng cho bài toán phân loại đa lớp.

Các thuật toán thường được sử dụng để phân loại nhiều lớp: − k – NN − Cây quyết định − Rừng ngẫu nhiên − Tăng cường Gradient Một số bài toán sử dụng phân loại đa lớp: − Phân loại hoa. − Phân loại các loài động vật. − Nhận dạng chữ số viết tay.2 Phân loại đa lớp [11] Khác với phân loại nhị phân và phân loại nhiều nhãn, phân loại nhiều nhãn được minh họa ở Hình 2-3 là sự khái quát của phân loại đa lớp, không ràng buộc về số lớp có thể gán cho đối tượng. Phân loại đa nhãn là phân loại có hai hoặc nhiều nhãn lớp, trong đó một hoặc nhiều nhãn lớp có thể được dự đoán cho mỗi ví dụ.

Các thuật toán được sử dụng để phân loại nhị phân và đa lớp không thể được sử dụng trực tiếp để phân loại đa nhãn. Các phiên bản chuyên biệt của thuật toán phân loại tiêu chuẩn có thể được sử dụng hoặc sử dụng một thuật toán phân loại riêng biệt để dự đoán nhãn cho mỗi lớp, phiên bản chuyên biệt này được gọi là phiên bản nhiều nhãn của thuật toán, bao gồm: − Cây quyết định nhiều nhãn − Rừng ngẫu nhiên nhiều nhãn − Tăng cường Gradient nhiều nhãn Một số bài toán sử dụng phân loại đa nhãn: − Phân loại thể loại âm nhạc − Phân loại thể loại phim 2.3 Phân loại không cân bằng Phân loại không cân bằng là phương pháp phân loại trong đó số lượng ví dụ trong mỗi lớp phân phối không đều nhau. Phân loại nhị phân thường là nhiệm vụ phân loại không cân bằng khi phần lớn các ví dụ nằm trong lớp bình thường và một số ít ví dụ nằm trong lớp bất thường.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu về nhận diện font chữ

Ứng dụng mạng CNN trong nhận diện

Phương pháp xử lý ảnh trong AI

Phát triển hệ thống nhận diện tự động