Luận văn thạc sĩ về nhận dạng chữ cho ảnh màu thương hiệu

Luận văn thạc sĩ nghiên cứu nhận dạng chữ cho ảnh màu thương hiệu 01, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Nội dung nghiên cứu của luận văn

1.3. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CHO PHÂN ĐOẠN ẢNH

2.1. Ảnh màu thương hiệu

2.2. Không gian màu (color space)

2.3. Biểu đồ Histogram

2.4. Chuyển đổi ảnh màu sang ảnh mức xám

2.5. Phân đoạn ảnh

2.6. Một số phương pháp phân đoạn

2.7. Máy nhận dạng văn bản Tesseract

3. CHƯƠNG 3: PHÂN ĐOẠN ẢNH MÀU THƯƠNG HIỆU

3.1. Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám

3.2. Pha 2: Phân đoạn ảnh phân cấp

3.2.1. Xác định khoảng cách cụm

3.2.2. Thuật toán Arifin cải tiến lựa chọn ngưỡng tự động

3.3. Pha 3: Nhận dạng ký tự

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

4.2. Thực nghiệm về phân đoạn ảnh

4.3. Thực nghiệm nhận dạng

5. KẾT LUẬN

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

DANH SÁCH CÁC TỪ VIẾT TẮT

Tóm tắt

I. Tổng quan

Nhận dạng chữ in, đặc biệt là trên ảnh màu thương hiệu, là một lĩnh vực nghiên cứu quan trọng với nhiều ứng dụng thực tiễn. Nhận diện văn bản từ ảnh màu không chỉ giúp tiết kiệm thời gian và chi phí mà còn nâng cao hiệu quả trong việc lưu trữ và tìm kiếm thông tin. Luận văn này tập trung vào việc phát triển một hệ thống nhận dạng chữ tự động, nhằm cải thiện độ chính xác và giảm thiểu chi phí cho hoạt động nhập liệu. Đặc biệt, việc nhận dạng chữ trong ảnh thương hiệu thường gặp khó khăn do sự kết hợp giữa text và các yếu tố hình họa. Do đó, việc áp dụng các phương pháp như OCR và học máy là cần thiết để giải quyết vấn đề này.

1.1 Đặt vấn đề

Nhận dạng ký tự quang học (OCR) là quá trình chuyển đổi hình ảnh văn bản thành văn bản máy tính. Trong bối cảnh hiện nay, nhận dạng chữ trên ảnh màu thương hiệu đang trở thành một thách thức lớn. Các hệ thống hiện tại như Tesseract gặp khó khăn trong việc phân tách giữa text và nền, dẫn đến độ chính xác thấp. Luận văn này sẽ nghiên cứu và cải tiến quy trình phân đoạn ảnh, nhằm nâng cao khả năng nhận dạng chữ trong các ảnh thương hiệu màu sắc.

1.2 Nội dung nghiên cứu

Luận văn này sẽ nghiên cứu các phương pháp phân đoạn ảnh, từ đó phát triển một giải pháp kết hợp giữa phân đoạn ảnh và nhận dạng ký tự. Các phương pháp như chuyển đổi ảnh màu sang ảnh mức xám và phân đoạn ảnh sẽ được áp dụng để tách biệt các thành phần text và hình ảnh. Kết quả của nghiên cứu sẽ được đánh giá dựa trên các chỉ số như tỉ lệ ký tự nhận dạng đúng và sai, từ đó đưa ra những cải tiến cần thiết cho hệ thống.

II. Cơ sở lý thuyết cho phân đoạn ảnh

Phân đoạn ảnh là một bước quan trọng trong quy trình nhận dạng chữ. Ảnh màu thương hiệu thường chứa các yếu tố hình họa và text đan xen, gây khó khăn trong việc tách biệt chúng. Các phương pháp phân đoạn như phân cụm và nhị phân hóa sẽ được nghiên cứu để cải thiện độ chính xác của quá trình nhận dạng. Việc sử dụng biểu đồ Histogram để phân tích mức độ tương phản và sắc thái của ảnh cũng sẽ được đề cập. Các không gian màu như RGB, HSV và CMYK sẽ được phân tích để hiểu rõ hơn về cách thức chuyển đổi và phân đoạn ảnh.

2.1 Ảnh màu thương hiệu

Ảnh thương hiệu là yếu tố đồ họa đại diện cho một công ty hoặc sản phẩm. Nó bao gồm hai phần chính: hình họa và text. Phần hình họa thường không thể đọc được, trong khi phần text chứa thông tin quan trọng như tên sản phẩm và khẩu hiệu. Việc thiết kế ảnh thương hiệu cần đảm bảo sự đơn giản và dễ nhớ, đồng thời tạo ra sự khác biệt so với các thương hiệu khác. Điều này giúp tăng khả năng nhận diện và ghi nhớ của khách hàng.

2.2 Không gian màu

Không gian màu là mô hình toán học mô tả các màu sắc. Các không gian màu phổ biến như RGB, HSV và CMYK sẽ được sử dụng trong nghiên cứu này. RGB là không gian màu cơ bản cho đồ họa máy tính, trong khi HSV thường được sử dụng trong chỉnh sửa ảnh. Việc hiểu rõ về không gian màu sẽ giúp cải thiện quy trình chuyển đổi và phân đoạn ảnh, từ đó nâng cao độ chính xác của hệ thống nhận dạng chữ.

III. Phân đoạn ảnh màu thương hiệu

Quá trình phân đoạn ảnh màu thương hiệu bao gồm nhiều bước, từ chuyển đổi ảnh màu sang ảnh mức xám đến phân đoạn ảnh. Việc áp dụng các thuật toán như Arifin cải tiến sẽ giúp xác định ngưỡng tự động cho quá trình phân đoạn. Điều này rất quan trọng trong việc tách biệt các vùng chứa text ra khỏi các yếu tố hình họa. Kết quả của quá trình phân đoạn sẽ được sử dụng làm đầu vào cho máy nhận dạng văn bản Tesseract, nhằm nâng cao khả năng nhận dạng chữ trong ảnh thương hiệu.

3.1 Chuyển đổi ảnh màu sang ảnh mức xám

Chuyển đổi ảnh màu sang ảnh mức xám là bước đầu tiên trong quy trình phân đoạn. Mức xám của ảnh được tính toán dựa trên yếu tố màu sắc và độ sáng. Việc này giúp giảm thiểu độ phức tạp của ảnh, từ đó dễ dàng hơn trong việc phân đoạn. Các phương pháp chuyển đổi như CIE 1931 và Rec 709 sẽ được áp dụng để đảm bảo độ chính xác cao nhất cho quá trình này.

3.2 Phân đoạn ảnh phân cấp

Phân đoạn ảnh phân cấp là bước tiếp theo sau khi chuyển đổi sang ảnh mức xám. Quá trình này sẽ phân chia các điểm ảnh có mức xám tương đương nhau thành các cụm riêng biệt. Việc xác định khoảng cách giữa các cụm sẽ giúp tách biệt các lớp chứa text và hình ảnh. Kết quả của quá trình phân đoạn sẽ được đánh giá dựa trên độ chính xác của hệ thống nhận dạng, từ đó đưa ra những cải tiến cần thiết.

IV. Thực nghiệm và đánh giá

Phần thực nghiệm của luận văn sẽ tiến hành nhận dạng chữ trên ảnh màu thương hiệu với nhiều kích cỡ và font chữ khác nhau. Kết quả sẽ được so sánh với các phương pháp phân đoạn khác để đánh giá hiệu quả của hệ thống. Các chỉ số như tỉ lệ ký tự nhận dạng đúng, tỉ lệ ký tự nhận dạng sai và tỉ lệ ký tự không nhận dạng được sẽ được sử dụng để đánh giá độ chính xác của hệ thống. Kết quả thực nghiệm sẽ cung cấp cái nhìn sâu sắc về khả năng áp dụng của phương pháp đã nghiên cứu.

4.1 Môi trường thực nghiệm

Môi trường thực nghiệm sẽ được thiết lập để kiểm tra hiệu quả của hệ thống nhận dạng chữ. Các ảnh thương hiệu sẽ được thu thập từ nhiều nguồn khác nhau, đảm bảo tính đa dạng về kích cỡ, màu sắc và font chữ. Việc này sẽ giúp đánh giá khả năng của hệ thống trong các điều kiện thực tế khác nhau, từ đó đưa ra những cải tiến cần thiết cho quy trình nhận dạng.

4.2 Kết quả thực nghiệm

Kết quả thực nghiệm sẽ được phân tích để đánh giá hiệu quả của hệ thống nhận dạng chữ. Các chỉ số như tỉ lệ ký tự nhận dạng đúng và sai sẽ được tính toán để đưa ra cái nhìn tổng quan về độ chính xác của hệ thống. Kết quả này sẽ giúp xác định những điểm mạnh và điểm yếu của phương pháp đã nghiên cứu, từ đó đề xuất các giải pháp cải tiến cho các nghiên cứu tiếp theo.

V. Kết luận

Luận văn đã nghiên cứu và phát triển một hệ thống nhận dạng chữ cho ảnh màu thương hiệu. Các phương pháp phân đoạn và nhận dạng đã được cải tiến để nâng cao độ chính xác và hiệu quả của hệ thống. Kết quả thực nghiệm cho thấy hệ thống có khả năng nhận dạng chữ với độ chính xác cao, mở ra nhiều cơ hội ứng dụng trong thực tế. Nghiên cứu này không chỉ đóng góp vào lĩnh vực nhận dạng chữ mà còn mở rộng khả năng ứng dụng của công nghệ trong việc xử lý và phân tích ảnh màu.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nhận dạng chữ cho ảnh màu thương hiệu 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng chữ in trên ảnh màu thương hiệu là một bài toán quan trọng trong lĩnh vực xử lý ảnh và nhận dạng ký tự quang học (OCR), với nhiều ứng dụng thực tiễn như lưu trữ, tìm kiếm và phân tích dữ liệu văn bản tự động. Theo ước tính, ảnh thương hiệu màu chiếm tỷ lệ lớn trong các cơ sở dữ liệu doanh nghiệp, trong đó phần chữ (text) chứa nhiều thông tin quan trọng như tên sản phẩm, tên doanh nghiệp và khẩu hiệu. Tuy nhiên, việc nhận dạng chữ trên ảnh màu thương hiệu gặp nhiều khó khăn do sự nhập nhằng giữa vùng chữ và các yếu tố hình họa đi kèm, làm giảm độ chính xác của các hệ thống OCR truyền thống.

Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp tiền xử lý ảnh màu thương hiệu nhằm nâng cao độ chính xác nhận dạng chữ in, tập trung vào cải tiến giai đoạn chuyển đổi ảnh màu sang ảnh mức xám và phân đoạn ảnh phân cấp. Phạm vi nghiên cứu thực hiện trên tập dữ liệu gồm 100 ảnh màu thương hiệu thu thập từ Internet và cơ sở dữ liệu của Cục Sở hữu trí tuệ Việt Nam, với đa dạng kích thước chữ, font chữ và màu sắc. Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu chi phí và thời gian nhập liệu thủ công, đồng thời nâng cao hiệu quả khai thác thông tin từ ảnh thương hiệu trong các ứng dụng thương mại và quản lý dữ liệu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Không gian màu (Color Space): Bao gồm các hệ màu RGB, HSV và CMYK, trong đó RGB là hệ phổ biến trong đồ họa máy tính, HSV mô tả màu sắc theo ba thành phần Hue, Saturation và Value, còn CMYK được sử dụng trong ngành in ấn. Việc hiểu và chuyển đổi giữa các không gian màu là cơ sở để xử lý ảnh màu thương hiệu hiệu quả.
Chuyển đổi ảnh màu sang ảnh mức xám: Sử dụng thuật toán của Mark D. Fairchild nhằm bảo toàn các đặc tính màu sắc và độ sáng, giúp các điểm ảnh có màu sắc tương tự được mã hóa thành mức xám tương ứng, từ đó giữ nguyên các đường nét và chi tiết quan trọng trong ảnh.
Phân đoạn ảnh (Image Segmentation): Là quá trình phân vùng ảnh thành các vùng đồng nhất, tách biệt vùng chữ và nền. Luận văn áp dụng phương pháp phân đoạn phân cấp dựa trên thuật toán phân cụm histogram của Arifin, kết hợp với cải tiến tự động xác định số lượng ngưỡng phân đoạn tối ưu.
Máy nhận dạng văn bản Tesseract: Công cụ OCR mã nguồn mở, hỗ trợ nhiều ngôn ngữ, được sử dụng để nhận dạng ký tự sau khi ảnh đã được phân đoạn. Phiên bản sử dụng là v3.01, có khả năng nhận dạng ký tự với kích thước tối thiểu 10pt ở độ phân giải 300dpi.

Các khái niệm chính bao gồm: histogram phân bố mức xám, ngưỡng phân đoạn (thresholding), phân cụm (clustering), và các chỉ số đánh giá OCR như tỉ lệ nhận dạng đúng (RCR), tỉ lệ từ chối (RJR) và tỉ lệ nhận dạng sai (ER).

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là 100 ảnh màu thương hiệu thu thập từ Internet và cơ sở dữ liệu của Cục Sở hữu trí tuệ Việt Nam, trong đó 54% ảnh chỉ chứa ký tự, 46% còn lại có cả họa tiết đi kèm. Tập dữ liệu đa dạng về kích thước, font chữ và màu sắc, đảm bảo tính đại diện cho bài toán thực tế.

Phương pháp nghiên cứu gồm ba giai đoạn chính:

Tiền xử lý ảnh: Chuyển đổi ảnh màu sang ảnh mức xám bằng thuật toán của Mark D. Fairchild, nhằm bảo toàn đặc tính màu sắc và độ sáng, tạo điều kiện thuận lợi cho phân đoạn.
Phân đoạn ảnh phân cấp: Áp dụng thuật toán phân cụm histogram của Arifin với cải tiến tự động xác định số lượng ngưỡng phân đoạn tối ưu, giúp tách biệt vùng chữ và nền hiệu quả hơn so với các phương pháp Otsu và K-means truyền thống.
Nhận dạng ký tự: Sử dụng máy nhận dạng Tesseract để nhận dạng ký tự trên các lớp ảnh nhị phân sau phân đoạn. Kết quả nhận dạng được tổng hợp và đánh giá bằng các chỉ số RCR, RJR và ER.

Phương pháp phân tích dữ liệu dựa trên so sánh kết quả nhận dạng giữa các phương pháp phân đoạn khác nhau và giữa hệ thống đề xuất với các công cụ OCR thương mại như OmniPage. Thời gian nghiên cứu tập trung vào năm 2015, thực hiện trên môi trường Windows 7 với cấu hình máy tính Intel Core i3, RAM 4GB, sử dụng thư viện OpenCV 2.4 cho xử lý ảnh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả chuyển đổi ảnh màu sang ảnh mức xám: Thuật toán của Mark D. Fairchild cho kết quả ảnh mức xám có độ tương phản và bảo toàn đường nét tốt hơn so với các phương pháp CIELAB, CIE XYZ, Rec.709 và CIE 1931. Điều này giúp phân đoạn ảnh chính xác hơn, đặc biệt trong việc phân biệt vùng chữ và nền.
Phân đoạn ảnh phân cấp cải tiến: Phương pháp phân cụm histogram của Arifin với cải tiến tự động chọn số lượng ngưỡng phân đoạn cho kết quả phân tách vùng chữ và nền rõ ràng hơn so với phương pháp Otsu và K-means. Trong tập dữ liệu, 79% ảnh được phân đoạn thành 2-3 ngưỡng, phù hợp với đặc điểm ảnh thương hiệu.
Độ chính xác nhận dạng ký tự: Hệ thống đề xuất kết hợp phân đoạn cải tiến và Tesseract đạt tỉ lệ nhận dạng đúng (RCR) trung bình 70.86%, cao hơn đáng kể so với Tesseract không cải tiến (41.85%) và máy nhận dạng thương mại OmniPage (58.15%). Tỉ lệ từ chối (RJR) và tỉ lệ nhận dạng sai (ER) cũng được cải thiện rõ rệt.
Ảnh hưởng của phân đoạn đến kết quả nhận dạng: Kết quả cho thấy giai đoạn tiền xử lý, đặc biệt là phân đoạn ảnh, đóng vai trò quyết định trong việc nâng cao độ chính xác nhận dạng. Biểu đồ so sánh các chỉ số RCR, RJR và ER minh họa sự vượt trội của phương pháp đề xuất so với các phương pháp truyền thống.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do phương pháp chuyển đổi ảnh màu sang ảnh mức xám của Mark D. Fairchild tận dụng hiệu ứng màu sắc và độ sáng, giúp bảo toàn các đặc tính quan trọng của ảnh màu thương hiệu. Thuật toán phân cụm phân cấp của Arifin được cải tiến để tự động xác định số lượng ngưỡng phân đoạn, phù hợp với đặc điểm đa dạng của ảnh thương hiệu, từ đó tách biệt vùng chữ và nền hiệu quả hơn.

So sánh với các nghiên cứu trước đây, kết quả này khẳng định tầm quan trọng của giai đoạn tiền xử lý trong hệ thống OCR, đồng thời cho thấy khả năng áp dụng thành công các kỹ thuật phân đoạn phân cấp và chuyển đổi màu sắc nâng cao trong bài toán nhận dạng chữ trên ảnh màu phức tạp.

Ý nghĩa của kết quả là mở ra hướng phát triển các hệ thống nhận dạng chữ tự động chính xác hơn, giảm thiểu sai sót và chi phí nhập liệu thủ công trong các ứng dụng quản lý dữ liệu thương hiệu, quảng cáo và truyền thông.

Đề xuất và khuyến nghị

Triển khai phương pháp chuyển đổi ảnh màu sang ảnh mức xám của Mark D. Fairchild: Áp dụng rộng rãi trong các hệ thống OCR xử lý ảnh màu thương hiệu để nâng cao chất lượng tiền xử lý, từ đó cải thiện độ chính xác nhận dạng ký tự. Thời gian thực hiện: 3-6 tháng; chủ thể: các nhóm phát triển phần mềm OCR.
Áp dụng thuật toán phân đoạn phân cấp cải tiến của Arifin: Tự động xác định số lượng ngưỡng phân đoạn phù hợp với đặc điểm ảnh, giúp tách biệt vùng chữ và nền hiệu quả. Thời gian triển khai: 6 tháng; chủ thể: các nhà nghiên cứu và kỹ sư xử lý ảnh.
Tích hợp và tối ưu hóa hệ thống nhận dạng với Tesseract: Kết hợp các bước tiền xử lý và phân đoạn để xây dựng hệ thống nhận dạng chữ hoàn chỉnh, có thể mở rộng cho nhiều ngôn ngữ và loại ảnh khác nhau. Thời gian: 6-9 tháng; chủ thể: các công ty công nghệ và trung tâm nghiên cứu.
Phát triển bộ dữ liệu đào tạo và đánh giá đa dạng: Thu thập thêm ảnh màu thương hiệu với nhiều đặc điểm khác nhau để huấn luyện và kiểm thử hệ thống, nâng cao khả năng nhận dạng trong thực tế. Thời gian: liên tục; chủ thể: các tổ chức nghiên cứu và doanh nghiệp.
Đào tạo và nâng cao nhận thức cho người dùng cuối: Hướng dẫn sử dụng hệ thống nhận dạng tự động, đồng thời thu thập phản hồi để cải tiến liên tục. Thời gian: 3 tháng; chủ thể: các đơn vị triển khai và đào tạo.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về xử lý ảnh màu, phân đoạn ảnh và ứng dụng OCR, giúp phát triển các đề tài nghiên cứu liên quan.
Các công ty phát triển phần mềm OCR và xử lý ảnh: Tham khảo để cải tiến thuật toán tiền xử lý và phân đoạn, nâng cao hiệu quả nhận dạng chữ trên ảnh màu phức tạp, đặc biệt trong lĩnh vực thương hiệu và quảng cáo.
Cơ quan quản lý sở hữu trí tuệ và doanh nghiệp: Ứng dụng hệ thống nhận dạng tự động để quản lý cơ sở dữ liệu ảnh thương hiệu, giảm chi phí nhập liệu thủ công và tăng tốc độ xử lý thông tin.
Chuyên gia trong lĩnh vực truyền thông và marketing: Hiểu rõ hơn về kỹ thuật nhận dạng chữ trên ảnh thương hiệu, từ đó tối ưu hóa việc thu thập và phân tích dữ liệu hình ảnh phục vụ chiến lược quảng bá.

Câu hỏi thường gặp

Phương pháp chuyển đổi ảnh màu sang ảnh mức xám của Mark D. Fairchild có ưu điểm gì so với các phương pháp khác?
Phương pháp này bảo toàn tốt các đặc tính màu sắc và độ sáng, giúp các điểm ảnh có màu tương tự được mã hóa thành mức xám tương ứng, giữ nguyên đường nét và chi tiết quan trọng. Điều này cải thiện chất lượng ảnh đầu vào cho phân đoạn và nhận dạng, vượt trội hơn các phương pháp CIELAB hay Otsu.
Tại sao phân đoạn ảnh phân cấp lại quan trọng trong nhận dạng chữ trên ảnh màu thương hiệu?
Phân đoạn ảnh phân cấp giúp tách biệt vùng chữ và nền dựa trên sự khác biệt về mức xám và màu sắc, giảm thiểu sự nhập nhằng giữa chữ và họa tiết nền. Điều này làm tăng độ chính xác nhận dạng ký tự, đặc biệt với ảnh thương hiệu có nhiều yếu tố hình họa phức tạp.
Máy nhận dạng Tesseract có thể nhận dạng được những kích thước chữ nào?
Tesseract có thể nhận dạng chính xác các ký tự có kích thước tối thiểu 10pt ở độ phân giải 300dpi (tương đương chiều cao khoảng 20 pixel). Các ký tự nhỏ hơn thường bị coi là nhiễu và bị từ chối.
Kết quả nhận dạng của hệ thống đề xuất so với các công cụ OCR thương mại như thế nào?
Hệ thống đề xuất với cải tiến phân đoạn và sử dụng Tesseract đạt tỉ lệ nhận dạng đúng (RCR) khoảng 70.86%, cao hơn so với OmniPage (58.15%) và Tesseract không cải tiến (41.85%), cho thấy hiệu quả rõ rệt của phương pháp tiền xử lý và phân đoạn ảnh.
Có thể áp dụng phương pháp này cho các loại ảnh khác ngoài ảnh thương hiệu không?
Phương pháp có thể được điều chỉnh và áp dụng cho các loại ảnh màu có đặc điểm tương tự như ảnh quảng cáo, ảnh văn bản trên nền phức tạp, tuy nhiên cần đánh giá và hiệu chỉnh thuật toán phù hợp với từng loại ảnh cụ thể để đạt hiệu quả tối ưu.

Kết luận

Luận văn đã đề xuất phương pháp tiền xử lý mới cho nhận dạng chữ trên ảnh màu thương hiệu, tập trung vào chuyển đổi ảnh màu sang ảnh mức xám và phân đoạn ảnh phân cấp cải tiến.
Thuật toán chuyển đổi của Mark D. Fairchild và phân đoạn phân cấp của Arifin được cải tiến giúp tách biệt vùng chữ và nền hiệu quả hơn các phương pháp truyền thống.
Hệ thống nhận dạng kết hợp với Tesseract đạt tỉ lệ nhận dạng đúng lên tới 70.86%, vượt trội so với các công cụ OCR hiện có.
Kết quả thực nghiệm trên tập dữ liệu 100 ảnh thương hiệu đa dạng khẳng định tính khả thi và hiệu quả của phương pháp đề xuất.
Các bước tiếp theo bao gồm mở rộng tập dữ liệu, tối ưu thuật toán và triển khai ứng dụng thực tế trong quản lý dữ liệu thương hiệu và các lĩnh vực liên quan.

Hành động tiếp theo là áp dụng phương pháp vào các dự án thực tế, đồng thời phát triển thêm các module hậu xử lý để nâng cao hơn nữa độ chính xác nhận dạng chữ trên ảnh màu phức tạp.

Trích đoạn nội dung tài liệu

Đặt vấn đề Nhận dạng kí tự quang học (OCR - Optical Character Recognition) là quá trình chuyển đổi hình ảnh của văn bản thành văn bản máy tính. Hiện nay, nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những bài toán có nhiều ứng dụng trong thực tế, giúp tiết kiệm rất nhiều các chi phí và thời gian cho việc nhập liệu. Trong một số điều kiện thuận lợi, nhận dạng chữ in đạt độ chính xác rất cao cho các hệ chữ phổ thông[12]. Tuy nhiên khi áp dụng ảnh màu, đặc biệt ảnh thương hiệu màu, rất nhiều vấn đề khó khăn của bài toán vẫn chưa được giải quyết triệt để.

Vì vậy nhận được nhiều sự quan tâm nghiên cứu của con con người. Để cải thiện kết quả nhận dạng, nhiều nghiên cứu đề cập đến nâng cao chất lượng của giai đoạn tiền xử lý, nhằm cung cấp đầu vào tốt hơn cho các giai đoạn nhận dạng tiếp theo. Một trong các khó khăn gặp phải là sự nhập nhằng giữa các vùng văn bản và nền, gây ra sự sai lệch dữ liệu nhận dạng và giảm độ chính xác chung toàn bộ quá trình. Thực nghiệm cho thấy một số hệ nhận dạng mã nguồn mở đến thương mại như Tesseract của Google[20], OmniPage của Nuance[21] gặp phải vấn đề tương tự.

Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phân đoạn ảnh, nhận dạng và hậu xử lý. Trong luận văn này tôi đi sâu vào cải tiến công đoạn phân đoạn ảnh. Bên cạnh đó kết hợp modul nhận dạng Tesseract để xây dựng thành một hệ thống nhận dạng văn bản hoàn thiện.2 Nội dung nghiên cứu của luận văn Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phân đoạn ảnh, nhận dạng và hậu xử lý. Luận văn này nghiên cứu lý thuyết cơ bản về các kỹ thuật phân đoạn có sẵn, đồng thời đi sâu vào cải tiến và kết hợp các phương pháp phân đoạn để đưa ra phương án có độ chính xác cao 10 z nhất.

Bên cạnh đó kết hợp modul nhận dạng Tesseract để xây dựng thành một hệ thống nhận dạng văn bản hoàn thiện. Phân đoạn là quá trình quan trọng của tiền xỷ lý. Đầu ra của quá trình này có ảnh hưởng rất lớn đến độ chính xác các tiếp theo, cũng như toàn hệ thống. Đối với ảnh màu thương hiệu, hai thành phần chính là text và hình ảnh thường có sự kết hợp và đan xen lẫn nhau, việc phân tách rõ ràng các thành phần này gặp nhiều trở ngại.

Tuy nhiên các ảnh thương hiệu màu vẫn có chung những nguyên tắc khi thiết kế có thể khai thác như: sự tương phản và đồng nhất về màu sắc, sự ảnh hưởng màu sắc lên thị giác con người, khả năng đơn giản hóa dễ nắm bắt. Luận văn đã nghiên cứu đánh giá một số phương pháp được sử dụng trong phân đoạn ảnh, và áp dụng vào bài toán nhận dạng chữ trên ảnh thương hiệu màu, nhằm tách biệt vùng chứa text ra các lớp riêng biệt, từ đó đưa vào máy nhận dạng có sẵn nhằm nâng khả năng nhận dạng. Trong giai đoạn nhận dạng ký tự, máy nhận dạng Tesseract được đề xuất cho giai đoạn này. Quá trình phân đoạn trải qua hai bước: 1.

Biến đổi grayscale: đưa ảnh thương hiệu màu ban đầu (có các điểm ảnh trong hệ màu RGB) sang ảnh mức xám. Mức xám (gray level) của ảnh đích được tính toán dựa trên yếu tố màu sắc, thứ tự độ sáng, sự liên tục đường nét. Phân đoạn ảnh phân cấp: Sau khi đưa về ảnh mức xám, phân đoạn ảnh phân cấp phân các điểm ảnh có mức xám tương đương nhau về các cụm riêng biệt, từ đó tách ra các lớp để tạo ra ảnh đầu vào của quá trình nhận dạng. Sau khi trải qua các bước trên từ ảnh thương hiệu ban đầu ta thu được các văn bản chứa text của ảnh.

Việc đánh giá phương pháp trong luận văn dựa trên 3 yếu tố: tỉ lệ kí tự nhận dạng đúng, tỉ lệ kí tự nhận dạng sai và tỉ lệ kí tự không nhận dạng được so với kết quả từ mắt người.3 Cấu trúc luận văn Các phần còn lại của luận vặn có cấu trúc như sau: Chương 2: trình bày cơ sở lý thuyết của phân đoạn ảnh, bao gồm các khái niệm cơ bản, các kỹ thuật cơ bản được sử dụng trong chuyển đổi ảnh màu về ảnh mức xám và phân đoạn ảnh. Chương 3: trình bày chi tiết về phân đoạn ảnh cho ảnh thương hiệu màu. Đồng thời đưa ra giải pháp tách ngưỡng tự động cho quá trình phân 11 z đoạn, bao gồm các thuật toán hòa nhập cụm, xác định khoảng cách giữa các cụm với nhau và lựa chọn tổng khoảng cách tối ưu các tập cụm. Chương 3: trình bày về kết quả thực nghiệm của hệ thống nhận dạng sau khi đã ghép nối các thành phần lại với nhau, đồng thời mô tả tập dữ liệu đầu vào và môi trường thực nghiệm.

Chương 4: Kết luận. 12 z Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh 2.1 Ảnh màu thương hiệu Ảnh thương hiệu (hay còn được gọi logo, biểu trưng) là một yếu tố đồ họa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng.) kết hợp với cách thức thể hiện để tạo thành hình ảnh đại diện cho một công ty hay các tổ chức thương mại, nhãn hiệu, thương hiệu. Nói cách khác, ảnh thương hiệu được tạo ra nhằm ấn tượng bên ngoài giúp dễ dàng nhận ra thương hiệu, đồng thời gợi lên tất cả những thông tin và trông đợi gắn với sản phẩm hoặc dịch vụ có thương hiệu đó. Thông thường, ảnh thương hiệu phải được đảm bảo một số yêu cầu sau: -Nội dung: gồm hai phần chính là hình họa (phần không đọc được) và text (phần đọc được).

Phần không đọc được bao gồm những yếu tố không đọc được mà chỉ có thể cảm nhận được bằng thị giác như hình vẽ, biểu tượng (hình bông sen của Vietnam Airlines), màu sắc (màu xanh của Nokia, đỏ của Coca-Cola, hay kiểu dáng thiết kế, bao bì (kiểu chai bia Henniken) và các yếu tố nhận biết (bằng mắt) khác. Phần đọc được bao gồm những yếu tố có thể đọc được, tác động vào thị giác con người như tên công ty, doanh nghiệp (ví dụ như: Gateway, PGrand, 3M.), tên sản phẩm (555, Coca-Cola.), câu khẩu hiệu, đặc trưng. Thông thường, ảnh thương hiệu kết hợp cả hai thành phần với nhau để tăng khả năng nhận dạng và truyền tải thông tin. Một số ảnh thương hiệu lại sử dụng chính hình ảnh cách điệu của phần đọc được để giảm bớt số lượng chi tiết trong ảnh.

Phần còn lại chỉ sử dụng một trong hai thành phần chính để tạo nên ảnh thương hiệu. -Màu sắc: Màu sắc thường đơn giản, dễ dàng nhận thấy và ghi nhớ. Thông thường khi thiết kế có thể ưu tiên vẽ màu trắng và đen, sau đó 13 z Hình 2.1: Ảnh thương hiệu màu đến các màu sắc nổi bật có thể đặt cạnh nhau như vàng-đỏ, xanh lá-đỏ. Thực tế số lượng màu sắc trong ảnh thương hiệu thường bị hạn chế để dễ ghi nhớ, đôi khi chỉ bao gồm các văn bản với hai màu đen và trắng.

Các thương hiệu nổi tiếng chỉ sử dụng một hoặc hai màu cơ bản như màu vàng của Kodak, McDonanld, màu xanh da trời của IBM, hay màu đỏ của Coca Cola. -Sự khác biệt: có những dấu hiệu đặc biệt gây ấn tượng thị giác mạnh, dễ phân biệt. Đây là chức năng quan trọng của biểu trưng, giúp phân biệt thương hiệu hay sản phẩm với thương hiệu hay sản phẩm cạnh tranh. Sự khác biệt cũng làm cho thương hiệu dễ đi vào tâm trí của khách hàng hơn.

Thông thường, để tạo sự khác biệt, ảnh thương hiệu tránh sử dụng những hình cơ bản, phổ biến và được dùng nhiều. -Hình dáng: thường tạo khả năng dễ chấp nhận, dễ suy diễn, đơn giản và dễ nhớ. Trong một khoảng thời gian quan sát ngắn là người xem có thể hình dung lại đường nét biểu trưng trong trí nhớ. Trong bối cảnh rất nhiều sản phẩm cạnh tranh cùng được khuếch trương trên các phương tiện thông tin đại chúng, biểu trưng của thương hiệu sẽ không được khách hàng biết đến nếu nó phức tạp và khó nhớ, dù là bằng tên gọi, ký hiệu hay chữ viết.

Hầu hết các thương hiệu nổi tiếng thế giới đều sử dụng những dấu hiệu thương hiệu rất đơn giản. Các ví dụ thường thấy như Kodak sử dụng chữ K được viết cách điệu, McDonald sử dụng chữ M hình cánh cổng màu vàng, Nike sử dụng nét phết, IBM sử dụng tên thượng hiệu viết cách điệu. 14 z -Khả năng thích nghi: có khả năng thích nghi trong các thị trường thuộc khu vực khác nhau, các nền văn hoá hay ngôn ngữ khác nhau. Trên thực tế, khách hàng ở các nước khác nhau, có nền văn hoá khác nhau và ngôn ngữ khác nhau, vì vậy họ thường có cách hiểu khác nhau đối với các hình ảnh hay ký hiệu.

Do đó các biểu trưng thương mại quốc tế ít dùng hình ảnh mang ý nghĩa sẵn có theo một nền văn hoá hay ngôn ngữ nào mà sử dụng những hình ảnh mới rồi gắn chúng với các liên tưởng về sản phẩm. -Ý nghĩa: biểu thị được những nét đặc trưng cho sản phẩm hay các chủ đề liên quan. Thực tế là những biểu trưng có ý nghĩa tự thân về sản phẩm lại thường không tạo nên cảm giác khác biệt. Hơn nữa, sản phẩm ngày nay thường quá phức tạp khiến tên gọi hay hình ảnh có ý nghĩa thì lại khó khác biệt, dễ nhớ và đảm bảo tính tượng trưng.

Cho nên trong thực tế tính ý nghĩa này thường được tạo ra qua các liên tưởng về thương hiệu hơn là tự thân thương hiệu.2 Không gian màu (color space) Không gian màu là một mô hình toán học dùng để mô tả các màu sắc trong thực tế được biểu diễn dưới dạng số học. Trong thực tế có rất nhiều không gian màu khác nhau được mô hình để sử dụng vào những mục đích khác nhau. Các không gian màu cơ bản và sử dụng trong luận văn gồm có hệ không gian màu RGB, HSV và CMYK. Không gian màu RGB RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính và nhiều thiết bị kĩ thuật số khác.

Ý tưởng chính của không gian màu này là sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green) và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác. Nếu như một ảnh số được mã hóa bằng 24bit, trong đó 8 bit cho kênh R, 8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giá trị từ 0-255.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về nhận dạng chữ cho ảnh màu thương hiệu" của tác giả Nguyễn Ngọc Tuấn, dưới sự hướng dẫn của TS. Lê Thanh Hà tại Đại học Quốc gia Hà Nội, tập trung vào việc phát triển các phương pháp nhận dạng chữ trong ảnh màu, đặc biệt là trong bối cảnh thương hiệu. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ nhận dạng chữ mà còn mở ra hướng đi mới cho việc ứng dụng trong lĩnh vực quảng cáo và nhận diện thương hiệu. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng công nghệ này trong việc tối ưu hóa quy trình nhận diện và phân tích thương hiệu.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và nhận dạng, hãy khám phá thêm về Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi mà các phương pháp học máy được áp dụng để cải thiện độ chính xác trong nhận diện. Bên cạnh đó, bài viết về Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ cũng sẽ mang đến cho bạn cái nhìn về cách mà công nghệ nhận diện có thể được áp dụng trong lĩnh vực ngôn ngữ. Cuối cùng, bạn có thể tham khảo Nghiên cứu phát triển kỹ thuật tìm kiếm hình ảnh hai chiều dựa trên chuỗi thời gian để hiểu thêm về các kỹ thuật tìm kiếm hình ảnh trong công nghệ thông tin. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá sâu hơn về các ứng dụng của công nghệ trong lĩnh vực nhận diện và phân tích dữ liệu.

#Luận văn Thạc sĩ

#công nghệ nhận diện

#trí tuệ nhân tạo

#xử lý ảnh

#nhận dạng chữ

#ảnh màu thương hiệu

Chủ đề

Công nghệ nhận diện hình ảnh

Ứng dụng của trí tuệ nhân tạo trong marketing

Nghiên cứu và phát triển trong lĩnh vực nhận dạng chữ

Tác động của thương hiệu đến nhận diện hình ảnh