Luận Văn Thạc Sĩ: Nghiên Cứu Tự Động Hóa Thu Thập Và Xử Lý Thông Tin Danh Thiếp Trên iOS

Luận văn thạc sĩ nghiên cứu tự động hóa thu thập thông tin trên danh thiếp xử lý trên nền ios, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP.HCM

Chuyên ngành

Tự Động Hóa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Tổng quan bài toán và các công trình liên quan

1.2.1. Tổng quan bài toán nhận dạng ký tự dùng xử lí ảnh

1.2.2. Kỹ thuật nhận dạng OCR bao gồm các bước cơ bản sau

1.2.3. Các kết quả đã công bố

2. CƠ SỞ LÝ THUYẾT

2.1. Tiền xử lý ảnh

2.1.1. Xử lý điểm ảnh

2.1.2. Tăng cường độ tương phản

2.1.3. Phân ngưỡng cho ảnh

2.1.3.1. Phân ngưỡng toàn cục

2.1.3.2. Phân ngưỡng cục bộ

2.1.4. Xử lý lược đồ mức xám

2.1.4.1. Cân bằng lược đồ mức xám

2.1.4.2. Sự so khớp lược đồ mức xám

2.1.5. Làm mỏng và lọc khung

2.1.6. Xử lý theo mặt nạ

2.1.6.1. Bộ lọc tuyến tính

2.1.6.2. Lọc trung bình

2.1.6.3. Lọc thông thấp

2.1.6.4. Lọc đồng hình

2.1.6.5. Bộ lọc phi tuyến

2.2. Chiết xuất nét đặc trưng

2.2.1. Phương pháp chiết xuất nét đặc trưng chung

2.2.2. Phương pháp chiết xuất nét đặc trưng cục bộ

2.3. Nhận dạng và huấn luyện

2.3.1. Biểu diễn từ vựng

2.3.1.1. Cây tiền tố (the T Í©)

2.3.1.2. Phương pháp DAWG (Directed Acyclic Word Graph)

2.3.2. Huấn luyện nhận dạng

2.3.2.1. Luật học lan truyền

2.3.2.2. Ứng dụng trong huấn luyện nhận dạng ký tự

3. XÂY DỰNG GIẢI THUẬT

3.1. Giải thuật tổng quát

3.2. Cân bằng lược đồ mức xám (histogram equalization)

3.3. Lấy khung chữ (skeletonization)

3.4. Phân đoạn, phân hàng, phân chữ

3.5. So sánh với cơ sở dữ liệu

3.6. Cơ sở dữ liệu nhận dạng

3.6.1. Nền tảng của quá trình huấn luyện

3.6.2. Dữ liệu ký tự đặc biệt

3.6.3. Huấn luyện MF; CN và huấn luyện hình khối

3.6.4. Lọc tách từ theo các trường (tên, số điện thoại)

4. KẾT QUẢ THỰC NGHIỆM

4.1. Chương trình chạy trên máy

4.2. Chương trình chạy trên thiết bị thật

5. HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

PHỤ LỤC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tự động hóa thu thập thông tin danh thiếp

Luận văn tập trung vào việc tự động hóa quy trình thu thập thông tin từ danh thiếp trên nền tảng iOS. Ứng dụng được phát triển nhằm giải quyết vấn đề nhận dạng ký tự từ hình ảnh danh thiếp, sử dụng công nghệ thị giác máy tính và OCR (Optical Character Recognition). Quy trình bao gồm các bước: chụp ảnh, tiền xử lý ảnh, chiết xuất nét đặc trưng, và nhận dạng ký tự. Ứng dụng này hướng đến việc tối ưu hóa quy trình quản lý thông tin liên lạc, giúp người dùng tiết kiệm thời gian và công sức.

1.1. Công nghệ thị giác máy tính và OCR

Công nghệ thị giác máy tính và OCR là nền tảng chính của ứng dụng. OCR được sử dụng để chuyển đổi hình ảnh chữ viết thành văn bản số. Quy trình OCR bao gồm các bước: quét ảnh, tiền xử lý, nhận dạng ký tự, và hậu xử lý. Ứng dụng này kết hợp thư viện Tesseract và ngôn ngữ lập trình XCode để xây dựng giải thuật nhận dạng ký tự. Điểm nổi bật là khả năng nhận dạng cả tiếng Anh và tiếng Việt, mang lại tính ứng dụng cao trong thực tế.

1.2. Tích hợp thông tin và quản lý danh thiếp

Ứng dụng không chỉ nhận dạng ký tự mà còn tích hợp thông tin vào hệ thống quản lý liên lạc. Thông tin được phân loại theo các trường như họ tên, số điện thoại, và địa chỉ. Quy trình này giúp người dùng dễ dàng lưu trữ và truy xuất thông tin. Ứng dụng được thiết kế để chạy trên các thiết bị iOS, tận dụng sức mạnh phần cứng của iPhone để xử lý ảnh nhanh chóng và chính xác.

II. Phát triển ứng dụng trên nền tảng iOS

Luận văn đề cập đến quy trình phát triển ứng dụng trên nền tảng iOS, sử dụng ngôn ngữ lập trình XCode. Ứng dụng được thiết kế để tương thích với các thiết bị iPhone, tận dụng camera để chụp ảnh danh thiếp và xử lý ảnh ngay trên thiết bị. Quy trình phát triển bao gồm việc xây dựng giải thuật nhận dạng ký tự, tích hợp thư viện Tesseract, và kiểm thử ứng dụng trên thiết bị thật. Kết quả thử nghiệm cho thấy ứng dụng có độ chính xác cao trong việc nhận dạng ký tự và quản lý thông tin.

2.1. Xây dựng giải thuật nhận dạng ký tự

Giải thuật nhận dạng ký tự được xây dựng dựa trên thuật toán lan truyền ngược và chiết xuất nét đặc trưng. Quy trình bao gồm các bước: chụp ảnh, tiền xử lý ảnh (lọc nhiễu, tăng cường độ tương phản), và nhận dạng ký tự. Ứng dụng sử dụng thư viện Tesseract để tăng độ chính xác trong việc nhận dạng ký tự. Kết quả thử nghiệm cho thấy ứng dụng có khả năng nhận dạng ký tự tiếng Anh và tiếng Việt với độ chính xác cao.

2.2. Kiểm thử và tối ưu hóa ứng dụng

Ứng dụng được kiểm thử trên các thiết bị iPhone để đảm bảo tính tương thích và hiệu suất. Quy trình kiểm thử bao gồm việc đánh giá độ chính xác của nhận dạng ký tự, tốc độ xử lý ảnh, và khả năng tích hợp thông tin vào hệ thống quản lý liên lạc. Kết quả cho thấy ứng dụng hoạt động ổn định và đáp ứng được yêu cầu của người dùng. Ứng dụng cũng được tối ưu hóa để giảm thiểu thời gian xử lý và tăng hiệu suất hoạt động.

III. Giá trị và ứng dụng thực tiễn

Luận văn mang lại giá trị thực tiễn cao trong việc quản lý danh thiếp và tích hợp thông tin vào hệ thống liên lạc. Ứng dụng giúp người dùng tiết kiệm thời gian và công sức trong việc nhập liệu thủ công. Đồng thời, ứng dụng cũng mở ra hướng phát triển mới trong lĩnh vực công nghệ di động và tự động hóa. Kết quả nghiên cứu có thể được áp dụng rộng rãi trong các lĩnh vực như quản lý khách hàng, quản lý liên lạc, và tự động hóa quy trình làm việc.

3.1. Ứng dụng trong quản lý liên lạc

Ứng dụng giúp người dùng dễ dàng quản lý danh thiếp và tích hợp thông tin vào hệ thống liên lạc. Thông tin được phân loại và lưu trữ tự động, giúp người dùng truy xuất nhanh chóng và hiệu quả. Ứng dụng này đặc biệt hữu ích cho các doanh nghiệp cần quản lý lượng lớn thông tin liên lạc. Kết quả nghiên cứu cho thấy ứng dụng có khả năng nâng cao hiệu suất làm việc và giảm thiểu sai sót trong quy trình nhập liệu.

3.2. Hướng phát triển trong tương lai

Luận văn mở ra hướng phát triển mới trong lĩnh vực tự động hóa và công nghệ di động. Ứng dụng có thể được mở rộng để nhận dạng các loại văn bản khác nhau, như hóa đơn, hợp đồng, và tài liệu in ấn. Đồng thời, ứng dụng cũng có thể được tích hợp với các nền tảng quản lý khách hàng (CRM) để tối ưu hóa quy trình làm việc. Kết quả nghiên cứu cho thấy tiềm năng lớn trong việc ứng dụng công nghệ OCR vào các lĩnh vực khác nhau.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ tự động hóa thu thập thông tin trên danh thiếp xử lý trên nền ios

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ xử lý ảnh ngày càng phát triển và được ứng dụng rộng rãi trong nhiều lĩnh vực, việc nhận dạng ký tự quang học (OCR) trên thiết bị di động trở thành một nhu cầu thiết yếu. Theo ước tính, các ứng dụng xử lý ảnh trên điện thoại thông minh đã tăng trưởng mạnh mẽ trong thập kỷ qua, đặc biệt là các ứng dụng quét mã vạch, nhận diện khuôn mặt và đọc danh thiếp. Tuy nhiên, ứng dụng đọc danh thiếp trên nền tảng iOS vẫn còn hạn chế về số lượng và chất lượng, trong khi đây là một tính năng có tính hữu ích cao đối với người dùng doanh nhân và cá nhân.

Luận văn tập trung nghiên cứu và phát triển giải thuật thu thập thông tin trên danh thiếp, xử lý và nhận dạng ký tự trên nền tảng iOS, sử dụng ngôn ngữ lập trình XCode và thư viện mở Tesseract OCR. Mục tiêu cụ thể là xây dựng một ứng dụng có khả năng nhận dạng chính xác các ký tự tiếng Anh và tiếng Việt có dấu, phân biệt các trường thông tin như họ tên, số điện thoại, địa chỉ và lưu trữ dữ liệu hiệu quả. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 6/2013 đến tháng 6/2014 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả thu thập và xử lý thông tin trên danh thiếp, tiết kiệm thời gian cho người dùng, đồng thời mở rộng khả năng ứng dụng OCR trên nền tảng iOS, góp phần thúc đẩy phát triển các ứng dụng tự động hóa trong lĩnh vực thị giác máy tính và xử lý ảnh số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu về thị giác máy tính, xử lý ảnh số và nhận dạng ký tự quang học (OCR). Hai lý thuyết chính được áp dụng gồm:

Lý thuyết xử lý ảnh số: Bao gồm các khái niệm về phần tử ảnh (pixel), độ phân giải ảnh, không gian màu (RGB, HSV, YCbCr), và các kỹ thuật tiền xử lý ảnh như chuyển đổi ảnh màu sang ảnh xám, phân ngưỡng ảnh, cân bằng lược đồ mức xám, làm mỏng và lọc khung ảnh. Các kỹ thuật này giúp loại bỏ nhiễu, tăng cường độ tương phản và chuẩn hóa ảnh đầu vào để nâng cao độ chính xác nhận dạng.
Mô hình nhận dạng ký tự quang học (OCR): Quá trình OCR gồm các bước quét ảnh, tiền xử lý, chiết xuất nét đặc trưng, so sánh với cơ sở dữ liệu và nhận dạng. Các thuật toán nhận dạng ký tự được xây dựng dựa trên hai phương pháp chính: ma trận điều hợp (matrix matching) và chọn lọc nét đặc trưng (feature extraction). Luật học lan truyền ngược (backpropagation) trong mạng thần kinh nhân tạo được sử dụng để huấn luyện mô hình nhận dạng, giúp cải thiện độ chính xác và khả năng thích nghi với các phông chữ và kiểu chữ khác nhau.

Các khái niệm chuyên ngành quan trọng bao gồm: phân ngưỡng toàn cục và cục bộ, cân bằng và so khớp lược đồ mức xám, làm mỏng ảnh, lọc trung vị, bộ lọc Gabor, mạng thần kinh đa lớp (MLP), cây tiền tố (Trie), biểu đồ từ có hướng không tuần hoàn (DAWG), và thuật toán SVM cho phân loại.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm hình ảnh danh thiếp được chụp từ camera điện thoại iPhone, với các đặc điểm đa dạng về font chữ, màu sắc, độ tương phản và bố cục. Cỡ mẫu nghiên cứu khoảng vài trăm ảnh danh thiếp thu thập tại TP. Hồ Chí Minh và một số địa phương khác.

Phương pháp phân tích gồm:

Tiền xử lý ảnh: Chuyển đổi ảnh màu sang ảnh xám, phân ngưỡng ảnh để tạo ảnh nhị phân, cân bằng lược đồ mức xám để tăng cường độ tương phản, làm mỏng và lọc khung để chuẩn hóa hình dạng ký tự.
Chiết xuất nét đặc trưng: Sử dụng các phương pháp chiết xuất nét đặc trưng chung và cục bộ dựa trên độ dốc ảnh, mặt nạ Sobel, và bộ lọc Gabor để tạo vector đặc trưng cho từng ký tự.
Huấn luyện và nhận dạng: Áp dụng mạng thần kinh đa lớp với thuật toán lan truyền ngược để huấn luyện mô hình nhận dạng ký tự, kết hợp với cấu trúc dữ liệu cây tiền tố và DAWG để tối ưu hóa việc tìm kiếm và phân loại từ vựng.
Phân tích và tách lọc dữ liệu: Dữ liệu ký tự sau khi nhận dạng được phân loại theo các trường thông tin như tên, số điện thoại, địa chỉ, và lưu trữ vào bộ nhớ thiết bị.

Timeline nghiên cứu kéo dài từ tháng 6/2013 đến tháng 6/2014, bao gồm các giai đoạn thu thập dữ liệu, xây dựng giải thuật, lập trình ứng dụng trên nền iOS, kiểm nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả tiền xử lý ảnh: Qua thử nghiệm trên khoảng 200 ảnh danh thiếp, phương pháp phân ngưỡng toàn cục kết hợp cân bằng lược đồ mức xám giúp tăng độ chính xác nhận dạng ký tự lên đến 85%, so với 70% khi không áp dụng tiền xử lý. Việc làm mỏng và lọc khung ảnh giúp giảm nhiễu và chuẩn hóa hình dạng ký tự, nâng cao độ chính xác nhận dạng thêm khoảng 7%.
Độ chính xác nhận dạng ký tự: Mô hình mạng thần kinh đa lớp huấn luyện bằng thuật toán lan truyền ngược đạt độ chính xác nhận dạng ký tự viết tay và in ấn trên danh thiếp khoảng 88%, cao hơn 10% so với các phương pháp truyền thống dựa trên ma trận điều hợp. Việc sử dụng bộ lọc Gabor và chiết xuất nét đặc trưng cục bộ giúp cải thiện khả năng nhận dạng các ký tự có dấu tiếng Việt.
Phân loại và tách lọc thông tin: Thuật toán phân tích và tách lọc dữ liệu theo các trường thông tin (họ tên, số điện thoại, địa chỉ) đạt tỷ lệ chính xác khoảng 90%, giúp ứng dụng có thể lưu trữ và quản lý thông tin hiệu quả trên thiết bị iPhone.
Khả năng vận hành trên nền iOS: Ứng dụng được lập trình bằng XCode và tích hợp thư viện Tesseract OCR hoạt động ổn định trên iPhone 5 trở lên, với thời gian xử lý trung bình mỗi ảnh danh thiếp dưới 3 giây, đáp ứng yêu cầu sử dụng thực tế.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc kết hợp các kỹ thuật tiền xử lý ảnh như phân ngưỡng, cân bằng lược đồ mức xám và làm mỏng ảnh là yếu tố then chốt để nâng cao độ chính xác nhận dạng ký tự trên ảnh danh thiếp. So với các nghiên cứu trước đây chủ yếu tập trung trên nền tảng Android hoặc máy tính để bàn, nghiên cứu này mở rộng ứng dụng OCR hiệu quả trên nền tảng iOS, một hệ điều hành đóng và khó can thiệp hơn.

Việc áp dụng mạng thần kinh đa lớp với thuật toán lan truyền ngược giúp mô hình có khả năng học và thích nghi với các biến thể phông chữ và kiểu chữ khác nhau, đặc biệt là các ký tự tiếng Việt có dấu, vốn là thách thức lớn trong nhận dạng ký tự. So sánh với các nghiên cứu về nhận dạng ký tự Devanagari hay Kannada, kết quả đạt được tương đương hoặc vượt trội nhờ sự tối ưu trong chiết xuất nét đặc trưng và huấn luyện mô hình.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện tỷ lệ chính xác nhận dạng ký tự trước và sau khi áp dụng các bước tiền xử lý, cũng như biểu đồ tròn phân bố tỷ lệ các trường thông tin được tách lọc thành công trên danh thiếp. Bảng so sánh thời gian xử lý và độ chính xác giữa các nền tảng iOS và Android cũng minh họa hiệu quả của giải pháp.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán tiền xử lý ảnh: Đề xuất áp dụng thêm các kỹ thuật phân ngưỡng cục bộ như phương pháp Niblack để xử lý các ảnh danh thiếp có độ sáng nền không đồng nhất, nhằm nâng cao độ chính xác nhận dạng trong các điều kiện ánh sáng phức tạp. Thời gian thực hiện trong 6 tháng, do nhóm phát triển phần mềm đảm nhận.
Mở rộng cơ sở dữ liệu huấn luyện: Thu thập và bổ sung thêm dữ liệu ký tự tiếng Việt đa dạng về font chữ, kích thước và kiểu dáng để huấn luyện mô hình mạng thần kinh, giúp cải thiện khả năng nhận dạng các ký tự đặc biệt và dấu tiếng Việt. Kế hoạch thực hiện trong 12 tháng, phối hợp với các trung tâm nghiên cứu và doanh nghiệp.
Phát triển giao diện người dùng thân thiện: Thiết kế giao diện ứng dụng trên iOS trực quan, hỗ trợ người dùng dễ dàng chụp ảnh danh thiếp, chỉnh sửa và lưu trữ thông tin, đồng thời tích hợp chức năng xuất dữ liệu sang các ứng dụng quản lý liên lạc. Thời gian thực hiện 4 tháng, do nhóm thiết kế UI/UX đảm nhận.
Nâng cao hiệu suất xử lý trên thiết bị di động: Tối ưu mã nguồn và sử dụng các kỹ thuật xử lý song song để giảm thời gian nhận dạng, đảm bảo ứng dụng hoạt động mượt mà trên các dòng iPhone phổ biến. Thời gian thực hiện 6 tháng, do nhóm phát triển phần mềm thực hiện.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Tự động hóa, Công nghệ thông tin, Khoa học máy tính: Có thể áp dụng các kiến thức về xử lý ảnh số, nhận dạng ký tự và mạng thần kinh nhân tạo trong các đề tài nghiên cứu và phát triển ứng dụng thực tế.
Các nhà phát triển phần mềm và kỹ sư công nghệ di động: Tham khảo để xây dựng hoặc cải tiến các ứng dụng OCR trên nền tảng iOS, đặc biệt trong lĩnh vực tự động hóa thu thập và xử lý dữ liệu từ hình ảnh.
Doanh nghiệp và cá nhân trong lĩnh vực quản lý dữ liệu khách hàng: Ứng dụng kết quả nghiên cứu để tự động hóa việc thu thập thông tin từ danh thiếp, tiết kiệm thời gian và nâng cao hiệu quả quản lý quan hệ khách hàng.
Các nhà nghiên cứu thị giác máy tính và trí tuệ nhân tạo: Sử dụng luận văn làm tài liệu tham khảo về các phương pháp tiền xử lý ảnh, chiết xuất đặc trưng và huấn luyện mạng thần kinh trong bài toán nhận dạng ký tự đa ngôn ngữ.

Câu hỏi thường gặp

Ứng dụng OCR trên iOS có ưu điểm gì so với Android?
Ứng dụng OCR trên iOS tận dụng được sự ổn định và bảo mật của hệ điều hành đóng, đồng thời tối ưu hóa hiệu suất trên phần cứng iPhone, giúp xử lý nhanh và chính xác hơn trong nhiều trường hợp thực tế.
Làm thế nào để xử lý các ký tự tiếng Việt có dấu trong OCR?
Việc xử lý ký tự tiếng Việt có dấu được thực hiện bằng cách xây dựng cơ sở dữ liệu huấn luyện đặc thù, kết hợp chiết xuất nét đặc trưng cục bộ và sử dụng mạng thần kinh đa lớp để nhận dạng chính xác các ký tự có dấu.
Phân ngưỡng toàn cục và phân ngưỡng cục bộ khác nhau như thế nào?
Phân ngưỡng toàn cục sử dụng một giá trị ngưỡng duy nhất cho toàn bộ ảnh, phù hợp với ảnh có độ sáng đồng đều. Phân ngưỡng cục bộ tính toán ngưỡng riêng cho từng vùng nhỏ, hiệu quả với ảnh có độ sáng nền không đồng nhất hoặc phức tạp.
Thời gian xử lý một ảnh danh thiếp trên iPhone là bao lâu?
Thời gian xử lý trung bình dưới 3 giây cho mỗi ảnh danh thiếp trên các dòng iPhone 5 trở lên, đảm bảo đáp ứng nhu cầu sử dụng thực tế của người dùng.
Có thể áp dụng giải thuật này cho các ngôn ngữ khác ngoài tiếng Việt và tiếng Anh không?
Có thể, tuy nhiên cần xây dựng lại cơ sở dữ liệu huấn luyện và điều chỉnh các bước tiền xử lý, chiết xuất đặc trưng phù hợp với đặc điểm ngôn ngữ và kiểu chữ của từng ngôn ngữ cụ thể.

Kết luận

Luận văn đã xây dựng thành công giải thuật thu thập và nhận dạng ký tự trên danh thiếp chạy trên nền tảng iOS, sử dụng thư viện Tesseract và ngôn ngữ lập trình XCode.
Các bước tiền xử lý ảnh như phân ngưỡng, cân bằng lược đồ mức xám và làm mỏng ảnh đóng vai trò quan trọng trong việc nâng cao độ chính xác nhận dạng.
Mạng thần kinh đa lớp với thuật toán lan truyền ngược giúp nhận dạng chính xác các ký tự tiếng Việt có dấu và tiếng Anh trên danh thiếp đa dạng.
Ứng dụng hoạt động ổn định trên iPhone với thời gian xử lý nhanh, phù hợp với nhu cầu thực tế của người dùng doanh nhân và cá nhân.
Đề xuất các hướng phát triển tiếp theo bao gồm tối ưu thuật toán, mở rộng cơ sở dữ liệu huấn luyện và cải tiến giao diện người dùng để nâng cao hiệu quả ứng dụng.

Khuyến khích các nhà nghiên cứu và phát triển phần mềm tiếp tục khai thác và ứng dụng các kết quả này để phát triển các giải pháp tự động hóa thông minh trên nền tảng di động.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TÔNG QUAN 1.1 Đặt vẫn đề Công nghệ xử lý ảnh ngày càng được ứng dụng rộng rãi trong cuộc sống. Ngoài các ứng dụng truyền thống như phục hồi, nâng cao chất lượng anh, các ứng dụng nhận dang, an ninh, điều khiến. ngày càng phố biến. Trước đây các ứng dụng xử lý ảnh thường chạy trên nên máy tính, nhưng từ khi công nghệ phần cứng phát triển các thế hệ điện thoại sau này có cau hình rất mạnh, các ứng dụng xử lý ảnh trên điện thoại xuất hiện càng nhiều.

Ứng dụng quét mã vạch, đọc barcode, nhận diện khuôn mặt, đọcdanh thiếp. đã có trên hầu hết các hệ điều hành của các hãng điện thoại khác nhau, nhưng trong đó ứng dụng đọcdanh thiếp là ứng dụng có tính hữu ích cao mà hau hết người dùng cần đến. Hiện nay ứng dụng đọcdanh thiếp trên điện thoại chưa có nhiều và chất lượng chưa cao, đặc biệt là ứng dụng chạy trên nên iOS, một mảng hệ điều hành có tiềm năng rất lớn. Vi thế nội dung dé tài này muốn xây dựng một ứng dụng đọc danh thiếp chạy trên nên iOS có thể đọc được các ký tự tiếng Anh lẫn tiếng Việt với kết quả nhận diện tốt nhất.2 Tông quan bài toán và các công trình liên quan Đề đọc được danh thiếp trước tiên ta phải nhập hình ảnh danh thiếp từ camera hoặc từ file ảnh, sau đó qua khâu tiền xử lý để loại bỏ các tác động của nhiễu và cuối cùng là nhận dang và phân tích các ký tự có trên nó rồi xử lý dé cho ra kết quả.

Van dé cốt lõi là nhận diện được các ký tự chữ và số trên đó. Sau đây là mô tả tổng quan và các công trình đã được công bó.10 Téng quan bài toán nhận dạng ký tự dùng xử lí ảnh 1.1 Khái niệm Nhận dang ký tựbằng hình ảnh, hay nhận dang ký tự quang học,thườngviết tắt làOCR. làviệc chuyến đồicơ khí hoặcđiện tử hình ảnh quétcủachữ viết tay, đánh máyhoặc inthanh văn ban, của các dạng chữ được mã hóa [I].Nó được sử dụngrộng rãi như làmột hình thứcnhập dữ liệutừ một sỐ nguồn dữ liệucơ bản như văn bản trên giấy, hóa đơn bán hàng, bưu điện, hoặcbất kỳsố hay ký tự đượcin ra.Nó là mộtphương pháp pho biến,số hóacác văn banindé có thé tìm kiếmbằng máy tính, lưu tritgonhon, hiến thịtrực tuyến, vàđược sử dụng trongqua trình dịch thuật, phát âm và khai thácvăn ban HVTH: PHẠM CAO SƠN 4 LUẬN VĂN THẠC SI. TRƯƠNG DINH CHAU [9].

OCRlà mộtlĩnh vực nghiên cứutrong nhận dạng mẫu, trí tuệ nhân taovathi giác máy tính [1],[9],[10]. Trước day, phương pháp naycan phải đượclập trình vớihình ảnh củatừng ky tự,và làm việctrêntừng phông chữ chữtại mỗi thời điểm. Những hệ thống thông minh bậc cao nhận dạng chính xác phần lớn các phông chữ hiện nay[9]. Một số hệ thống có thé tao lại hình dạng của ký tự nhận dạng giống như đữ liệu sốc, bao gom hinh anh va cac thanh phan không phải là van bản.

Trước kia, việc nhận dang ky tự được su dụng nhiều trong hai lĩnh vực chính: mở rộng trong điện báo và thiết bị dùng cho người mu [8]. Nhận dang ký tự v¿ Sy Nhận dạng một Nhận dạng lần liên tục ` St Văn bản viết Ký tự đơn tay L Bite I WS Viét tay yee Hiệu chỉnh Hình 1.1 Những thành phan chính của nhận dang ký tự 1.2 Ứng dụng OCR có thể được dùng cho: — Dữ liệu trong kinh doanh, ví dụ như kiểm tra thanh toán bù trừ. — Nhận dạng biên so. — Nhập thông tin từ thẻ kinh doanh (danh thiếp, business card) vào danh sách liên lạc.

— Chuyên đôi nhanh hon sang dang văn bản lưu trữ điện tử đôi với các loại văn ban in, ví dụ như sách điện tử cho dự án Guternbeg. — Tạo hình ảnh điện tử cho tài liệu in ân, có thê tìm kiêm được, vi dụ : “Google books’’. HVTH: PHAM CAO SON LUẬN VĂN THẠC SI. TRƯƠNG DINH CHAU — Chuyển đôi chữ viết tay trong thời gian thực dé giám sát, điều khiển máy tính.

— Các giao dịch thương mại và hệ thống mã nguồn mở OCR có sẵn cho các hệ thống chữ viet bao gôm các tiêng Latin, A Rap, Cyrillic, Do Thái, An Độ, ký tự Trung Quốc, Nhật Ban và Han Quoc.3 Phân loại Nhận dạng ký tự quang hoc (Optical Character Recognition): mục tiêu là nhận dạng văn bản đánh máy, một nét chạm khắc hoặc một ký tự tại một thời điểm. Nhận dạng chữ quang hoc (Optical Word Recognition): mục tiêu là văn bản đánh máy, một từ tại một thời điểm, dùng cho các loại ngôn ngữ dùng khoảng trắng để phân tách các từ với nhau. như “Tiếng Viet”. Nhận dạng ký tự thong minh (Intelligent Character Recognition): cũng có mục tiêu là nhận dạng chữ viết tay, văn bản In ân, hoặc một nét chạm khắc của chữ viết hay một ký tự tại một thời điểm; thường liên quan đến một cơ cau dùng để học.

Mạng thần kinh nhân tạo được tạo ra cho cả biến đôi tuyến tính và phi tuyến. Nhận dạngchữthông minh(Intelligent Word Recognition): mục tiêu là các văn bản viết tay hoặc các bản thảo; rất hiệu quả đối với các loại ngôn ngữ mà các nét không tách ra trong các ban thao [8]. OCR thường là quá trình gián tiếp, phân tích các văn bản tĩnh. Phân tích chuyến động khi viết chữ có thể làm dữ liệu đầu vào cho việc nhận dạng chữ viết.

Thay vì chỉ đơn thuần sử dụng các hình khối của các nét và từ, kỹ thuật này có thé bắt được chuyển dong, ví dụ như thứ tự từng đoạn được vẽ ra, hướng nét vẽ, và các hình mẫu mỗi lần đặt bút xuống và nhấc lên. Kỹ thuật này còn được biết đến dưới các tên gọi khác như: “nhận dạng ký tự trực tiếp”, “nhận dạng ký tự thời gian thực”, “nhận dạng ký tự động”, “nhận dang ký tự thông minh” [1].2 Kỹ thuật nhận dạng OCR bao gồm các bước cơ bản sau “ Quét ảnh Phân Tiền xử quang khúc cục lý ảnh học bộ yan y Nhận Chiết Xuat ket dang, xuat nét qua hậu xử đặc 9Qs lý ¥ trun 8 Hình 1.2 Sơ đô khối của quá trình OCR HVTH: PHẠM CAO SƠN 6 LUẬN VĂN THẠC SI. TRƯƠNG DINH CHAU Trong đó: 1.1 Tiền xử lí (preprocessing) Các chương trình OCR thường có bước “tiền xử lí” dé tăng cơ hội thành công cho việc nhận dạng: — Chỉnh góc nghiêng: nếu tài liệu trong quá trình quét ảnh bị lệch thì phải chỉnh lại vai độ theo chiêu kim dong hô hoặc ngược chiêu kim dong hô đề các dòng văn bản theo đúng các phương ngang hay dọc. — Giảm đốm: loại bỏ những điểm tích cực và tiêu cực làm min các cạnh.

— Nhị phân hóa-Chuyền đồihình ảnh từmàu hoacmau xámsang màu đenvà trắng(gọi là "hình ảnh nhị phan", vico hai màu sắc). Trongmot số trường hợp, điều nảy lacan thiếtcho các thuật toánnhận dạng ký tự; tuy nhiên trong những trường hợp khác,các thuật toánthực hiện tốt hơntrênhình ảnh ban đầuvàbước nàyđược bỏ qua. — Loại bỏ dòng: loại bỏ những vùng không có nét và dòng. — Phân tích theo lớp hoặc phan vùng: xác địnhcột, phan đoạn, chú thích,v.

nhucac khôikhác nhau.Đặc biệt quan trongtrongcac lớpnhiêu cột vabang. — Đườngvà phat hiệntừ: ước lượng các đường cơ ban cho từ và hình khối các ký tự,táchtừ nêucân thiết [1]. — Cách lyký tựhay"phân đoạn": đối với mỗi ký tự trong OCR, rất nhiều ký tự được kết nôi với nhau vì ảnh của chữ can nhận dạng được tach ra; môi chữ cái hoặc từ sẽ được chia làm nhiêu mảnh nhỏ roi sau đó sẽ được ghép lại. — Chỉnh lại theo khung kích thước mong muốn.

Việc phân đoạn các phông chữ sao cho ăn khớp nhau được thực hiện tương đối đơn giản bằng cách sắp xếp hình ảnh vào một lưới đều nhau đặt trên đường lưới dọc, nơi ít đường giao cắt với khu vực mảu đen. Đối với các phông theo tỷ lệ, các kỹ thuật phức tạp hơn sẽ được sử dụng bởi vì khoảng trăng giữa các chữ cái đôi khi lớn hơn khoảng trắng giữa các từ và các đường phân chia theo trục doc sẽ giao cắt nhiều hơn một từ [1].2 Nhận dạng ký tự Cốt lõi của thuật toán OCR có hai loại cơ bản [1]: Ma trận điều hợp (matrix matching): bao gồm việc so sánh một hình ảnh với các nét được lưu giữ trong từng điểm ảnh cơ bản có sẵn; nó còn được biết đến với tên gọi “mô hình phù hợp” hay “mô hình nhận dạng”. Điều này dựa trên các nét đầu vào phải chính xác, tách biệt với phần còn lại của hình ảnh và khớp với các nét được lưu trữ trong các phông chữ quen thuộc, cùng kích thước. Kỹ thuật này hiệu quả nhất với các văn bản đánh máy nhưng lại kém chính xác khi xuất hiện phông chữ mới.

HVTH: PHẠM CAO SƠN 7 LUẬN VĂN THẠC SI. TRƯƠNG DINH CHAU Chọn lọc nét đặc trưng (feature extraction): là tách rời những nét đặc biệt như là những đoạn thăng, vòng kín, hướng đường thăng, và những đoạn giao cắt nhau. Những chỉ tiết trên sẽ được so sánh với một vector rút gon; vector này tái hiện toàn bộ đặc tinh của ký tự, có thể được tinh øiảm xuống còn một hoặc một vài nét nguyên mẫu. Kỹ thuật chung đối với việc phát hiện nét đặc trưng trong thị giác máy tính là sử dụng loại OCR này; thường được thấy nhiều nhất trong nhận dạng thông minh chữ viết tay và hiện nay được ứng dụng rộng rãi nhất trong các phần mềm nhận dạng tiên tiến nhất.

Phan lớplân cậngiông nhấtthuật toánk — các thuật toán lân cận giống nhất được dùng dé so sánh đặc tính của hình ảnh với những nét đặc trưng đã được lưu giữ và chọn ra nét giống nhiều nhất. Nhiều chương trình sử dụng cách tiếp cận hai bước chuyển để nhận dạng ký tự. Trong đó, bước chuyền thứ hai là nhận dạng thích nghi, sử dụng hình khối của ký tự để nhận dạng với độ tin cậy cao ở bước thứ nhất, để nhận dạng tốt hơn ở bước thứ hai; từ đó nhận dạng chính xác ký tự. Điều này cực kì thuận lợi với những phông chữ khác thường hoặc là những bức anh chất lượng kém với phông chữ bị mờ, méo dang [1].3 Hậu xứ lí Độ chính xác của thuật toán OCR có thể được tăng lên nếu đầu ra bị ràng buộc bởi một từ điển, đanh sách các từ có thể được sử dụng trong một tài liệu.

Điều này hoàn toàn thực hiện được, ví dụ, tất cả các từ trong tiếng Anh hoặc từ chuyên môn trong một lĩnh vực đặc biệt nào đó. Tuy nhiên, kỹ thuật này sẽ gặp van đề néu như văn bản chứa những từ không có trong từ điển, ví dụ như tên riêng. Do vậy, một số chương trình sử dụng từ điển của nó tác động lên bước phân đoạn ky tu, và từ đó nâng cao độ chính xác [1].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ: Tự Động Hóa Thu Thập Thông Tin Danh Thiếp Trên Nền iOS là một nghiên cứu chuyên sâu về việc ứng dụng công nghệ để tự động hóa quá trình thu thập và quản lý thông tin từ danh thiếp trên hệ điều hành iOS. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về các giải pháp kỹ thuật mà còn đề xuất các phương pháp tối ưu hóa hiệu quả trong việc xử lý dữ liệu, giúp người dùng tiết kiệm thời gian và nâng cao năng suất làm việc. Đây là nguồn tài liệu hữu ích cho các nhà phát triển ứng dụng, chuyên gia công nghệ thông tin, và những người quan tâm đến việc cải thiện quy trình quản lý thông tin cá nhân hoặc doanh nghiệp.

Để mở rộng kiến thức về quản lý thông tin và ứng dụng công nghệ, bạn có thể tham khảo thêm Tiểu luận báo cáo cấu trúc dữ liệu và giải thuật đề tài đề 2214 xây dựng cấu trúc quản lý thông tin các khoa, nghiên cứu về cách xây dựng hệ thống quản lý thông tin hiệu quả. Ngoài ra, Luận văn thạc sĩ hệ thống thông tin quản lý nghiên cứu và ứng dụng tính di động của dịch vụ mLearning cung cấp góc nhìn mới về việc tích hợp công nghệ di động vào quản lý thông tin. Cuối cùng, Tiểu luận tốt nghiệp đề tài quản lý và cảnh báo thông tin sinh viên bằng máy quét vân tay là một ví dụ thực tế về ứng dụng công nghệ trong quản lý thông tin. Hãy khám phá các tài liệu này để có cái nhìn toàn diện hơn về chủ đề!

#Luận văn Thạc sĩ

#công nghệ nhận dạng

#tự động hóa thu thập thông tin

#xử lý thông tin danh thiếp

#nền tảng iOS

#phần mềm quản lý danh thiếp

Chủ đề

Nghiên cứu khoa học máy tính

Quản lý thông tin

tự động hóa công nghệ

phát triển ứng dụng iOS