Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu

Chuyên khảo kỹ thuật phân tích Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp

Trường đại học

Trường Đại Học Công Nghiệp Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Khái quát vấn đề

1.2. Tập dữ liệu đầu vào

1.3. Phương hướng giải quyết

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Mạng thần kinh tích chập

2.1.1. Mạng thần kinh

2.1.2. Mạng thần kinh tích chập

2.2. Nhận diện đối tượng

2.3. Giới thiệu một số lớp mô hình R-CNN

2.4. Giới thiệu về YOLO

2.5. Một số phiên bản YOLO

2.6. So sánh giữa YOLOv8 và Faster RCNN

2.6.1. Kiến trúc mô hình

2.6.2. Đánh giá hiệu suất

2.7. Các thông số đánh giá mô hình

3. CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU

3.1. Giới thiệu về dữ liệu

3.2. Xử lý dữ liệu

3.3. Tiến hành huấn luyện

3.4. Kết quả huấn luyện mô hình

3.4.1. Mô hình YOLOv8n

3.4.2. Mô hình YOLOv8m

3.4.3. Mô hình YOLOv81

3.5. Kết quả so sánh giữa ba mô hình của YOLO

3.6. Quy trình xây dựng và triển khai mô hình

3.6.1. Các bước thực hiện

3.6.2. Triển khai mô hình, ứng dụng

4. KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

Tóm tắt

I. Giới thiệu Ứng dụng Trích xuất Thông tin từ Danh thiếp

Trong kỷ nguyên số hóa, danh thiếp vẫn đóng vai trò quan trọng trong giao tiếp kinh doanh. Tuy nhiên, việc nhập liệu thủ công thông tin từ danh thiếp vào hệ thống quản lý là một quá trình tốn thời gian và dễ xảy ra sai sót. Ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu ra đời nhằm giải quyết vấn đề này. Ứng dụng này tự động hóa quá trình trích xuất, giúp tiết kiệm thời gian và nâng cao hiệu quả quản lý thông tin liên lạc. Việc phát triển ứng dụng dựa trên học sâu mở ra khả năng áp dụng các công nghệ tiên tiến vào một vấn đề thực tế, kết hợp giữa trích xuất dữ liệu, xử lý ảnh, và xử lý ngôn ngữ tự nhiên. Luận văn của Từ Ngọc Trường (2024) tập trung vào xây dựng một ứng dụng thực tế và hiệu quả, thúc đẩy các kỹ thuật học sâu để trích xuất thông tin tự động từ danh thiếp.

1.1. Tầm quan trọng của Tự động hóa Nhập liệu Danh thiếp

Tự động hóa nhập liệu danh thiếp giúp các doanh nghiệp tiết kiệm chi phí và thời gian. Thay vì phải nhập liệu thủ công, nhân viên có thể tập trung vào các công việc quan trọng hơn. Việc tự động hóa nhập liệu danh thiếp cũng giúp giảm thiểu sai sót, đảm bảo tính chính xác của dữ liệu. Hơn nữa, dữ liệu được số hóa dễ dàng truy cập và chia sẻ hơn, hỗ trợ các hoạt động kinh doanh hiệu quả.

1.2. Ứng dụng Trích xuất Thông tin Danh thiếp và Học sâu

Ứng dụng trích xuất thông tin danh thiếp sử dụng học sâu là một giải pháp thông minh và hiệu quả. Học sâu cho phép ứng dụng học hỏi từ dữ liệu lớn và tự động cải thiện độ chính xác theo thời gian. Ứng dụng có thể xử lý nhiều định dạng danh thiếp khác nhau, kể cả những định dạng phức tạp và không tuân theo một khuôn mẫu nhất định. Công nghệ này sử dụng computer vision để nhận dạng và xử lý ảnh danh thiếp.

II. Thách thức Trích xuất Thông tin từ Danh thiếp Chính xác

Mặc dù có nhiều lợi ích, việc trích xuất thông tin từ danh thiếp cũng đối mặt với một số thách thức đáng kể. Các phương pháp OCR danh thiếp truyền thống thường gặp khó khăn trong việc xử lý các danh thiếp có thiết kế phức tạp, font chữ khác thường hoặc chất lượng hình ảnh kém. Ngoài ra, sự đa dạng về ngôn ngữ và định dạng thông tin trên danh thiếp cũng đặt ra một thách thức lớn cho các hệ thống trích xuất tự động. Độ chính xác của OCR chính xác cao là yếu tố then chốt để đảm bảo thông tin được trích xuất là đúng đắn.

2.1. Vấn đề Độ chính xác của OCR Danh thiếp Truyền thống

Các phương pháp OCR danh thiếp truyền thống thường dựa trên các quy tắc và mẫu cố định, do đó dễ bị sai sót khi gặp các danh thiếp có thiết kế khác biệt. Ví dụ, các danh thiếp sử dụng font chữ cách điệu hoặc có bố cục phức tạp có thể gây khó khăn cho các hệ thống OCR truyền thống. Hơn nữa, chất lượng hình ảnh kém, chẳng hạn như ảnh bị mờ hoặc thiếu sáng, cũng có thể ảnh hưởng đến độ chính xác của nhận diện ký tự quang học danh thiếp.

2.2. Đa dạng Ngôn ngữ và Định dạng Thông tin Danh thiếp

Danh thiếp có thể chứa thông tin bằng nhiều ngôn ngữ khác nhau, từ tiếng Anh, tiếng Việt đến tiếng Nhật, tiếng Trung,... Mỗi ngôn ngữ lại có các ký tự và quy tắc viết khác nhau, đòi hỏi các hệ thống OCR đa ngôn ngữ phải có khả năng xử lý linh hoạt. Ngoài ra, định dạng thông tin trên danh thiếp, chẳng hạn như số điện thoại, email, địa chỉ, cũng có thể khác nhau tùy theo quốc gia và khu vực. Việc chuẩn hóa dữ liệu chuẩn hóa dữ liệu danh thiếp sau khi trích xuất là một bước quan trọng để đảm bảo tính nhất quán và khả năng sử dụng của thông tin.

III. Phương pháp Học sâu YOLOv8 cho Trích xuất Danh thiếp

Để vượt qua những thách thức trên, luận văn sử dụng mô hình YOLOv8 (You Only Look Once) - một kiến trúc học sâu tiên tiến, để phát hiện và trích xuất thông tin từ danh thiếp. YOLOv8 có khả năng xử lý ảnh nhanh chóng và chính xác, đồng thời có thể học hỏi từ dữ liệu lớn để cải thiện hiệu suất theo thời gian. Mô hình này được kết hợp với thư viện Tesseract OCR để trích xuất văn bản từ các vùng được phát hiện. YOLOv8 giúp xác định vị trí của các thông tin quan trọng, sau đó Tesseract OCR sẽ đọc và chuyển đổi thành văn bản.

3.1. Ưu điểm của YOLOv8 trong Phát hiện Đối tượng Danh thiếp

YOLOv8 là một mô hình phát hiện đối tượng mạnh mẽ, có khả năng xử lý ảnh với tốc độ cao và độ chính xác cao. Mô hình này có thể phát hiện nhiều đối tượng khác nhau trong một ảnh, bao gồm cả các thông tin quan trọng trên danh thiếp như tên, số điện thoại, email, và địa chỉ. So với các mô hình phát hiện đối tượng khác, YOLOv8 có ưu điểm là đơn giản, dễ huấn luyện và triển khai.

3.2. Kết hợp YOLOv8 và Tesseract OCR để Trích xuất Văn bản

Sau khi YOLOv8 phát hiện và xác định vị trí của các thông tin quan trọng trên danh thiếp, thư viện Tesseract OCR được sử dụng để trích xuất văn bản từ các vùng được phát hiện. Tesseract OCR là một thư viện OCR mã nguồn mở, có khả năng nhận dạng văn bản từ nhiều ngôn ngữ khác nhau. Việc kết hợp YOLOv8 và Tesseract OCR giúp tạo ra một hệ thống trích xuất thông tin danh thiếp hoàn chỉnh, có khả năng tự động hóa quá trình xử lý thông tin.

IV. Huấn luyện và Đánh giá Mô hình Học sâu YOLOv8 Danh thiếp

Để đảm bảo hiệu suất của ứng dụng, mô hình YOLOv8 cần được huấn luyện trên một tập dữ liệu lớn và đa dạng. Luận văn sử dụng một tập dữ liệu gồm 1330 ảnh danh thiếp với nhiều định dạng và ngôn ngữ khác nhau. Sau khi huấn luyện, mô hình được đánh giá bằng các chỉ số như độ chính xác (accuracy), độ thu hồi (recall), và F1-score. Quá trình huấn luyện mô hình đóng vai trò quyết định đến khả năng trích xuất OCR chính xác cao.

4.1. Thu thập và Xử lý Dữ liệu Huấn luyện Mô hình

Việc thu thập dữ liệu huấn luyện là một bước quan trọng trong quá trình xây dựng ứng dụng. Dữ liệu huấn luyện cần phải đa dạng và đại diện cho các loại danh thiếp khác nhau mà ứng dụng có thể gặp phải trong thực tế. Dữ liệu được thu thập thủ công từ các hình ảnh danh thiếp của các công ty, từ các hội chợ triển lãm, tờ rơi danh thiếp quảng cáo. Ảnh phải rõ, được chụp chính diện. Ảnh gốc có thể được xử lý trước để cải thiện chất lượng, chẳng hạn như tăng độ tương phản, giảm nhiễu, hoặc xoay ảnh cho đúng hướng.

4.2. Các Chỉ số Đánh giá Hiệu suất Mô hình YOLOv8

Hiệu suất của mô hình YOLOv8 được đánh giá bằng các chỉ số như độ chính xác (accuracy), độ thu hồi (recall), và F1-score. Độ chính xác đo lường tỷ lệ các dự đoán đúng so với tổng số dự đoán. Độ thu hồi đo lường tỷ lệ các đối tượng thực tế được phát hiện chính xác. F1-score là trung bình điều hòa của độ chính xác và độ thu hồi, cung cấp một đánh giá tổng quan về hiệu suất của mô hình. Bảng 2.1 so sánh hiệu suất của mô hình YOLOv8 với Faster R-CNN.

V. Kết quả và Ứng dụng Thực tế của Ứng dụng Danh thiếp

Kết quả nghiên cứu cho thấy ứng dụng trích xuất thông tin từ danh thiếp sử dụng YOLOv8 và Tesseract OCR đạt được độ chính xác cao trong việc trích xuất thông tin từ danh thiếp. Ứng dụng có thể được sử dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như quản lý quan hệ khách hàng (CRM), quản lý liên hệ, và tự động hóa quy trình kinh doanh. Sự ra đời của phần mềm trích xuất thông tin danh thiếp giúp tiết kiệm thời gian và chi phí.

5.1. Độ chính xác và Tốc độ của Ứng dụng Trích xuất Thông tin

Ứng dụng đạt được độ chính xác cao trong việc nhận dạng tên từ danh thiếp, nhận dạng số điện thoại từ danh thiếp, và nhận dạng email từ danh thiếp. Tốc độ trích xuất thông tin cũng rất nhanh chóng, cho phép xử lý một lượng lớn danh thiếp trong thời gian ngắn. Điều này giúp các doanh nghiệp tiết kiệm thời gian và chi phí, đồng thời nâng cao hiệu quả quản lý thông tin liên lạc.

5.2. Ứng dụng trong Quản lý Quan hệ Khách hàng CRM

Ứng dụng có thể được tích hợp vào các hệ thống CRM để tự động cập nhật thông tin liên lạc của khách hàng. Khi một danh thiếp mới được quét, ứng dụng sẽ tự động trích xuất thông tin và thêm vào cơ sở dữ liệu CRM. Điều này giúp các doanh nghiệp quản lý thông tin khách hàng hiệu quả hơn và cải thiện chất lượng dịch vụ.

VI. Kết luận và Hướng phát triển cho Ứng dụng Học sâu

Luận văn đã trình bày một phương pháp hiệu quả để trích xuất thông tin từ danh thiếp bằng cách sử dụng kỹ thuật học sâu. Ứng dụng được xây dựng dựa trên mô hình YOLOv8 và thư viện Tesseract OCR đạt được độ chính xác cao và có thể được ứng dụng trong nhiều lĩnh vực khác nhau. Trong tương lai, có thể nghiên cứu và phát triển thêm các tính năng mới cho ứng dụng, chẳng hạn như hỗ trợ nhiều ngôn ngữ hơn, cải thiện khả năng xử lý các danh thiếp có thiết kế phức tạp, và tích hợp với các dịch vụ đám mây. Hướng đến xây dựng một hệ thống AI danh thiếp toàn diện.

6.1. Tóm tắt Kết quả Nghiên cứu và Đóng góp của Luận văn

Luận văn đã thành công trong việc xây dựng một ứng dụng trích xuất thông tin từ danh thiếp sử dụng học sâu. Ứng dụng đạt được độ chính xác cao và có thể được ứng dụng trong nhiều lĩnh vực khác nhau. Luận văn đóng góp vào lĩnh vực nghiên cứu về OCR danh thiếp và nhận diện ký tự quang học danh thiếp, đồng thời cung cấp một giải pháp thực tế cho việc tự động hóa quá trình quản lý thông tin liên lạc.

6.2. Hướng Nghiên cứu và Phát triển trong Tương lai

Trong tương lai, có thể nghiên cứu và phát triển thêm các tính năng mới cho ứng dụng, chẳng hạn như hỗ trợ nhiều ngôn ngữ hơn, cải thiện khả năng xử lý các danh thiếp có thiết kế phức tạp, và tích hợp với các dịch vụ đám mây. Ngoài ra, có thể nghiên cứu sử dụng các mô hình học sâu khác để cải thiện hiệu suất của ứng dụng, chẳng hạn như các mô hình Transformer. Nghiên cứu thêm về xử lý danh thiếp hàng loạt.

21/05/2025

Bạn đang xem trước tài liệu:

Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh kinh doanh hiện đại, danh thiếp vẫn giữ vai trò quan trọng trong việc kết nối và chia sẻ thông tin liên lạc. Tuy nhiên, việc chuyển đổi thông tin từ danh thiếp sang định dạng số thường tốn nhiều thời gian và dễ phát sinh sai sót khi thực hiện thủ công. Theo ước tính, có khoảng 1330 ảnh danh thiếp được thu thập và xử lý trong nghiên cứu này nhằm phát triển một giải pháp tự động trích xuất thông tin chính xác và hiệu quả. Mục tiêu cụ thể của luận văn là xây dựng một ứng dụng sử dụng kỹ thuật học sâu, kết hợp mô hình YOLOv8 để phát hiện vị trí các trường thông tin quan trọng như tên, điện thoại, email, địa chỉ trên danh thiếp, sau đó sử dụng thư viện Tesseract OCR để trích xuất văn bản từ các vùng đã xác định. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ các công ty, hội chợ triển lãm và các nguồn trực tuyến tại thành phố Hồ Chí Minh trong năm 2023. Ý nghĩa của đề tài nằm ở việc tự động hóa quy trình thu thập và quản lý thông tin danh thiếp, giúp tiết kiệm thời gian, giảm thiểu sai sót và nâng cao hiệu quả quản lý dữ liệu trong các hệ thống CRM và ứng dụng quản lý liên hệ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng thần kinh tích chập (CNN) và nhận diện đối tượng (Object Detection). CNN là mô hình học sâu hiệu quả trong việc xử lý dữ liệu hình ảnh, với các lớp tích chập giúp trích xuất đặc trưng từ ảnh. Nhận diện đối tượng là nhiệm vụ xác định vị trí và phân loại các đối tượng trong ảnh, được thực hiện qua các mô hình như R-CNN, Fast R-CNN, Faster R-CNN và YOLO. Trong đó, YOLO (You Only Look Once) là mô hình một giai đoạn, cho phép phát hiện đối tượng nhanh và chính xác trong một lần xử lý ảnh. Phiên bản YOLOv8 được sử dụng trong nghiên cứu có nhiều cải tiến về kiến trúc như tinh chỉnh phần Stem, Bottleneck, Backbone (khối C2f thay cho C3), Neck và hàm mất mát, giúp tăng độ chính xác và hiệu suất xử lý. Ngoài ra, thư viện Tesseract OCR được áp dụng để trích xuất văn bản từ các vùng ảnh đã được phát hiện, với quy trình gồm tiền xử lý ảnh, phân tích thành phần kết nối, cấu trúc dòng văn bản, phân đoạn từ và nhận dạng ký tự.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là 1330 ảnh danh thiếp thu thập thủ công từ các công ty, hội chợ triển lãm, tờ rơi quảng cáo và các nguồn trực tuyến. Dữ liệu được phân chia thành tập huấn luyện gồm 1064 ảnh và tập đánh giá gồm 266 ảnh, với các nhãn gồm bốn lớp: Name (986 nhãn), Email (902 nhãn), Phone (1594 nhãn), Address (1149 nhãn). Phương pháp chọn mẫu là chọn các ảnh rõ nét, chụp chính diện, không bị mờ hoặc biến dạng. Quá trình xử lý dữ liệu bao gồm tiền xử lý ảnh như xoay, điều chỉnh độ sáng, giảm nhiễu và loại bỏ ảnh lỗi. Mô hình YOLOv8 được huấn luyện trên nền tảng Google Colab với GPU Tesla T4, CPU 2 cores, sử dụng ba phiên bản YOLOv8n, YOLOv8m và YOLOv8l với các tham số như kích thước ảnh 640x640, batch size 16, tốc độ học 0.937, số vòng huấn luyện 100 epochs. Kết quả huấn luyện được đánh giá qua các chỉ số Accuracy, Precision, Recall, F1-score và mAP@50. Sau khi phát hiện vị trí các trường thông tin, ảnh được cắt nhỏ và tiền xử lý để tăng độ rõ nét trước khi đưa vào Tesseract OCR trích xuất văn bản. Ứng dụng được xây dựng trên nền tảng Flask, hỗ trợ giao diện web và tích hợp RESTful API để triển khai mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình YOLOv8n: Mô hình đạt Precision trung bình khoảng 80.2%, Recall đạt 89.5% cho lớp Name, mAP@50 đạt 95%, cho thấy khả năng phát hiện vị trí các trường thông tin trên danh thiếp rất tốt. Confusion Matrix cho thấy tỷ lệ dự đoán đúng lần lượt là 90% (Name), 87% (Email), 87% (Phone), 87% (Address).
So sánh các phiên bản YOLOv8: Phiên bản YOLOv8m và YOLOv8l có độ chính xác cao hơn YOLOv8n nhưng thời gian xử lý lâu hơn. Mô hình YOLOv8 đạt mAP@50 là 0.62 với độ trễ GPU chỉ 1.3ms, vượt trội so với Faster R-CNN với mAP@50 là 0.41 và độ trễ 54ms.
Độ chính xác trích xuất văn bản: Việc kết hợp YOLOv8 với Tesseract OCR giúp trích xuất chính xác các thông tin như tên, số điện thoại, email và địa chỉ từ các vùng ảnh đã phát hiện, giảm thiểu sai sót so với phương pháp OCR truyền thống.
Tính đa dạng dữ liệu: Tập dữ liệu đa dạng với nhiều định dạng danh thiếp, kích thước và kiểu chữ khác nhau, giúp mô hình có khả năng tổng quát hóa tốt trong thực tế.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do sự kết hợp giữa khả năng phát hiện đối tượng chính xác của YOLOv8 và khả năng nhận dạng ký tự mạnh mẽ của Tesseract. Việc sử dụng mạng CNN với kiến trúc cải tiến giúp mô hình tập trung vào các đặc trưng quan trọng, đồng thời giảm thiểu tài nguyên tính toán. So với các nghiên cứu trước đây sử dụng Faster R-CNN hoặc các phương pháp OCR truyền thống, nghiên cứu này cho thấy sự cải thiện rõ rệt về tốc độ và độ chính xác. Kết quả có thể được trình bày qua biểu đồ Confusion Matrix, biểu đồ so sánh mAP và thời gian xử lý giữa các mô hình, cũng như bảng thống kê các chỉ số Precision, Recall, F1-score cho từng lớp. Ý nghĩa của kết quả là tạo nền tảng cho các ứng dụng thực tế trong quản lý danh bạ, CRM và tự động hóa quy trình kinh doanh, góp phần nâng cao hiệu quả và giảm thiểu sai sót trong xử lý thông tin danh thiếp.

Đề xuất và khuyến nghị

Triển khai ứng dụng trên nền tảng di động: Phát triển phiên bản ứng dụng trên điện thoại thông minh để người dùng có thể quét và trích xuất thông tin danh thiếp mọi lúc mọi nơi, hướng tới tăng tỷ lệ sử dụng và tiện lợi trong vòng 6 tháng tới.
Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu danh thiếp đa dạng về ngôn ngữ, kiểu chữ và thiết kế để nâng cao khả năng tổng quát hóa của mô hình, dự kiến thực hiện trong 12 tháng tiếp theo bởi nhóm nghiên cứu và đối tác doanh nghiệp.
Tối ưu hóa mô hình cho thời gian thực: Nghiên cứu và áp dụng các kỹ thuật nén mô hình, pruning hoặc quantization để giảm độ trễ xử lý, đảm bảo ứng dụng có thể hoạt động mượt mà trên các thiết bị có cấu hình thấp, hoàn thành trong 9 tháng.
Tích hợp hệ thống quản lý dữ liệu: Kết nối ứng dụng với các hệ thống CRM và quản lý liên hệ hiện có để tự động cập nhật và đồng bộ dữ liệu, giúp doanh nghiệp quản lý khách hàng hiệu quả hơn, triển khai trong vòng 6 tháng.

Đối tượng nên tham khảo luận văn

Nhà phát triển phần mềm và kỹ sư AI: Có thể áp dụng kiến thức về mô hình YOLOv8 và kỹ thuật OCR để phát triển các ứng dụng nhận diện và trích xuất thông tin tự động trong nhiều lĩnh vực khác nhau.
Doanh nghiệp và bộ phận quản lý khách hàng: Sử dụng ứng dụng để tự động hóa việc nhập liệu danh thiếp, giảm thiểu sai sót và tiết kiệm thời gian, nâng cao hiệu quả quản lý dữ liệu khách hàng.
Nhà nghiên cứu trong lĩnh vực thị giác máy tính và học sâu: Tham khảo phương pháp kết hợp phát hiện đối tượng và nhận dạng ký tự, cũng như các cải tiến kiến trúc mạng YOLOv8 để phát triển các nghiên cứu tiếp theo.
Sinh viên và giảng viên ngành Khoa học máy tính: Học tập và áp dụng các kỹ thuật học sâu, xử lý ảnh và xây dựng ứng dụng thực tế, từ đó nâng cao năng lực nghiên cứu và thực hành.

Câu hỏi thường gặp

Ứng dụng có thể xử lý các loại danh thiếp đa ngôn ngữ không?
Hiện tại, ứng dụng chủ yếu được huấn luyện trên danh thiếp tiếng Việt với các ký tự Latinh. Tuy nhiên, với việc mở rộng tập dữ liệu và tinh chỉnh mô hình, ứng dụng có thể được điều chỉnh để hỗ trợ đa ngôn ngữ trong tương lai.
Độ chính xác của mô hình trong điều kiện ảnh mờ hoặc chụp nghiêng như thế nào?
Mô hình yêu cầu ảnh đầu vào rõ nét, chụp chính diện để đạt hiệu suất tốt nhất. Ảnh mờ hoặc lệch góc có thể làm giảm độ chính xác, do đó cần tiền xử lý hoặc loại bỏ ảnh lỗi trước khi trích xuất.
Thời gian xử lý trung bình cho một ảnh danh thiếp là bao lâu?
Với cấu hình GPU Tesla T4, thời gian xử lý trung bình cho một ảnh khoảng 1.3ms đối với mô hình YOLOv8, đảm bảo khả năng xử lý gần thời gian thực.
Ứng dụng có thể tích hợp với hệ thống CRM hiện có không?
Có thể tích hợp thông qua API RESTful được xây dựng trên nền tảng Flask, giúp đồng bộ dữ liệu tự động giữa ứng dụng và hệ thống CRM.
Làm thế nào để cải thiện độ chính xác trích xuất văn bản từ các vùng ảnh?
Tiền xử lý ảnh như tăng độ tương phản, giảm nhiễu và cắt ảnh chính xác giúp nâng cao chất lượng đầu vào cho Tesseract OCR, từ đó cải thiện độ chính xác nhận dạng ký tự.

Kết luận

Luận văn đã xây dựng thành công ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu, kết hợp mô hình YOLOv8 và thư viện Tesseract OCR.
Mô hình đạt độ chính xác cao với mAP@50 lên đến 95% và thời gian xử lý nhanh, phù hợp cho ứng dụng thực tế.
Phương pháp này giúp tự động hóa quy trình thu thập và quản lý thông tin danh thiếp, tiết kiệm thời gian và giảm thiểu sai sót so với phương pháp thủ công.
Kết quả nghiên cứu mở ra hướng phát triển ứng dụng trên nền tảng di động và tích hợp với hệ thống CRM, nâng cao hiệu quả quản lý dữ liệu doanh nghiệp.
Các bước tiếp theo bao gồm mở rộng tập dữ liệu, tối ưu hóa mô hình và phát triển giao diện người dùng thân thiện, mời các nhà nghiên cứu và doanh nghiệp cùng hợp tác ứng dụng công nghệ này.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỒNG QUAN VỀ LĨNH vực NGHIÊN cứu 1.1 Khái quát vấn đề Trong thời đại số, danh thiếp vẫn là công cụ cơ bản để chia sẻ thông tin liên lạc và xây dựng mối quan hệ chuyên nghiệp. Tuy nhiên, quá trình truyền thông dữ liệu từ danh thiếp sang định dạng điện tử bằng cách thủ công là công việc đòi hỏi nhiều nhân lực, dễ mắc lỗi và không đáp úng đủ nhanh chóng với yêu cầu về hiệu suất trong các hoạt động kinh doanh hiện đại. Để giải quyết thách thức này, việc tích hợp các phương pháp học sâu mang lại một giải pháp hứa hẹn thông qua việc tự động hóa quá trình trích xuất thông tin từ danh thiếp.2 Tập dữ liệu đầu vào Tập dữ liệu đầu vào của luận văn: • Tập ảnh được thu thập đạt 1330 ảnh danh thiếp các loại. Một số hình ảnh ví dụ từ tập dữ liệu: WMt ĂN SÁNG-ĐẶC SÀN LÂU CUA SÔNG CẤC MÓN ĐỐNG OUÊ 9 Táng 1, tòa nhà C5, Nguyễn Cd Thạch K NamTỪLièm, Hà Nội l \\\.1 Ảnh danh thiếp 1 4 Hình 1.2 Ảnh danh thiếp 2 1.3 Phương hướng giải quyết Phương pháp nghiên cứu dựa trên tài liệu: • Nghiên cứu, tham khảo từ các bài báo khoa học và khai thác tài liệu khác trên Internet về các nội dung nghiên cứu liên quan.

• Nghiên cứu về các mô hình phát hiện đối tượng, các phương pháp trích xuất văn bản. • Nghiên cứu tài liệu về cấu trúc dữ liệu và cách thức thu thập dữ liệu. • Nghiên cứu tài liệu về ngôn ngữ lập trình Python. Phương pháp nghiên cứu dựa trên thực nghiệm: • Lập trình có kiểm chứng dựa trên các tập dữ liệu thu được.

• Sử dụng kết quả thu được từ V iệc lập trình mô phỏng, từ đó rút ra kết luận so sánh các phương pháp huấn luyện cho bài toán. • Xây dụng úng dụng tự động hóa trích xuất thông tin danh thếp. Thu thập dữ liệu: Dữ liệu thu thập thủ công từ các hình ảnh danh thiếp của các công ty, từ các hội chợ triển lãm, tờ rơi danh thiếp quảng cáo. 5 Xử lý và Phân tích dữ liệu: Bước 1: Từ tập dữ liệu thu được, tôi phằn loại danh thiếp đúng yêu cầu.

Ảnh phải rõ, được chụp chính diện. Bước 2: Lập trình xây dựng các mô hình chuẩn bị cho việc huấn luyện. Bước 3: Ảp các mô hình đã xây dựng vào tập dữ liệu và thực hiện việc huấn luyện. Bước 4: Đánh giá kết quả đạt được và thực hiện so sánh.

6 CHƯƠNG 2 Cơ SỞ LÝ THUYẾT 2.1 Mạng thần kinh tích chập 2.1 Mạng thẩn kinh Mạng thần kinh là một hệ thống tính toán lấy cảm hứng từ sự hoạt động của các thần kinh trong hệ thần kinh. Mạng thần kinh là một loại trí tuệ nhân tạo cố gắng mô phỏng cách mà não con người hoạt động thay vì sử dụng mô hình số, trong đó tất cả các phép tính điều khiển bằng các số 0 và 1, một mạng thần kinh hoạt động bằng cách tạo ra kết nối giữa các yếu tố xử lý với cấu trúc và trọng số của các kết nối quyết định kết quả đầu ra. [7] Mạng thần kinh thường rất hiệu quả trong việc dự đoán các sự kiện khi mạng có một cơ sở dữ liệu lớn về các ví dụ trước đó để tham chiếu. Nói một cách chính xác, mạng thần kinh đề cập đến một máy tính không phải là số, nhưng mạng thần kinh có thể được mô phỏng trên máy tính số.

Mạng thần kinh là một tập hợp các thuật toán, chúng giải mã dữ liệu giác quan thông qua một loại cảm nhận máy móc, đánh nhãn hoặc phân nhóm đầu vào thô. Những mô hình mà chúng nhận biết là số, được chứa trong các vector, trong đó tất cả dữ liệu thế giới thực, chẳng hạn như hình ảnh, âm thanh, văn bản hoặc dãy thời gian, phải được chuyển đổi. [8] Lấy cảm hứng từ não, một mạng thần kinh nhân tạo là một tập hợp các đơn vị kết nối, còn được gọi là thần kinh. Kết nối giữa các thần kinh có thể truyền tín hiệu giữa chúng.

Mỗi kết nối mang một giá trị số thực quyết định trọng số hay độ mạnh của tín hiệu. 7 Hidden layer 1 Hidden layer 2 Hình 2.1 Mạng thần kinh [9] Input layer: là lớp chứa các dữ liệu đầu vào. Hidden layer: là lớp ẩn, nhiệm vụ của nó là xử lý dữ liệu đầu vào và xuất ra dữ liệu mới, từ đó làm dữ liệu đầu ra cuối cùng (hoặc làm dữ liệu đầu vào cho lớp ần khác). Trong mạng thần kinh có thể chứa nhiều hoặc không chứa lớp ẫn.

Output layer: là lớp chứa các dữ liệu đầu ra. Mỗi hình tròn trong hình 2.1 là một node, mỗi node trong hidden layer và output layer thực hiện các nhiệm vụ sau: • Liên kết với tất cả các node ở layer trước đó V ới các hệ số w riêng. • Mỗi node có 1 hệ số bias b riêng. • Tính tổng Linear tại mỗi node bằng công thức: Tổng = ^(Wị + o + ồ (2-1) 8 • Sau đó, áp dụng hàm activation function (tùy vào truờng hợp sẽ có hàm kích hoạt khác nhau) để tạo ra đầu ra của node.2 Mạng thần kinh tích chập Mạng thần kinh tích chập (Convolutional Neural Networks - ConvNets hay CNNs) tương tụ nhu mạng thần kinh truyền thẳng (feedforward neural networks), trong đó các thần kinh có trọng số và độ lệch có thể học được, ứng dụng chủ yếu của chúng nằm trong xử lý tín hiệu và ảnh, thay thế cho OpenCV trong lĩnh vực thị giác máy tính.

Mạng thần kinh tích chập là một tập họp các lớp tí ch chập chàng lên nhau và sử dụng các hàm kích hoạt phi tuyến như ReLU và tanh đễ kích hoạt các trọng số trong các node. Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu tuọng hon cho các lớp tiếp theo. Mỗi một lớp được sử dụng các bộ lọc khác nhau, thông thường có hàng trăm hàng nghìn bộ lọc như vậy và kết họp kết quả của chúng lậ. Kiến trúc mô hình mạng thần kinh tích chập như sau: Layer 1 Laye r 2 Classification Input Convolutional Pooling Convolutional Pooling Flatten FC Output Hlnh 2.2 Kiến trúc mạng CNN [10] Tầng tích chập Convolution: Tầng tích chập sử dụng các bộ lọc để thực hiện phép tích chập khi đưa chúng đi qua đầu vào I theo các chiều của nó.

Các siêu tham số của các bộ lọc này bao gồm kích thước bộ lọc F và độ trượt (stride) s. Kết quả đầu ra o dược gọi là feature map hay activation map. Dùng để trích xuất đặc trung cửa ảnh. 9 Tầng Pooling: thường được dùng sau tầng tích chập, giúp làm giảm số lượng tham số mà không làm thay đổi kiến trúc mạng và tăng tốc độ tính toán.

• Max pooling: bảo toàn các đặc trưng được phát hiện (được sử dụng thường xuyên). • Average pooling: giảm kích thước các feature map. Tầng Flatten: giúp chuyển đổi các đặc trưng ảnh từ tầng tích chập thành vector 1 chiều (phẳng) để đưa vào tầng Fully Connected để thực hiện phân loại. Tang Fully Connected: sẽ đóng vai trò như một bộ phân lớp các đặc trưng đã rút trích trước đó.

Tầng này sẽ đưa ra xác suất của một đối tượng trong ảnh.2 Nhận diện đối tượng Nhận diện đối tượng (Object Detection) là một nhiệm vụ trong thị giác máy tính, trong đó mục tiêu là phát hiện và xác định vị trí của các đối tượng quan trọng trong một ảnh hoặc video. Nhiệm vụ này bao gồm việc xác định vị trí và ranh giới của các đối tượng trong ảnh, và phân loại các đối tượng vào các danh mục khác nhau. Nó tạo thành một phần quan trọng của việc nhận diện hình ảnh, cùng với phân loại và truy xuất hình ảnh. Phân loại thành hai loại chính: • Phưong pháp một giai đoạn (One-stage methods): ưu tiên tốc độ dự đoán, với một số mô hình như YOLO, SSD và RestinaNet.

• Phưong pháp hai giai đoạn (Two-stage methods): ưu tiên độ chính xác trong việc phát hiện đối tượng, với một số mô hình phổ biến như Fast R-CNN (Region-based Convolutional Neural Networks), Faster R-CNN.3 Giói thiệu một số lớp mô hình R-CNN 2.1 R-CNN R-CNN [11] được giới thiệu lần đầu vào năm 2014 bởi Ross Girshick và các cộng sự tại ƯC Berkeley, một trong những trung tâm nghiên cứu AI hàng đầu thế giói. 10 R-CNN là một trong những ứng dụng tiễn phong của mạng thần kinh tích chập trong việc định vị, phát hiện, và phân đoạn đối tượng. Phương pháp này đã đạt được kết quả ấn tưọng trên bộ dữ liệư VOC-2012 và bộ dữ liệu phát hiện đối tưọng ILSVRC- 2013 ỢmagebTet Large Scale Visual Recognition Challenge 2013). Kiến trúc R-CNN gồm ba thành phần là: * Vùng đề xuất ảnh (Region proposal): tạo và trích xuất các vùng đề xuất chứa vật thễ được bao bọc bởi bounding box.

* Trích xuất đặc trưng (Feature Extractor): Trích xuất các đặc trưng giúp nhận diện hình ảnh từ các region proposal thông qua các mạng thần kinh tích chập sâu. * Phân loại (classifer): Sử dụng các đặc trưng trích xuất đễ phân loại hình ảnh trong vùng đề xuất vào các nhãn tưong úng. phân loại vè đúng nhân Hình 2.3 Kiến trúc R-CW 11 Một kỹ thuật được sử dụng để đề xuất các region proposal hoặc các bounding box chứa các đối tượng tiềm năng trong hình ảnh được gọi là “selective search” [12], các region proposal có thể được phát hiện bởi đa dạng những thuật toán khác nhau. Đây là một ứng dụng tưong đối đon giản và dễ hiểu của CNN đối với vấn đề định vị và phát hiện đối tượng.

Một nhược điểm của phưong pháp này là chậm, đòi hỏi phải vượt qua nhiều module độc lập trong đó có trích xuất đặc trưng từ một mạng CNN học sâu trên từng region proposal được tạo bởi thuật toán đề xuất vùng chứa ảnh.2 Fast R-CNN Dựa trên thành công của R-CNN, Ross Girshick đề xuất một mở rộng để giải quyết vấn đề của R-CNN trong một bài báo vào năm 2015 với tiêu đề rất ngắn gọn Fast R- CNN. Fast R-CNN [13] ra đời để khắc phục hạn chế của R-CNN. Điểm đột phá của Fast R- CNN là sử dụng một single model thay vì pipeline để phát hiện region và classification cùng lúc. Kiến trúc của mô hình trích xuất từ bức ảnh một tập hợp các region proposals làm đầu vào được truyền qua mạng CNN sâu.

Mạng CNN sâu (ví dụ VGG-19) được sử dụng để trích xuất đặc trưng. Phần cuối của mạng là là một layer tùy chỉnh hay còn được gọi là layer vùng quan tâm (Region of Interest Pooling - Rol Pooling) có tác dụng trích xuất các features cho một vùng ảnh input nhất định. Sau đó các features được kết bởi một lớp fully connected.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Ứng dụng Học Sâu YOLOv8 Trích Xuất Thông Tin Danh Thiếp Tự Động" trình bày về công nghệ học sâu YOLOv8, một phương pháp tiên tiến trong việc trích xuất thông tin từ danh thiếp một cách tự động. Bài viết nêu rõ cách mà YOLOv8 có thể nhận diện và xử lý thông tin, giúp tiết kiệm thời gian và nâng cao độ chính xác trong việc quản lý dữ liệu liên lạc. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ này, bao gồm khả năng tự động hóa quy trình và giảm thiểu sai sót do con người.

Nếu bạn quan tâm đến các khía cạnh khác liên quan đến công nghệ và ứng dụng của trí tuệ nhân tạo trong marketing, hãy tham khảo tài liệu Ai influencers in marketing how ai influencers anthropomorphism impacts on consumer intention among young people in ho chi minh city. Ngoài ra, để hiểu rõ hơn về các giải pháp ứng phó với các vấn đề xã hội, bạn có thể đọc tài liệu Ảnh hưởng của những giải pháp ứng phó của người dân đến thiệt hại do ngập nước tại thành phố hồ chí minh. Cuối cùng, nếu bạn muốn tìm hiểu về hành vi tiêu dùng trong bối cảnh hiện đại, tài liệu Factors affecting purchase intention on tiktok shop platform of gen z students living in ho chi minh city sẽ cung cấp cho bạn những thông tin hữu ích. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và có cái nhìn sâu sắc hơn về các ứng dụng của công nghệ trong đời sống.

#SEO cho người mới bắt đầu

#Nghiên cứu từ khóa SEO

#Xây dựng backlink chất lượng

#tối ưu hóa website 2024

#hướng dẫn SEO cơ bản

#bí quyết tăng traffic website

Chủ đề

Phân tích và đo lường hiệu quả SEO

Tối ưu hóa website cho công cụ tìm kiếm

Chiến lược xây dựng liên kết hiệu quả

Kiến thức nền tảng về SEO

Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Khái quát vấn đề

1.2. Tập dữ liệu đầu vào

1.3. Phương hướng giải quyết

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Mạng thần kinh tích chập

2.1.1. Mạng thần kinh

2.1.2. Mạng thần kinh tích chập

2.2. Nhận diện đối tượng

2.3. Giới thiệu một số lớp mô hình R-CNN

2.4. Giới thiệu về YOLO

2.5. Một số phiên bản YOLO

2.6. So sánh giữa YOLOv8 và Faster RCNN

2.6.1. Kiến trúc mô hình

2.6.2. Đánh giá hiệu suất

2.7. Các thông số đánh giá mô hình

3. CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU

3.1. Giới thiệu về dữ liệu

3.2. Xử lý dữ liệu

3.3. Tiến hành huấn luyện

3.4. Kết quả huấn luyện mô hình

3.4.1. Mô hình YOLOv8n

3.4.2. Mô hình YOLOv8m

3.4.3. Mô hình YOLOv81

3.5. Kết quả so sánh giữa ba mô hình của YOLO

3.6. Quy trình xây dựng và triển khai mô hình

3.6.1. Các bước thực hiện

3.6.2. Triển khai mô hình, ứng dụng

4. KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

I. Giới thiệu Ứng dụng Trích xuất Thông tin từ Danh thiếp

1.1. Tầm quan trọng của Tự động hóa Nhập liệu Danh thiếp

1.2. Ứng dụng Trích xuất Thông tin Danh thiếp và Học sâu

II. Thách thức Trích xuất Thông tin từ Danh thiếp Chính xác

2.1. Vấn đề Độ chính xác của OCR Danh thiếp Truyền thống

2.2. Đa dạng Ngôn ngữ và Định dạng Thông tin Danh thiếp

III. Phương pháp Học sâu YOLOv8 cho Trích xuất Danh thiếp

3.1. Ưu điểm của YOLOv8 trong Phát hiện Đối tượng Danh thiếp

3.2. Kết hợp YOLOv8 và Tesseract OCR để Trích xuất Văn bản

IV. Huấn luyện và Đánh giá Mô hình Học sâu YOLOv8 Danh thiếp

4.1. Thu thập và Xử lý Dữ liệu Huấn luyện Mô hình

4.2. Các Chỉ số Đánh giá Hiệu suất Mô hình YOLOv8

V. Kết quả và Ứng dụng Thực tế của Ứng dụng Danh thiếp

5.1. Độ chính xác và Tốc độ của Ứng dụng Trích xuất Thông tin

5.2. Ứng dụng trong Quản lý Quan hệ Khách hàng CRM

VI. Kết luận và Hướng phát triển cho Ứng dụng Học sâu

6.1. Tóm tắt Kết quả Nghiên cứu và Đóng góp của Luận văn

6.2. Hướng Nghiên cứu và Phát triển trong Tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Từ Ngọc Trường

Người hướng dẫn: TS. Đặng Thị Phúc

Trường học: Trường Đại Học Công Nghiệp Thành Phố Hồ Chí Minh

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2024

Địa điểm: Thành phố Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm