Tìm Hiểu và Xây Dựng Hệ Thống Phân Loại Hình Ảnh Văn Bản

Khóa luận tốt nghiệp khoa học máy tính nghiên cứu và phát triển hệ thống phân loại hình ảnh văn bản hiệu quả và ứng dụng thực tiễn.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Mục tiêu và phạm vi

1.3. Thách thức

2. CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Mở đầu

2.2. Giới thiệu về bài toán phân loại hình ảnh văn bản

2.3. Một số nghiên cứu và hướng tiếp cận

2.3.1. Hướng tiếp cận sử dụng đặc trưng hình ảnh

2.3.2. Hướng tiếp cận sử dụng đặc trưng ngôn ngữ

2.3.3. Hướng tiếp cận sử dụng cả đặc trưng hình ảnh và đặc trưng ngôn ngữ

3. ÁP DỤNG CÁC PHƯƠNG PHÁP PHÂN LOẠI HÌNH ẢNH

3.1. Một số mô hình phân loại hình ảnh văn bản

3.1.1. Visual and Textual Feature

3.1.2. Nhận diện chữ bằng VietOCR

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Mở đầu

4.2. Xây dựng tập dữ liệu

4.2.1. Tiền xử lý dữ liệu

4.2.2. Một số khái niệm cơ bản

4.3. Kết quả và đánh giá

4.3.1. Hướng tiếp cận sử dụng đặc trưng hình ảnh

4.3.2. Hướng tiếp cận sử dụng đặc trưng văn bản

4.3.3. Hướng tiếp cận sử dụng cả đặc trưng văn bản và hình ảnh

4.3.4. Xây dựng ứng dụng minh họa

5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Hệ Thống Phân Loại Hình Ảnh Văn Bản

Hệ thống phân loại hình ảnh văn bản đang trở thành một công cụ quan trọng trong việc quản lý và xử lý dữ liệu văn bản. Với sự gia tăng nhanh chóng của thông tin trên internet, việc phân loại tự động các hình ảnh văn bản giúp tiết kiệm thời gian và chi phí. Đặc biệt, trong lĩnh vực tài chính ngân hàng, việc phân loại các báo cáo tài chính trở nên cần thiết hơn bao giờ hết.

1.1. Tầm quan trọng của phân loại hình ảnh văn bản

Phân loại hình ảnh văn bản giúp tổ chức và quản lý thông tin hiệu quả hơn. Việc này không chỉ giảm thiểu thời gian tìm kiếm mà còn nâng cao độ chính xác trong việc xử lý dữ liệu.

1.2. Các ứng dụng thực tiễn của hệ thống phân loại

Hệ thống phân loại hình ảnh văn bản được ứng dụng rộng rãi trong nhiều lĩnh vực như ngân hàng, giáo dục và y tế. Nó giúp tự động hóa quy trình xử lý tài liệu, từ đó nâng cao hiệu suất làm việc.

II. Vấn đề và Thách thức trong Phân Loại Hình Ảnh Văn Bản

Mặc dù có nhiều lợi ích, nhưng việc phân loại hình ảnh văn bản cũng gặp phải nhiều thách thức. Các vấn đề như độ chính xác thấp, thiếu dữ liệu huấn luyện và sự tương đồng giữa các loại văn bản là những khó khăn chính.

2.1. Độ chính xác trong phân loại hình ảnh

Độ chính xác của các mô hình phân loại thường bị ảnh hưởng bởi chất lượng dữ liệu đầu vào. Các hình ảnh có độ phân giải thấp hoặc bị biến dạng có thể dẫn đến kết quả không chính xác.

2.2. Thiếu dữ liệu huấn luyện

Việc thiếu hụt dữ liệu huấn luyện chất lượng cao là một trong những thách thức lớn nhất. Điều này đặc biệt đúng với các ngôn ngữ không phổ biến như tiếng Việt.

III. Phương Pháp Phân Loại Hình Ảnh Văn Bản Hiện Nay

Có nhiều phương pháp khác nhau được áp dụng trong việc phân loại hình ảnh văn bản. Các phương pháp này bao gồm cả kỹ thuật truyền thống và hiện đại như machine learning và deep learning.

3.1. Sử dụng Machine Learning trong phân loại

Machine learning cung cấp các thuật toán mạnh mẽ cho việc phân loại hình ảnh. Các mô hình như SVM và Random Forest đã được sử dụng để đạt được kết quả khả quan.

3.2. Deep Learning và các mô hình tiên tiến

Deep learning, đặc biệt là các mô hình như CNN và Transformer, đã chứng minh được hiệu quả vượt trội trong việc phân loại hình ảnh văn bản, nhờ khả năng học các đặc trưng phức tạp từ dữ liệu.

IV. Kết Quả Nghiên Cứu và Ứng Dụng Thực Tiễn

Nghiên cứu về hệ thống phân loại hình ảnh văn bản đã cho thấy nhiều kết quả khả quan. Các mô hình được phát triển không chỉ đạt độ chính xác cao mà còn có khả năng xử lý nhanh chóng.

4.1. Kết quả từ các mô hình thử nghiệm

Các mô hình như LayoutLM và BERT đã cho thấy hiệu suất tốt trong việc phân loại hình ảnh văn bản, với độ chính xác lên đến 98%.

4.2. Ứng dụng trong ngành ngân hàng

Hệ thống phân loại hình ảnh văn bản đã được triển khai trong nhiều ngân hàng, giúp tự động hóa quy trình xử lý báo cáo tài chính và nâng cao hiệu quả công việc.

V. Kết Luận và Hướng Phát Triển Tương Lai

Hệ thống phân loại hình ảnh văn bản có tiềm năng lớn trong việc cải thiện quy trình xử lý dữ liệu. Tuy nhiên, cần tiếp tục nghiên cứu và phát triển để giải quyết các thách thức hiện tại.

5.1. Tương lai của hệ thống phân loại

Với sự phát triển của công nghệ AI, hệ thống phân loại hình ảnh văn bản sẽ ngày càng trở nên thông minh và hiệu quả hơn, mở ra nhiều cơ hội mới cho các ứng dụng trong thực tiễn.

5.2. Nghiên cứu và phát triển thêm

Cần tiếp tục nghiên cứu để cải thiện độ chính xác và khả năng xử lý của các mô hình phân loại, đồng thời mở rộng ứng dụng sang các lĩnh vực khác.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính tìm hiểu và xây dựng hệ thống phân loại hình ảnh văn bản

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1.1 Đặt van đề Hiện nay, cùng với sự phát triển của thế giới, lượng thông tin cần lưu trữ và xử lý cũng tăng theo. Tài liệu được sử dụng trong các lĩnh vực khác nhau cũng cần được xử lý đúng cách trước khi lưu trữ. Những tài liệu này được lưu dưới nhiều định dạng khác nhau, hình ảnh văn bản cũng là một trong số đó. Tuy nhiên, khi dữ liệu quá lớn, việc quản lý và phân loại hình ảnh văn bản tốn rất nhiều thời gian và chi phí.

Đặc biệt là đối với các loại dữ liệu có hình dạng và nội dung gần giống nhau như dif liệu báo cáo tài chính ngân hàng (các lớp tài liệu có cấu trúc giống nhau, nên trắng, chữ đen,. Nhằm giải quyết van dé trên, bài toán phân loại hình ảnh văn bản được ra đời. Mô tả bài toán phân loại hình ảnh văn bản: ‹ Đầu vào bài toán: Hình ảnh văn bản (Hình 1.1) * Đầu ra của bài toán: Loại tài liệu (Hình 1.1) Dựa trên sự hiểu biết có hạn của nhóm trong thời gian khảo sát, nhóm nhận thấy việc phân loại hình ảnh văn bản Tiếng Việt hiện tại ở Việt Nam không có nhiều công bố khoa học, phần lớn các nghiên cứu tập trung vào các loại tài liệu > 1. Mở dau 16 TH NIST ĐỘNG TAR CHÍ : ' = c> Báo cáo lưu chuyển tiền tệ Hình 1.1: Ví dụ về hình ảnh đầu vào (Trái) và kết quả trả về (Phải) thông tin cá nhân (căn cước công dân, giấy phép lái xe,.

Còn ở các loại tài liệu có độ khó cao như các biên bản, báo cáo, tài liệu mà hình thức và nội dung của chúng khá giống nhau, các nghiên cứu để phân loại các dữ liệu như vậy còn khá hạn chế. Vì vậy, nhóm đã quyết định xây dựng một hệ thống phân loại hình ảnh văn bản, tập trung vào việc phân loại các hình ảnh biên bản, báo cáo, tài liệu, cụ thể hơn là các báo cáo tài chính của các ngân hàng. Việc làm này có thể tự động hoá quá trình phân loại văn bản trước khi lưu trữ để thuận tiện trong việc tìm kiếm và sử dụng. Những năm gan đây, lượng dữ liệu xuất hiện trên internet ngày càng nhiều, điều này góp phần cho học sâu (Deep Learning - DL) phát triển nhanh chóng và dần trở thành một xu hướng với tốc độ tính toán cũng như độ chính xác ngày càng được cải tiến.

Các phương pháp và thuật toán áp dung DL đa số đều đạt được kết quả tốt hơn so với phương pháp tiếp cận sử dụng đặc trưng chuyên > 1. Mở dau gia (hand-crafted feature). Chính vì thế mà hướng tiếp cận DL được cộng đồng nghiên cứu rất quan tâm. Cho nên trong quá trình nghiên cứu phát triển DL, số lượng các thuật toán, phương pháp từ đó xuất hiện ngày càng phong phú và đa dạng.

Để biết được đâu là thuật toán phù hợp với mục đích sử dụng trong hệ thống này, nhóm đã tiến hành khảo sát đánh giá trên nhiều phương pháp để chọn ra phương pháp phù hợp nhất cho bài toàn này. Từ đó áp dụng các phương pháp này xây dựng nên hệ thống.2 Mục tiêu và phạm vi 1.21 Mục tiêu Nhóm tập trung giải quyết bài toán phân loại hình ảnh văn bản báo cáo tài chính ngân hàng. Dé hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thể sau: * Tìm hiểu tổng quan về bài toán phân loại hình anh văn bản, các hướng tiếp cận. s Xây dựng bộ dữ liệu báo cáo tài chính ngân hàng phục vụ cho việc đào tao và đánh giá các mô hình phân loại hình ảnh văn bản.

¢ Thử nghiệm các phương pháp tiên tiến cho bài toán phân loại hình ảnh van bản. « Xây dựng một hệ thống hỗ trợ việc phân loại hình ảnh văn bản.2 Phạm vi Trong khuôn khổ giới hạn của khóa luận, nhóm tập trung thực hiện hoàn thành các công việc sau: * Tim hiểu tổng quan về bài toán phân loại hình ảnh văn, các hướng tiếp cận. Mở dau * Xây dựng bộ dữ liệu báo cáo tài chính ngân hàng của các ngân hàng bằng Tiếng Việt. ¢ Thử nghiệm các phương pháp Visual and Textual Feature[1], Vision Transformer[2] đại diện cho hướng tiếp cận dựa trên đặc trưng hình ảnh.

« Thử nghiệm phương pháp BERT[3] đại diện cho hướng tiếp cận dựa trên đặc trưng ngôn ngữ. « Thử nghiệm phương pháp LayoutLM[4] đại diện cho hướng tiếp cận sử dụng cả 2 đặc trưng trên. » Xây dựng một chương trình phân loại hình anh văn bản Báo cáo Tài chính Ngân hàng. 13 Thách thức: » Về dữ liệu: — Các bộ dif liệu phục vụ cho bài toán phân loại hình ảnh văn ban bằng Tiếng Việt còn ít.

Một số bộ dữ liệu được công bé vẫn còn hạn chế về số lượng và sự đa dạng của các mẫu dữ liệu. — Các văn bản báo cáo tài chính ngân hang là các văn ban có nội dung và hình thức gần giống nhau, các mẫu văn bản đều là mẫu có nền trắng chữ đem, hoặc một số mẫu văn bản giống nhau về cấu trúc văn bản. — Các dữ liệu báo cáo tài chính ngân hàng có da dạng về cách trình bày và mẫu văn bản, điều này là do sự khác biệt giữa các ngân hàng khác nhau. Mở dau — Các bộ dữ liệu báo cáo tài chính ngân hàng hoặc các bộ dữ liệu liên quan đến báo cáo tài chính ngân hàng hiện nay còn khá hạn chế hoặc chưa được công bồ.

» Về phương pháp: — Các pương pháp phân loại hình ảnh văn ban trong lĩnh vực Thị giác Máy tính còn khá nhiều nhược điểm và thường chỉ áp dụng cho các loại tài liệu văn bản có độ khác biệt cao (các loại tài liệu như căn cước công dân và sổ hộ khẩu, giấy hôn thú và bằng lái xe,. Còn đối với loại dữ liệu có độ khó cao như báo cáo tài chính ngân hàng có khá ít phương pháp giải quyết. — Các phương pháp phân loại van bản trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên mặc dù có thể phân biệt các loại văn bản thuần tuý tốt, nhưng lại không thực sự hiệu quả đối với các loại văn bản được biểu diễn dưới dạng bảng hoặc có cấu trúc khác. Vì khi thực hiện OCR hình ảnh tài liệu để thu được văn bản, cấu trúc của văn bản thường sẽ bị thay đổi dẫn đến việc ngữ nghĩa thay đổi.

— Ngoài ra, việc cân bằng giữa độ chính xác và thời gian xử lý của các mô hình cũng là một yếu tố rất quan trọng để đánh giá một mô hình ° Vé tài nguyên: — Các mô hình, phương pháp phục vụ cho bài toán phân loại hình ảnh văn bản thường là những mô hình học sâu, chính vì vậy chúng đòi hỏi một lượng tài nguyên về phần cứng đủ lớn để có thể huấn luyện, đánh giá và triển khai thành một ứng dụng thực tế.4 Đóng góp của khóa luận Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực hiện khóa luận: « Hệ thống lại các kiến thức, hướng tiếp cận và giải quyết bài toán phân loại hình ảnh văn bản. s Xây dựng một bộ dữ liệu báo cáo tài chính ngân hàng phục vụ cho việc đào tạo và đánh giá mô hình phân loại hình ảnh văn bản. « Đánh giá các phương pháp, hướng tiếp cận của bài toán phân loại hình ảnh văn bản: - Đối với hướng tiếp cận phân loại hình ảnh văn bản bằng đặc trưng hình ảnh là phương pháp Visual and Textual Feature[1] với 3 back- bone khác nhau là VGG16[5], ResNet50[6], Xception[7] và Vision Transformer[2]. - Đối với hướng tiếp cận phân loại hình ảnh văn bản bằng đặc trưng ngôn ngữ là phương pháp BERT[3].

Mở dau — Đối với hướng tiếp cận sử dụng cả 2 đặc trưng trên là phương pháp LayoutLM[4] (độ chính xác 98. ¢ Xây dựng chương trình cho phép người dùng sử dung để phân loại hình ảnh văn bản báo cáo tài chính ngân hàng.5 Cấu trúc khóa luận Chương 1: Giới thiệu tổng quan đề tài. Chương 2: Trình bày các nghiên cứu liên quan và hướng tiếp cận của đề tài. Chương 3: Trình bày các kiến thức về các mô hình mạng Deep Learning được áp dụng cho bài toán.

Chương 4: Trình bày quá trình xây dựng bộ dữ liệu, kết quả đánh giá các mô hình, ứng dụng phân loại hình ảnh văn bản. Chương 5: Trình bày kết luận và hướng phát triển của đề tài. 10 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Mở đầu Để hiểu rõ hệ thống phân loại hình ảnh văn bản, ta cần làm rõ các khái niệm liên quan đồng thời tìm hiểu một số hướng tiếp cận phổ biến hiện nay. Vì vậy, trong chương này, nhóm sẽ giới thiệu một số khái niệm cơ bản, đồng thời khảo sát một số phương pháp nghiên cứu đã từng được áp dụng từ trước đến nay để giải quyết bài toán phân loại hình ảnh văn bản, nêu ra những thành công và thất bại trong từng phương pháp.

Một hệ thống phân loại hình ảnh văn bản thường có 2 phần chính bao gồm s Trích xuất thông tin đặc trưng từ dif liệu đầu vào ¢ Phân loại thông tin đặc trưng. Và đây cũng chính là luồng xử lý mà nhóm sẽ thực hiện trong xuyên suốt khóa luận lần này (Hình 2. Các nghiên cứu liên quan INPUT Feature Extraction Classification OUTPUT Hình 2.1: Luồng xử lý của hệ thống phân loại hình ảnh văn ban 2.2 Giới thiệu về bài toán phân loại hình ảnh van ban Hiện nay dữ liệu văn bản xuất hiện rất nhiều trên internet, chúng được lưu trữ với rất nhiều định dạng khác nhau và hình ảnh văn bản cũng là một trong số đó. Tuy nhiên, khi dif liệu quá lớn, việc quản lý và phân loại tốn rất nhiều thời gian, chi phí và nhân lực.

Vì vậy, các giải pháp tự động hóa quá trình này đã trở thành một vấn đề nhận được rất nhiều sự quan tâm từ cộng đồng nghiên cứu và các doanh nghiệp. Bài toán phân loại hình ảnh văn bản đã được ra đời nhằm giải quyết vấn đề trên. * Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản.2) ° Du liệu đầu ra: Loại tài liệu (văn bản thông báo, văn bản tổng kết,.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Hệ Thống Phân Loại Hình Ảnh Văn Bản: Nghiên Cứu và Xây Dựng" trình bày một cái nhìn sâu sắc về việc phát triển và ứng dụng các hệ thống phân loại hình ảnh văn bản. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các phương pháp phân loại hiện có mà còn cung cấp những lợi ích thiết thực trong việc tối ưu hóa quy trình xử lý văn bản. Đặc biệt, tài liệu nhấn mạnh tầm quan trọng của công nghệ trong việc cải thiện độ chính xác và hiệu quả trong việc nhận diện và phân loại hình ảnh văn bản.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Khóa luận tốt nghiệp khoa học máy tính tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh văn bản hành chính, nơi bạn sẽ tìm thấy những ứng dụng thực tiễn trong việc trích xuất thông tin từ hình ảnh văn bản. Ngoài ra, tài liệu Khóa luận tốt nghiệp khoa học máy tính phân loại đa tầng cho sản phẩm thời trang cũng cung cấp cái nhìn về phân loại hình ảnh trong lĩnh vực thời trang, giúp bạn hiểu rõ hơn về các kỹ thuật phân loại hình ảnh đa dạng. Cuối cùng, tài liệu Khóa luận tốt nghiệp kỹ thuật phần mềm cải tiến hệ thống điểm danh sinh viên trong lớp học tự động bằng dual camera có tích hợp mạng cnn sẽ cho bạn thấy ứng dụng của công nghệ trong việc tự động hóa quy trình nhận diện hình ảnh.

Những tài liệu này không chỉ mở rộng kiến thức của bạn mà còn cung cấp những góc nhìn đa dạng về các ứng dụng của công nghệ trong phân loại hình ảnh và xử lý văn bản.

#báo cáo tài chính ngân hàng

#nhận diện ký tự quang học

#Nghiên cứu xử lý ngôn ngữ tự nhiên

#Phân loại tài liệu ngân hàng

#Phương pháp Visual and Textual Features

#Hệ thống phân loại hình ảnh văn bản

Chủ đề

Phát triển hệ thống tự động hóa

Nghiên cứu về phân loại hình ảnh

Ứng dụng công nghệ trong xử lý văn bản

Thách thức trong phân loại tài liệu