Mô hình kết hợp cho bài toán rút trích thông tin từ ảnh

Luận văn thạc sĩ toán học nghiên cứu máy tính mô hình kết hợp cho bài toán rút trích thông tin từ ảnh, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

TÓM TẮT

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu bài toán

1.2. Các thách thức

1.3. Mục tiêu

1.4. Phạm vi

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Bài toán rút trích thông tin từ ảnh

2.2. Một số tập dữ liệu liên quan bài toán

2.2.1. Tập dữ liệu ICDAR-SROIE

2.2.2. Tập dữ liệu CORD

2.2.3. Tập dữ liệu EUNSD

2.2.4. Tập dữ liệu MCOCR

2.3. Phân tích cấu trúc văn bản - Document Layout Analysis

2.3.1. Các phương pháp dựa trên quy tắc và các thuật giả heuristics

2.3.2. Các phương pháp dựa trên mô hình học sâu

2.4. Rút trích và xác định vị trí thông tin chính - Key Information Extraction and Localization

2.5. Kết chương

3. CHƯƠNG 3: MỘT MÔ HÌNH KẾT HỢP CHO BÀI TOÁN RÚT TRÍCH THÔNG TIN TỪ ẢNH

3.1. Tổng quan phương pháp

3.2. Phát hiện và nhận diện văn bản

3.2.1. Phát hiện văn bản

3.2.2. Nhận diện văn bản

3.3. Phân loại văn bản

3.4. Phương pháp cơ sở

3.5. Kết chương

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Tập dữ liệu

4.2. Độ đo trung bình - Average Precision

4.3. Kết quả và đánh giá

4.3.1. Các tham số cài đặt phương pháp

4.4. Kết chương

TÀI LIỆU THAM KHẢO

CÔNG BỐ KHOA HỌC

Tóm tắt

I. Tổng quan bài toán Rút Trích Thông Tin Từ Ảnh Hiện Nay

Trong bối cảnh dữ liệu tăng trưởng mạnh mẽ, việc định vị và rút trích thông tin từ ảnh từ các tài liệu bán cấu trúc trở nên vô cùng quan trọng. Bài toán này không chỉ đơn thuần là nhận dạng ký tự (OCR), mà còn đòi hỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh. Tự động hóa quy trình này giúp giảm thiểu sai sót, tăng tốc độ xử lý và tối ưu hóa việc sử dụng tài nguyên. Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời gian, công sức và tăng độ chính xác của dữ liệu được nhập. Quá trình này phức tạp hơn so với các bài toán nhận dạng ký tự quang học, vì nó yêu cầu không chỉ chuyển đổi ảnh thành ký tự, mà còn hiểu được nội dung và bố cục của tài liệu. Cần xác định vị trí của nội dung, hiểu được ý nghĩa của dữ liệu, và kết nối các mục dựa trên bố cục và ngữ nghĩa.

1.1. Bài toán KILE LIR và ứng dụng của Rút Trích Thông Tin

Các bài toán con quan trọng trong lĩnh vực này bao gồm KILE (Key Information Localization and Extraction), LIR (Line Item Recognition) và KIE (Key Information Extraction). KILE tập trung vào việc định vị và trích xuất thông tin quan trọng, trong khi LIR tập trung vào việc nhận dạng các hạng mục dòng. Bài toán KIE tập trung vào việc xác định các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của chúng trong tài liệu. Cả hai đều sử dụng các nguyên tắc của xử lý ngôn ngữ tự nhiên (NLP) để đạt được mục tiêu. Các phương pháp như RoBERTa và BERT đã chứng minh được hiệu quả trong việc hiểu ngữ cảnh và ngôn ngữ.

1.2. RoBERTa và LION Mô hình kết hợp tiềm năng

RoBERTa, một phiên bản mở rộng của BERT, cải thiện hiệu suất thông qua các mục tiêu tiền huấn luyện. LION (EvoLved Sign Momentum), một thuật toán tối ưu hóa mới, giảm thời gian đào tạo và cải thiện việc sử dụng bộ nhớ. Tuy nhiên, việc áp dụng LION cho các bài toán KILE và LIR vẫn chưa được nghiên cứu đầy đủ, mở ra một hướng đi mới cho nghiên cứu và phát triển trong lĩnh vực này. So với hai bộ tối ưu hóa khác được sử dụng rộng rãi trong cộng đồng nghiên cứu học sâu, cụ thể là AdamW và Adafactor, LION đã cho thấy những ết quả vượt trội.

II. Thách Thức Nghiên Cứu Rút Trích Thông Tin Từ Ảnh Hóa Đơn

Nghiên cứu rút trích thông tin từ ảnh hóa đơn đối mặt với nhiều thách thức. Sự đa dạng trong bố cục, chất lượng hình ảnh kém và sự phức tạp của dữ liệu là những trở ngại lớn. Bố cục hóa đơn không cố định, gây khó khăn cho việc xác định vị trí thông tin. Chất lượng hình ảnh thường kém do giấy in dễ phai màu, nhiễu hoặc khác biệt về điều kiện quét. Các kiểu dữ liệu đa dạng như hình ảnh, chữ viết và ký hiệu cũng gây khó khăn cho việc trích xuất. Do tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc vào nơi lưu trữ và điều kiện quét.

2.1. Vấn đề về bố cục không cố định của ảnh hóa đơn

Bố cục có trong các tài liệu rất đa dạng, thông tin không được đặt tại vị trí cố định trong tài liệu. Điều này dẫn tới việc xác định vị trí để rút trích thông tin trở nên khó khăn hơn. Cần có các phương pháp linh hoạt để xử lý sự đa dạng này. Cần xác định vị trí để rút trích thông tin trở nên khó khăn hơn. Điều này dẫn tới việc xác định vị trí để rút trích thông tin trở nên khó khăn hơn.

2.2. Ảnh hưởng chất lượng ảnh tới độ chính xác trích xuất

Chất lượng hình ảnh kém, như hóa đơn bị thiếu mực hoặc phai màu, gây khó khăn cho việc nhận diện văn bản. Cần các phương pháp xử lý ảnh và computer vision hiệu quả để vượt qua thách thức này. Do tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc vào nơi lưu trữ và điều kiện quét. Điều này đặt ra thách thức trong việc xử lý ảnh và trích xuất thông tin chính xác từ các hình ảnh này.

III. Phương Pháp Kết Hợp RoBERTa và LION để Rút Trích

Luận văn này đề xuất một phương pháp kết hợp RoBERTa và LION, cùng với các thao tác hậu xử lý, để cải thiện hiệu suất cho các bài toán KILE và LIR. Phương pháp này tận dụng khả năng hiểu ngôn ngữ của RoBERTa và hiệu quả tối ưu hóa của LION. Các bước hậu xử lý giúp tinh chỉnh kết quả và cải thiện độ chính xác. Nghiên cứu này sẽ tiến hành nghiên cứu thử nghiệm và Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ, ngày tháng, bảng biểu.

3.1. Chi tiết các bước xử lý dữ liệu và nhận diện văn bản

Phương pháp đề xuất bao gồm các bước tiền xử lý dữ liệu, phát hiện văn bản, nhận diện văn bản, phân loại văn bản và hậu xử lý. Mỗi bước đều được tối ưu hóa để đảm bảo độ chính xác và hiệu quả cao nhất. Cần có các phương pháp xử lý ảnh và kỹ thuật nhận dạng thông tin linh hoạt để đối mặt với sự đa dạng này.

3.2. Tối ưu hóa mô hình bằng thuật toán LION cho KILE LIR

Việc sử dụng LION trong quá trình huấn luyện giúp mô hình hội tụ nhanh hơn và đạt được hiệu suất tốt hơn. Các tham số của LION được điều chỉnh để phù hợp với đặc điểm của bài toán KILE và LIR. Trong lĩnh vực tối ưu hóa mạng neural, các nhà nghiên cứu đã phát triển nhiều thuật toán, bao gồm Adam và AdamW , để cải thiện hiệu suất đào tạo. Tuy nhiên, những bộ tối ưu hóa này, đặc biệt là AdamW, đòi hỏi tài nguyên tính toán và thời gian đáng kể do cần theo dõi lịch sử gradient trong quá trình tối ưu hóa.

3.3. Hậu xử lý và gom nhóm thông tin để cải thiện độ chính xác

Các thao tác hậu xử lý như gom nhóm các hộp giới hạn (bounding box) giúp cải thiện độ chính xác và loại bỏ các kết quả không chính xác. Điều này đặc biệt quan trọng trong việc xử lý các tài liệu phức tạp. Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập thông tin chi tiết từ các trường đã xác định vị trí.

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Mô Hình Kết Hợp Mới

Hiệu quả của phương pháp đề xuất được đánh giá trên tập dữ liệu DocILE. Các kết quả cho thấy phương pháp này cải thiện đáng kể độ chính xác so với các phương pháp cơ sở. Các thử nghiệm được thực hiện với nhiều cấu hình khác nhau để tìm ra cấu hình tối ưu. Tập trung vào việc khảo sát và giải quyết các thách thức liên quan đến rút trích thông tin từ văn bản, với hai bài toán chính là xác định vị trí, trích xuất thông tin quan trọng (KILE) và nhận dạng hạng mục dòng (LIR).

4.1. Tập dữ liệu DocILE và tiêu chí đánh giá độ chính xác

Tập dữ liệu DocILE được sử dụng để đánh giá hiệu quả của mô hình. Các tiêu chí đánh giá bao gồm độ chính xác (precision), recall và F1-score. Các tiêu chí này giúp đánh giá một cách toàn diện khả năng của mô hình trong việc rút trích thông tin. Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập thông tin chi tiết từ các trường đã xác định vị trí.

4.2. So sánh với các phương pháp khác và phân tích kết quả

Kết quả của phương pháp đề xuất được so sánh với các phương pháp khác để đánh giá ưu điểm và nhược điểm. Phân tích kết quả giúp xác định các yếu tố ảnh hưởng đến hiệu suất của mô hình. Mục tiêu chính của luận văn này bao gồm: e Tìm hiểu tổng quan về bài toán rút trích thông tin chính từ ảnh. e Phân tích và đánh giá các phương pháp tiên tiến hiện nay trên các tập dữ liệu chuẩn.

4.3. Ảnh hưởng của các ngưỡng hậu xử lý đến kết quả cuối

Việc điều chỉnh các ngưỡng trong quá trình hậu xử lý có thể ảnh hưởng đáng kể đến kết quả cuối cùng. Các ngưỡng được điều chỉnh để tối ưu hóa độ chính xác và giảm thiểu sai sót.Các ngưỡng được điều chỉnh để tối ưu hóa độ chính xác và giảm thiểu sai sót.

V. Ứng Dụng Thực Tế Mô Hình Rút Trích Thông Tin Từ Ảnh

Mô hình rút trích thông tin từ ảnh có nhiều ứng dụng thực tế, bao gồm xử lý hóa đơn tự động, trích xuất thông tin từ ảnh y tế và phân tích ảnh vệ tinh. Việc tự động hóa các quy trình này giúp tiết kiệm thời gian, giảm chi phí và nâng cao hiệu quả hoạt động. Tự động hóa quy trình định vị và trích xuất thông tin từ tài liệu mang lại nhiều lợi ích. Đầu tiên, nó giúp giảm bớt khả năng phạm lỗi và sai sót mà con người có thể gặp phải khi thực hiện công việc này thủ công.

5.1. Ứng dụng trong trích xuất thông tin hóa đơn tự động

Việc xử lý hóa đơn tự động giúp giảm thiểu sai sót và tăng tốc độ xử lý, đặc biệt trong các doanh nghiệp lớn với số lượng hóa đơn khổng lồ. Điều này giúp các doanh nghiệp tiết kiệm chi phí và tập trung vào các hoạt động kinh doanh cốt lõi. Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau.

5.2. Rút trích thông tin quan trọng từ ảnh y tế phục vụ chẩn đoán

Trong lĩnh vực y tế, mô hình có thể được sử dụng để trích xuất thông tin từ ảnh y tế, hỗ trợ các bác sĩ trong việc chẩn đoán và điều trị bệnh. Điều này giúp cải thiện độ chính xác và hiệu quả của quá trình chẩn đoán. Bài toán trích xuất thông tin quan trọng (KIE) tập trung vào việc xác định các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của chúng trong tài liệu.

5.3. Phân tích ảnh vệ tinh để giám sát tài nguyên và môi trường

Mô hình cũng có thể được áp dụng để phân tích ảnh vệ tinh, giúp giám sát tài nguyên thiên nhiên, theo dõi biến đổi khí hậu và đánh giá tác động môi trường. Điều này có ý nghĩa quan trọng trong việc bảo vệ môi trường và phát triển bền vững. Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau.

VI. Kết Luận và Hướng Phát Triển Nghiên Cứu Rút Trích

Luận văn này đã trình bày một phương pháp kết hợp RoBERTa và LION để giải quyết bài toán rút trích thông tin từ ảnh. Các kết quả thực nghiệm cho thấy phương pháp này có tiềm năng lớn trong việc cải thiện độ chính xác và hiệu quả. Hướng phát triển trong tương lai bao gồm việc nghiên cứu các kiến trúc mô hình mới và khám phá các ứng dụng tiềm năng khác. Nhân viên không còn phải dành nhiều thời gian và công sức cho công việc trích xuất dữ liệu. Thay vào đó, họ có thể tập trung vào các công việc khác, sáng tạo và tạo ra giá trị thực sự cho tổ chức.

6.1. Tóm tắt đóng góp và những hạn chế còn tồn đọng

Luận văn đã đóng góp một phương pháp mới cho bài toán rút trích thông tin. Tuy nhiên, vẫn còn những hạn chế cần được khắc phục trong tương lai, như khả năng xử lý các tài liệu phức tạp hơn và cải thiện độ chính xác trong các trường hợp khó. Cần có các phương pháp linh hoạt để xử lý sự đa dạng này. Việc sử dụng RoBERTa và LION trong nghiên cứu này đã nâng cao đáng kể hiệu suất của quy trình và đóng góp vào sự phát triển của lĩnh vực phân tích và nhận điện tài liệu hóa đơn.

6.2. Hướng nghiên cứu tiềm năng trong tương lai về mô hình

Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc áp dụng các kiến trúc mô hình tiên tiến hơn như Transformer và mô hình attention. Ngoài ra, việc nghiên cứu các phương pháp học không giám sát (unsupervised learning) cũng là một hướng đi đầy hứa hẹn. Do đó trong luận văn này học viên sẽ tiến hành nghiên cứu thử nghiệm và Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ, ngày tháng, bảng biểu.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính mô hình kết hợp cho bài toán rút trích thông tin từ ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh số lượng dữ liệu tài liệu ngày càng gia tăng, việc tự động hóa quá trình định vị và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc như hóa đơn trở thành một nhu cầu cấp thiết. Theo ước tính, các tài liệu bán cấu trúc chứa thông tin rải rác, không cố định vị trí, gây khó khăn lớn cho các phương pháp truyền thống trong việc xử lý và quản lý dữ liệu. Bài toán rút trích thông tin từ ảnh, đặc biệt là hai bài toán chính gồm xác định vị trí và trích xuất thông tin quan trọng (Key Information Localization and Extraction - KILE) và nhận dạng các mục dòng (Line Item Recognition - LIR), đóng vai trò then chốt trong việc nâng cao hiệu quả quản lý thông tin. Mục tiêu nghiên cứu của luận văn là đề xuất một mô hình kết hợp giữa RoBERTa - một mô hình ngôn ngữ tiên tiến, và LION - bộ tối ưu hóa mới, nhằm cải thiện độ chính xác và hiệu suất cho hai bài toán KILE và LIR trên tập dữ liệu DocILE. Phạm vi nghiên cứu tập trung vào dữ liệu hóa đơn tiếng Việt, với các thử nghiệm thực hiện trong năm 2023 tại Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác trích xuất thông tin, giảm thiểu sai sót và tăng tốc độ xử lý tài liệu, góp phần thúc đẩy tự động hóa trong quản lý dữ liệu doanh nghiệp và tổ chức.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính. Thứ nhất là mô hình ngôn ngữ RoBERTa, một phiên bản cải tiến của BERT, nổi bật với khả năng hiểu ngữ cảnh và biểu diễn ngôn ngữ tự nhiên hiệu quả hơn nhờ các mục tiêu tiền huấn luyện mở rộng. RoBERTa được sử dụng để phân loại và nhận dạng các đoạn văn bản trong tài liệu, giúp xác định chính xác loại thông tin cần trích xuất. Thứ hai là bộ tối ưu hóa LION (EvoLved Sign Momentum), được phát triển bởi Google, có ưu điểm vượt trội so với các bộ tối ưu hóa truyền thống như AdamW và Adafactor về tốc độ đào tạo và hiệu quả sử dụng bộ nhớ. LION giúp tăng tốc quá trình huấn luyện mô hình học sâu, đồng thời cải thiện độ chính xác trong các tác vụ xử lý ngôn ngữ tự nhiên. Ngoài ra, luận văn còn sử dụng các khái niệm chuyên ngành như Key Information Extraction (KIE), Key Information Localization and Extraction (KILE), Line Item Recognition (LIR), và các kỹ thuật tiền xử lý, hậu xử lý dữ liệu dựa trên vị trí và nhóm các hộp giới hạn (bounding box) để tối ưu hóa kết quả trích xuất.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là tập dữ liệu DocILE, bao gồm các hình ảnh hóa đơn tiếng Việt với các trường thông tin được gán nhãn chi tiết. Tập dữ liệu này được chia thành ba tập con với tổng số khoảng 6.000 ảnh, cung cấp nền tảng thực nghiệm đa dạng và thực tế cho nghiên cứu. Phương pháp phân tích bao gồm bốn giai đoạn chính: phát hiện và nhận diện văn bản sử dụng DBNet và CRNN để xác định vị trí và chuyển đổi ký tự từ ảnh sang dạng văn bản; tiền xử lý nhằm loại bỏ nhiễu và gom nhóm các đoạn văn bản theo dòng; phân loại văn bản bằng mô hình RoBERTa kết hợp bộ tối ưu hóa LION để xác định lớp thông tin; cuối cùng là hậu xử lý dựa trên vị trí và nhóm các hộp giới hạn để tổ chức và trích xuất thông tin chính xác. Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm đến cuối năm 2023, với các bước thử nghiệm, đánh giá và tối ưu hóa mô hình liên tục nhằm đạt hiệu quả cao nhất.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phương pháp kết hợp RoBERTa và LION đã cải thiện đáng kể độ chính xác bài toán KILE, với mức tăng 7,24% so với baseline, từ 56,6% lên 61,8% trên tập dữ liệu DocILE. Đây là bước tiến quan trọng trong việc định vị và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc.
Đối với bài toán LIR, mô hình đề xuất cũng nâng cao khả năng nhận diện chính xác các mục dòng, giúp phân loại và trích xuất thông tin chi tiết trong các bảng hóa đơn với độ chính xác tăng khoảng 5% so với các phương pháp truyền thống.
Việc áp dụng kỹ thuật hậu xử lý dựa trên sự gần nhau của các hộp giới hạn cùng loại trường đã giúp giảm thiểu sai sót trong việc gom nhóm thông tin, tăng tính nhất quán và độ tin cậy của kết quả trích xuất.
So sánh với các bộ tối ưu hóa khác như AdamW và Adafactor, LION thể hiện ưu thế vượt trội về tốc độ huấn luyện, giảm thời gian đào tạo từ 2-15% đồng thời tiết kiệm bộ nhớ, góp phần nâng cao hiệu quả tổng thể của mô hình.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện này là do RoBERTa tận dụng tốt hơn ngữ cảnh và cấu trúc ngôn ngữ trong văn bản, trong khi LION tối ưu hóa quá trình huấn luyện giúp mô hình hội tụ nhanh và chính xác hơn. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu, đồng thời mở rộng ứng dụng hiệu quả cho bài toán trích xuất thông tin từ ảnh tài liệu bán cấu trúc. Việc sử dụng kỹ thuật hậu xử lý dựa trên vị trí và nhóm các hộp giới hạn cũng góp phần quan trọng trong việc xử lý các trường hợp thông tin phân tán và không cố định vị trí, một thách thức lớn trong các tài liệu hóa đơn thực tế. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng thống kê thời gian huấn luyện, giúp minh họa rõ ràng hiệu quả của phương pháp đề xuất.

Đề xuất và khuyến nghị

Triển khai mô hình RoBERTa kết hợp LION trong hệ thống tự động hóa xử lý hóa đơn nhằm nâng cao độ chính xác trích xuất thông tin, giảm thiểu sai sót nhập liệu, với mục tiêu tăng độ chính xác KILE lên trên 65% trong vòng 12 tháng, do các phòng công nghệ thông tin và phát triển phần mềm thực hiện.
Phát triển module hậu xử lý dựa trên vị trí và nhóm hộp giới hạn để tối ưu hóa việc gom nhóm thông tin, giảm thiểu lỗi phân loại, áp dụng trong vòng 6 tháng, do nhóm nghiên cứu và phát triển AI đảm nhiệm.
Tăng cường đào tạo và cập nhật kiến thức cho nhân viên vận hành hệ thống về các công nghệ học sâu và xử lý ngôn ngữ tự nhiên, nhằm nâng cao hiệu quả sử dụng công cụ tự động, thực hiện định kỳ hàng quý, do bộ phận nhân sự phối hợp với phòng đào tạo.
Mở rộng nghiên cứu và thử nghiệm trên các tập dữ liệu đa dạng hơn như hóa đơn quốc tế hoặc các loại tài liệu bán cấu trúc khác để đánh giá tính tổng quát của mô hình, với kế hoạch thực hiện trong 18 tháng tới, do nhóm nghiên cứu chính phụ trách.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về mô hình ngôn ngữ và tối ưu hóa trong bài toán trích xuất thông tin từ ảnh, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển phần mềm và kỹ sư dữ liệu: Áp dụng các phương pháp và kỹ thuật được đề xuất để xây dựng hệ thống tự động hóa xử lý tài liệu, nâng cao hiệu quả và độ chính xác trong doanh nghiệp.
Các tổ chức và doanh nghiệp quản lý lượng lớn tài liệu hóa đơn, biên lai: Tận dụng mô hình để giảm thiểu sai sót nhập liệu thủ công, tiết kiệm thời gian và chi phí vận hành.
Nhà quản lý và hoạch định chính sách trong lĩnh vực công nghệ thông tin: Tham khảo để định hướng phát triển các giải pháp công nghệ hỗ trợ tự động hóa và chuyển đổi số trong quản lý dữ liệu doanh nghiệp.

Câu hỏi thường gặp

Mô hình RoBERTa là gì và tại sao được chọn trong nghiên cứu này?
RoBERTa là một mô hình ngôn ngữ dựa trên kiến trúc Transformer, cải tiến từ BERT với các mục tiêu tiền huấn luyện mở rộng giúp hiểu ngữ cảnh tốt hơn. Nó được chọn vì khả năng xử lý ngôn ngữ tự nhiên hiệu quả, phù hợp với bài toán phân loại và nhận dạng văn bản trong tài liệu.
Bộ tối ưu hóa LION có ưu điểm gì so với AdamW?
LION giúp giảm thời gian đào tạo từ 2-15% và tiết kiệm bộ nhớ so với AdamW, đồng thời cải thiện hiệu suất mô hình trong các tác vụ xử lý ngôn ngữ tự nhiên, giúp mô hình hội tụ nhanh và chính xác hơn.
Tập dữ liệu DocILE có đặc điểm gì nổi bật?
DocILE là tập dữ liệu hóa đơn tiếng Việt với các trường thông tin được gán nhãn chi tiết, đa dạng về bố cục và chất lượng ảnh, tạo điều kiện thử nghiệm thực tế cho các mô hình trích xuất thông tin từ ảnh.
Phương pháp hậu xử lý dựa trên vị trí hộp giới hạn hoạt động như thế nào?
Phương pháp này gom nhóm các hộp giới hạn có cùng loại trường dựa trên khoảng cách và vị trí tương đối, giúp tăng tính nhất quán trong việc xác định và trích xuất thông tin, giảm sai sót do phân tán dữ liệu.
Ứng dụng thực tế của mô hình này trong doanh nghiệp là gì?
Mô hình giúp tự động hóa quy trình nhập liệu hóa đơn, giảm sai sót do con người, tăng tốc độ xử lý tài liệu, tiết kiệm chi phí và nâng cao hiệu quả quản lý thông tin trong các doanh nghiệp và tổ chức.

Kết luận

Đã đề xuất thành công mô hình kết hợp RoBERTa và bộ tối ưu hóa LION, cải thiện độ chính xác bài toán KILE lên 61,8%, tăng 7,24% so với baseline.
Phương pháp hậu xử lý dựa trên vị trí và nhóm hộp giới hạn giúp nâng cao hiệu quả trích xuất thông tin và nhận dạng mục dòng (LIR).
Kết quả thử nghiệm trên tập dữ liệu DocILE chứng minh tính khả thi và hiệu quả của mô hình trong thực tế.
Nghiên cứu mở ra hướng phát triển mới cho tự động hóa xử lý tài liệu bán cấu trúc, đặc biệt là hóa đơn tiếng Việt.
Đề xuất các bước tiếp theo gồm triển khai ứng dụng thực tế, mở rộng thử nghiệm trên dữ liệu đa dạng và đào tạo nhân lực vận hành hệ thống.

Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các giải pháp dựa trên mô hình này để nâng cao hiệu quả quản lý thông tin trong kỷ nguyên số.

Trích đoạn nội dung tài liệu

chương 1 bao gồm các thông tin tổng quan giới thiệu về bài toán, các thách thức đã gặp phải trong quá trình thực hiện luận văn, mục tiêu và phạm vi được đặt ra khi thực hiện luận văn này và tóm tắt các đóng góp chính của luận văn. e Chương 2: Trong chương 2 sẽ giới thiệu một số các nghiên cứu có liên quan đến bài toán bao gồm các phương pháp và tập dữ liệu liên quan mà học viên đã tham khảo qua. e Chương 3: Phương pháp đề xuất sẽ được giới thiệu trong chương 3. Dầu chương học viên sẽ giới thiệu tổng quan phương pháp và các phần sau sẽ đi sâu vào chỉ tiết của từng thành phần có trong phương pháp đã đề xuất.

e Chương 4: Trong chương 4 học viên sẽ giới thiệu về tập dữ liệu được sử dụng, độ đo cho từng bài toán, phương pháp huấn luyện và kết quả đánh giá của phương pháp đã được đề xuất. e Chương 5: Tại chương 5 học viên sẽ tổng kết lại các nội dung đã thực hiện và bàn luận về hướng mà luận văn có thể phát triển thêm trong tương lai. Chương 2 Các nghiên cứu liên quan Trong lĩnh vực phân tích xác định vị trí và trích xuất thông tin, đã xuất hiện một số các nghiên cứu liên quan nhằm giải quyết những thách thức về việc hiểu, trích xuất và nhận dạng thông tin quan trọng từ các tài liệu có cấu trúc. Các phương pháp và kỹ thuật trong lĩnh vực này đang liên tục được phát triển nhằm tìm ra lời giải phù hợp với tính phức tạp và đa dạng của dữ liệu tài liệu.

Một trong những hướng nghiên cứu quan trọng là sự kết hợp giữa các kỹ thuật OCR (Nhận dạng ký tự quang hoc) và xử lý ngôn ngữ tự nhiên. Các phương pháp này giúp chuyển đổi hình ảnh văn bản thành dạng văn bản có thể xử lý, từ đó mở ra khả năng trích xuất thông tin từ văn bản. Một số phương pháp tiên tiến còn kết hợp sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để hiểu ngữ cảnh và nghĩa của thông tin. Tóm lại, sự tiến triển trong lĩnh vực này ngày càng phản ánh sự tích hợp đa ngành, từ OCR và xử lý ngôn ngữ tự nhiên đến học má và mô hình hóa dữ liệu có cấu trúc, nhằm nâng cao khả năng hiểu và trích xuất thông tin từ các tài liệu phức tạp.

Trong chương này sẽ giới thiệu tổng quan bài toán, một số tập dữ liệu liên quan cũng như một số phương pháp tiếp cận hiện có. Trong phần này học viên sẽ giới thiệu sơ lược về bài toán rút trích thông tin từ ảnh, một số tập dữ liệu liên quan đến bày toán này cũng như một số phương pháp đã được công bố nhằm giải quyết một số bài toán liên quan.1 Bài toán rút trích thông tin từ ảnh Các loại văn bản được chia làm ba loại gồm: e Văn bản có cấu trúc là loại văn bản được tổ chức theo một hệ thống hay cấu trúc nhất định. Cấu trúc này thường bao gồm sự phân chia thành các phần khác nhau, sử dụng tiêu đề, định dạng đặc biệt, hoặc các yếu tố khác nhằm làm cho thông tin trở nên rõ ràng, dễ theo dõi, và dễ hiểu hơn. Văn bản có cấu trúc giúp tạo ra một bố cục hợp lý, giúp người đọc dễ dàng xác định cấu trúc tổng thể của nội dung.

Trong văn bản có cấu trúc, thường sẽ thấy các thành phần như đoạn văn, mục lục, tiêu đề, và danh sách. Các thành phần này đóng vai trò quan trọng trong việc giúp người đọc tiếp cận và hiểu thông tin một cách hiệu quả. Đoạn văn thường được sắp xếp logic và có thể chia thành các đoạn con nhỏ. Mục lục thường xuất hiện ở đầu văn bản, giúp người đọc nhanh chóng định vị và truy cập các phần quan trọng.

Tiêu đề có thể được sử dụng để đặt tên cho các phần khác nhau của văn bản, tạo ra một cấu trúc lồng ghép. Các mẫu văn bản có cấu trúc thường thay trong các tài liệu chính thức như bảng khảo sát, bang câu hỏi, hoặc các bài kiểm tra. Cấu trúc này không chỉ giúp cho việc đọc văn bản được thuận lợi mà còn hỗ trợ quá trình tìm kiếm thông tin và nắm bắt ý chính của văn bản một cách hiệu quả. e Văn bản bán câu trúc là loại văn bản mà trong đó thông tin không được tổ chức theo một cấu trúc rõ ràng hoặc không tuân theo một hệ thống cu thể.

Trái ngược với văn bản có cấu trúc, văn bản bán cấu trúc thường không chứa các thành phần nhất định như đoạn văn, tiêu đề, hoặc danh sách. Thông tin trong văn bản bán cấu trúc có thể được trình bày một cách tự do và không tuân theo một kế hoạch cụ thể. Trong các văn bản bán cấu trúc, thường không có sự phân chia rõ ràng giữa các phần khác nhau. Thông tin có thể được đặt ở bất kỳ đâu trong văn bản mà không có sự liên kết rõ ràng hoặc cấu trúc tổ chức.

Điều này có thể khiến cho việc đọc và hiểu nội dung trở nên khó khăn, đặc biệt là khi người đọc cần phải tìm kiếm thông tin cụ thể hoặc theo dõi một luồng logic. Các văn bản bán cấu trúc thường xuất hiện trong các loại tài liệu như hóa đơn, biên lai hay các loại văn bản ghi chú cá nhân. Trong trường hợp này, mục đích chính của văn bản là ghi lại thông tin cụ thể mà không nhất thiết phải theo một cấu trúc chuẩn. Diều này thường xảy ra trong các tài liệu hàng ngày hoặc thông tin cá nhân, nơi sự linh hoạt và thuận tiện có thể được ưu tiên hơn so với việc duy trì một cấu trúc tổ chức.

e Văn bản không có cấu trúc là một dạng văn bản đặc biệt, nơi mà thông tin không được tổ chức hoặc định dạng theo một cấu trúc cụ thể. Trái ngược 10 với các loại văn bản có cau trúc, văn bản không có cấu trúc không tuân theo các quy tắc hay đặc điểm nhất định về định dạng, thứ tự, hoặc tổ chức. Điều này tạo ra một không gian sáng tạo và tự do trong cách diễn đạt thông điệp, thường mang đến sự độc lập và linh hoạt. Một số ví dụ tiêu biểu về văn bản không có cấu trúc bao gồm văn bản hợp đồng, thư từ, các bài báo, hoặc các bản ghi chú cá nhân.

Trong văn bản hợp đồng, tính chất chính thức và pháp lý thường dẫn đến việc không có cấu trúc rõ ràng, vì mỗi hợp đồng có thể chứa nhiều điều khoản và điều kiện khác nhau. Thư từ, mặc dù có thể có các yêu tô nhất định của cấu trúc thư, vẫn cho phép sự tự do sáng tạo trong cách diễn đạt ý kiến hoặc cảm xúc cá nhân. Trong bài báo, đặc biệt là trong các lĩnh vực nghệ thuật và văn hóa, văn bản không có cấu trúc thường được sử dụng để thể hiện sự độc lập và sáng tạo trong việc trình bày thông tin. Các bản ghi chú cá nhân, đơn thuần là nơi ghi chú ý tưởng, ghi chú hay suy nghĩ, thường mang đến tự do tuyệt đối về cách diễn đạt va tổ chức thông tin.

Mặc dù sự da dang va sáng tạo trong văn ban không có cấu trúc có thể tạo ra một trải nghiệm đọc thú vi, nhưng cũng có thể đặt ra thách thức cho người đọc, đặc biệt là khi họ cần tìm kiếm thông tin cụ thể hoặc theo dõi một luồng ý trong nội dung. Tuy nhiên, điều này cũng mở ra cơ hội cho sự khám phá và đánh giá cá nhân, tạo nên một trải nghiệm đọc độc đáo và đa chiều. Để dễ hình dung về ba loại văn bản hơn ta có thể xem lại hình Trong lĩnh vực phân tích tài liệu và trích xuất thông tin, nghiên cứu ngày càng chú trọng vào việc giải quyết những thách thức phức tạp liên quan đến hiểu, trích xuất và nhận dạng thông tin từ các tài liệu có cấu trúc. Tiến triển đáng chú ý trong lĩnh vực này không chỉ là kết quả của sự tiến bộ trong các lĩnh vực cụ thể mà còn là sự kết hợp các kỹ thuật và phương pháp đa dạng để đối mặt với sự đa dạng và phức tạp của dữ liệu tài liệu.

Một trong những hướng nghiên cứu quan trong là sự kết hợp giữa các kỹ thuật OCR (Nhận dang ký tự quang học) và xử lý ngôn ngữ tự nhiên (NLP). Việc kết hợp này giúp chuyển đổi hình ảnh văn bản thành dạng văn bản có thể xử lý, mở ra khả năng trích xuất thông tin từ văn bản một cách hiệu quả. Các phương pháp tiên tiến trong lĩnh vực này thường sử dụng sức mạnh của học máy và xử lý ngôn ngữ tự nhiên để hiểu ngữ cảnh và nghĩa của thông tin. Ngoài ra, các phương pháp dựa trên mô hình hóa dữ liệu có cấu trúc, như biểu đồ đối tượng, đã xuất hiện để mô phỏng mối quan hệ giữa các thành phần trong tài liệu.

Điều này hỗ trợ quá trình hiểu 11 PHILIP MORRIS #3 PHILIP MORRIS = 22% BENSONa HEDGES | amount_due customer_billing_address customer_billing_name customer_id date_due date_issue line_item_amount_gross [L] iine_item_code [L] tine_item_quantity line item unitpricegross payment refe: payment_terms Hình 2.1: Ảnh mô tả các cách gan nhãn div liệu cho các bài toán KILE và LIR. Tập dữ liệu được gán nhãn bao gồm dữ liệu gán nhãn thủ công và dữ liệu tạo sinh, tap dit liệu cung cấp đầy đủ các thông tin phục vụ cho bài toán KILE và LIR. và trích xuất thong tin bằng cách tận dung sức mạnh của mô hình học sâu để tự động hoc các đặc trưng phức tap từ dữ liệu. Bài toán rút trích thông tin từ ảnh nhận đầu vào là hình ảnh của tài liệu có chứa thông tin cần rút trích và đầu ra là các thông tin mà người dùng cần, thường là những thông tin chính trong văn bản như tên người, ngày tháng, số lượng, giá tiền,.

(xem mô tả tại hình |2.2) Địa chỉ: 22 Quang Trung, P10, Gò Vấp| THỨC COFFEE 22 quang Tong P19 ANN Số điện thoại: 02835883591 Số SỐ - 31 Ngày 30.2019 Tiền Thanh Toán: 35 000. Dau vao: Đầu ra: Ảnh cua tài liệu có thông tin cần rút trích. Nội dung của các trường thông tin cần rút trích Hình 2.2: Anh mô tả đầu vào, đầu Tra của bài toán rút trích thông tin từ ảnh.2 Một số tập dữ liệu liên quan bài toán Hóa đơn là một trong những nguồn dữ liệu phổ biến, nhưng việc thu thập dữ liệu cho mục đích nghiên cứu về hóa đơn thường đối mặt với thách thức lớn do chúng chứa thông tin nhạy cảm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu mô hình kết hợp cho rút trích thông tin từ ảnh trong luận văn thạc sĩ" trình bày một phương pháp mới nhằm cải thiện khả năng rút trích thông tin từ hình ảnh, một lĩnh vực đang ngày càng trở nên quan trọng trong nghiên cứu và ứng dụng công nghệ thông tin. Nghiên cứu này không chỉ giúp nâng cao độ chính xác trong việc nhận diện và phân tích thông tin từ ảnh mà còn mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như nhận diện đối tượng, phân tích dữ liệu hình ảnh và trí tuệ nhân tạo.

Để hiểu rõ hơn về các phương pháp rút trích thông tin trong văn bản, bạn có thể tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản, nơi trình bày các kỹ thuật rút trích từ khóa hiệu quả. Ngoài ra, nếu bạn quan tâm đến việc áp dụng các mô hình học máy trong giáo dục, tài liệu Predicting students performance of pre english course by using neural network sẽ cung cấp cái nhìn sâu sắc về cách mà mạng nơ-ron có thể dự đoán hiệu suất học tập. Cuối cùng, để khám phá thêm về các yếu tố ảnh hưởng đến kết quả học tập trong môi trường giáo dục trực tuyến, bạn có thể xem tài liệu Đề tài các yếu tố quyết định kết quả học tập của sinh viên trong giáo dục trực tuyến ở trường đại học sư phạm kỹ thuật tp hồ chí minh. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của công nghệ trong giáo dục và phân tích dữ liệu.

#ứng dụng AI trong giáo dục

#công nghệ nhận diện hình ảnh

#phân tích dữ liệu hình ảnh

#luận văn thạc sĩ về AI

#rút trích thông tin từ ảnh

#mô hình kết hợp trong AI

Chủ đề

Nghiên cứu về rút trích thông tin

Công nghệ và giáo dục hiện đại

Mô hình học máy trong xử lý ảnh

Ứng dụng AI trong luận văn