Trường đại học
Đại học Quốc gia Thành phố Hồ Chí MinhChuyên ngành
Khoa học máy tínhNgười đăng
Ẩn danhThể loại
luận văn thạc sĩ2023
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Trong bối cảnh dữ liệu tăng trưởng mạnh mẽ, việc định vị và rút trích thông tin từ ảnh từ các tài liệu bán cấu trúc trở nên vô cùng quan trọng. Bài toán này không chỉ đơn thuần là nhận dạng ký tự (OCR), mà còn đòi hỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh. Tự động hóa quy trình này giúp giảm thiểu sai sót, tăng tốc độ xử lý và tối ưu hóa việc sử dụng tài nguyên. Việc tự động hóa nhập liệu có nhiều lợi ích, giúp tiết kiệm thời gian, công sức và tăng độ chính xác của dữ liệu được nhập. Quá trình này phức tạp hơn so với các bài toán nhận dạng ký tự quang học, vì nó yêu cầu không chỉ chuyển đổi ảnh thành ký tự, mà còn hiểu được nội dung và bố cục của tài liệu. Cần xác định vị trí của nội dung, hiểu được ý nghĩa của dữ liệu, và kết nối các mục dựa trên bố cục và ngữ nghĩa.
Các bài toán con quan trọng trong lĩnh vực này bao gồm KILE (Key Information Localization and Extraction), LIR (Line Item Recognition) và KIE (Key Information Extraction). KILE tập trung vào việc định vị và trích xuất thông tin quan trọng, trong khi LIR tập trung vào việc nhận dạng các hạng mục dòng. Bài toán KIE tập trung vào việc xác định các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của chúng trong tài liệu. Cả hai đều sử dụng các nguyên tắc của xử lý ngôn ngữ tự nhiên (NLP) để đạt được mục tiêu. Các phương pháp như RoBERTa và BERT đã chứng minh được hiệu quả trong việc hiểu ngữ cảnh và ngôn ngữ.
RoBERTa, một phiên bản mở rộng của BERT, cải thiện hiệu suất thông qua các mục tiêu tiền huấn luyện. LION (EvoLved Sign Momentum), một thuật toán tối ưu hóa mới, giảm thời gian đào tạo và cải thiện việc sử dụng bộ nhớ. Tuy nhiên, việc áp dụng LION cho các bài toán KILE và LIR vẫn chưa được nghiên cứu đầy đủ, mở ra một hướng đi mới cho nghiên cứu và phát triển trong lĩnh vực này. So với hai bộ tối ưu hóa khác được sử dụng rộng rãi trong cộng đồng nghiên cứu học sâu, cụ thể là AdamW và Adafactor, LION đã cho thấy những ết quả vượt trội.
Nghiên cứu rút trích thông tin từ ảnh hóa đơn đối mặt với nhiều thách thức. Sự đa dạng trong bố cục, chất lượng hình ảnh kém và sự phức tạp của dữ liệu là những trở ngại lớn. Bố cục hóa đơn không cố định, gây khó khăn cho việc xác định vị trí thông tin. Chất lượng hình ảnh thường kém do giấy in dễ phai màu, nhiễu hoặc khác biệt về điều kiện quét. Các kiểu dữ liệu đa dạng như hình ảnh, chữ viết và ký hiệu cũng gây khó khăn cho việc trích xuất. Do tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc vào nơi lưu trữ và điều kiện quét.
Bố cục có trong các tài liệu rất đa dạng, thông tin không được đặt tại vị trí cố định trong tài liệu. Điều này dẫn tới việc xác định vị trí để rút trích thông tin trở nên khó khăn hơn. Cần có các phương pháp linh hoạt để xử lý sự đa dạng này. Cần xác định vị trí để rút trích thông tin trở nên khó khăn hơn. Điều này dẫn tới việc xác định vị trí để rút trích thông tin trở nên khó khăn hơn.
Chất lượng hình ảnh kém, như hóa đơn bị thiếu mực hoặc phai màu, gây khó khăn cho việc nhận diện văn bản. Cần các phương pháp xử lý ảnh và computer vision hiệu quả để vượt qua thách thức này. Do tính chất của giấy in hóa đơn nên thường các ảnh hóa đơn có chất lượng kém, dé bị phai màu, nhiễu, hoặc chứa các đặc điểm khác nhau phụ thuộc vào nơi lưu trữ và điều kiện quét. Điều này đặt ra thách thức trong việc xử lý ảnh và trích xuất thông tin chính xác từ các hình ảnh này.
Luận văn này đề xuất một phương pháp kết hợp RoBERTa và LION, cùng với các thao tác hậu xử lý, để cải thiện hiệu suất cho các bài toán KILE và LIR. Phương pháp này tận dụng khả năng hiểu ngôn ngữ của RoBERTa và hiệu quả tối ưu hóa của LION. Các bước hậu xử lý giúp tinh chỉnh kết quả và cải thiện độ chính xác. Nghiên cứu này sẽ tiến hành nghiên cứu thử nghiệm và Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ, ngày tháng, bảng biểu.
Phương pháp đề xuất bao gồm các bước tiền xử lý dữ liệu, phát hiện văn bản, nhận diện văn bản, phân loại văn bản và hậu xử lý. Mỗi bước đều được tối ưu hóa để đảm bảo độ chính xác và hiệu quả cao nhất. Cần có các phương pháp xử lý ảnh và kỹ thuật nhận dạng thông tin linh hoạt để đối mặt với sự đa dạng này.
Việc sử dụng LION trong quá trình huấn luyện giúp mô hình hội tụ nhanh hơn và đạt được hiệu suất tốt hơn. Các tham số của LION được điều chỉnh để phù hợp với đặc điểm của bài toán KILE và LIR. Trong lĩnh vực tối ưu hóa mạng neural, các nhà nghiên cứu đã phát triển nhiều thuật toán, bao gồm Adam và AdamW , để cải thiện hiệu suất đào tạo. Tuy nhiên, những bộ tối ưu hóa này, đặc biệt là AdamW, đòi hỏi tài nguyên tính toán và thời gian đáng kể do cần theo dõi lịch sử gradient trong quá trình tối ưu hóa.
Các thao tác hậu xử lý như gom nhóm các hộp giới hạn (bounding box) giúp cải thiện độ chính xác và loại bỏ các kết quả không chính xác. Điều này đặc biệt quan trọng trong việc xử lý các tài liệu phức tạp. Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập thông tin chi tiết từ các trường đã xác định vị trí.
Hiệu quả của phương pháp đề xuất được đánh giá trên tập dữ liệu DocILE. Các kết quả cho thấy phương pháp này cải thiện đáng kể độ chính xác so với các phương pháp cơ sở. Các thử nghiệm được thực hiện với nhiều cấu hình khác nhau để tìm ra cấu hình tối ưu. Tập trung vào việc khảo sát và giải quyết các thách thức liên quan đến rút trích thông tin từ văn bản, với hai bài toán chính là xác định vị trí, trích xuất thông tin quan trọng (KILE) và nhận dạng hạng mục dòng (LIR).
Tập dữ liệu DocILE được sử dụng để đánh giá hiệu quả của mô hình. Các tiêu chí đánh giá bao gồm độ chính xác (precision), recall và F1-score. Các tiêu chí này giúp đánh giá một cách toàn diện khả năng của mô hình trong việc rút trích thông tin. Bằng cách này, KILE không chỉ nhận biết mà còn có thể thu thập thông tin chi tiết từ các trường đã xác định vị trí.
Kết quả của phương pháp đề xuất được so sánh với các phương pháp khác để đánh giá ưu điểm và nhược điểm. Phân tích kết quả giúp xác định các yếu tố ảnh hưởng đến hiệu suất của mô hình. Mục tiêu chính của luận văn này bao gồm: e Tìm hiểu tổng quan về bài toán rút trích thông tin chính từ ảnh. e Phân tích và đánh giá các phương pháp tiên tiến hiện nay trên các tập dữ liệu chuẩn.
Việc điều chỉnh các ngưỡng trong quá trình hậu xử lý có thể ảnh hưởng đáng kể đến kết quả cuối cùng. Các ngưỡng được điều chỉnh để tối ưu hóa độ chính xác và giảm thiểu sai sót.Các ngưỡng được điều chỉnh để tối ưu hóa độ chính xác và giảm thiểu sai sót.
Mô hình rút trích thông tin từ ảnh có nhiều ứng dụng thực tế, bao gồm xử lý hóa đơn tự động, trích xuất thông tin từ ảnh y tế và phân tích ảnh vệ tinh. Việc tự động hóa các quy trình này giúp tiết kiệm thời gian, giảm chi phí và nâng cao hiệu quả hoạt động. Tự động hóa quy trình định vị và trích xuất thông tin từ tài liệu mang lại nhiều lợi ích. Đầu tiên, nó giúp giảm bớt khả năng phạm lỗi và sai sót mà con người có thể gặp phải khi thực hiện công việc này thủ công.
Việc xử lý hóa đơn tự động giúp giảm thiểu sai sót và tăng tốc độ xử lý, đặc biệt trong các doanh nghiệp lớn với số lượng hóa đơn khổng lồ. Điều này giúp các doanh nghiệp tiết kiệm chi phí và tập trung vào các hoạt động kinh doanh cốt lõi. Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau.
Trong lĩnh vực y tế, mô hình có thể được sử dụng để trích xuất thông tin từ ảnh y tế, hỗ trợ các bác sĩ trong việc chẩn đoán và điều trị bệnh. Điều này giúp cải thiện độ chính xác và hiệu quả của quá trình chẩn đoán. Bài toán trích xuất thông tin quan trọng (KIE) tập trung vào việc xác định các trường hoặc loại thông tin cụ thể mà không yêu cầu biết vị trí cụ thể của chúng trong tài liệu.
Mô hình cũng có thể được áp dụng để phân tích ảnh vệ tinh, giúp giám sát tài nguyên thiên nhiên, theo dõi biến đổi khí hậu và đánh giá tác động môi trường. Điều này có ý nghĩa quan trọng trong việc bảo vệ môi trường và phát triển bền vững. Không chỉ cần kết nối các mục với nhau dựa trên bố cục, mà còn đòi hỏi sự hiểu biết về mặt ngữ nghĩa và ngôn ngữ để xác định và liên kết các mục chính xác với nhau.
Luận văn này đã trình bày một phương pháp kết hợp RoBERTa và LION để giải quyết bài toán rút trích thông tin từ ảnh. Các kết quả thực nghiệm cho thấy phương pháp này có tiềm năng lớn trong việc cải thiện độ chính xác và hiệu quả. Hướng phát triển trong tương lai bao gồm việc nghiên cứu các kiến trúc mô hình mới và khám phá các ứng dụng tiềm năng khác. Nhân viên không còn phải dành nhiều thời gian và công sức cho công việc trích xuất dữ liệu. Thay vào đó, họ có thể tập trung vào các công việc khác, sáng tạo và tạo ra giá trị thực sự cho tổ chức.
Luận văn đã đóng góp một phương pháp mới cho bài toán rút trích thông tin. Tuy nhiên, vẫn còn những hạn chế cần được khắc phục trong tương lai, như khả năng xử lý các tài liệu phức tạp hơn và cải thiện độ chính xác trong các trường hợp khó. Cần có các phương pháp linh hoạt để xử lý sự đa dạng này. Việc sử dụng RoBERTa và LION trong nghiên cứu này đã nâng cao đáng kể hiệu suất của quy trình và đóng góp vào sự phát triển của lĩnh vực phân tích và nhận điện tài liệu hóa đơn.
Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc áp dụng các kiến trúc mô hình tiên tiến hơn như Transformer và mô hình attention. Ngoài ra, việc nghiên cứu các phương pháp học không giám sát (unsupervised learning) cũng là một hướng đi đầy hứa hẹn. Do đó trong luận văn này học viên sẽ tiến hành nghiên cứu thử nghiệm và Hình 1.4: Bố cục có trong các tài liệu rất đa dạng, như vị trí tiêu đề, dia chỉ, ngày tháng, bảng biểu.
Bạn đang xem trước tài liệu:
Luận văn thạc sĩ khoa học máy tính mô hình kết hợp cho bài toán rút trích thông tin từ ảnh
Tài liệu "Nghiên cứu mô hình kết hợp cho rút trích thông tin từ ảnh trong luận văn thạc sĩ" trình bày một phương pháp mới nhằm cải thiện khả năng rút trích thông tin từ hình ảnh, một lĩnh vực đang ngày càng trở nên quan trọng trong nghiên cứu và ứng dụng công nghệ thông tin. Nghiên cứu này không chỉ giúp nâng cao độ chính xác trong việc nhận diện và phân tích thông tin từ ảnh mà còn mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như nhận diện đối tượng, phân tích dữ liệu hình ảnh và trí tuệ nhân tạo.
Để hiểu rõ hơn về các phương pháp rút trích thông tin trong văn bản, bạn có thể tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản, nơi trình bày các kỹ thuật rút trích từ khóa hiệu quả. Ngoài ra, nếu bạn quan tâm đến việc áp dụng các mô hình học máy trong giáo dục, tài liệu Predicting students performance of pre english course by using neural network sẽ cung cấp cái nhìn sâu sắc về cách mà mạng nơ-ron có thể dự đoán hiệu suất học tập. Cuối cùng, để khám phá thêm về các yếu tố ảnh hưởng đến kết quả học tập trong môi trường giáo dục trực tuyến, bạn có thể xem tài liệu Đề tài các yếu tố quyết định kết quả học tập của sinh viên trong giáo dục trực tuyến ở trường đại học sư phạm kỹ thuật tp hồ chí minh. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của công nghệ trong giáo dục và phân tích dữ liệu.