Hệ thống trích xuất biểu thức toán học trên ảnh tài liệu

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

131

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Đặt vấn đề

1.2. Mục tiêu và giới hạn của đề tài

1.3. Đóng góp chính

2. CHƯƠNG 2: NỀN TẢNG LÝ THUYẾT

2.1. Cơ bản về LaTeX

2.1.1. Sơ lược về TeX, LaTeX

2.1.2. Một số cú pháp toán học cơ bản trong LaTeX

2.2. Bài toán dự đoán chuỗi

2.2.1. Một số bài toán điển hình

2.2.2. Các lí thuyết liên quan

3. CHƯƠNG 3: KHẢO SÁT CÁC NGHIÊN CỨU LIÊN QUAN

3.1. Tổng quan về các hướng nghiên cứu

3.1.1. Các nghiên cứu dựa trên kiến trúc Seq2seq

3.1.1.1. What You Get Is What You See: A Visual Markup Decompiler

3.2. An Improved Approach Based on CNN-RNNs for Mathematical Expression Recognition

3.3. Translating math formula images to LaTeX sequences using deep neural networks with sequence-level training

3.4. Global Context-Based Network with Transformer for Image2latex

4. CHƯƠNG 4: HYBRIC VISION TRANSFORMER CHO BÀI TOÁN NHẬN DIỆN BIỂU THỨC TOÁN HỌC (MER)

4.1. Vấn đề mô hình hóa thông tin ngữ cảnh trong không gian hai chiều

4.2. Vấn đề sinh thừa (over-parsing) và sinh thiếu (under-parsing)

4.3. Mô hình hóa bài toán

4.4. Ý tưởng chính

4.5. Thiết kế chi tiết

4.5.1. Hybrid Vision Transformer là một bộ mã hóa

4.5.2. Khối tập trung sử dụng độ phủ (Coverage Attention) là một bộ giải mã

5. CHƯƠNG 5: THÍ NGHIỆM VÀ ĐÁNH GIÁ

5.1. Khảo sát tập dữ liệu

5.2. Phương pháp huấn luyện, dự đoán

5.2.1. Quá trình huấn luyện

5.2.2. Giải thuật Beam Search

5.2.3. Quá trình dự đoán

5.2.4. Tăng cường dữ liệu cho ảnh

5.2.5. Xử lý dữ liệu đầu vào

5.2.6. Chi tiết về độ đo

5.3. Thí nghiệm trên bộ dữ liệu IM2LATEX-100K

5.3.1. Cấu hình thí nghiệm

5.3.2. Kết quả định lượng

5.3.3. Kết quả định tính

5.3.4. Thí nghiệm thành phần

5.3.5. Phân tích, đánh giá

6. CHƯƠNG 6: BỘ DỮ LIỆU LARGE IMAGE TO MARKUP DATABASE (LIMD)

6.1. Vấn đề thiếu hụt dữ liệu đối với bài toán MER

6.2. Quá trình xây dựng bộ cơ sở dữ liệu

6.2.1. Thu thập dữ liệu LaTeX

6.2.2. Lọc dữ liệu

6.2.3. Chuẩn hóa dữ liệu

6.2.4. Kết xuất dữ liệu ảnh

6.2.5. Hậu xử lý dữ liệu

6.3. Thống kê, đánh giá bộ dữ liệu

6.3.1. Sàng lọc và loại bỏ ngoại lệ

6.3.2. Phân tích và đối chiếu với tập IM2LATEX-100K

7. CHƯƠNG 7: HỆ THỐNG TRÍCH XUẤT BIỂU THỨC TOÁN HỌC TRÊN ẢNH TÀI LIỆU

7.1. Tổng quan thiết kế hệ thống

7.1.1. Luồng hoạt động của hệ thống

7.1.2. Mô hình phát hiện vùng biểu thức toán học

7.2. Chi tiết hiện thực hệ thống

7.2.1. Ngôn ngữ và thư viện hỗ trợ

7.2.2. Công cụ, phần mềm hỗ trợ và triển khai

7.2.3. Giao diện và các tính năng của hệ thống

7.3. Kết quả demo

7.3.1. Tình huống 1-Ảnh chỉ chứa biểu thức toán học

7.3.2. Tình huống 2-Ảnh là một trang tài liệu hoàn chỉnh

7.3.3. Tình huống 3-File PDF nhiều trang

7.4. Đánh giá hệ thống

7.4.1. Kết quả đạt được

7.5. Kế hoạch phát triển

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Hệ Thống Trích Xuất Biểu Thức Toán Học

Trong bối cảnh chuyển đổi số mạnh mẽ, việc trích xuất biểu thức toán học từ ảnh tài liệu trở nên vô cùng quan trọng. Bài toán này có nhiều ứng dụng, đặc biệt trong lĩnh vực khoa học và giáo dục. Mục tiêu chính là chuyển đổi ảnh toán học thành dạng kỹ thuật số, dễ dàng lưu trữ và xử lý trên các thiết bị điện tử. Để xây dựng một hệ thống trích xuất biểu thức toán học hoàn chỉnh, cần giải quyết hai bài toán con: phát hiện vùng chứa biểu thức và nhận diện công thức toán học từ ảnh. Nhận diện biểu thức toán học (MER) là một thách thức lớn, đòi hỏi những phương pháp cải tiến liên tục. Luận văn này tập trung vào việc nghiên cứu và xây dựng một mô hình hiệu quả cho bài toán MER, kết hợp với các mô hình phát hiện vùng đã có để tạo ra một hệ thống hoàn chỉnh. Mô hình đề xuất dựa trên kiến trúc Seq2seq và sử dụng Vision Transformer để mô hình hóa ngữ cảnh, hứa hẹn mang lại kết quả khả quan.

1.1. Ứng Dụng Thực Tiễn của Trích Xuất Biểu Thức Toán Học

Việc trích xuất biểu thức toán học không chỉ dừng lại ở việc chuyển đổi ảnh tài liệu thành dạng kỹ thuật số. Nó còn mở ra nhiều ứng dụng quan trọng trong giáo dục, nghiên cứu khoa học và công nghiệp. Ví dụ, trong giáo dục, hệ thống có thể tự động số hóa sách giáo khoa, giúp học sinh và giáo viên dễ dàng truy cập và chia sẻ tài liệu. Trong nghiên cứu khoa học, nó có thể hỗ trợ trích xuất thông tin từ các bài báo khoa học, giúp các nhà nghiên cứu tiết kiệm thời gian và công sức. Công nghệ này đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên.

1.2. Các Bài Toán Con trong Hệ Thống Nhận Dạng Biểu Thức Toán Học

Để xây dựng một hệ thống nhận dạng biểu thức toán học hoàn chỉnh, cần giải quyết hai bài toán con chính. Đầu tiên là phát hiện vùng biểu thức toán học, xác định vị trí của các biểu thức toán học trong ảnh tài liệu. Thứ hai là nhận diện công thức toán học từ ảnh, chuyển đổi hình ảnh biểu thức thành dạng mã LaTeX hoặc MathML để máy tính có thể hiểu và xử lý. Bài toán nhận diện ký tự toán học là một phần quan trọng của bài toán thứ hai. Việc kết hợp hiệu quả các giải pháp cho hai bài toán này sẽ tạo ra một hệ thống mạnh mẽ và chính xác.

II. Thách Thức Trong Nhận Dạng Công Thức Toán Học Từ Ảnh

Bài toán nhận diện công thức toán học từ ảnh (OCR toán học) đối mặt với nhiều thách thức đặc thù. Khác với việc nhận dạng ảnh văn bản thông thường, biểu thức toán học có cấu trúc phức tạp, nhiều ký tự đặc biệt, vị trí tương đối giữa các ký tự quan trọng và khó dự đoán. Các phương pháp OCR truyền thống thường gặp khó khăn trong việc xử lý những cấu trúc này. Thêm vào đó, sự đa dạng trong font chữ, kích thước và độ phân giải của ảnh tài liệu cũng làm tăng độ phức tạp của bài toán. Việc xử lý nhiễu và biến dạng trong ảnh cũng là một yếu tố cần được quan tâm. Do đó, việc phát triển các thuật toán và mô hình chuyên biệt là rất cần thiết để đạt được độ chính xác cao.

2.1. Vấn Đề Mô Hình Hóa Ngữ Cảnh Trong Không Gian Hai Chiều

Trong biểu thức toán học, vị trí tương đối của các ký tự mang ý nghĩa quan trọng. Ví dụ, một ký tự nằm trên hoặc dưới một đường gạch ngang có thể biểu thị một phân số hoặc một phép tích phân. Việc mô hình hóa mối quan hệ không gian giữa các ký tự là một thách thức lớn. Các mô hình truyền thống thường gặp khó khăn trong việc nắm bắt những mối quan hệ phức tạp này. Do đó, việc phát triển các mô hình có khả năng hiểu được ngữ cảnh không gian hai chiều là rất quan trọng để cải thiện độ chính xác của nhận diện công thức toán học.

2.2. Hạn Chế Về Dữ Liệu Huấn Luyện Cho Bài Toán MER

Một trong những rào cản lớn nhất trong nghiên cứu và phát triển các hệ thống trích xuất biểu thức toán học là sự thiếu hụt dữ liệu huấn luyện chất lượng cao. Các bộ dữ liệu công khai hiện tại thường có kích thước nhỏ hoặc chất lượng không đồng đều, gây khó khăn cho việc huấn luyện các mô hình học sâu hiệu quả. Việc thu thập và gán nhãn dữ liệu cho bài toán MER đòi hỏi nhiều công sức và chuyên môn, làm tăng chi phí và thời gian phát triển. Vì vậy, việc xây dựng các bộ dữ liệu lớn và chất lượng cao là rất cần thiết để thúc đẩy sự tiến bộ của lĩnh vực này. Luận văn này cũng đề xuất và xây dựng một bộ dữ liệu mới có tên LIMD để giải quyết vấn đề này.

III. Phương Pháp Hybrid Vision Transformer Cho Nhận Diện Toán Học

Luận văn này đề xuất một phương pháp mới dựa trên kiến trúc Hybrid Vision Transformer (ViT) để giải quyết bài toán nhận diện công thức toán học từ ảnh. Phương pháp này kết hợp ưu điểm của cả CNN và Transformer. Cụ thể, CNN được sử dụng để trích xuất các đặc trưng cục bộ từ ảnh, sau đó Transformer được sử dụng để mô hình hóa các mối quan hệ toàn cục giữa các đặc trưng này. Việc sử dụng Hybrid Vision Transformer giúp mô hình có khả năng nắm bắt cả thông tin cục bộ và toàn cục, từ đó cải thiện độ chính xác của nhận dạng ký tự toán học và công thức toán học. Ngoài ra, luận văn cũng đề xuất một cơ chế tập trung đặc biệt để giảm thiểu lỗi over-parsing và under-parsing.

3.1. Sử Dụng Kiến Trúc Seq2seq Cho Bài Toán Nhận Dạng Biểu Thức

Mô hình đề xuất sử dụng kiến trúc Seq2seq, bao gồm một bộ mã hóa (encoder) và một bộ giải mã (decoder). Bộ mã hóa có nhiệm vụ chuyển đổi ảnh biểu thức toán học thành một chuỗi các vec-tơ đặc trưng. Bộ giải mã có nhiệm vụ chuyển đổi chuỗi các vec-tơ đặc trưng này thành chuỗi LaTeX tương ứng. Kiến trúc Seq2seq là một lựa chọn phù hợp cho bài toán nhận diện công thức toán học vì nó cho phép mô hình học cách tạo ra các chuỗi có độ dài thay đổi, phù hợp với sự đa dạng của biểu thức toán học.

3.2. Mô Hình Hóa Thông Tin Ngữ Cảnh Bằng Vision Transformer

Vision Transformer (ViT) là một kiến trúc mạng nơ-ron dựa trên cơ chế tự tập trung (self-attention), cho phép mô hình học cách kết nối các phần khác nhau của đầu vào và tạo ra các biểu diễn ngữ cảnh phong phú. Trong luận văn này, ViT được sử dụng để mô hình hóa các mối quan hệ giữa các ký tự trong biểu thức toán học, giúp mô hình hiểu được ngữ cảnh của từng ký tự và dự đoán chính xác hơn. ViT có khả năng nắm bắt thông tin toàn cục tốt hơn so với các kiến trúc CNN truyền thống, giúp cải thiện độ chính xác của nhận dạng ký tự toán học.

3.3. Khối Tập Trung Sử Dụng Độ Phủ Coverage Attention

Để giải quyết vấn đề over-parsing và under-parsing, luận văn đề xuất một cơ chế tập trung đặc biệt sử dụng độ phủ (coverage attention). Cơ chế này giúp mô hình theo dõi những phần nào của ảnh đã được chuyển đổi và tập trung vào những phần còn lại. Việc sử dụng độ phủ giúp giảm thiểu khả năng lặp lại các ký tự đã được dự đoán trước đó và đảm bảo rằng tất cả các ký tự trong ảnh đều được chuyển đổi một cách chính xác.

IV. Thí Nghiệm Và Đánh Giá Hiệu Quả Hệ Thống Trích Xuất

Để đánh giá hiệu quả của phương pháp đề xuất, luận văn thực hiện các thí nghiệm trên bộ dữ liệu công khai IM2LATEX-100K. Kết quả thí nghiệm cho thấy phương pháp đề xuất đạt được độ chính xác cao hơn so với các phương pháp hiện có. Ngoài ra, luận văn cũng thực hiện các thí nghiệm thành phần để đánh giá đóng góp của từng thành phần trong mô hình. Kết quả cho thấy việc sử dụng Hybrid Vision Transformer và cơ chế tập trung sử dụng độ phủ đều đóng góp vào việc cải thiện độ chính xác của mô hình. Các kết quả này chứng minh tính hiệu quả của phương pháp đề xuất trong việc giải quyết bài toán nhận diện công thức toán học từ ảnh.

4.1. Đánh Giá Định Lượng Trên Bộ Dữ Liệu IM2LATEX 100K

Bộ dữ liệu IM2LATEX-100K là một bộ dữ liệu công khai phổ biến được sử dụng để đánh giá các mô hình nhận diện biểu thức toán học. Bộ dữ liệu này chứa hơn 100.000 ảnh biểu thức toán học với các nhãn LaTeX tương ứng. Luận văn sử dụng bộ dữ liệu này để đánh giá hiệu suất của mô hình đề xuất và so sánh với các phương pháp hiện có. Các độ đo đánh giá được sử dụng bao gồm tỷ lệ chính xác (accuracy) và độ đo BLEU (Bilingual Evaluation Understudy).

4.2. Phân Tích Kết Quả Thí Nghiệm Thành Phần Chi Tiết

Để hiểu rõ hơn về đóng góp của từng thành phần trong mô hình đề xuất, luận văn thực hiện các thí nghiệm thành phần bằng cách loại bỏ hoặc thay đổi từng thành phần và đánh giá ảnh hưởng đến hiệu suất của mô hình. Các thành phần được đánh giá bao gồm khối trích xuất đặc trưng (CNN), khối mô hình ngữ cảnh (ViT) và cơ chế tập trung sử dụng độ phủ. Kết quả của các thí nghiệm này cung cấp thông tin quan trọng về tầm quan trọng của từng thành phần và giúp tối ưu hóa kiến trúc của mô hình.

4.3. Đánh Giá Chủ Quan và Phân Tích Lỗi

Ngoài việc đánh giá định lượng, luận văn cũng thực hiện đánh giá chủ quan bằng cách kiểm tra kết quả dự đoán của mô hình trên một tập con các ảnh biểu thức toán học và phân tích các lỗi thường gặp. Việc phân tích lỗi giúp xác định các điểm yếu của mô hình và đưa ra các đề xuất cải tiến trong tương lai. Các lỗi thường gặp bao gồm lỗi nhận dạng ký tự toán học, lỗi cấu trúc và lỗi ngữ cảnh.

V. Ứng Dụng Thực Tế Của Hệ Thống Trích Xuất Biểu Thức Toán Học

Hệ thống trích xuất biểu thức toán học có nhiều ứng dụng thực tế trong các lĩnh vực khác nhau. Trong lĩnh vực giáo dục, hệ thống có thể được sử dụng để số hóa sách giáo khoa và tài liệu học tập, giúp học sinh và giáo viên dễ dàng truy cập và chia sẻ thông tin. Trong lĩnh vực nghiên cứu khoa học, hệ thống có thể được sử dụng để trích xuất thông tin từ các bài báo khoa học, giúp các nhà nghiên cứu tiết kiệm thời gian và công sức. Ngoài ra, hệ thống cũng có thể được sử dụng trong các ứng dụng khác như soạn thảo văn bản khoa học, kiểm tra lỗi toán học và dịch thuật công thức toán học.

5.1. Hệ Thống Trích Xuất Hoàn Chỉnh Trên Ảnh Tài Liệu

Luận văn đề xuất một hệ thống hoàn chỉnh để trích xuất biểu thức toán học từ ảnh tài liệu. Hệ thống này bao gồm hai thành phần chính: một mô hình phát hiện vùng chứa biểu thức toán học và một mô hình nhận diện công thức toán học. Mô hình phát hiện vùng có nhiệm vụ xác định vị trí của các biểu thức toán học trong ảnh tài liệu, trong khi mô hình nhận diện công thức toán học có nhiệm vụ chuyển đổi hình ảnh biểu thức thành dạng LaTeX tương ứng. Hệ thống này có thể xử lý các ảnh tài liệu có độ phức tạp khác nhau, bao gồm cả các ảnh chứa nhiều biểu thức toán học và các ảnh chứa văn bản và hình ảnh khác.

5.2. Xây Dựng Bộ Dữ Liệu LIMD Large Image To Markup Database

Để cải thiện hiệu suất của các mô hình nhận diện biểu thức toán học, luận văn đề xuất và xây dựng một bộ dữ liệu mới có tên LIMD (Large Image to Markup Database). Bộ dữ liệu này chứa một lượng lớn ảnh biểu thức toán học với các nhãn LaTeX tương ứng. Các ảnh trong bộ dữ liệu LIMD được thu thập từ các bài báo khoa học trên arXiv và được gán nhãn bằng cách sử dụng các công cụ tự động và thủ công. Bộ dữ liệu LIMD có thể được sử dụng để huấn luyện và đánh giá các mô hình nhận diện công thức toán học.

VI. Kết Luận Về Nghiên Cứu Trích Xuất Biểu Thức Toán Học

Luận văn đã trình bày một phương pháp mới dựa trên kiến trúc Hybrid Vision Transformer để giải quyết bài toán nhận diện công thức toán học từ ảnh. Phương pháp này đã được chứng minh là hiệu quả hơn so với các phương pháp hiện có trên bộ dữ liệu IM2LATEX-100K. Ngoài ra, luận văn cũng đã đề xuất và xây dựng một bộ dữ liệu mới có tên LIMD để giải quyết vấn đề thiếu hụt dữ liệu huấn luyện. Các kết quả của luận văn đóng góp vào sự tiến bộ của lĩnh vực trích xuất biểu thức toán học và mở ra nhiều hướng nghiên cứu tiềm năng trong tương lai.

6.1. Đóng Góp Và Hướng Phát Triển Tiềm Năng

Luận văn này đã đóng góp vào việc phát triển các phương pháp hiệu quả hơn cho bài toán nhận diện công thức toán học từ ảnh. Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc cải thiện kiến trúc của mô hình, mở rộng bộ dữ liệu huấn luyện và phát triển các ứng dụng thực tế của hệ thống trích xuất biểu thức toán học. Ngoài ra, việc nghiên cứu các phương pháp để xử lý các biểu thức toán học phức tạp hơn và các ảnh tài liệu có chất lượng kém hơn cũng là một hướng đi đầy hứa hẹn.

6.2. Kế Hoạch Phát Triển Hệ Thống Trích Xuất Toán Học

Kế hoạch phát triển hệ thống trích xuất biểu thức toán học trong tương lai bao gồm việc cải thiện độ chính xác và tốc độ của hệ thống, mở rộng khả năng xử lý các loại biểu thức toán học và ảnh tài liệu khác nhau và phát triển các giao diện người dùng thân thiện hơn. Ngoài ra, việc tích hợp hệ thống với các ứng dụng khác như soạn thảo văn bản khoa học và kiểm tra lỗi toán học cũng là một mục tiêu quan trọng.

24/05/2025

Bạn đang xem trước tài liệu:

Hệ thống trích xuất biểu thức toán học trên ảnh tài liệu

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số đang diễn ra mạnh mẽ tại Việt Nam, đặc biệt trong lĩnh vực khoa học và giáo dục, việc số hóa tài liệu khoa học trở thành nhu cầu cấp thiết. Theo ước tính, hàng triệu trang tài liệu khoa học, sách giáo khoa và bài báo cần được chuyển đổi từ dạng in sang dạng kỹ thuật số để phục vụ lưu trữ và truy xuất thông tin hiệu quả. Một trong những thách thức lớn trong quá trình số hóa là trích xuất biểu thức toán học từ ảnh tài liệu, do tính phức tạp về cấu trúc và đa dạng về ký hiệu của biểu thức toán học. Bài toán trích xuất biểu thức toán học bao gồm hai phần chính: phát hiện vùng chứa biểu thức trên ảnh và nhận diện chính xác nội dung biểu thức đó. Trong đó, nhận diện biểu thức toán học (MER) được xem là bài toán khó với nhiều hạn chế trong các phương pháp hiện tại.

Mục tiêu của luận văn là nghiên cứu và phát triển một mô hình MER hiệu quả, kết hợp với mô hình phát hiện vùng biểu thức toán học để xây dựng hệ thống trích xuất biểu thức toán học hoàn chỉnh trên ảnh tài liệu. Nghiên cứu tập trung vào việc áp dụng kiến trúc Seq2seq kết hợp Vision Transformer nhằm nâng cao khả năng mô hình hóa ngữ cảnh trong không gian hai chiều của biểu thức toán học. Phạm vi nghiên cứu tập trung trên dữ liệu ảnh tài liệu chữ in và tài liệu PDF, với thời gian thực hiện từ đầu năm 2023 đến giữa năm 2023 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ số hóa tài liệu khoa học, nâng cao hiệu quả chuyển đổi số trong giáo dục và nghiên cứu khoa học, đồng thời góp phần phát triển các công cụ trí tuệ nhân tạo ứng dụng trong xử lý ảnh và nhận dạng ký tự đặc thù.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Kiến trúc Seq2seq (Sequence-to-Sequence):** Đây là mô hình mã hóa - giải mã được sử dụng phổ biến trong các bài toán dự đoán chuỗi như dịch máy, nhận dạng chữ viết và nhận diện biểu thức toán học. Bộ mã hóa trích xuất đặc trưng từ ảnh đầu vào, bộ giải mã sinh ra chuỗi ký tự LaTeX tương ứng.
- **Vision Transformer (ViT):** Mô hình Transformer được điều chỉnh để xử lý ảnh bằng cách chia ảnh thành các patch nhỏ, sau đó áp dụng cơ chế tự tập trung đa đầu (Multi-Head Self-Attention) để mô hình hóa mối quan hệ toàn cục giữa các patch, giúp bảo toàn thông tin vị trí và ngữ cảnh trong không gian hai chiều.
- **Cơ chế Coverage Attention:** Được sử dụng trong bộ giải mã để giảm thiểu hiện tượng sinh thừa (over-parsing) và sinh thiếu (under-parsing) ký tự trong chuỗi đầu ra, bằng cách theo dõi mức độ chú ý đã được phân bổ cho các phần của ảnh trong quá trình giải mã.
- **Mạng Neural Tích chập (CNN):** Được sử dụng để trích xuất bản đồ đặc trưng từ ảnh đầu vào trước khi đưa vào bộ mã hóa ViT, giúp mô hình nhận diện các đặc trưng cục bộ hiệu quả.
- **Thuật ngữ chuyên ngành:** MER (Mathematical Expression Recognition), NLP (Natural Language Processing), Seq2seq, ViT, CNN, RNN, LSTM, BiLSTM, BLEU score, Image Exact Match.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng tập dữ liệu công khai IM2LATEX-100K và bộ dữ liệu mới xây dựng Large Image to Markup Database (LIMD) với hơn 100 nghìn ảnh biểu thức toán học được chuẩn hóa và chú thích bằng chuỗi LaTeX.
- **Phương pháp phân tích:** Phát triển mô hình Hybrid Vision Transformer kết hợp CNN và ViT cho bộ mã hóa, sử dụng Coverage Attention trong bộ giải mã Seq2seq. Thực hiện huấn luyện mô hình trên tập dữ liệu LIMD và IM2LATEX-100K, đánh giá bằng các chỉ số BLEU score và Image Exact Match.
- **Timeline nghiên cứu:** 
  - Tháng 2 - 3/2023: Khảo sát tài liệu, xây dựng bộ dữ liệu LIMD.
  - Tháng 4 - 5/2023: Phát triển và huấn luyện mô hình Hybrid Vision Transformer.
  - Tháng 6/2023: Đánh giá mô hình, hoàn thiện hệ thống trích xuất biểu thức toán học.
- **Phương pháp chọn mẫu:** Lựa chọn ảnh biểu thức toán học đa dạng về kích thước, độ phức tạp và nguồn gốc để đảm bảo tính đại diện và khả năng tổng quát của mô hình.
- **Lý do lựa chọn phương pháp:** Kiến trúc Seq2seq kết hợp ViT giúp mô hình hóa tốt mối quan hệ không gian phức tạp trong biểu thức toán học, đồng thời Coverage Attention giảm thiểu lỗi sinh thừa/thiếu, cải thiện độ chính xác nhận diện.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Hybrid Vision Transformer đạt BLEU score khoảng 89% và Image Exact Match đạt gần 82% trên tập dữ liệu IM2LATEX-100K, vượt trội hơn các phương pháp trước đó như mô hình Double Attention (BLEU 88.42%, Exact Match 79.81%).
- Bộ dữ liệu LIMD cung cấp hơn 100 nghìn ảnh biểu thức toán học với đa dạng kích thước và độ phức tạp, giúp cải thiện khả năng tổng quát của mô hình khi huấn luyện so với chỉ sử dụng IM2LATEX-100K.
- Việc kết hợp mô hình Hybrid Vision Transformer với mô hình ScanSSD cho phép phát hiện vùng biểu thức toán học chính xác, nâng cao hiệu quả trích xuất toàn diện trên ảnh tài liệu và file PDF nhiều trang.
- Cơ chế Coverage Attention trong bộ giải mã giúp giảm thiểu 15% lỗi sinh thừa và 12% lỗi sinh thiếu ký tự so với mô hình không sử dụng cơ chế này.

### Thảo luận kết quả

Kết quả cho thấy việc ứng dụng Vision Transformer trong bộ mã hóa giúp mô hình nắm bắt được mối quan hệ toàn cục giữa các ký tự trong biểu thức toán học, điều mà các mô hình CNN truyền thống khó đạt được do tính chất cục bộ của các lớp tích chập. Sự cải tiến này phù hợp với đặc điểm không gian hai chiều phức tạp của biểu thức toán học, giúp mô hình nhận diện chính xác hơn các ký hiệu và cấu trúc biểu thức dài.

Bộ dữ liệu LIMD với quy trình chuẩn hóa và đa dạng hóa dữ liệu đã giải quyết được hạn chế về dữ liệu trong nghiên cứu MER, giúp mô hình tránh hiện tượng quá khớp và nâng cao khả năng tổng quát khi áp dụng trên các tài liệu thực tế. Việc kết hợp mô hình phát hiện vùng ScanSSD với mô hình nhận diện biểu thức tạo thành hệ thống trích xuất biểu thức toán học hoàn chỉnh, có thể ứng dụng hiệu quả trong số hóa tài liệu khoa học và giáo dục.

So với các nghiên cứu trước đây, mô hình đề xuất không chỉ cải thiện các chỉ số đánh giá mà còn giải quyết được các vấn đề thực tiễn như sinh thừa/thiếu ký tự, khả năng xử lý ảnh tài liệu phức tạp và đa dạng định dạng. Dữ liệu và kết quả có thể được trình bày qua biểu đồ so sánh BLEU score và Exact Match giữa các mô hình, cũng như bảng thống kê lỗi sinh thừa/thiếu ký tự.

## Đề xuất và khuyến nghị

- **Phát triển thêm bộ dữ liệu đa dạng:** Mở rộng bộ dữ liệu LIMD với các biểu thức toán học viết tay và các tài liệu khoa học đa ngôn ngữ nhằm nâng cao khả năng ứng dụng mô hình trong thực tế.
- **Tối ưu hóa mô hình cho thiết bị di động:** Nghiên cứu giảm kích thước mô hình và tăng tốc độ xử lý để triển khai trên các thiết bị di động, phục vụ nhu cầu số hóa tài liệu tại chỗ.
- **Tích hợp hệ thống vào phần mềm quản lý tài liệu:** Đề xuất tích hợp hệ thống trích xuất biểu thức toán học vào các phần mềm quản lý tài liệu khoa học và giáo dục để tự động hóa quá trình số hóa và phân tích nội dung.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho cán bộ nghiên cứu và giảng viên về ứng dụng công nghệ trích xuất biểu thức toán học, đồng thời chuyển giao công nghệ cho các đơn vị nghiên cứu và doanh nghiệp trong lĩnh vực chuyển đổi số.
- **Thời gian thực hiện:** Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới để kịp thời đáp ứng nhu cầu chuyển đổi số trong giáo dục và nghiên cứu khoa học.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:** Nắm bắt kiến thức về mô hình Seq2seq, Vision Transformer và ứng dụng trong nhận diện biểu thức toán học.
- **Giảng viên và cán bộ quản lý giáo dục:** Áp dụng công nghệ trích xuất biểu thức toán học để phát triển hệ thống chấm bài tự động và số hóa tài liệu giảng dạy.
- **Doanh nghiệp công nghệ và phát triển phần mềm:** Tham khảo để phát triển các sản phẩm số hóa tài liệu, OCR chuyên biệt cho tài liệu khoa học và giáo dục.
- **Các tổ chức nghiên cứu chuyển đổi số:** Sử dụng kết quả nghiên cứu để xây dựng các giải pháp chuyển đổi số trong lĩnh vực khoa học và giáo dục, nâng cao hiệu quả quản lý và khai thác dữ liệu.

## Câu hỏi thường gặp

1. **Mô hình Hybrid Vision Transformer có ưu điểm gì so với các mô hình CNN-RNN truyền thống?**  
Mô hình này tận dụng khả năng mô hình hóa mối quan hệ toàn cục trong ảnh của Vision Transformer, giúp nhận diện chính xác hơn các ký tự và cấu trúc phức tạp trong biểu thức toán học, vượt trội so với mô hình CNN-RNN chỉ xử lý cục bộ.

2. **Bộ dữ liệu LIMD có điểm gì nổi bật?**  
LIMD là bộ dữ liệu lớn với hơn 100 nghìn ảnh biểu thức toán học được chuẩn hóa kỹ lưỡng, đa dạng về kích thước và độ phức tạp, giúp cải thiện khả năng tổng quát của mô hình khi huấn luyện và áp dụng thực tế.

3. **Cơ chế Coverage Attention giúp gì cho quá trình nhận diện?**  
Coverage Attention giúp theo dõi mức độ chú ý đã phân bổ cho từng phần ảnh trong quá trình giải mã, giảm thiểu lỗi sinh thừa và sinh thiếu ký tự, từ đó nâng cao độ chính xác của chuỗi LaTeX đầu ra.

4. **Hệ thống trích xuất biểu thức toán học có thể áp dụng cho loại tài liệu nào?**  
Hệ thống có thể xử lý hiệu quả các ảnh biểu thức toán học trong tài liệu chữ in, ảnh tài liệu khoa học, và file PDF nhiều trang, phù hợp với nhu cầu số hóa tài liệu trong giáo dục và nghiên cứu.

5. **Làm thế nào để tiếp cận và sử dụng mã nguồn, dữ liệu của nghiên cứu?**  
Toàn bộ mã nguồn và bộ dữ liệu LIMD được công khai trên nền tảng GitHub, cho phép các nhà nghiên cứu và phát triển phần mềm truy cập, sử dụng và phát triển tiếp các ứng dụng dựa trên nghiên cứu này.

## Kết luận

- Đã phát triển thành công mô hình Hybrid Vision Transformer kết hợp Coverage Attention cho bài toán nhận diện biểu thức toán học với hiệu quả vượt trội trên các bộ dữ liệu chuẩn.  
- Xây dựng bộ dữ liệu LIMD quy mô lớn, đa dạng, hỗ trợ nghiên cứu và huấn luyện mô hình MER trong tương lai.  
- Hoàn thiện hệ thống trích xuất biểu thức toán học tích hợp mô hình phát hiện vùng ScanSSD, có khả năng xử lý ảnh tài liệu và file PDF nhiều trang.  
- Kết quả nghiên cứu góp phần thúc đẩy chuyển đổi số trong lĩnh vực khoa học và giáo dục, hỗ trợ số hóa tài liệu khoa học chính xác và hiệu quả.  
- Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và ứng dụng thực tiễn trong các hệ thống quản lý tài liệu và giáo dục.

Hành động tiếp theo là triển khai các giải pháp đề xuất, đồng thời khuyến khích cộng đồng nghiên cứu và doanh nghiệp ứng dụng kết quả để phát triển các công cụ số hóa biểu thức toán học phục vụ rộng rãi hơn.

Tài liệu "Hệ thống trích xuất biểu thức toán học từ ảnh tài liệu" trình bày một hệ thống tiên tiến giúp nhận diện và trích xuất các biểu thức toán học từ hình ảnh tài liệu. Hệ thống này không chỉ cải thiện độ chính xác trong việc nhận diện mà còn tiết kiệm thời gian cho người dùng trong việc chuyển đổi tài liệu hình ảnh thành định dạng có thể chỉnh sửa. Một trong những lợi ích lớn nhất mà tài liệu mang lại là khả năng hỗ trợ học tập và nghiên cứu cho sinh viên và các nhà nghiên cứu trong lĩnh vực toán học và công nghệ thông tin.

Nếu bạn quan tâm đến các phương pháp nâng cao trong lĩnh vực xử lý ảnh, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính cách tiếp cận học sâu cho bài toán siêu phân giải ảnh, nơi khám phá cách học sâu có thể cải thiện chất lượng hình ảnh. Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính tăng cường độ phân giải ảnh dựa vào mô hình học sâu cũng cung cấp cái nhìn sâu sắc về việc sử dụng mô hình học sâu để nâng cao độ phân giải hình ảnh. Cuối cùng, bạn có thể tìm hiểu thêm về Tiểu luận phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy, giúp bạn hiểu rõ hơn về các kỹ thuật trích xuất đặc trưng trong xử lý ảnh. Những tài liệu này sẽ mở rộng kiến thức của bạn và cung cấp thêm nhiều góc nhìn thú vị về lĩnh vực này.

#phân tích hình ảnh