## Tổng quan nghiên cứu
Trong bối cảnh chuyển đổi số đang diễn ra mạnh mẽ tại Việt Nam, đặc biệt trong lĩnh vực khoa học và giáo dục, việc số hóa tài liệu khoa học trở thành nhu cầu cấp thiết. Theo ước tính, hàng triệu trang tài liệu khoa học, sách giáo khoa và bài báo cần được chuyển đổi từ dạng in sang dạng kỹ thuật số để phục vụ lưu trữ và truy xuất thông tin hiệu quả. Một trong những thách thức lớn trong quá trình số hóa là trích xuất biểu thức toán học từ ảnh tài liệu, do tính phức tạp về cấu trúc và đa dạng về ký hiệu của biểu thức toán học. Bài toán trích xuất biểu thức toán học bao gồm hai phần chính: phát hiện vùng chứa biểu thức trên ảnh và nhận diện chính xác nội dung biểu thức đó. Trong đó, nhận diện biểu thức toán học (MER) được xem là bài toán khó với nhiều hạn chế trong các phương pháp hiện tại.
Mục tiêu của luận văn là nghiên cứu và phát triển một mô hình MER hiệu quả, kết hợp với mô hình phát hiện vùng biểu thức toán học để xây dựng hệ thống trích xuất biểu thức toán học hoàn chỉnh trên ảnh tài liệu. Nghiên cứu tập trung vào việc áp dụng kiến trúc Seq2seq kết hợp Vision Transformer nhằm nâng cao khả năng mô hình hóa ngữ cảnh trong không gian hai chiều của biểu thức toán học. Phạm vi nghiên cứu tập trung trên dữ liệu ảnh tài liệu chữ in và tài liệu PDF, với thời gian thực hiện từ đầu năm 2023 đến giữa năm 2023 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ số hóa tài liệu khoa học, nâng cao hiệu quả chuyển đổi số trong giáo dục và nghiên cứu khoa học, đồng thời góp phần phát triển các công cụ trí tuệ nhân tạo ứng dụng trong xử lý ảnh và nhận dạng ký tự đặc thù.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Kiến trúc Seq2seq (Sequence-to-Sequence):** Đây là mô hình mã hóa - giải mã được sử dụng phổ biến trong các bài toán dự đoán chuỗi như dịch máy, nhận dạng chữ viết và nhận diện biểu thức toán học. Bộ mã hóa trích xuất đặc trưng từ ảnh đầu vào, bộ giải mã sinh ra chuỗi ký tự LaTeX tương ứng.
- **Vision Transformer (ViT):** Mô hình Transformer được điều chỉnh để xử lý ảnh bằng cách chia ảnh thành các patch nhỏ, sau đó áp dụng cơ chế tự tập trung đa đầu (Multi-Head Self-Attention) để mô hình hóa mối quan hệ toàn cục giữa các patch, giúp bảo toàn thông tin vị trí và ngữ cảnh trong không gian hai chiều.
- **Cơ chế Coverage Attention:** Được sử dụng trong bộ giải mã để giảm thiểu hiện tượng sinh thừa (over-parsing) và sinh thiếu (under-parsing) ký tự trong chuỗi đầu ra, bằng cách theo dõi mức độ chú ý đã được phân bổ cho các phần của ảnh trong quá trình giải mã.
- **Mạng Neural Tích chập (CNN):** Được sử dụng để trích xuất bản đồ đặc trưng từ ảnh đầu vào trước khi đưa vào bộ mã hóa ViT, giúp mô hình nhận diện các đặc trưng cục bộ hiệu quả.
- **Thuật ngữ chuyên ngành:** MER (Mathematical Expression Recognition), NLP (Natural Language Processing), Seq2seq, ViT, CNN, RNN, LSTM, BiLSTM, BLEU score, Image Exact Match.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Sử dụng tập dữ liệu công khai IM2LATEX-100K và bộ dữ liệu mới xây dựng Large Image to Markup Database (LIMD) với hơn 100 nghìn ảnh biểu thức toán học được chuẩn hóa và chú thích bằng chuỗi LaTeX.
- **Phương pháp phân tích:** Phát triển mô hình Hybrid Vision Transformer kết hợp CNN và ViT cho bộ mã hóa, sử dụng Coverage Attention trong bộ giải mã Seq2seq. Thực hiện huấn luyện mô hình trên tập dữ liệu LIMD và IM2LATEX-100K, đánh giá bằng các chỉ số BLEU score và Image Exact Match.
- **Timeline nghiên cứu:**
- Tháng 2 - 3/2023: Khảo sát tài liệu, xây dựng bộ dữ liệu LIMD.
- Tháng 4 - 5/2023: Phát triển và huấn luyện mô hình Hybrid Vision Transformer.
- Tháng 6/2023: Đánh giá mô hình, hoàn thiện hệ thống trích xuất biểu thức toán học.
- **Phương pháp chọn mẫu:** Lựa chọn ảnh biểu thức toán học đa dạng về kích thước, độ phức tạp và nguồn gốc để đảm bảo tính đại diện và khả năng tổng quát của mô hình.
- **Lý do lựa chọn phương pháp:** Kiến trúc Seq2seq kết hợp ViT giúp mô hình hóa tốt mối quan hệ không gian phức tạp trong biểu thức toán học, đồng thời Coverage Attention giảm thiểu lỗi sinh thừa/thiếu, cải thiện độ chính xác nhận diện.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình Hybrid Vision Transformer đạt BLEU score khoảng 89% và Image Exact Match đạt gần 82% trên tập dữ liệu IM2LATEX-100K, vượt trội hơn các phương pháp trước đó như mô hình Double Attention (BLEU 88.42%, Exact Match 79.81%).
- Bộ dữ liệu LIMD cung cấp hơn 100 nghìn ảnh biểu thức toán học với đa dạng kích thước và độ phức tạp, giúp cải thiện khả năng tổng quát của mô hình khi huấn luyện so với chỉ sử dụng IM2LATEX-100K.
- Việc kết hợp mô hình Hybrid Vision Transformer với mô hình ScanSSD cho phép phát hiện vùng biểu thức toán học chính xác, nâng cao hiệu quả trích xuất toàn diện trên ảnh tài liệu và file PDF nhiều trang.
- Cơ chế Coverage Attention trong bộ giải mã giúp giảm thiểu 15% lỗi sinh thừa và 12% lỗi sinh thiếu ký tự so với mô hình không sử dụng cơ chế này.
### Thảo luận kết quả
Kết quả cho thấy việc ứng dụng Vision Transformer trong bộ mã hóa giúp mô hình nắm bắt được mối quan hệ toàn cục giữa các ký tự trong biểu thức toán học, điều mà các mô hình CNN truyền thống khó đạt được do tính chất cục bộ của các lớp tích chập. Sự cải tiến này phù hợp với đặc điểm không gian hai chiều phức tạp của biểu thức toán học, giúp mô hình nhận diện chính xác hơn các ký hiệu và cấu trúc biểu thức dài.
Bộ dữ liệu LIMD với quy trình chuẩn hóa và đa dạng hóa dữ liệu đã giải quyết được hạn chế về dữ liệu trong nghiên cứu MER, giúp mô hình tránh hiện tượng quá khớp và nâng cao khả năng tổng quát khi áp dụng trên các tài liệu thực tế. Việc kết hợp mô hình phát hiện vùng ScanSSD với mô hình nhận diện biểu thức tạo thành hệ thống trích xuất biểu thức toán học hoàn chỉnh, có thể ứng dụng hiệu quả trong số hóa tài liệu khoa học và giáo dục.
So với các nghiên cứu trước đây, mô hình đề xuất không chỉ cải thiện các chỉ số đánh giá mà còn giải quyết được các vấn đề thực tiễn như sinh thừa/thiếu ký tự, khả năng xử lý ảnh tài liệu phức tạp và đa dạng định dạng. Dữ liệu và kết quả có thể được trình bày qua biểu đồ so sánh BLEU score và Exact Match giữa các mô hình, cũng như bảng thống kê lỗi sinh thừa/thiếu ký tự.
## Đề xuất và khuyến nghị
- **Phát triển thêm bộ dữ liệu đa dạng:** Mở rộng bộ dữ liệu LIMD với các biểu thức toán học viết tay và các tài liệu khoa học đa ngôn ngữ nhằm nâng cao khả năng ứng dụng mô hình trong thực tế.
- **Tối ưu hóa mô hình cho thiết bị di động:** Nghiên cứu giảm kích thước mô hình và tăng tốc độ xử lý để triển khai trên các thiết bị di động, phục vụ nhu cầu số hóa tài liệu tại chỗ.
- **Tích hợp hệ thống vào phần mềm quản lý tài liệu:** Đề xuất tích hợp hệ thống trích xuất biểu thức toán học vào các phần mềm quản lý tài liệu khoa học và giáo dục để tự động hóa quá trình số hóa và phân tích nội dung.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho cán bộ nghiên cứu và giảng viên về ứng dụng công nghệ trích xuất biểu thức toán học, đồng thời chuyển giao công nghệ cho các đơn vị nghiên cứu và doanh nghiệp trong lĩnh vực chuyển đổi số.
- **Thời gian thực hiện:** Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới để kịp thời đáp ứng nhu cầu chuyển đổi số trong giáo dục và nghiên cứu khoa học.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:** Nắm bắt kiến thức về mô hình Seq2seq, Vision Transformer và ứng dụng trong nhận diện biểu thức toán học.
- **Giảng viên và cán bộ quản lý giáo dục:** Áp dụng công nghệ trích xuất biểu thức toán học để phát triển hệ thống chấm bài tự động và số hóa tài liệu giảng dạy.
- **Doanh nghiệp công nghệ và phát triển phần mềm:** Tham khảo để phát triển các sản phẩm số hóa tài liệu, OCR chuyên biệt cho tài liệu khoa học và giáo dục.
- **Các tổ chức nghiên cứu chuyển đổi số:** Sử dụng kết quả nghiên cứu để xây dựng các giải pháp chuyển đổi số trong lĩnh vực khoa học và giáo dục, nâng cao hiệu quả quản lý và khai thác dữ liệu.
## Câu hỏi thường gặp
1. **Mô hình Hybrid Vision Transformer có ưu điểm gì so với các mô hình CNN-RNN truyền thống?**
Mô hình này tận dụng khả năng mô hình hóa mối quan hệ toàn cục trong ảnh của Vision Transformer, giúp nhận diện chính xác hơn các ký tự và cấu trúc phức tạp trong biểu thức toán học, vượt trội so với mô hình CNN-RNN chỉ xử lý cục bộ.
2. **Bộ dữ liệu LIMD có điểm gì nổi bật?**
LIMD là bộ dữ liệu lớn với hơn 100 nghìn ảnh biểu thức toán học được chuẩn hóa kỹ lưỡng, đa dạng về kích thước và độ phức tạp, giúp cải thiện khả năng tổng quát của mô hình khi huấn luyện và áp dụng thực tế.
3. **Cơ chế Coverage Attention giúp gì cho quá trình nhận diện?**
Coverage Attention giúp theo dõi mức độ chú ý đã phân bổ cho từng phần ảnh trong quá trình giải mã, giảm thiểu lỗi sinh thừa và sinh thiếu ký tự, từ đó nâng cao độ chính xác của chuỗi LaTeX đầu ra.
4. **Hệ thống trích xuất biểu thức toán học có thể áp dụng cho loại tài liệu nào?**
Hệ thống có thể xử lý hiệu quả các ảnh biểu thức toán học trong tài liệu chữ in, ảnh tài liệu khoa học, và file PDF nhiều trang, phù hợp với nhu cầu số hóa tài liệu trong giáo dục và nghiên cứu.
5. **Làm thế nào để tiếp cận và sử dụng mã nguồn, dữ liệu của nghiên cứu?**
Toàn bộ mã nguồn và bộ dữ liệu LIMD được công khai trên nền tảng GitHub, cho phép các nhà nghiên cứu và phát triển phần mềm truy cập, sử dụng và phát triển tiếp các ứng dụng dựa trên nghiên cứu này.
## Kết luận
- Đã phát triển thành công mô hình Hybrid Vision Transformer kết hợp Coverage Attention cho bài toán nhận diện biểu thức toán học với hiệu quả vượt trội trên các bộ dữ liệu chuẩn.
- Xây dựng bộ dữ liệu LIMD quy mô lớn, đa dạng, hỗ trợ nghiên cứu và huấn luyện mô hình MER trong tương lai.
- Hoàn thiện hệ thống trích xuất biểu thức toán học tích hợp mô hình phát hiện vùng ScanSSD, có khả năng xử lý ảnh tài liệu và file PDF nhiều trang.
- Kết quả nghiên cứu góp phần thúc đẩy chuyển đổi số trong lĩnh vực khoa học và giáo dục, hỗ trợ số hóa tài liệu khoa học chính xác và hiệu quả.
- Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và ứng dụng thực tiễn trong các hệ thống quản lý tài liệu và giáo dục.
Hành động tiếp theo là triển khai các giải pháp đề xuất, đồng thời khuyến khích cộng đồng nghiên cứu và doanh nghiệp ứng dụng kết quả để phát triển các công cụ số hóa biểu thức toán học phục vụ rộng rãi hơn.