Luận án tiến sĩ: Nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

doctoral dissertation

2021

154
0
0

Phí lưu trữ

50.000 VNĐ

Tóm tắt

I. Giới thiệu về phát hiện công thức toán học

Công thức toán học (MEs) đóng vai trò quan trọng trong các tài liệu khoa học. Việc phát hiện và nhận diện MEs trong ảnh văn bản là bước thiết yếu cho quá trình số hóa tài liệu. Phát hiện công thức nhằm xác định vị trí của các biểu thức trong tài liệu, trong khi nhận diện công thức chuyển đổi các biểu thức từ định dạng hình ảnh sang chuỗi. MEs được phân loại thành hai loại: biểu thức tách biệt và biểu thức nội tuyến. Biểu thức tách biệt hiển thị trên một dòng riêng, trong khi biểu thức nội tuyến được trộn lẫn với các thành phần khác. Độ chính xác trong việc phát hiện các biểu thức tách biệt đã được cải thiện dần, tuy nhiên, việc phát hiện các biểu thức nội tuyến vẫn là một thách thức lớn. Độ chính xác của việc phát hiện ảnh hưởng trực tiếp đến độ chính xác của việc nhận diện. Nếu phát hiện sai, sẽ dẫn đến lỗi trong nhận diện MEs.

1.1. Tầm quan trọng của công thức toán học trong tài liệu khoa học

Công thức toán học là thành phần không thể thiếu trong các tài liệu khoa học, giúp diễn đạt các khái niệm phức tạp một cách rõ ràng và chính xác. Việc số hóa các tài liệu này không chỉ giúp bảo tồn kiến thức mà còn tạo điều kiện thuận lợi cho việc nghiên cứu và học tập. Nhu cầu về việc phát hiện và nhận diện MEs trong tài liệu ngày càng tăng, đặc biệt trong bối cảnh số hóa tài liệu đang diễn ra mạnh mẽ. Các công nghệ như công nghệ OCRcông nghệ nhận diện hình ảnh đã được áp dụng để cải thiện hiệu quả phát hiện công thức toán học.

II. Phương pháp phát hiện công thức toán học

Nghiên cứu này đề xuất ba đóng góp chính trong việc phát hiện và nhận diện MEs trong ảnh tài liệu khoa học. Đầu tiên, một phương pháp lai hai giai đoạn được đề xuất để phát hiện MEs hiệu quả. Giai đoạn đầu tiên là phân tích bố cục của toàn bộ ảnh tài liệu nhằm cải thiện độ chính xác của việc phân đoạn dòng văn bản và từ. Giai đoạn thứ hai, cả MEs tách biệt và nội tuyến trong ảnh tài liệu được phát hiện. Các đặc trưng được trích xuất từ cả phương pháp thủ công và học sâu nhằm cải thiện độ chính xác phát hiện. Phương pháp thủ công sử dụng Biến đổi Fourier nhanh (FFT) cho ảnh dòng văn bản để phát hiện MEs tách biệt, trong khi các tham số Gaussian của hồ sơ chiếu được áp dụng cho việc phát hiện MEs nội tuyến.

2.1. Phương pháp lai trong phát hiện MEs

Phương pháp lai kết hợp giữa các đặc trưng thủ công và học sâu nhằm tối ưu hóa độ chính xác phát hiện. Các mạng nơ-ron tích chập (CNN) như AlexNet và ResNet đã được tối ưu hóa cho việc phát hiện MEs. Việc kết hợp các đặc trưng thủ công và học sâu dựa trên điểm dự đoán đã cho thấy hiệu quả cao trong việc phát hiện MEs mà không cần sử dụng nhận diện ký tự. Điều này cho phép hệ thống hoạt động trực tiếp trên ảnh MEs mà không cần qua bước nhận diện ký tự, từ đó nâng cao hiệu quả phát hiện.

III. Hệ thống phát hiện và nhận diện công thức toán học

Hệ thống được đề xuất tích hợp cả phát hiện và nhận diện MEs trong ảnh tài liệu. Các MEs trong ảnh tài liệu được phát hiện và nhận diện, với kết quả nhận diện được biểu diễn bằng Latex. Ứng dụng này nhằm hỗ trợ người dùng cuối trong việc sử dụng phát hiện và nhận diện MEs trong ảnh tài liệu một cách thuận tiện. Việc tích hợp này không chỉ giúp cải thiện độ chính xác mà còn tạo ra một quy trình làm việc liền mạch cho người dùng. Hệ thống đã được thử nghiệm trên hai tập dữ liệu công khai (Marmot và GTDB) với độ chính xác đạt được cho các biểu thức tách biệt và nội tuyến lần lượt là 92.90% và 91%. So sánh hiệu suất với các phương pháp truyền thống cho thấy tính hiệu quả của phương pháp đề xuất.

3.1. Tích hợp phát hiện và nhận diện

Việc tích hợp phát hiện và nhận diện MEs trong một hệ thống duy nhất mang lại nhiều lợi ích. Hệ thống không chỉ giúp phát hiện chính xác các MEs mà còn chuyển đổi chúng thành định dạng có thể sử dụng được. Điều này rất quan trọng trong việc số hóa tài liệu khoa học, nơi mà việc truy cập và sử dụng thông tin nhanh chóng là rất cần thiết. Hệ thống đã chứng minh được khả năng hoạt động hiệu quả trong môi trường thực tế, hỗ trợ người dùng trong việc tìm kiếm và sử dụng thông tin toán học một cách dễ dàng.

25/01/2025
Luận án tiến sĩ nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản
Bạn đang xem trước tài liệu : Luận án tiến sĩ nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận án tiến sĩ mang tiêu đề "Nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản" của tác giả Bùi Hải Phong, dưới sự hướng dẫn của PGS. Hoàng Mạnh Thắng và PGS. Lê Thị Lan, được thực hiện tại Trường Đại Học Bách Khoa Hà Nội vào năm 2021. Bài luận án này tập trung vào việc cải thiện khả năng nhận diện các công thức toán học trong hình ảnh văn bản, một vấn đề quan trọng trong lĩnh vực xử lý ảnh và trí tuệ nhân tạo. Những cải tiến trong phương pháp phát hiện này không chỉ giúp nâng cao độ chính xác mà còn mở ra nhiều ứng dụng thực tiễn trong giáo dục và nghiên cứu khoa học.

Để mở rộng thêm kiến thức về các chủ đề liên quan, bạn có thể tham khảo các tài liệu sau:

Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các phương pháp và ứng dụng trong lĩnh vực toán học và công nghệ thông tin.