Bui Hai Phong's Doctoral Dissertation on Mathematical Expression Detection

Luận án tiến sĩ đề xuất phương pháp nâng cao hiệu suất phát hiện biểu thức toán học trong hình ảnh tài liệu khoa học. Nghiên cứu tập trung vào cải thiện độ

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2021

154
0
0

Phí lưu trữ

45 Point

Tóm tắt

I. Tổng quan về phát hiện biểu thức toán học trong ảnh tài liệu khoa học

Phát hiện biểu thức toán học trong ảnh tài liệu khoa học là một bước quan trọng trong quá trình số hóa và truy xuất thông tin. Các biểu thức này thường có cấu trúc phức tạp, chứa ký hiệu, chỉ số trên/dưới, và phân số. Việc trích xuất chính xác chúng từ hình ảnh giúp chuyển đổi nội dung toán học sang dạng có thể tìm kiếm và chỉnh sửa. Công việc này có ứng dụng lớn trong xây dựng cơ sở dữ liệu khoa học, tìm kiếm thông tin theo ngữ nghĩa, và hỗ trợ người khiếm thị. Nghiên cứu này tập trung vào việc nâng cao độ chính xác và tốc độ của hệ thống phát hiện, đặc biệt với các biểu thức được nhúng trong văn bản hoặc trình bày riêng biệt.

1.1. Định nghĩa và vai trò của biểu thức toán học trong tài liệu

Biểu thức toán học là các chuỗi ký hiệu biểu diễn mối quan hệ toán học, bao gồm phép tính, hàm số, phương trình, và bất đẳng thức. Trong tài liệu khoa học, chúng là cốt lõi để trình bày lý thuyết, mô hình, và kết quả thí nghiệm. Phát hiện chính xác các biểu thức này từ ảnh cho phép hệ thống hiểu được nội dung toán học cốt lõi của tài liệu. Đây là tiền đề cho các ứng dụng như dịch thuật tài liệu kỹ thuật, kiểm tra tự động, và truy vấn thông minh trên các ấn phẩm học thuật.

1.2. Thách thức chính trong phát hiện biểu thức toán học từ ảnh

Các thách thức lớn bao gồm sự đa dạng về font chữ, kích thước, và cách trình bày trong các tài liệu khác nhau. Biểu thức toán học có cấu trúc hai chiều phức tạp, khác với văn bản tuyến tính. Nhiễu, mờ, hoặc biến dạng trong quá trình scan ảnh cũng làm giảm chất lượng đầu vào. Hơn nữa, việc phân biệt giữa biểu thức toán học và văn bản xung quanh, đặc biệt là các ký tự Hy Lạp hoặc ký hiệu đặc biệt, đòi hỏi thuật toán có khả năng học đặc trưng mạnh mẽ và tổng quát hóa tốt.

II. Phân tích các vấn đề và phương pháp truyền thống

Các phương pháp truyền thống thường dựa trên quy tắc và đặc trưng thủ công. Chúng bao gồm việc sử dụng ngưỡng để phân tách các vùng ký hiệu, phân tích liên kết thành phần kết nối, hoặc áp dụng các bộ lọc hình ảnh để xác định ranh giới biểu thức. Những cách tiếp cận này thường nhạy cảm với sự thay đổi về định dạng tài liệu và chất lượng hình ảnh. Chúng khó mở rộng để xử lý đa dạng kiểu biểu thức và thường gặp khó khăn với các biểu thức được nhúng liền mạch trong dòng văn bản. Độ chính xác của các phương pháp này bị giới hạn bởi chất lượng của các đặc trưng được thiết kế thủ công, đòi hỏi nỗ lực kỹ thuật lớn cho từng loại tài liệu cụ thể.

2.1. Hạn chế của các kỹ thuật dựa trên quy tắc

Kỹ thuật dựa trên quy tắc sử dụng một tập hợp các điều kiện được xác định trước để xác định vùng chứa biểu thức toán học. Các điều kiện này có thể dựa trên mật độ pixel, sự hiện diện của các ký hiệu đặc biệt, hoặc cấu trúc hình học. Phương pháp này hoạt động tốt trên các tài liệu có định dạng chuẩn và chất lượng cao. Tuy nhiên, nó rất kém linh hoạt. Một thay đổi nhỏ về font chữ hoặc bố cục có thể khiến hệ thống thất bại. Việc xây dựng và bảo trì bộ quy tắc cho một thư viện tài liệu lớn là không khả thi.

2.2. Vai trò của các đặc trưng thủ công trong các hệ thống cũ

Các hệ thống cũ thường trích xuất các đặc trưng hình ảnh thủ công như Histogram of Oriented Gradients (HOG), Local Binary Patterns (LBP), hoặc các đặc trưng dựa trên hình dạng. Các đặc trưng này sau đó được đưa vào các bộ phân loại truyền thống như SVM hoặc Random Forest. Mặc dù có hiệu quả nhất định, việc thiết kế đặc trưng thủ công đòi hỏi chuyên môn sâu về miền vấn đề. Các đặc trưng này thường không thể nắm bắt đầy đủ sự phức tạp và tính trừu tượng của biểu thức toán học, dẫn đến hiệu suất bị hạn chế trên các tập dữ liệu lớn và đa dạng.

III. Giải pháp nâng cao hiệu suất bằng học sâu và học chuyển giao

Nghiên cứu đề xuất sử dụng các mạng nơ-ron tích chập (CNN) sâu để giải quyết các vấn đề trên. Cụ thể, các kiến trúc mạng như AlexNet và ResNet-18 được áp dụng thông qua kỹ thuật học chuyển giao. Mạng được huấn luyện trước trên một tập dữ liệu ảnh lớn (ImageNet) để học các đặc trưng hình ảnh tổng quát. Sau đó, mô hình được tinh chỉnh trên tập dữ liệu chuyên biệt về biểu thức toán học. Cách tiếp cận này cho phép hệ thống tự động học các đặc trưng có liên quan trực tiếp từ dữ liệu, bỏ qua nhu cầu thiết kế thủ công. Hệ thống được xây dựng với hai module riêng biệt: một để phát hiện biểu thức toán học cô lập và một để phát hiện biểu thức toán học được nhúng trong dòng văn bản.

3.1. Kiến trúc mạng CNN và học chuyển giao cho phát hiện biểu thức

ResNet-18 với kiến trúc sâu hơn và các kết nối tắt cho thấy hiệu suất vượt trội so với AlexNet trong các tác vụ phân loại hình ảnh. Trong nghiên cứu này, ResNet-18 được sử dụng để trích xuất 512 đặc trưng hình ảnh từ mỗi vùng ảnh đầu vào (dòng văn bản hoặc từ). Các đặc trưng này được đưa vào một lớp Softmax để phân loại vùng đó có chứa biểu thức toán học hay không. Kỹ thuật học chuyển giao cho phép tận dụng kiến thức từ hàng triệu ảnh tự nhiên, giúp mô hình hội tụ nhanh hơn và đạt độ chính xác cao hơn trên tập dữ liệu toán học hạn chế.

3.2. Xây dựng module phát hiện biểu thức cô lập và biểu thức nhúng

Hệ thống được thiết kế với hai module chuyên biệt. Module đầu tiên xử lý các biểu thức toán học được trình bày riêng biệt, thường có kích thước lớn và nằm trong một vùng ảnh rõ ràng. Module thứ hai, phức tạp hơn, chịu trách nhiệm phát hiện các biểu thức toán học được nhúng trực tiếp vào dòng văn bản, đòi hỏi khả năng phân biệt chính xác giữa ký tự toán học và ký tự văn bản thông thường. Việc tách biệt hai module này cho phép tối ưu hóa mô hình cho từng loại bài toán cụ thể, cải thiện độ chính xác tổng thể của hệ thống phát hiện.

IV. Kết luận và ứng dụng thực tiễn của nghiên cứu

Nghiên cứu đã chứng minh hiệu quả của việc áp dụng học sâu, đặc biệt là các kiến trúc CNN tiên tiến như ResNet-18 kết hợp học chuyển giao, để nâng cao đáng kể hiệu suất phát hiện biểu thức toán học trong ảnh tài liệu khoa học. Hệ thống đề xuất đạt được độ chính xác cao hơn so với các phương pháp truyền thống, đồng thời giảm nhu cầu can thiệp thủ công. Kết quả này mở ra triển vọng lớn cho việc tự động hóa quá trình số hóa các thư viện khoa học kỹ thuật. Công trình cũng cung cấp một bộ dữ liệu và phương pháp làm nền tảng cho các nghiên cứu tiếp theo trong lĩnh vực nhận dạng ký tự quang học (OCR) toán học.

4.1. Tổng kết các đóng góp chính của luận án tiến sĩ

Luận án đã xây dựng thành công một hệ thống phát hiện biểu thức toán học có hiệu suất cao dựa trên học sâu. Đóng góp nổi bật là việc áp dụng và đánh giá kỹ lưỡng kỹ thuật học chuyển giao từ các mô hình CNN phổ biến cho bài toán chuyên biệt này. Nghiên cứu cũng đề xuất và triển khai kiến trúc hai module chuyên biệt cho biểu thức cô lập và nhúng, cải thiện khả năng xử lý thực tế. Kết quả thực nghiệm trên các bộ dữ liệu chuẩn đã xác nhận tính ưu việt của phương pháp đề xuất.

4.2. Ứng dụng và hướng phát triển tương lai

Hệ thống có thể được tích hợp vào các công cụ OCR tài liệu khoa học, các công cụ tìm kiếm học thuật, hoặc hệ thống hỗ trợ người khiếm thị. Trong tương lai, nghiên cứu có thể được mở rộng để nhận dạng chính xác nội dung toán học bên trong biểu thức (Mathematical Expression Recognition), không chỉ dừng lại ở việc phát hiện vùng chứa. Việc áp dụng các kiến trúc mạng mới hơn như Transformer hoặc các kỹ thuật học tăng cường (data augmentation) cũng hứa hẹn sẽ tiếp tục cải thiện độ robust và chính xác của hệ thống.

21/04/2026

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY BUI HAI PHONG ENHANCING PERFORMANCE OF MATHEMATICAL EXPRESSION DETECTION IN SCIENTIFIC DOCUMENT IMAGES DOCTORAL DISSERTATION IN COMPUTER SCIENCE Hanoi—2021 MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY BUI HAI PHONG ENHANCING PERFORMANCE OF MATHEMATICAL EXPRESSION DETECTION IN SCIENTIFIC DOCUMENT IMAGES Major: Computer Science Code: 9480101 DOCTORAL DISSERTATION COMPUTER SCIENCE SUPERVISORS: 1. Hoang Manh Thang 2. Le Thi Lan Hanoi—2021 DECLARATION OF AUTHORSHIP 1, Bui Hai Phong, de lare that the th titled "Enhancing performance of mathe- matical expression detection in s ‘entific document images" has been entire posed by myself. T assure some points as follows: = This work was done wholly or mainly while in candidature for a Ph. research degree at Hanoi University of Science and Technology. # The work has not be submitted for any other degree or qualifications at Hanoi University of Science and Technology or any other institutions. «= Appropriate acknowledge has been given within this thesis where reference has been made to the published work of others. «= The thesis submitted is my own, except where work in the collaboration has been included. The collaborative contributions have been clearly indicated. Hanoi, September, 2021 PhD Student SUPERVISORS Prof. Hoang Manh Thang 2. Le Thi Lan ACKNOWLEDGEMENT I decided to pursue a PhD. in Computer Science at MICA International Research Institute, Hanoi University of Science and Technology (HUST) in 2017. It has be one of the best decisions I could have made. HUST is a really special place where I ha ¢ accumulated immen: > knowledge. I would like to thank Executi » Board and all members of MICA Rescarch Institute, HUST for the kind support in the PhD. I wish to express my deepest gratitude to my supervisors Assoc. Hoang Manh “Thang and Assoe. Le Thi Lan for their continuous instruction, advice and support in the PhD course. ‘The thesis cannot be fulfilled without the specific direction of my supervisors. I wish to thank all members of Computer Vision Department, MICA. Researcl Institute, HUST for the frequent support in the PhD. T wish to thank Excentive Board and all members of School of Graduate Education; School of School of Electronics and Telecommunications and School of Information and Communication Technology, HUST for the specific comments and suggestion for the thesis. I wish to thank all members of Faculty of Information Technology, Hanoi Archi- tectural University for the support in the professional work in the completion of the PhD. T wish to thank Professor Akiko Aizawa and members of Aizawa Laboratory, Na- tional Institute of Informatics, Tokyo, Japan where I have obtained many s ific experiences during the internship of the PhD, I wish to thank anonymous reviewers for valuable comments during the completion of the PhD. I gratefully acknowledge the funding from SAHEP HUST project number T2020- SAHEP-008 and Domestic Master/ PhD Scholarship Programme of Vingroup Innova- tion Foundation 2019-2021. I wish to express my sincere gratitude to my family and friends for the continuons support. and encouragement in the completion of the PhD. Student, ABSTRACT Mathematical exprossions (MES) play an important role in scientific documents and a huge number of scientific documents have been produced over years. Therefore, the demand of document digitization for researching and studying purposes has contin- uously inereased. Detection and recognition of MEs in documents are considered as ial steps for document. The detection of expressions aims to locate the position of expressions within documents. Mcanwhile, the recognition of MEs aims at converting expressions from image format to string. In the documents, mathemati expressions are classified in two categories: isolated (displayed) and inline (embedded) expressions. An isolated expression displays in a separate line, an inline expression is mixed with other components (texts). Mathematical expressions may consist of math- ematical operators (e. |, -, x, +), functions (logsin, cos) and variables (i, j, 1) Large expressions may consist of multiple text lines. Meanwhile, small expressions may consist of one character. The accuracy of the detection of isolated expressions has been lually improved. However, the detection of inline expressions is considered asa challenging task. In practice, the detection and recognition of MEs in document images are closely related. ‘The accuracy of the detection allows to obtain accuracy of the recognition. In contrast, the incorrect d tion may cause errors in the recognition of MEs This s presents three main contributions in the detection and recognition of MEs in entific document. images: (1) First, a hybrid method of two stagi s has been proposed for the ef ective detection of MEs. stage, the layout analysis of entire document images is introduced to improve the accuracy of text linc and word segmentation. At second stage, both isolated and inline MEs in document images are detected. Both hand-crafted and deep learning features are extensively investigated and combined to improve the detection accuracy. In the handerafted feature extraction approach, the Fast Fourier Transform (FFT) is applied for text line images for the detection of isolated MEs. ‘The Gaussian parameters of projection profile are applied as the feature extraction for the detection of inline MEs. After the feature extraction, various machine learning classifiers have been fine tuned for the deti ction. In the deep learning approach, the CNNs (Alexnet and ResN ct) have been optimized for the detection of MEs. The fusion of handcrafted and deep learning features based on the prediction scores has been applied. ‘The merit of the method is that it can operate directly on the ME images without the employment. of character recognition. (2) Second, an end-to-end framework for mathematical expression detection in sci- entific document images is proposed without using any Optical Character Recognition (OGR) or Document Analysis techniques as in conventional methods. ‘The distance transform is firstly applied for input document images in order to take advantages of the distingnished features of spatial layout of MEs. Then, the transformed images are fod into the Faster Region with Convolutional Neural Network (Faster R-CNN) that has been optimized to improve the accuracy of the detection. Spe cally, the optimiza- tion and generation strategies of anchor boxes of the Region Proposal Network have been propased to improve the accuracy of expression detection of various sizes. The proposed methods for the detection of MEs have been tested on two public datasets (Marmot and GTDB). The obtained accuracies of isolated and inline expressions in the Marmot dataset are 92.90% while those in the GTDB dataset. ‘The performance comparison with conventional methods shows the effectiveness of the proposed method. (3) Finally, the detection and recognition of MEs have been integrated in a system, The MEs in document images have been detected and recognized. The recognition results are represented in Latex. The application aims to support end users to use the detection and recognition of MEs in document images conveniently. Student CONTENTS DECLARATION OF AUTHORSHIP. i ACKNOWLEDGEMENT ii ABSTRACT. iii CONTENTS viii ABBREVIATIONS viii LIST OF TABLES xi LIST OF FIGURES. Objectives of the thesi 2 0. Introduction of the ME detection and recognition . Introduction of MEs 2 0. Introduction of ME detection 4 0. Introduction of ME recognition. Contributions of this thesi 7 0. Structure of this thesis. ME detection methods in documment images.1; Rule based detection si<cocien ciao 18 1. Handcrafted feature extraction methods for the ME deteetion. Deep Deep neural neural network network for for ME ME detection. c2 15 1 Deep neural networks. Deep neural network models for ME detecti 1. Datasets and ovaluation metrics. Existing systems for ME recognition.6, Summary of the ChapECF . ào vn nhi 35 CHAPTER 2. THE DETECTION OF MEs USING THE LATE FUSION OF HANDCRAFTED AND DEEP LEARNING FEATURES. Overview of the proposed method 37 2. 38 extraction for ME detection . 42 Handcrafted feature extraction for isolated ME detection . 4 Handerafted feature extraction for inline ME detection . Deep learning method for ME detection . Late fusion of handerafted and deep learning features for ME deti 26. Post-processing for ME detecti 2.1, Performance evaluation of the detection of MEs using different ma learning algorithms 5 Performance evaluation of the detection of MEs using the fu and deep learning features with different operations 3. Performane‹ evaluation of the det on of isolated and inline MEs on dif- ferent public datasets. 63 valuation of the impact of image resolution on the ME de 66 Evaluation of the imps ° 67 6. Visualization of extr afted and deep ning feature approaches . Error analysis and dise Tả 8, Measurement of exeention time Tö 2. Summary of the ChapE©F . cv n nhe T6 CHAPTER 3. THE DETECTION OF MEs USING THE COMBINATION OF THE DISTANCE TRANSFORM AND FASTER R-CNN. Overview of the proposed method for ME det jon using the DT and the Faster R-CNN T8 3. The detection of MEs using the DT and the Faster R-CNN.1, Distance transform of document image. ME detection using a Faster R-CNN . Region proposal network. Fully connected detection network . 86 4 Loss function of the training Faster R-CNN. Loss function of the training process of Faster R-CN! Evaluation of the impact of the DT and anchor box goi formance of the ME det tion 91 Comparison of Faster R-CNN models in ME detection . 94 Comparison of the proposed and state-of-the-art methods nse in ME detection 97 98 102 103 3. Summary of the chapter . THE DETECTION AND RECOGNITION OF MEs IN DOCUMENT IMAGES . Overview of the proposed system for the detection and recognition of MEs 105 4. ME recognition using the WAP network: 106 4.1, Watcher module of the WAP network. Parser module of the WAP network 108 4. Training the WAP network .1, Performance evaluation of the detection and recognition of MEs . Error analysis and discussion . Measurement of exceution tim 120 4. Summary of the chapter . co cty 120 CONCLUSIONS 121 PUBLICATIONS. Abbreviation Meaning ONN Convolutional Neural Network DT Distance Transform ExpRate Expression Error Rate FFT Fast Fourier Transform Faster R-CNN Faster Regions Convolutional Neural Network GRU Gated Recurrent. Unit HOG Histogram of Oriented Gradients HPP Horizontal Projection Profile IoU Intersection over Union 10 kNN k-Nearest Neighbour 1" LSTM Long-Short Term Memory 12 Mask R-CNN Mask Region with Convolutional Neural Network 18 ME Mathematical Expression 14 OCR Optical Charater Recognition 15 ResNet Residual Neural Network 16 RP Random Forest 17 RNN Recurrent Neural Network 18 ROIs Region of Interests 19 RPN Region Proposal Network 20 D Single Shot De tor 21 SVM Support Vector Machine 22 -SNE t- Distributed Stochastic Neighbor Embedding 23 VPP Vertical Projection Profile 24 WAP ‘Watcher Attend Parser Neural Network 25 WER Word Error Rate 26 YOLO, You Only Look One LIST OF TABLES 11 Results of document analysis of participating methods in competition 2019 13 12 Summary of signi ant handcrafted features for isolated ME det ion . 15 13 Summary of significant handcrafted features for inline ME detection . 15 14 Milestones in the development of DI 16 15 Parameters of Alexnet 16 16 Parameters of Resnet18. 17 17 Statistic of the Marmot and GTDB dat: - 37 24 Features of VPP of variable and word images in Figure 2.11 22 Comparison of VPP features between italic and non-italic styles of char- acter "al of Arial font š BỘ Ge a BS i a Ge 23 Alexnet architecture and layer parameters. 24 ResNet-18 architecture and layer parameters . Sw eS 25 Performance comparison on isolated expression detection on the Marmot datasct using different machine learning algorithms (high scores are inbld) . z iŠ Sẽ Ko Sử Z 8š HS BS X 60 Performance comparison on inline expr sion detect jon on the Marmot datasct using different machine learning algorithms (highest scores are in bold) 60 27 Performance comparison on isolated expression detection on the Marmot datase using different fusion t chniques (highest scores are in bold) . 61 28 Performance comparison on inline expression detection on the Marmot dataset using different fusion techniques (highest scores are in bold).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ