Luận văn thạc sĩ về chương trình khung mới cho bài toán nhận dạng biểu thức toán học

Nghiên cứu chuyên sâu Chương trình khung mới cho nhận dạng biểu thức toán học trong luận văn thạc sĩ khoa, phương pháp luận hiện đại, kết quả ứng

Trường đại học

Đại học Bách Khoa

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu đề tài

1.2. Lý do lựa chọn đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Kỹ thuật nền tảng

2.1.1. Rút trích đặc trung ảnh

2.1.2. Cơ chế tập trung (Attention mechanism)

2.2. Bài toán nhận dạng biểu thức toán học viết tay

2.2.1. Hướng tiếp cận xây dựng mô hình đầu cuối

2.2.2. Hướng tiếp cận làm giàu dữ liệu

3. CHƯƠNG 3: PHƯƠNG PHÁP LUẬN NGHIÊN CỨU

3.1. Chương trình khung để đánh giá

3.2. Hướng tiếp cận nền tảng

3.2.1. Kiến trúc nền tảng

3.3. Phương pháp đề xuất

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Dữ liệu

4.2. Môi trường

4.3. Độ đo

4.3.1. Tái lập các công trình tham khảo

4.3.2. Phương pháp đề xuất

4.3.3. So sánh với các công trình tham khảo

5. CHƯƠNG 5: TỔNG KẾT

5.1. Kết luận

5.2. Đánh giá ưu, nhược điểm

5.2.1. Nhược điểm

5.3. Hướng phát triển tương lai

KẾT LỜI

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Luận văn thạc sĩ này đề xuất một chương trình khung mới cho bài toán nhận dạng biểu thức toán học trong lĩnh vực khoa học máy tính. Nhu cầu về việc số hóa các biểu thức toán học viết tay ngày càng tăng, đặc biệt trong bối cảnh giáo dục và nghiên cứu. Việc phát hiện và nhận dạng các biểu thức này không chỉ giúp tiết kiệm thời gian mà còn nâng cao hiệu quả trong việc giảng dạy và học tập. Luận văn này sẽ khảo sát và đánh giá các phương pháp hiện tại, từ đó đề xuất một phương pháp kết hợp giữa đặc trưng toàn cục và cục bộ nhằm tối ưu hóa quá trình nhận dạng. Đặc biệt, việc phát triển các ứng dụng có thể chuyển đổi nhanh chóng các biểu thức viết tay sang định dạng máy tính như LATEX sẽ mang lại nhiều lợi ích cho người sử dụng.

1.1 Lý do lựa chọn đề tài

Bài toán nhận dạng biểu thức toán học viết tay được lựa chọn vì ba lý do chính: tính ứng dụng cao trong thực tiễn, tính thách thức trong việc hiện thực hóa và tính phổ biến trong cộng đồng nghiên cứu. Việc nhận dạng các biểu thức toán học không chỉ đơn thuần là nhận diện ký tự mà còn bao gồm việc hiểu được cấu trúc của biểu thức, điều này làm cho bài toán trở nên phức tạp. Hơn nữa, với sự phát triển không ngừng của công nghệ và nhu cầu số hóa trong giáo dục, việc tìm kiếm giải pháp hiệu quả cho bài toán này trở nên cần thiết hơn bao giờ hết.

II. Công trình liên quan

Chương này sẽ tập trung vào việc khảo sát các công trình có liên quan đến bài toán nhận dạng biểu thức toán học viết tay. Các nghiên cứu trước đây đã chỉ ra rằng việc rút trích đặc trưng ảnh là một yếu tố quyết định trong quá trình nhận dạng. Các phương pháp như CNN (Mạng nơ-ron tích chập) đã được áp dụng rộng rãi trong lĩnh vực này. Một số công trình tiêu biểu như LeNet, AlexNet và VGG đã mở ra hướng đi mới cho việc phát triển các mô hình học sâu. Đặc biệt, các kỹ thuật như cơ chế tập trung (attention mechanism) cũng đã được nghiên cứu để cải thiện khả năng nhận dạng. Hệ thống hiện tại vẫn còn nhiều hạn chế, do đó, việc nghiên cứu và phát triển một chương trình khung mới là cần thiết để cải thiện độ chính xác và hiệu quả của các mô hình nhận dạng.

2.1 Kỹ thuật nền tảng

Kỹ thuật rút trích đặc trưng ảnh là yếu tố quan trọng trong bài toán nhận dạng biểu thức toán học. Các công trình nghiên cứu đã chứng minh rằng việc sử dụng các kiến trúc mạng nơ-ron học sâu như CNN giúp cải thiện khả năng phân loại và nhận dạng. Các mô hình như ResNet và DenseNet đã cho thấy hiệu quả vượt trội trong việc xử lý ảnh nhờ vào khả năng dung hợp các đặc trưng ở nhiều mức độ phân giải khác nhau. Việc áp dụng các kỹ thuật này trong bài toán nhận dạng biểu thức toán học viết tay sẽ giúp nâng cao độ chính xác và giảm thiểu lỗi nhận dạng, từ đó mở ra cơ hội cho các ứng dụng thực tiễn trong giáo dục và nghiên cứu.

III. Phương pháp luận nghiên cứu

Phương pháp nghiên cứu được đề xuất trong luận văn này bao gồm việc xây dựng một chương trình khung để đánh giá hiệu quả của các phương pháp nhận dạng biểu thức toán học hiện tại. Bằng cách tái lập các mô hình đã được công bố, nghiên cứu sẽ xác định được ưu điểm và nhược điểm của từng phương pháp. Đồng thời, việc phát triển một mô hình mới dựa trên việc kết hợp các đặc trưng toàn cục và cục bộ sẽ được thực hiện. Điều này không chỉ giúp cải thiện độ chính xác mà còn tạo điều kiện thuận lợi cho việc so sánh giữa các phương pháp khác nhau. Sự kết hợp này có thể là chìa khóa để giải quyết những thách thức còn tồn tại trong lĩnh vực nhận dạng biểu thức toán học viết tay.

3.1 Chương trình khung để đánh giá

Chương trình khung được thiết kế nhằm mục đích tạo ra một môi trường thuận lợi cho việc đánh giá các phương pháp nhận dạng. Nó sẽ cho phép so sánh hiệu quả giữa các mô hình khác nhau dựa trên các tiêu chí cụ thể như độ chính xác, tốc độ xử lý và khả năng mở rộng. Việc xây dựng chương trình khung này không chỉ giúp hệ thống hóa các phương pháp hiện có mà còn cung cấp một nền tảng vững chắc cho việc phát triển các phương pháp mới trong tương lai. Điều này sẽ góp phần thúc đẩy nghiên cứu trong lĩnh vực khoa học máy tính và mở ra nhiều hướng đi mới cho các ứng dụng thực tiễn.

IV. Kết quả thực nghiệm

Kết quả thực nghiệm được trình bày trong chương này sẽ cho thấy hiệu quả của phương pháp đề xuất so với các phương pháp đã được công bố. Việc sử dụng các bộ dữ liệu tiêu chuẩn sẽ giúp đảm bảo tính khách quan trong đánh giá. Các kết quả sẽ được phân tích và so sánh để xác định mức độ cải thiện về độ chính xác và hiệu suất. Điều này không chỉ khẳng định giá trị của phương pháp mới mà còn cung cấp cơ sở cho việc phát triển các ứng dụng trong thực tế. Những kết quả này sẽ là minh chứng cho khả năng ứng dụng của công nghệ nhận dạng trong việc giải quyết các bài toán thực tiễn, đặc biệt trong lĩnh vực giáo dục.

4.1 Đánh giá kết quả

Đánh giá kết quả thực nghiệm sẽ được thực hiện dựa trên các tiêu chí cụ thể, bao gồm độ chính xác, tốc độ xử lý và khả năng mở rộng của mô hình. Các kết quả sẽ được so sánh với các mô hình hiện có để xác định mức độ cải thiện. Bên cạnh đó, việc phân tích các yếu tố ảnh hưởng đến hiệu suất của mô hình cũng sẽ được thực hiện. Điều này sẽ giúp xác định những điểm mạnh và điểm yếu của phương pháp đề xuất, từ đó tạo cơ sở cho việc điều chỉnh và cải tiến trong tương lai. Kết quả này không chỉ có giá trị trong nghiên cứu mà còn có thể được áp dụng rộng rãi trong thực tiễn.

V. Tổng kết

Luận văn đã trình bày một chương trình khung mới cho bài toán nhận dạng biểu thức toán học viết tay, với mục tiêu cải thiện độ chính xác và hiệu suất của các phương pháp hiện tại. Các kết quả thực nghiệm cho thấy phương pháp đề xuất có nhiều ưu điểm vượt trội so với các phương pháp đã được công bố. Tuy nhiên, vẫn còn một số hạn chế cần được khắc phục trong tương lai. Hướng phát triển tiếp theo sẽ tập trung vào việc tối ưu hóa mô hình và mở rộng khả năng ứng dụng trong các lĩnh vực khác nhau, từ giáo dục đến công nghiệp. Việc tiếp tục nghiên cứu và phát triển trong lĩnh vực này sẽ góp phần nâng cao hiệu quả của các ứng dụng công nghệ trong thực tiễn.

5.1 Hướng phát triển tương lai

Hướng phát triển tương lai của nghiên cứu này sẽ tập trung vào việc cải thiện độ chính xác và hiệu suất của mô hình. Việc áp dụng các công nghệ mới như học sâu và các kỹ thuật tiên tiến trong khoa học dữ liệu sẽ được xem xét. Ngoài ra, việc mở rộng khả năng ứng dụng của mô hình trong các lĩnh vực khác như y tế, tài chính và công nghiệp cũng sẽ được nghiên cứu. Điều này không chỉ giúp nâng cao giá trị thực tiễn của nghiên cứu mà còn mở ra nhiều cơ hội mới cho các ứng dụng công nghệ trong tương lai.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính một chương trình khung mới cho bài toán nhận dạng biểu thức toán học

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng biểu thức toán học viết tay (Handwritten Mathematical Expression Recognition - HMER) là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong bối cảnh số hóa giáo dục và tài liệu. Theo báo cáo của ngành, việc số hóa các biểu thức toán học viết tay giúp giáo viên soạn giáo án, đề thi nhanh chóng và thuận tiện hơn, đồng thời hỗ trợ các ứng dụng hướng dẫn giải phương trình, vẽ đồ thị hàm số, làm cho việc dạy và học trở nên trực quan và sinh động. Tuy nhiên, bài toán này gặp nhiều thách thức do sự đa dạng phong cách viết tay, kích thước và cấu trúc phức tạp của biểu thức toán học, ví dụ như phân số, lũy thừa, căn thức.

Mục tiêu nghiên cứu của luận văn là đề xuất một chương trình khung mới nhằm cải tiến hiệu quả nhận dạng biểu thức toán học viết tay, tập trung vào việc kết hợp đặc trưng toàn cục và cục bộ trong rút trích đặc trưng ảnh biểu thức. Nghiên cứu được thực hiện trên bộ dữ liệu CROHME 2019, với phạm vi thời gian từ năm 2019 và địa điểm nghiên cứu tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Việc nâng cao độ chính xác nhận dạng biểu thức toán học có ý nghĩa lớn trong việc phát triển các ứng dụng giáo dục số, hỗ trợ tự động hóa trong soạn thảo tài liệu toán học và cải thiện trải nghiệm người dùng trong các phần mềm học tập.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực học sâu và nhận dạng ảnh:

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Đây là nền tảng để rút trích đặc trưng từ ảnh biểu thức toán học. Các kiến trúc CNN tiêu biểu như LeNet, VGG-16, Inception, ResNet và DenseNet được nghiên cứu để khai thác đặc trưng đa phân giải, giúp mô hình nhận dạng các ký tự có kích thước và hình dạng đa dạng.
Cơ chế tập trung (Attention mechanism): Được ứng dụng trong mô hình giải mã chuỗi ký tự LATEX từ đặc trưng ảnh. Cơ chế này giúp mô hình tập trung vào các vùng ảnh quan trọng tại mỗi bước dự đoán ký tự, cải thiện khả năng nhận dạng biểu thức phức tạp. Các biến thể như coverage-based attention và multi-scale attention được áp dụng để nâng cao hiệu quả.

Các khái niệm chính bao gồm: đặc trưng toàn cục và cục bộ, kiến trúc mã hóa-giải mã (Encoder-Decoder), mạng hồi quy (RNN, GRU), đặc trưng đa phân giải, và kỹ thuật làm giàu dữ liệu (data augmentation).

Phương pháp nghiên cứu

Nghiên cứu sử dụng bộ dữ liệu CROHME 2019, gồm 5 tập con với tổng số khoảng 12.000 biểu thức toán học viết tay, được chuẩn hóa thành ảnh kích thước 310×310 pixel. Dữ liệu được chia thành tập huấn luyện (Train), kiểm định (Valid) và đánh giá (Test) theo tỷ lệ 80-20 cho tập huấn luyện và kiểm định.

Phương pháp phân tích bao gồm:

Tái lập các công trình tham khảo: Hiện thực và đánh giá các mô hình WAP và MultiScale WAP, vốn là các công trình tiên tiến trong lĩnh vực HMER.
Xây dựng chương trình khung đánh giá: Thiết kế quy trình chuẩn hóa dữ liệu, huấn luyện, chọn lọc và đánh giá mô hình nhằm đảm bảo tính công bằng và khách quan.
Đề xuất phương pháp mới: Kết hợp đặc trưng đa phân giải dựa trên kiến trúc InceptionFusion với các mô hình nền tảng WAP và MultiScale WAP.
Phân tích kết quả: So sánh hiệu suất các mô hình qua chỉ số Tỷ lệ biểu thức đúng (Expression Rate - ExpRate) trên các tập dữ liệu Valid và Test.

Quá trình nghiên cứu kéo dài từ tháng 9/2021 đến tháng 6/2022, sử dụng phần cứng GPU GTX 1080Ti 12GB và ngôn ngữ Python 3.7 cùng các thư viện hỗ trợ như numpy.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tái lập công trình tham khảo: Mô hình MultiScale WAP đạt ExpRate khoảng 65.58% trên tập Valid CROHME 2019, cao hơn khoảng 10 điểm so với WAP (53.14%). Tuy nhiên, điểm số tái lập thấp hơn đáng kể so với công bố gốc, với khoảng cách từ 20 đến 33 điểm trên các tập Test CROHME 2014 và 2016, do khác biệt trong kích thước ảnh đầu vào và không sử dụng mô hình tổ hợp (ensemble).
Hiệu quả của đặc trưng đa phân giải trên WAP: Phiên bản WAP + InceptionFusion (IF) với biến thể 3b (mức độ kết hợp đặc trưng toàn cục và cục bộ cao nhất) đạt ExpRate 61.75% trên CROHME 2019, tăng khoảng 8.6 điểm so với WAP gốc. Trên tập Test 2014 và 2016, phiên bản này cải thiện khoảng 9 điểm so với WAP gốc, cho thấy sự đóng góp rõ rệt của đặc trưng đa phân giải.
Hiệu quả trên MultiScale WAP: Phiên bản MultiScale WAP + IF với biến thể 4d+3b đạt ExpRate 62.49% trên CROHME 2019, thấp hơn khoảng 3 điểm so với MultiScale WAP gốc (65.58%). Trên tập Test, điểm số cũng thấp hơn hoặc tương đương, cho thấy sự kết hợp đặc trưng đa phân giải chưa mang lại cải tiến vượt trội trên mô hình này.
So sánh tổng thể: Phương pháp đề xuất cải tiến WAP cho kết quả tốt hơn đáng kể so với mô hình gốc, trong khi cải tiến MultiScale WAP chưa đạt hiệu quả tương tự. Điều này cho thấy cơ chế tập trung đa phân giải trong MultiScale WAP đã giải quyết phần nào vấn đề kích thước ký tự nhỏ, khiến việc bổ sung đặc trưng đa phân giải không mang lại lợi ích lớn.

Thảo luận kết quả

Nguyên nhân cải thiện hiệu quả trên WAP khi kết hợp đặc trưng đa phân giải là do mô hình gốc chưa khai thác tốt thông tin cục bộ của các ký tự nhỏ trong biểu thức. Việc bổ sung đặc trưng đa phân giải giúp mô hình nhận diện chi tiết hơn, tăng độ chính xác nhận dạng. Ngược lại, MultiScale WAP vốn đã sử dụng hai lớp attention với đặc trưng đa phân giải nên việc thêm InceptionFusion không tạo ra bước đột phá.

So sánh với các nghiên cứu khác, kết quả cho thấy việc kết hợp đặc trưng toàn cục và cục bộ là hướng đi hiệu quả trong HMER. Tuy nhiên, sự khác biệt lớn giữa điểm số tái lập và công bố gốc cũng nhấn mạnh tầm quan trọng của việc chuẩn hóa dữ liệu và kỹ thuật huấn luyện, như sử dụng mô hình tổ hợp.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh ExpRate giữa các mô hình trên các tập dữ liệu khác nhau, giúp minh họa rõ ràng sự cải thiện và hạn chế của từng phương pháp.

Đề xuất và khuyến nghị

Phát triển kiến trúc rút trích đặc trưng đa phân giải mạnh mẽ hơn: Thay thế InceptionNet bằng các kiến trúc CNN hiện đại hơn như EfficientNet hoặc ResNeXt để nâng cao khả năng trích xuất đặc trưng toàn cục và cục bộ, nhằm cải thiện độ chính xác nhận dạng. Thời gian thực hiện dự kiến 6-12 tháng, do nhóm nghiên cứu và kỹ sư phát triển.
Nghiên cứu và áp dụng kiến trúc Transformer: Thay thế mạng hồi quy truyền thống bằng Transformer hoặc các biến thể như Self-Attention và Multi-head Attention để tăng khả năng học ngữ cảnh và cấu trúc biểu thức. Mục tiêu tăng ExpRate ít nhất 5% so với mô hình hiện tại trong vòng 1 năm, do nhóm nghiên cứu AI thực hiện.
Kết hợp làm giàu dữ liệu với cải tiến kiến trúc: Áp dụng kỹ thuật biến đổi hình học và sinh biểu thức toán học để cân bằng phân phối ký tự, kết hợp với mô hình mới nhằm giảm thiểu lỗi do dữ liệu không đồng đều. Thời gian triển khai 6 tháng, do nhóm dữ liệu và nghiên cứu phối hợp.
Xây dựng chương trình khung đánh giá mở rộng: Phát triển hệ thống đánh giá tự động, hỗ trợ thử nghiệm nhiều mô hình và siêu tham số, đảm bảo tính khách quan và công bằng trong nghiên cứu. Thời gian 3-6 tháng, do nhóm kỹ thuật phần mềm thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về nhận dạng biểu thức toán học viết tay, các kiến trúc mạng nơ-ron và cơ chế attention, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Phát triển phần mềm giáo dục và ứng dụng số hóa: Các công ty và nhóm phát triển phần mềm có thể áp dụng phương pháp và chương trình khung để xây dựng hệ thống nhận dạng biểu thức toán học, nâng cao trải nghiệm người dùng.
Giảng viên và nhà giáo dục: Hiểu rõ công nghệ nhận dạng biểu thức toán học giúp áp dụng hiệu quả trong giảng dạy, soạn thảo giáo án và đề thi, đồng thời hỗ trợ các công cụ dạy học trực tuyến.
Chuyên gia xử lý ảnh và học máy: Luận văn trình bày các kỹ thuật rút trích đặc trưng đa phân giải và cơ chế tập trung, là tài liệu tham khảo quý giá cho các ứng dụng nhận dạng ký tự và phân tích ảnh phức tạp khác.

Câu hỏi thường gặp

Bài toán nhận dạng biểu thức toán học viết tay có khó khăn gì đặc biệt?
Khó khăn chính là sự đa dạng phong cách viết tay, kích thước ký tự không đồng nhất và cấu trúc phức tạp của biểu thức như phân số, lũy thừa. Ví dụ, cùng một ký tự số có thể được viết theo nhiều cách khác nhau, gây khó khăn cho mô hình nhận dạng.
Tại sao cần kết hợp đặc trưng toàn cục và cục bộ trong rút trích ảnh?
Đặc trưng toàn cục giúp mô hình hiểu tổng thể biểu thức, trong khi đặc trưng cục bộ tập trung vào chi tiết nhỏ như ký tự kích thước nhỏ. Kết hợp hai loại đặc trưng giúp cải thiện độ chính xác nhận dạng, đặc biệt với các ký tự nhỏ hoặc phức tạp.
Cơ chế attention hoạt động như thế nào trong mô hình nhận dạng?
Attention giúp mô hình tập trung vào các vùng ảnh quan trọng tại mỗi bước dự đoán ký tự, bằng cách gán trọng số cho các vùng ảnh khác nhau. Ví dụ, khi dự đoán ký tự lũy thừa, mô hình sẽ tập trung vào vùng ảnh chứa ký tự đó thay vì toàn bộ biểu thức.
Tại sao kết quả tái lập mô hình thấp hơn so với công bố gốc?
Nguyên nhân gồm khác biệt trong kích thước ảnh đầu vào, không sử dụng kỹ thuật mô hình tổ hợp (ensemble), và sự khác biệt trong quy trình huấn luyện. Điều này nhấn mạnh tầm quan trọng của chuẩn hóa dữ liệu và kỹ thuật huấn luyện trong nghiên cứu.
Hướng phát triển tương lai của bài toán này là gì?
Các hướng phát triển bao gồm áp dụng kiến trúc mạng hiện đại hơn, sử dụng Transformer và các kỹ thuật attention tiên tiến, kết hợp làm giàu dữ liệu, và xây dựng chương trình khung đánh giá tự động để nâng cao hiệu quả và tính khách quan trong nghiên cứu.

Kết luận

Đã tái lập thành công các công trình WAP và MultiScale WAP, đồng thời xây dựng chương trình khung đánh giá công bằng, khách quan cho bài toán nhận dạng biểu thức toán học viết tay.
Đề xuất phương pháp kết hợp đặc trưng đa phân giải với kiến trúc nền tảng, cải thiện rõ rệt hiệu suất trên mô hình WAP, tăng ExpRate khoảng 8-9 điểm trên các tập dữ liệu đánh giá.
Phương pháp đề xuất chưa tạo được đột phá trên mô hình MultiScale WAP, cho thấy cần nghiên cứu thêm về sự tương tác giữa các cơ chế attention và đặc trưng đa phân giải.
Kết quả nghiên cứu mở ra hướng phát triển mới với việc áp dụng kiến trúc mạng hiện đại và kỹ thuật attention tiên tiến như Transformer.
Khuyến nghị tiếp tục phát triển chương trình khung, làm giàu dữ liệu và thử nghiệm các kiến trúc mới nhằm nâng cao độ chính xác và tính ứng dụng thực tiễn của hệ thống nhận dạng biểu thức toán học viết tay.

Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và kỹ sư được khuyến khích áp dụng chương trình khung và phương pháp đề xuất, đồng thời mở rộng nghiên cứu theo các hướng phát triển đã nêu nhằm đóng góp vào sự tiến bộ của lĩnh vực nhận dạng biểu thức toán học.

Trích đoạn nội dung tài liệu

mở đầu cho giai đoạn chuyển hóa từ mạng nơ-ron trở thành mạng nơ-ron học sâu. Vào năm 2014, nhóm các nhà nghiên cứu của Google giới thiệu GoogLeNet hay còn được biết đến là Inception V1[4] với việc kết hợp đồng thời nhiều lớp CNN với kích thước kernel khác nhau, Hình [2] thể hiện một mô đun/block các lớp CNN trong mạng Inception, và đặc biệt ở phiên bản cải tiến là Inception V2[5] họ đã giới thiệu cơ chế Batch Normalization giúp các mạng nơ-ron học sâu có thể được huấn luyện nhanh hơn. Hình 2: Mô đun Inception/Inception Block[4] Để giải quyết vấn đề gradient bùng nổ hoặc tiêu biến gặp phải khi thiết kế mạng nơ-ron quá sâu, Kaiming He và cộng sự đã giới thiệu ResNet[6] với việc ứng dụng residual/skip connection giúp việc huấn luyện mô hình trở nên dễ dàng hơn và cho phép thiết kế các mạng nơ-ron sâu hơn. Hình [3] mô tả một block trong mô hình cấu thành bởi 2 lớp CNN (được gọi là “weight layer" trong Hình [3]) và residual connection giữa input và output của lớp CNN thứ 2.

Kế thừa ý tưởng từ ResNet, Gao Huang và cộng sự đã cho ra đời DenseNet[7] với việc tăng số lượng residual connection Hình [4] qua đó tăng số lớp và số lượng tham số của mạng. Một đặc trưng vốn có của các mạng nơ-ron học sâu ứng dụng CNN là việc càng xuống các lớp càng sâu thì đặc trưng biểu diễn cho vùng ảnh càng lớn, hay nói cách khác là đặc trưng ở mỗi lớp CNN khác nhau sẽ có độ phân giải khác nhau. Vì thế với những mạng nơ-ron càng sâu thì càng dễ mất đi thông tin của các đặc điểm có kích thước nhỏ trong ảnh gốc. Một số công trình nghiên cứu đề xuất các thiết kế mạng học sâu với mục tiêu dung hợp được đặc trưng ở các mức phân giải với nhau nhằm tạo được các bộ đặc trưng đa phân giải mà ta có thể kể đến như UNet[8] hay Features Pyramid Network[9], [10] (Hình [5]).

Những thiết kế này có điểm chung là dùng phép tích chập ngược (DeConvolution) hoặc phép nội Một chương trình khung mới cho bài toán nhận dạng biểu thức toán học Trang 5/39 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh , Khoa Khoa Học và Kỹ Thuật Máy Tính Hình 3: ResNetBlock[6] Hình 4: DenseBlock với 5 lớp CNN[7] suy (interpolation) nhằm biến đổi đặc trưng từ phân giải thấp lên phân giải cao hơn sau đấy dung hợp với đặc trưng cùng mức phân giải thông qua phép nối (concatenation). Hình 5: Kiến trúc Features Pyramid rút trích đặc trưng đa phân giải[9] 1.2 Cơ chế tập trung (Attention mechanism) Cơ chế tập trung cố gắng mô phỏng lại việc nhận thức con người sẽ dựa trên nhiều thông tin khác nhau và mỗi thông tin đối có một trọng số nhất định. Trong 10 năm gần đây thì cơ chế tập trung ngày một phổ biến sau khi đạt được nhiều thành công ở mảng Xử lý ngôn ngữ tự nhiên nói chung[11] và trong mảng dịch máy nói riêng[12]. Hình [6] mô tả việc ứng dụng cơ chế tập trung vào mô hình dịch máy đơn giản với việc xác định mức độ đóng góp thông tin cho việc dịch ký tự đầu ra thứ t, ở đó thông tin từ các ký tự đầu vào (x1 .xT ) Một chương trình khung mới cho bài toán nhận dạng biểu thức toán học Trang 6/39 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh , Khoa Khoa Học và Kỹ Thuật Máy Tính được đánh trọng số bằng các bộ trọng số (αt,1.

Hình 6: Mô hình dịch máy sử dụng cơ chế tập trung[12] Cơ chế tập trung chứng minh được sự hiệu quả trong việc giải quyết các bài toán với kết quả đầu ra là chuỗi ký tự. Do kết quả đầu ra của bài toán HMER cũng là một chuỗi ký tự mà cụ thể hơn là một chuỗi các ký tự theo mã cú pháp LATEXnên việc cơ chế tập trung được nghiên cứu và ứng dụng[13]–[15]. 2 Bài toán nhận dạng biểu thức toán học viết tay 2.1 Tổng quan HMER thường được chia nhỏ thành 2 bài toán con chính là nhận dạng ký tự và phân tích cấu trúc ngữ pháp. Dựa vào việc quyết định giải quyết 2 bài toán con này một cách tuần tự hay kết hợp mà HMER sẽ được chia làm 2 hướng tiếp cận khác nhau.

Tuần tự Với hướng tiếp cận tuần tự, ảnh đầu vào sẽ được phân tách thành tập hợp các ký tự và vị trí của chúng trên ảnh. Thông tin đó sẽ được tiếp nhận và phân tích bởi bộ phân tích cấu trúc ngữ pháp nhằm đưa ra một dự đoán về biểu thức chứa trong ảnh đầu vào. Hướng tiếp cận này thường được những công trình ở giai đoạn sơ khởi của bài toán tiếp nhận và thường tập trung giải quyết một bài toán con một cách độc lập. Ở bảng này ngoài cột "Tác giả" thì ta có cột "Nhận dạng ký tự" nhằm phân loại phương pháp mà các tác giả đã sử dụng nhằm giải quyết bài toán nhận dạng ký tự và cột "Phân tích cấu trúc" phân loại phương pháp được sử dụng để xây dựng bộ phân tích cấu trúc ngữ pháp của biểu thức.

Một chương trình khung mới cho bài toán nhận dạng biểu thức toán học Trang 7/39 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh , Khoa Khoa Học và Kỹ Thuật Máy Tính Bảng [1] cho ta cái nhìn khái quát về những phương pháp được nghiên cứu và bức tranh tổng thể về hướng tiếp cận này trong giai đoạn trước năm 2000. Hướng tiếp cận tuần tự thường sẽ gặp vấn đề với lỗi tích lũy, tức là nếu mô đun giải quyết bài nhận dạng ký tự đưa ra dự đoán sai thì sẽ kéo theo mô đun phân tích cấu trúc ngữ pháp gặp sai phạm. Ngoài ra việc giải quyết 2 bài toán con một cách độc lập làm quá trình phân tích cấu trúc ngữ pháp bỏ qua các thông tin ngữ cảnh khác của biểu thức cũng như thông tin về tính không chắc chắn của bộ nhận dạng ký tự mà chỉ tập trung vào các thông tin về ví trí của các ký tự được nhận dạng. Bên cạnh đó việc thiết kế bộ phân tích cấu trúc ngữ pháp đòi hỏi kho kiến thức đồ sộ về lĩnh vực phân tích ngữ pháp nói chung và phân tích ngữ pháp cho các biểu thức toán học nói riêng trong khi ta có thể tìm cách để hệ thống mô hình tìm cách học chúng từ chính dữ liệu sẵn có.

Tác giả Nhận dạng ký tự Phân tích cấu trúc Stochastic context- P.Chou Template matching free grammar Recursive projection Tree-based: M.Okamoto và Template matching xây dựng cây quan hệ Tree-based: J.Ha X-Y cut và mạng nơ-ron xây dựng cây biểu thức Template matching dựa trên R.Fateman Recursive descent parser khoảng cách Hausdorff Kỹ thuật rút trích đặc trưng H.Wang Expression Tree và giải thuật nearest-neighborhood Bảng 1: Một số công trình tiêu biểu về nhận dạng biệu thức toán học trước năm 2000 và các phương pháp được sử dụng. Kết hợp Nhằm giảm thiểu vấn đề về lỗi tích lũy và mất thông tin ngữ cảnh cũng như đơn giản hóa bài toán phân tích cấu trúc ngữ pháp thì các phương pháp hiện đại thường dựa trên hướng tiếp cận kết hợp. Với hướng tiếp cận này, các nhà nghiên cứu xây dựng một hệ thống đầu cuối có khả năng rút trích đặc trưng từ ảnh đầu vào và thực hiện việc phân tích cấu trúc một cách hòa hợp với nhau. Một số công trình tiêu biểu về hướng tiếp cận này sẽ được trình bày ở 2.

Trong 10 năm gần đây, Cuộc thi Nhận dạng biểu thức toán học viết tay, CROHME, tạo sân chơi cũng như thúc đẩy sự phát triển các kỹ thuật, đề xuất nhằm mục tiêu giải quyết HMER. Kết quả của các đội được đánh giá dựa trên tỉ lệ nhận dạng đúng hoàn toàn biểu thức trên tổng số biểu thức của cuộc thi. Bảng [2] tổng hợp và phân loại các phương pháp dự thi của các đội nhóm. Bảng gồm 3 cột, ngoài cột "Tác giả" thì có cột "Hướng tiếp cận" nhằm phân loại phương pháp theo 2 hướng tiếp cận đã nói ở trên, và cuối cùng là cột "Phương pháp" tóm tắt về phương pháp đội nhóm sử dụng.

Qua đó ta có thể thấy rằng hướng tiếp cận Kết hợp dần trở nên phổ biến và được xử dụng thường xuyên hơn. Một chương trình khung mới cho bài toán nhận dạng biểu thức toán học Trang 8/39 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh , Khoa Khoa Học và Kỹ Thuật Máy Tính Tác giả Hướng tiếp cận Phương pháp Czech Tech. Template matching- Tuần tự Univ. Expression tree with defined 2D structural grammar Nakagawa CNN and LSTM- Tuần tự Lab.

CYK parser Sao Paulo Template-based classifier- Kết hợp Univ. recursively extracting baselines Valencia RNN- Kết hợp Univ. 2D context-free grammars Adaboost+SVM- RIT Tuần tự Minimum spanning tree RNN- My Script Kết hợp statiscal language model. Bảng 2: Một số công trình tiêu biểu về nhận dạng biệu thức toán học và các phương pháp được sử dụng được ghi nhận bởi tổ chức CROHME trong giai đoạn 2013-2016[17]–[19].2 Hướng tiếp cận xây dựng mô hình đầu cuối Như đã được đề cập ở trên thì các hệ thống đầu-cuối được tạo ra để giải quyết HMER theo hướng tiếp cận giải quyết đồng thời 2 bài toán con.

Trong 5 năm gần đây đã có nhiều công trình nghiên cứu tạo ra các hệ thống với kết quả ấn tượng, tạo nhiều đột phá trong giải quyết HMER. Watch, Attend and Parse: An End-to-end Neural Network Based Approach to Handwritten Mathematical Expression Recognition (WAP)[13] Nhóm tác giả Zang và cộng sự đã sử dụng kiến trúc Encoder-Decoder, được đăt tên lại thành Watcher và Parser, để xây dựng hệ thống của mình. • Watcher sử dụng một kiến trúc mạng nơ-ron rút trích đặc trưng ảnh, mà cụ thể ở đây là VGG-16[3]. Watcher nhận vào ảnh của biểu thức và cho ra bản đồ đặc trưng tương ứng với ảnh đó.

• Parser dùng kiến trúc mạng GRU[20], nhận bản đồ đặc trưng từ Watcher và tuần tự sinh ra từng ký tự của chuỗi LATEXkết quả. Ở đây Parser ứng dụng cơ chế attention nhằm xác định vùng ảnh quan trọng để dự đoán ra ký tự LATEXở từng bước. Attention đóng vai trò quan trọng trong việc phân mảnh vùng ảnh và cung cấp cho GRU thông tin hữu dụng nhất trong việc dự đoán ký tự tiếp theo. Đặc biệt hơn là các tác giả đã đề xuất một cơ chế biến thể của attention là coverage-based attention (attention dựa trên độ phủ) nhằm giúp việc học ra các bản đồ attention tốt hơn.

Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition[14] Cùng nhóm tác giả với WAP, các tác giả tiếp tục đề xuất cải tiến với nền tảng là phương pháp đã được đề xuất ở [13].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về chương trình khung mới cho bài toán nhận dạng biểu thức toán học" của tác giả Nguyễn Quốc Kim Hoàng, dưới sự hướng dẫn của TS. Lê Thành Sách, thuộc Đại học Bách Khoa, năm 2022, trình bày một chương trình khung mới nhằm giải quyết bài toán nhận dạng biểu thức toán học. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện tại trong lĩnh vực nhận dạng biểu thức mà còn đề xuất các giải pháp cải tiến, giúp nâng cao độ chính xác và hiệu quả trong việc nhận diện các biểu thức toán học phức tạp.

Độc giả có thể tham khảo thêm các nghiên cứu liên quan đến công nghệ thông tin và khoa học máy tính, như bài viết Ứng Dụng Thuật Toán Nhận Dạng Trong Điểm Danh Học Sinh và Vận Dụng Thuật Toán Nhận Dạng Ảnh Để Điểm Danh Học Sinh Trong Lớp Học, những bài viết này cũng đề cập đến việc ứng dụng các thuật toán nhận dạng trong giáo dục, mở rộng thêm kiến thức cho người đọc trong lĩnh vực này.

#Luận văn Thạc sĩ

#khoa học máy tính

#công nghệ nhận dạng

#nhận dạng biểu thức toán học

#chương trình khung mới

#thuật toán toán học

Chủ đề

Công nghệ thông tin

Giáo dục và nghiên cứu khoa học

Phát triển phần mềm

Học máy và trí tuệ nhân tạo