Tổng quan nghiên cứu

Nhận dạng biểu thức toán học viết tay (Handwritten Mathematical Expression Recognition - HMER) là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong bối cảnh số hóa giáo dục và tài liệu. Theo báo cáo của ngành, việc số hóa các biểu thức toán học viết tay giúp giáo viên soạn giáo án, đề thi nhanh chóng và thuận tiện hơn, đồng thời hỗ trợ các ứng dụng hướng dẫn giải phương trình, vẽ đồ thị hàm số, làm cho việc dạy và học trở nên trực quan và sinh động. Tuy nhiên, bài toán này gặp nhiều thách thức do sự đa dạng phong cách viết tay, kích thước và cấu trúc phức tạp của biểu thức toán học, ví dụ như phân số, lũy thừa, căn thức.

Mục tiêu nghiên cứu của luận văn là đề xuất một chương trình khung mới nhằm cải tiến hiệu quả nhận dạng biểu thức toán học viết tay, tập trung vào việc kết hợp đặc trưng toàn cục và cục bộ trong rút trích đặc trưng ảnh biểu thức. Nghiên cứu được thực hiện trên bộ dữ liệu CROHME 2019, với phạm vi thời gian từ năm 2019 và địa điểm nghiên cứu tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Việc nâng cao độ chính xác nhận dạng biểu thức toán học có ý nghĩa lớn trong việc phát triển các ứng dụng giáo dục số, hỗ trợ tự động hóa trong soạn thảo tài liệu toán học và cải thiện trải nghiệm người dùng trong các phần mềm học tập.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực học sâu và nhận dạng ảnh:

  1. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Đây là nền tảng để rút trích đặc trưng từ ảnh biểu thức toán học. Các kiến trúc CNN tiêu biểu như LeNet, VGG-16, Inception, ResNet và DenseNet được nghiên cứu để khai thác đặc trưng đa phân giải, giúp mô hình nhận dạng các ký tự có kích thước và hình dạng đa dạng.

  2. Cơ chế tập trung (Attention mechanism): Được ứng dụng trong mô hình giải mã chuỗi ký tự LATEX từ đặc trưng ảnh. Cơ chế này giúp mô hình tập trung vào các vùng ảnh quan trọng tại mỗi bước dự đoán ký tự, cải thiện khả năng nhận dạng biểu thức phức tạp. Các biến thể như coverage-based attention và multi-scale attention được áp dụng để nâng cao hiệu quả.

Các khái niệm chính bao gồm: đặc trưng toàn cục và cục bộ, kiến trúc mã hóa-giải mã (Encoder-Decoder), mạng hồi quy (RNN, GRU), đặc trưng đa phân giải, và kỹ thuật làm giàu dữ liệu (data augmentation).

Phương pháp nghiên cứu

Nghiên cứu sử dụng bộ dữ liệu CROHME 2019, gồm 5 tập con với tổng số khoảng 12.000 biểu thức toán học viết tay, được chuẩn hóa thành ảnh kích thước 310×310 pixel. Dữ liệu được chia thành tập huấn luyện (Train), kiểm định (Valid) và đánh giá (Test) theo tỷ lệ 80-20 cho tập huấn luyện và kiểm định.

Phương pháp phân tích bao gồm:

  • Tái lập các công trình tham khảo: Hiện thực và đánh giá các mô hình WAP và MultiScale WAP, vốn là các công trình tiên tiến trong lĩnh vực HMER.
  • Xây dựng chương trình khung đánh giá: Thiết kế quy trình chuẩn hóa dữ liệu, huấn luyện, chọn lọc và đánh giá mô hình nhằm đảm bảo tính công bằng và khách quan.
  • Đề xuất phương pháp mới: Kết hợp đặc trưng đa phân giải dựa trên kiến trúc InceptionFusion với các mô hình nền tảng WAP và MultiScale WAP.
  • Phân tích kết quả: So sánh hiệu suất các mô hình qua chỉ số Tỷ lệ biểu thức đúng (Expression Rate - ExpRate) trên các tập dữ liệu Valid và Test.

Quá trình nghiên cứu kéo dài từ tháng 9/2021 đến tháng 6/2022, sử dụng phần cứng GPU GTX 1080Ti 12GB và ngôn ngữ Python 3.7 cùng các thư viện hỗ trợ như numpy.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tái lập công trình tham khảo: Mô hình MultiScale WAP đạt ExpRate khoảng 65.58% trên tập Valid CROHME 2019, cao hơn khoảng 10 điểm so với WAP (53.14%). Tuy nhiên, điểm số tái lập thấp hơn đáng kể so với công bố gốc, với khoảng cách từ 20 đến 33 điểm trên các tập Test CROHME 2014 và 2016, do khác biệt trong kích thước ảnh đầu vào và không sử dụng mô hình tổ hợp (ensemble).

  2. Hiệu quả của đặc trưng đa phân giải trên WAP: Phiên bản WAP + InceptionFusion (IF) với biến thể 3b (mức độ kết hợp đặc trưng toàn cục và cục bộ cao nhất) đạt ExpRate 61.75% trên CROHME 2019, tăng khoảng 8.6 điểm so với WAP gốc. Trên tập Test 2014 và 2016, phiên bản này cải thiện khoảng 9 điểm so với WAP gốc, cho thấy sự đóng góp rõ rệt của đặc trưng đa phân giải.

  3. Hiệu quả trên MultiScale WAP: Phiên bản MultiScale WAP + IF với biến thể 4d+3b đạt ExpRate 62.49% trên CROHME 2019, thấp hơn khoảng 3 điểm so với MultiScale WAP gốc (65.58%). Trên tập Test, điểm số cũng thấp hơn hoặc tương đương, cho thấy sự kết hợp đặc trưng đa phân giải chưa mang lại cải tiến vượt trội trên mô hình này.

  4. So sánh tổng thể: Phương pháp đề xuất cải tiến WAP cho kết quả tốt hơn đáng kể so với mô hình gốc, trong khi cải tiến MultiScale WAP chưa đạt hiệu quả tương tự. Điều này cho thấy cơ chế tập trung đa phân giải trong MultiScale WAP đã giải quyết phần nào vấn đề kích thước ký tự nhỏ, khiến việc bổ sung đặc trưng đa phân giải không mang lại lợi ích lớn.

Thảo luận kết quả

Nguyên nhân cải thiện hiệu quả trên WAP khi kết hợp đặc trưng đa phân giải là do mô hình gốc chưa khai thác tốt thông tin cục bộ của các ký tự nhỏ trong biểu thức. Việc bổ sung đặc trưng đa phân giải giúp mô hình nhận diện chi tiết hơn, tăng độ chính xác nhận dạng. Ngược lại, MultiScale WAP vốn đã sử dụng hai lớp attention với đặc trưng đa phân giải nên việc thêm InceptionFusion không tạo ra bước đột phá.

So sánh với các nghiên cứu khác, kết quả cho thấy việc kết hợp đặc trưng toàn cục và cục bộ là hướng đi hiệu quả trong HMER. Tuy nhiên, sự khác biệt lớn giữa điểm số tái lập và công bố gốc cũng nhấn mạnh tầm quan trọng của việc chuẩn hóa dữ liệu và kỹ thuật huấn luyện, như sử dụng mô hình tổ hợp.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh ExpRate giữa các mô hình trên các tập dữ liệu khác nhau, giúp minh họa rõ ràng sự cải thiện và hạn chế của từng phương pháp.

Đề xuất và khuyến nghị

  1. Phát triển kiến trúc rút trích đặc trưng đa phân giải mạnh mẽ hơn: Thay thế InceptionNet bằng các kiến trúc CNN hiện đại hơn như EfficientNet hoặc ResNeXt để nâng cao khả năng trích xuất đặc trưng toàn cục và cục bộ, nhằm cải thiện độ chính xác nhận dạng. Thời gian thực hiện dự kiến 6-12 tháng, do nhóm nghiên cứu và kỹ sư phát triển.

  2. Nghiên cứu và áp dụng kiến trúc Transformer: Thay thế mạng hồi quy truyền thống bằng Transformer hoặc các biến thể như Self-Attention và Multi-head Attention để tăng khả năng học ngữ cảnh và cấu trúc biểu thức. Mục tiêu tăng ExpRate ít nhất 5% so với mô hình hiện tại trong vòng 1 năm, do nhóm nghiên cứu AI thực hiện.

  3. Kết hợp làm giàu dữ liệu với cải tiến kiến trúc: Áp dụng kỹ thuật biến đổi hình học và sinh biểu thức toán học để cân bằng phân phối ký tự, kết hợp với mô hình mới nhằm giảm thiểu lỗi do dữ liệu không đồng đều. Thời gian triển khai 6 tháng, do nhóm dữ liệu và nghiên cứu phối hợp.

  4. Xây dựng chương trình khung đánh giá mở rộng: Phát triển hệ thống đánh giá tự động, hỗ trợ thử nghiệm nhiều mô hình và siêu tham số, đảm bảo tính khách quan và công bằng trong nghiên cứu. Thời gian 3-6 tháng, do nhóm kỹ thuật phần mềm thực hiện.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về nhận dạng biểu thức toán học viết tay, các kiến trúc mạng nơ-ron và cơ chế attention, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Phát triển phần mềm giáo dục và ứng dụng số hóa: Các công ty và nhóm phát triển phần mềm có thể áp dụng phương pháp và chương trình khung để xây dựng hệ thống nhận dạng biểu thức toán học, nâng cao trải nghiệm người dùng.

  3. Giảng viên và nhà giáo dục: Hiểu rõ công nghệ nhận dạng biểu thức toán học giúp áp dụng hiệu quả trong giảng dạy, soạn thảo giáo án và đề thi, đồng thời hỗ trợ các công cụ dạy học trực tuyến.

  4. Chuyên gia xử lý ảnh và học máy: Luận văn trình bày các kỹ thuật rút trích đặc trưng đa phân giải và cơ chế tập trung, là tài liệu tham khảo quý giá cho các ứng dụng nhận dạng ký tự và phân tích ảnh phức tạp khác.

Câu hỏi thường gặp

  1. Bài toán nhận dạng biểu thức toán học viết tay có khó khăn gì đặc biệt?
    Khó khăn chính là sự đa dạng phong cách viết tay, kích thước ký tự không đồng nhất và cấu trúc phức tạp của biểu thức như phân số, lũy thừa. Ví dụ, cùng một ký tự số có thể được viết theo nhiều cách khác nhau, gây khó khăn cho mô hình nhận dạng.

  2. Tại sao cần kết hợp đặc trưng toàn cục và cục bộ trong rút trích ảnh?
    Đặc trưng toàn cục giúp mô hình hiểu tổng thể biểu thức, trong khi đặc trưng cục bộ tập trung vào chi tiết nhỏ như ký tự kích thước nhỏ. Kết hợp hai loại đặc trưng giúp cải thiện độ chính xác nhận dạng, đặc biệt với các ký tự nhỏ hoặc phức tạp.

  3. Cơ chế attention hoạt động như thế nào trong mô hình nhận dạng?
    Attention giúp mô hình tập trung vào các vùng ảnh quan trọng tại mỗi bước dự đoán ký tự, bằng cách gán trọng số cho các vùng ảnh khác nhau. Ví dụ, khi dự đoán ký tự lũy thừa, mô hình sẽ tập trung vào vùng ảnh chứa ký tự đó thay vì toàn bộ biểu thức.

  4. Tại sao kết quả tái lập mô hình thấp hơn so với công bố gốc?
    Nguyên nhân gồm khác biệt trong kích thước ảnh đầu vào, không sử dụng kỹ thuật mô hình tổ hợp (ensemble), và sự khác biệt trong quy trình huấn luyện. Điều này nhấn mạnh tầm quan trọng của chuẩn hóa dữ liệu và kỹ thuật huấn luyện trong nghiên cứu.

  5. Hướng phát triển tương lai của bài toán này là gì?
    Các hướng phát triển bao gồm áp dụng kiến trúc mạng hiện đại hơn, sử dụng Transformer và các kỹ thuật attention tiên tiến, kết hợp làm giàu dữ liệu, và xây dựng chương trình khung đánh giá tự động để nâng cao hiệu quả và tính khách quan trong nghiên cứu.

Kết luận

  • Đã tái lập thành công các công trình WAP và MultiScale WAP, đồng thời xây dựng chương trình khung đánh giá công bằng, khách quan cho bài toán nhận dạng biểu thức toán học viết tay.
  • Đề xuất phương pháp kết hợp đặc trưng đa phân giải với kiến trúc nền tảng, cải thiện rõ rệt hiệu suất trên mô hình WAP, tăng ExpRate khoảng 8-9 điểm trên các tập dữ liệu đánh giá.
  • Phương pháp đề xuất chưa tạo được đột phá trên mô hình MultiScale WAP, cho thấy cần nghiên cứu thêm về sự tương tác giữa các cơ chế attention và đặc trưng đa phân giải.
  • Kết quả nghiên cứu mở ra hướng phát triển mới với việc áp dụng kiến trúc mạng hiện đại và kỹ thuật attention tiên tiến như Transformer.
  • Khuyến nghị tiếp tục phát triển chương trình khung, làm giàu dữ liệu và thử nghiệm các kiến trúc mới nhằm nâng cao độ chính xác và tính ứng dụng thực tiễn của hệ thống nhận dạng biểu thức toán học viết tay.

Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và kỹ sư được khuyến khích áp dụng chương trình khung và phương pháp đề xuất, đồng thời mở rộng nghiên cứu theo các hướng phát triển đã nêu nhằm đóng góp vào sự tiến bộ của lĩnh vực nhận dạng biểu thức toán học.