Tổng quan nghiên cứu

Nhận dạng biểu thức toán học viết tay từ ảnh là một bài toán khó khăn và có ý nghĩa quan trọng trong lĩnh vực khoa học máy tính, đặc biệt trong nhận dạng ký tự quang học (OCR). Theo báo cáo của ngành, số lượng biểu thức toán học viết tay đa dạng về kiểu dáng và cấu trúc, gây ra thách thức lớn cho các hệ thống nhận dạng tự động. Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp chuyển đổi biểu thức toán học viết tay từ dạng hình ảnh sang chuỗi LATEX tương ứng, đồng thời xây dựng giải pháp làm giàu dữ liệu nhằm cải thiện hiệu quả nhận dạng. Phạm vi nghiên cứu tập trung vào dữ liệu từ bộ dữ liệu CROHME 2013, với quá trình thực hiện từ tháng 02/2020 đến tháng 06/2021 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận dạng biểu thức toán học viết tay, hỗ trợ các ứng dụng trong giáo dục, xử lý văn bản khoa học và tự động hóa tài liệu toán học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: nhận dạng ký tự quang học (Optical Character Recognition - OCR) và phân tích cấu trúc biểu thức toán học. Nhận dạng ký tự tập trung vào việc phát hiện và phân loại các ký hiệu toán học trong ảnh, trong khi phân tích cấu trúc nhằm xây dựng cây biểu thức toán học dựa trên mối quan hệ không gian giữa các ký hiệu. Mô hình nghiên cứu sử dụng kiến trúc mạng nơ-ron tích chập (CNN) như DenseNet để trích xuất đặc trưng ảnh, kết hợp với mạng hồi tiếp dài ngắn hạn (LSTM/GRU) và cơ chế attention để giải mã chuỗi LATEX tương ứng. Ba khái niệm chính bao gồm: (1) Biến đổi hình học (geometric transformation) để làm giàu dữ liệu, (2) Mạng phát hiện đối tượng Single Shot MultiBox Detector (SSD) để nhận dạng ký hiệu, (3) Bộ phân tích cú pháp DRACULAE để chuyển kết quả nhận dạng thành cây biểu thức và chuỗi LATEX.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu CROHME 2013, bao gồm 8.835 biểu thức toán học viết tay trong tập huấn luyện và 671 biểu thức trong tập kiểm tra. Phương pháp phân tích gồm hai chiến lược làm giàu dữ liệu: (1) Biến đổi hình học áp dụng các phép xoay, tỉ lệ, nghiêng lên ảnh gốc để tạo ra các biến thể mới, (2) Sinh mới biểu thức toán học dựa trên bảng tra cứu các ký hiệu và luật sinh biểu thức toán học hợp lệ, nhằm cân bằng phân phối dữ liệu giữa các lớp ký hiệu phổ biến và hiếm gặp. Quá trình nghiên cứu được thực hiện theo timeline: thu thập và chuẩn bị dữ liệu (tháng 02-04/2020), xây dựng mô hình và sinh dữ liệu (tháng 05-12/2020), huấn luyện và đánh giá mô hình (tháng 01-05/2021), hoàn thiện luận văn (tháng 06-08/2021). Phân tích kết quả dựa trên các chỉ số mAP (mean Average Precision) và AP (Average Precision) trên từng lớp ký hiệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tăng kích thước và đa dạng dữ liệu huấn luyện: Tập dữ liệu huấn luyện được mở rộng từ 8.835 biểu thức (D1) lên 75.010 biểu thức (D3) nhờ kết hợp biến đổi hình học và sinh mới biểu thức. Số lượng ký hiệu tăng từ 85.751 lên 728.738, giúp cải thiện khả năng học của mô hình.

  2. Cải thiện độ chính xác nhận dạng: Mạng SSD huấn luyện trên tập dữ liệu mở rộng đạt mAP 52,57%, tăng 42% so với mAP 36,98% khi chỉ sử dụng dữ liệu gốc. Điều này chứng tỏ hiệu quả của phương pháp làm giàu dữ liệu.

  3. Phân phối dữ liệu cân bằng hơn: Phân phối số lượng mẫu theo lớp ký hiệu được cân bằng rõ rệt, các lớp hiếm được bổ sung nhiều mẫu hơn, giảm thiểu hiện tượng lệch lớp trong huấn luyện.

  4. Hiệu quả trên từng lớp ký hiệu: Có 73/101 lớp ký hiệu đạt AP cao hơn khi huấn luyện trên tập dữ liệu mở rộng, trong đó các ký hiệu phổ biến như sin, cos, log, lim, dấu bằng, dấu cộng đều có AP trên 0,7.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc làm giàu dữ liệu giúp mô hình học được nhiều biến thể của ký hiệu và biểu thức, từ đó tăng khả năng tổng quát hóa. So sánh với các nghiên cứu trước đây, phương pháp kết hợp biến đổi hình học và sinh mới biểu thức theo luật toán học là bước tiến quan trọng, khắc phục hạn chế của việc chỉ biến đổi hình học đơn thuần. Kết quả mAP và AP trên từng lớp cho thấy mô hình không chỉ nhận dạng tốt các ký hiệu phổ biến mà còn cải thiện đáng kể với các ký hiệu hiếm, điều này rất quan trọng trong thực tế khi biểu thức toán học rất đa dạng. Tuy nhiên, một số ký hiệu vẫn bị nhầm lẫn do hình dạng tương tự hoặc do hạn chế của mô hình SSD trong phát hiện các ký hiệu nhỏ, điều này gợi ý hướng phát triển tiếp theo là áp dụng các kiến trúc mạng sâu hơn hoặc mô hình end-to-end kết hợp phân tích cấu trúc biểu thức.

Đề xuất và khuyến nghị

  1. Áp dụng kiến trúc mạng end-to-end: Sử dụng mô hình encoder-decoder kết hợp DenseNet và LSTM/GRU với attention để tận dụng tối đa thông tin ngữ cảnh và cấu trúc biểu thức, nâng cao độ chính xác nhận dạng.

  2. Mở rộng và đa dạng hóa dữ liệu: Tiếp tục phát triển các luật sinh biểu thức toán học mới, kết hợp với biến đổi hình học để tạo ra tập dữ liệu huấn luyện phong phú, đặc biệt tập trung vào các lớp ký hiệu hiếm.

  3. Tối ưu hóa mô hình phát hiện ký hiệu: Nghiên cứu và áp dụng các kỹ thuật cải tiến SSD như multiple non-max suppression (NMS) với ngưỡng khác nhau cho từng nhóm ký hiệu nhằm giảm sai sót trong phát hiện.

  4. Phát triển bộ phân tích cú pháp mạnh mẽ: Cải tiến bộ parser DRACULAE hoặc phát triển bộ phân tích mới có khả năng xử lý tốt hơn các lỗi nhận dạng ký hiệu, đặc biệt là các ký hiệu nhỏ và phức tạp.

  5. Thời gian thực hiện: Các giải pháp trên nên được triển khai và đánh giá trong vòng 12-18 tháng tiếp theo, phối hợp giữa nhóm nghiên cứu và các đơn vị ứng dụng trong giáo dục và xử lý tài liệu khoa học.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành khoa học máy tính: Đặc biệt những người quan tâm đến lĩnh vực nhận dạng ký tự quang học, xử lý ảnh và học máy, có thể áp dụng phương pháp làm giàu dữ liệu và mô hình mạng nơ-ron sâu.

  2. Phát triển phần mềm giáo dục: Các công ty và nhóm phát triển ứng dụng hỗ trợ giảng dạy toán học, giúp tự động nhận dạng và chuyển đổi biểu thức toán học viết tay sang định dạng số.

  3. Chuyên gia xử lý tài liệu khoa học: Những người làm việc với số hóa tài liệu toán học, cần công cụ nhận dạng biểu thức toán học chính xác để chuyển đổi tài liệu giấy sang dạng điện tử.

  4. Cơ quan tổ chức thi và đánh giá: Hỗ trợ xây dựng hệ thống chấm điểm tự động các bài thi viết tay có chứa biểu thức toán học, nâng cao hiệu quả và độ chính xác trong đánh giá.

Câu hỏi thường gặp

  1. Phương pháp làm giàu dữ liệu có tác động như thế nào đến hiệu quả nhận dạng?
    Việc làm giàu dữ liệu bằng biến đổi hình học và sinh mới biểu thức giúp tăng kích thước và đa dạng mẫu huấn luyện, từ đó cải thiện mAP lên đến 42% so với dữ liệu gốc, giúp mô hình học tốt hơn các biến thể của ký hiệu.

  2. Tại sao cần kết hợp cả biến đổi hình học và sinh mới biểu thức?
    Biến đổi hình học tạo ra các biến thể của cùng một biểu thức, còn sinh mới biểu thức giúp cân bằng phân phối dữ liệu giữa các lớp ký hiệu phổ biến và hiếm, từ đó nâng cao khả năng nhận dạng toàn diện.

  3. Mô hình SSD có những hạn chế gì trong bài toán này?
    SSD có thể gặp khó khăn trong việc phát hiện các ký hiệu nhỏ hoặc tương tự nhau, dẫn đến nhầm lẫn hoặc bỏ sót, do đó cần tối ưu hoặc kết hợp với các mô hình khác để cải thiện.

  4. Bộ phân tích cú pháp DRACULAE hoạt động như thế nào?
    DRACULAE chuyển kết quả nhận dạng ký hiệu từ SSD thành cây biểu thức toán học dựa trên cấu trúc ngữ pháp, từ đó sinh ra chuỗi LATEX tương ứng, hỗ trợ việc chuyển đổi biểu thức viết tay sang dạng số.

  5. Luận văn có thể áp dụng cho các loại biểu thức toán học phức tạp hơn không?
    Phương pháp sinh dữ liệu và mô hình có thể mở rộng cho các biểu thức phức tạp như tích phân, logarit, hàm mũ, tuy nhiên cần bổ sung thêm luật sinh biểu thức và cải tiến mô hình để xử lý tốt hơn.

Kết luận

  • Đã phát triển thành công phương pháp làm giàu dữ liệu kết hợp biến đổi hình học và sinh mới biểu thức toán học viết tay.
  • Mô hình SSD kết hợp bộ phân tích cú pháp DRACULAE được huấn luyện trên tập dữ liệu mở rộng đạt mAP 52,57%, cải thiện đáng kể so với dữ liệu gốc.
  • Phân phối dữ liệu cân bằng hơn giúp mô hình nhận dạng tốt hơn các ký hiệu hiếm và phức tạp.
  • Kết quả thực nghiệm chứng minh hiệu quả của phương pháp trong việc nâng cao độ chính xác nhận dạng biểu thức toán học viết tay.
  • Đề xuất hướng phát triển tiếp theo là áp dụng mô hình end-to-end và cải tiến bộ phân tích cú pháp để nâng cao hơn nữa hiệu quả nhận dạng.

Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và phát triển ứng dụng trong lĩnh vực nhận dạng ký tự toán học áp dụng và mở rộng phương pháp này, đồng thời tiếp tục nghiên cứu các kỹ thuật mới để giải quyết các hạn chế hiện tại.