Tổng quan nghiên cứu

Chữ Hán - Nôm là một di sản văn hóa quý giá, phản ánh truyền thống văn hiến lâu đời của dân tộc Việt Nam. Theo ước tính, hiện nay chỉ còn chưa đến 100 người có khả năng đọc hiểu chữ Nôm, trong khi dân số Việt Nam đã vượt trên 90 triệu người. Điều này đặt ra thách thức lớn trong việc bảo tồn và phát huy giá trị của kho tàng văn hóa, lịch sử được ghi chép bằng chữ Nôm. Việc nghiên cứu và phát triển các phương pháp nhận dạng chữ Hán - Nôm, đặc biệt là ứng dụng công nghệ nhận dạng ký tự quang học (OCR), trở nên cấp thiết nhằm số hóa, khai thác và bảo tồn các tài liệu cổ, bia đá, câu đối, gia phả… Đây cũng là tiền đề để phát triển các ứng dụng hỗ trợ học tập, nghiên cứu và phổ biến chữ Nôm trong cộng đồng.

Mục tiêu nghiên cứu của luận văn là xây dựng phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ, nhằm nâng cao độ chính xác và hiệu quả nhận dạng so với các phương pháp truyền thống. Phạm vi nghiên cứu tập trung vào bộ dữ liệu NOM-DB0 gồm 495 chữ Nôm, thực hiện tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội trong giai đoạn 2012-2015. Nghiên cứu có ý nghĩa quan trọng trong việc phát triển công nghệ nhận dạng chữ Nôm, góp phần số hóa kho tư liệu văn hóa dân tộc, đồng thời mở ra hướng ứng dụng trong lĩnh vực khảo cổ, văn hóa và du lịch.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết nhận dạng mẫu và lý thuyết xử lý ảnh kỹ thuật số. Lý thuyết nhận dạng mẫu cung cấp cơ sở cho việc phân loại và nhận dạng các ký tự dựa trên đặc trưng hình ảnh, trong đó có các mô hình như mạng nơ-ron nhân tạo, máy vectơ hỗ trợ (SVM), và mô hình Entropy cực đại (Maximum Entropy Model - MEM). Lý thuyết xử lý ảnh kỹ thuật số giúp tiền xử lý ảnh, trích xuất đặc trưng, và tách các thành phần cấu tạo chữ Nôm.

Ba khái niệm chuyên ngành quan trọng được sử dụng gồm:

  • Gốc từ (radical): thành phần cơ bản cấu thành chữ Nôm, có khoảng trên 300 loại trong tổng số khoảng 25.000 chữ.
  • Khung xương (skeleton): trục chính của ký tự, được trích xuất bằng phép biến đổi hình học Hit-or-Miss để làm mịn và loại bỏ nhiễu.
  • Phân cụm và nhận dạng đa lớp (KSVM): kết hợp K-Mean và SVM để phân loại hiệu quả các ký tự phức tạp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu NOM-DB0 gồm 495 chữ Nôm được chuẩn hóa và tách rời. Phương pháp nghiên cứu bao gồm:

  • Tiền xử lý ảnh: lấy khung xương bằng phép biến đổi Hit-or-Miss, hiệu chỉnh khung xương bằng kỹ thuật xấp xỉ đa thức và loại bỏ nét thừa.
  • Trích xuất đặc trưng: dựa trên gốc từ, số nét, điểm giao, vị trí tương đối của các thành phần trong ký tự.
  • Nhận dạng: áp dụng mô hình Entropy cực đại kết hợp với so khớp gốc từ, đồng thời so sánh với các phương pháp mạng nơ-ron, KSVM, và khoảng cách soạn thảo.
  • Thời gian nghiên cứu kéo dài từ năm 2012 đến 2015, với các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện và đánh giá kết quả.

Phương pháp chọn mẫu là sử dụng toàn bộ bộ dữ liệu NOM-DB0 để đảm bảo tính đại diện và độ tin cậy của kết quả. Phân tích dữ liệu được thực hiện bằng các thuật toán học máy và xử lý ảnh chuyên sâu, nhằm tối ưu hóa độ chính xác nhận dạng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả nhận dạng dựa trên gốc từ: Phương pháp nhận dạng chữ Nôm dựa trên gốc từ đạt độ chính xác trung bình khoảng 90%, vượt trội so với các phương pháp mạng nơ-ron (73,5%) và khoảng cách soạn thảo (82%).
  2. Tác động của kích thước ảnh đầu vào: Kết quả nhận dạng KSVM cho thấy độ chính xác tăng từ 60,38% với ảnh 20x20 lên 87,62% với ảnh 90x90, chứng tỏ kích thước ảnh ảnh hưởng lớn đến hiệu quả nhận dạng.
  3. Tỷ lệ sai số phụ thuộc vào phân cụm: Trong mô hình KSVM, sai số lớp 1 (phân cụm) ảnh hưởng trực tiếp đến độ chính xác tổng thể, với số cụm càng lớn thì sai số giảm và hiệu quả nhận dạng tăng.
  4. Khung xương và tách gốc từ: Việc lấy và hiệu chỉnh khung xương bằng phép biến đổi Hit-or-Miss giúp loại bỏ nhiễu và nét thừa, tạo điều kiện thuận lợi cho việc tách gốc từ chính xác, từ đó nâng cao độ chính xác nhận dạng.

Thảo luận kết quả

Nguyên nhân chính giúp phương pháp dựa trên gốc từ đạt hiệu quả cao là do tận dụng được cấu trúc đặc thù của chữ Nôm, trong đó các gốc từ có tính ổn định và vị trí xác định rõ ràng. So với các phương pháp nhận dạng ký tự truyền thống như mạng nơ-ron hay KSVM, việc phân tách và nhận dạng từng gốc từ giúp giảm độ phức tạp và tăng khả năng phân biệt các ký tự tương tự nhau.

Kết quả cũng phù hợp với các nghiên cứu về nhận dạng chữ tượng hình như tiếng Trung và Nhật, nơi việc phân tích thành phần cấu tạo giúp cải thiện độ chính xác. Việc sử dụng mô hình Entropy cực đại trong nhận dạng gốc từ cũng góp phần tối ưu hóa quá trình phân loại dựa trên đặc trưng thống kê.

Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ nhận dạng giữa các phương pháp, bảng thống kê độ chính xác theo kích thước ảnh và số cụm phân loại, giúp minh họa rõ ràng ưu điểm của phương pháp đề xuất.

Đề xuất và khuyến nghị

  1. Phát triển hệ thống nhận dạng chữ Nôm dựa trên gốc từ tích hợp đa nền tảng: Động từ hành động là "xây dựng", mục tiêu là nâng cao độ chính xác nhận dạng lên trên 95% trong vòng 2 năm, chủ thể thực hiện là các nhóm nghiên cứu CNTT và Hán Nôm.
  2. Mở rộng bộ dữ liệu và chuẩn hóa kho gốc từ: Thực hiện thu thập và chuẩn hóa thêm khoảng 2.000 gốc từ mới trong 1 năm tới, nhằm tăng tính đại diện và độ phong phú của dữ liệu huấn luyện.
  3. Ứng dụng công nghệ AI nâng cao như học sâu (Deep Learning): Áp dụng các mô hình học sâu để cải thiện khả năng nhận dạng các ký tự phức tạp, giảm sai số nhận dạng, với mục tiêu thử nghiệm trong 18 tháng.
  4. Phát triển phần mềm hỗ trợ học và tra cứu chữ Nôm trên thiết bị di động: Tạo ra ứng dụng thân thiện, dễ sử dụng cho người học và nghiên cứu, dự kiến hoàn thành trong 1 năm, nhằm phổ cập chữ Nôm rộng rãi hơn trong cộng đồng.
  5. Tăng cường hợp tác liên ngành giữa công nghệ thông tin và nghiên cứu văn hóa: Thiết lập các dự án hợp tác để khai thác hiệu quả kho tư liệu chữ Nôm, đồng thời phát triển các chuẩn dữ liệu và công cụ số hóa phù hợp.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu ngôn ngữ và văn hóa Hán Nôm: Luận văn cung cấp phương pháp và công cụ mới giúp số hóa và phân tích chữ Nôm, hỗ trợ nghiên cứu lịch sử, văn hóa và ngôn ngữ học.
  2. Chuyên gia công nghệ thông tin trong lĩnh vực xử lý ảnh và nhận dạng ký tự: Tài liệu chi tiết về các thuật toán xử lý ảnh, mô hình nhận dạng và ứng dụng thực nghiệm, hữu ích cho phát triển các hệ thống OCR phức tạp.
  3. Giảng viên và sinh viên ngành kỹ thuật phần mềm, trí tuệ nhân tạo: Cung cấp case study thực tế về ứng dụng học máy và xử lý ảnh trong bài toán nhận dạng chữ tượng hình, giúp nâng cao kiến thức và kỹ năng thực hành.
  4. Các tổ chức bảo tồn di sản văn hóa và thư viện số: Tham khảo để phát triển các dự án số hóa tài liệu cổ, xây dựng kho dữ liệu điện tử chữ Nôm, phục vụ công tác bảo tồn và phổ biến văn hóa dân tộc.

Câu hỏi thường gặp

  1. Phương pháp nhận dạng chữ Nôm dựa trên gốc từ là gì?
    Phương pháp này tách chữ Nôm thành các thành phần cơ bản gọi là gốc từ, sau đó nhận dạng từng gốc từ dựa trên đặc trưng hình ảnh và mô hình Entropy cực đại, giúp tăng độ chính xác so với nhận dạng toàn bộ ký tự.

  2. Độ chính xác của phương pháp này so với các phương pháp khác như thế nào?
    Theo kết quả thực nghiệm, phương pháp dựa trên gốc từ đạt khoảng 90% độ chính xác, cao hơn đáng kể so với mạng nơ-ron (73,5%) và khoảng cách soạn thảo (82%).

  3. Bộ dữ liệu NOM-DB0 có đặc điểm gì?
    NOM-DB0 gồm 495 chữ Nôm chuẩn hóa, được sử dụng làm tập huấn luyện và kiểm thử trong nghiên cứu, đại diện cho các kiểu cấu trúc và gốc từ phổ biến trong chữ Nôm.

  4. Phép biến đổi Hit-or-Miss được sử dụng để làm gì?
    Phép biến đổi này giúp trích xuất khung xương của ký tự, loại bỏ nhiễu và nét thừa, tạo điều kiện thuận lợi cho việc tách gốc từ và trích xuất đặc trưng chính xác.

  5. Ứng dụng thực tế của nghiên cứu này là gì?
    Nghiên cứu hỗ trợ phát triển phần mềm nhận dạng chữ Nôm tự động, phục vụ số hóa tài liệu cổ, hỗ trợ học tập, nghiên cứu văn hóa, và phát triển các ứng dụng di động tra cứu chữ Nôm.

Kết luận

  • Luận văn đã xây dựng thành công phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ, đạt độ chính xác khoảng 90%.
  • Phương pháp tận dụng cấu trúc đặc thù của chữ Nôm, kết hợp kỹ thuật xử lý ảnh và mô hình Entropy cực đại.
  • Kết quả vượt trội so với các phương pháp mạng nơ-ron và khoảng cách soạn thảo, mở ra hướng nghiên cứu mới cho bài toán OCR chữ Nôm.
  • Nghiên cứu góp phần quan trọng trong việc số hóa, bảo tồn và phát huy giá trị văn hóa dân tộc qua chữ Nôm.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, ứng dụng công nghệ AI nâng cao và phát triển phần mềm hỗ trợ học tập, tra cứu chữ Nôm.

Khuyến khích các nhà nghiên cứu và tổ chức liên quan áp dụng và phát triển phương pháp này, đồng thời thúc đẩy hợp tác liên ngành để bảo tồn di sản văn hóa chữ Nôm một cách hiệu quả.