Tổng quan nghiên cứu

Chữ Nôm là một di sản văn hóa quý giá, phản ánh truyền thống văn hóa, lịch sử và ngôn ngữ của dân tộc Việt Nam qua hàng nghìn năm. Theo ước tính, trong kho tàng chữ Nôm hiện có khoảng 25.000 chữ, trong đó chỉ khoảng 300 loại gốc từ cơ bản được sử dụng phổ biến. Tuy nhiên, số người biết và sử dụng chữ Nôm ngày càng giảm, gây khó khăn trong việc bảo tồn và phát huy giá trị văn hóa này. Việc tin học hóa chữ Nôm, đặc biệt là phát triển các phương pháp nhận dạng ký tự quang học (OCR) cho chữ Nôm, trở thành một nhu cầu cấp thiết nhằm số hóa, lưu trữ và khai thác kho tri thức khổng lồ này.

Luận văn tập trung nghiên cứu phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ, nhằm nâng cao độ chính xác và hiệu quả trong việc chuyển đổi hình ảnh chữ Nôm sang mã Unicode. Phạm vi nghiên cứu bao gồm bộ dữ liệu Nom-DB0 với 495 chữ Nôm, thực hiện tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội trong giai đoạn 2012-2015. Mục tiêu chính là xây dựng mô hình nhận dạng chữ Nôm dựa trên việc tách gốc từ, áp dụng các kỹ thuật mạng nơ-ron, máy vectơ hỗ trợ (SVM) và so khớp khoảng cách chuỗi để tối ưu hóa kết quả nhận dạng.

Nghiên cứu có ý nghĩa quan trọng trong việc bảo tồn và phát triển chữ Nôm, góp phần số hóa các tài liệu cổ, phục vụ nghiên cứu văn hóa, lịch sử và ngôn ngữ học. Đồng thời, kết quả nghiên cứu hỗ trợ phát triển các ứng dụng công nghệ thông tin liên quan đến chữ Nôm, tạo điều kiện phổ cập chữ Nôm qua máy tính và thiết bị di động, góp phần làm sống lại di sản văn hóa dân tộc trong thời đại số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Lý thuyết cấu trúc chữ Nôm: Chữ Nôm được cấu tạo từ các gốc từ (radicals) cơ bản, mỗi gốc từ có cấu trúc đơn giản, dễ nhận biết và nằm ở vị trí cố định trong ký tự. Khoảng 300 loại gốc từ phổ biến được sử dụng để tạo thành hơn 25.000 chữ Nôm khác nhau.

  • Mô hình nhận dạng ký tự quang học (OCR): OCR là công nghệ chuyển đổi hình ảnh chữ viết tay hoặc chữ in thành văn bản số. Các mô hình OCR hiện đại sử dụng mạng nơ-ron truyền thẳng, máy vectơ hỗ trợ (SVM), và các thuật toán so khớp chuỗi để nhận dạng ký tự.

  • Mô hình mạng nơ-ron truyền thẳng (Feedforward Neural Network): Mạng gồm ba lớp (lớp vào, lớp ẩn, lớp ra) với các trọng số được điều chỉnh qua quá trình huấn luyện nhằm phân loại đặc trưng ký tự.

  • Máy vectơ hỗ trợ (SVM) với chiến lược One-Versus-One (OVO): Phân loại đa lớp bằng cách xây dựng các bộ phân lớp nhị phân giữa từng cặp lớp, kết hợp với thuật toán K-mean để phân cụm dữ liệu, tối ưu hóa hiệu quả nhận dạng.

  • Khoảng cách chuỗi soạn thảo (String Edit Distance): Phương pháp tính chi phí chuyển đổi giữa chuỗi đặc trưng của ký tự cần nhận dạng và chuỗi đặc trưng trong tập dữ liệu huấn luyện, dựa trên các phép toán chèn, xóa, thay thế với chi phí xác định.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Sử dụng bộ dữ liệu Nom-DB0 gồm 495 chữ Nôm, được chuẩn hóa và tách rời ký tự từ các tài liệu chữ Nôm cổ. Bộ dữ liệu này bao gồm các hình ảnh ký tự với kích thước chuẩn 24x24 điểm ảnh.

  • Tiền xử lý dữ liệu: Ảnh đầu vào được làm mịn, lấy khung xương (skeletonization) để chuẩn hóa hình dạng ký tự, loại bỏ các nét thừa và chuẩn hóa các nét xiên.

  • Tách gốc từ: Áp dụng thuật toán "Hit-or-Miss" để tách các thành phần gốc từ trong ký tự Nôm, từ đó trích xuất đặc trưng dựa trên số nét, số điểm giao và vị trí của gốc từ.

  • Trích chọn đặc trưng: Sử dụng phương pháp Histogram phân bố điểm ảnh đen (Black Pixels) trong lưới 10x10 để mô tả đặc trưng ký tự, kết hợp với các đặc trưng hình học của gốc từ.

  • Mô hình nhận dạng: Huấn luyện mạng nơ-ron truyền thẳng với 3 lớp, số nơ-ron lớp ẩn và lớp ra được điều chỉnh phù hợp. Đồng thời, áp dụng mô hình K-mean kết hợp SVM theo chiến lược OVO để phân cụm và phân loại ký tự.

  • Phương pháp đánh giá: Đánh giá độ chính xác nhận dạng trên tập kiểm thử, so sánh tỷ lệ nhận dạng đúng, sai số lớp 1, số cụm và thời gian huấn luyện. Kết quả được so sánh với các phương pháp mạng nơ-ron thuần túy và khoảng cách chuỗi soạn thảo.

  • Timeline nghiên cứu: Nghiên cứu được thực hiện trong giai đoạn 2012-2015, bao gồm các bước thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả nhận dạng bằng mạng nơ-ron truyền thẳng: Mô hình mạng nơ-ron với 3 lớp đạt tỷ lệ nhận dạng đúng khoảng 84,6% trên bộ dữ liệu Nom-DB0. Thời gian huấn luyện trung bình là 5 phút với kích thước ảnh 20x20 điểm ảnh.

  2. Cải thiện độ chính xác với mô hình K-mean kết hợp SVM (KSV M): Phương pháp KSV M đạt tỷ lệ nhận dạng đúng lên tới 90,2%, cao hơn 5,6% so với mạng nơ-ron thuần túy. Thời gian huấn luyện khoảng 7 phút với kích thước ảnh 90x90 điểm ảnh, sai số lớp 1 giảm xuống còn 0,43%.

  3. Phương pháp nhận dạng dựa trên khoảng cách chuỗi soạn thảo: Tỷ lệ nhận dạng đúng đạt khoảng 82%, thấp hơn so với KSV M và mạng nơ-ron, nhưng có ưu điểm trong việc xử lý các biến thể ký tự phức tạp.

  4. Tác động của kích thước ảnh và lưới đặc trưng: Kích thước ảnh đầu vào và kích thước lưới đặc trưng ảnh hưởng lớn đến độ chính xác và tốc độ xử lý. Lưới 10x10 được chọn làm chuẩn để cân bằng giữa độ chính xác và hiệu suất tính toán.

Thảo luận kết quả

Kết quả cho thấy phương pháp nhận dạng chữ Nôm dựa trên gốc từ kết hợp mạng nơ-ron và SVM mang lại hiệu quả vượt trội so với các phương pháp truyền thống. Việc tách gốc từ giúp giảm độ phức tạp của ký tự, từ đó trích xuất đặc trưng chính xác hơn, giảm sai số nhận dạng.

So với các nghiên cứu về OCR chữ Hán và Nhật, tỷ lệ nhận dạng chữ Nôm đạt khoảng 90% là một thành tựu đáng kể, nhất là khi chữ Nôm có số lượng ký tự lớn và cấu trúc phức tạp. Việc áp dụng thuật toán "Hit-or-Miss" để lấy khung xương và tách gốc từ là bước đột phá giúp mô hình nhận dạng chính xác hơn.

Các biểu đồ so sánh tỷ lệ nhận dạng giữa các phương pháp, thời gian huấn luyện và sai số lớp 1 minh họa rõ sự ưu việt của mô hình KSV M. Bảng so sánh chi tiết kết quả nhận dạng trên bộ dữ liệu Nom-DB0 cũng cho thấy sự ổn định và khả năng mở rộng của phương pháp.

Tuy nhiên, vẫn còn tồn tại một số hạn chế như độ chính xác chưa đạt tuyệt đối, đặc biệt với các ký tự có cấu trúc phức tạp hoặc nét xiên khó xử lý. Ngoài ra, việc xử lý ảnh đầu vào có kích thước lớn gây tăng thời gian huấn luyện và yêu cầu tài nguyên tính toán cao.

Đề xuất và khuyến nghị

  1. Phát triển bộ dữ liệu đa dạng hơn: Mở rộng bộ dữ liệu Nom-DB0 với nhiều ký tự Nôm hơn, bao gồm các biến thể chữ viết tay và in ấn để nâng cao khả năng tổng quát của mô hình nhận dạng.

  2. Tối ưu hóa thuật toán tiền xử lý ảnh: Áp dụng các kỹ thuật làm mịn, loại bỏ nhiễu và chuẩn hóa nét chữ nâng cao để cải thiện chất lượng ảnh đầu vào, từ đó tăng độ chính xác nhận dạng.

  3. Nâng cao mô hình nhận dạng: Kết hợp các mô hình học sâu (deep learning) như CNN hoặc RNN để thay thế hoặc bổ sung cho mạng nơ-ron truyền thẳng và SVM, nhằm khai thác đặc trưng phức tạp của chữ Nôm.

  4. Phát triển ứng dụng di động và web: Triển khai phần mềm nhận dạng chữ Nôm trên các thiết bị di động và nền tảng web để phổ cập chữ Nôm, hỗ trợ nghiên cứu và giáo dục trong thời gian 1-2 năm tới.

  5. Xây dựng kho dữ liệu tri thức chữ Nôm số hóa: Tạo lập cơ sở dữ liệu điện tử chứa toàn bộ chữ Nôm đã được nhận dạng và mã hóa Unicode, phục vụ cho việc tra cứu, nghiên cứu và bảo tồn văn hóa.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu ngôn ngữ và văn hóa Việt Nam: Sử dụng kết quả để nghiên cứu cấu trúc chữ Nôm, lịch sử ngôn ngữ và phát triển các công cụ hỗ trợ dịch thuật, phiên âm.

  2. Chuyên gia công nghệ thông tin và trí tuệ nhân tạo: Áp dụng mô hình nhận dạng ký tự quang học cho các ngôn ngữ có hệ thống chữ tượng hình phức tạp, phát triển phần mềm OCR chuyên biệt.

  3. Giáo viên và học viên ngành Hán Nôm: Hỗ trợ học tập, giảng dạy chữ Nôm qua các công cụ số hóa, giúp phổ cập chữ Nôm trong giới trẻ và cộng đồng.

  4. Các tổ chức bảo tồn di sản văn hóa: Sử dụng công nghệ nhận dạng chữ Nôm để số hóa tài liệu cổ, bảo tồn và phát huy giá trị văn hóa truyền thống.

Câu hỏi thường gặp

  1. Phương pháp nhận dạng chữ Nôm dựa trên gốc từ là gì?
    Phương pháp này tách ký tự chữ Nôm thành các gốc từ cơ bản, trích xuất đặc trưng từ từng gốc từ và sử dụng mô hình mạng nơ-ron kết hợp SVM để nhận dạng. Ví dụ, ký tự phức tạp được phân tích thành các thành phần đơn giản hơn giúp tăng độ chính xác.

  2. Độ chính xác nhận dạng chữ Nôm đạt được là bao nhiêu?
    Trên bộ dữ liệu Nom-DB0, phương pháp KSV M đạt tỷ lệ nhận dạng đúng khoảng 90,2%, cao hơn so với mạng nơ-ron truyền thống (84,6%) và phương pháp khoảng cách chuỗi (82%).

  3. Tại sao cần số hóa chữ Nôm?
    Số hóa chữ Nôm giúp bảo tồn kho tri thức văn hóa, lịch sử quý giá, đồng thời tạo điều kiện cho việc tra cứu, nghiên cứu và phổ cập chữ Nôm trong thời đại công nghệ số.

  4. Phần mềm OCR chữ Nôm có thể áp dụng trên thiết bị nào?
    Hiện nay, phần mềm OCR chữ Nôm có thể phát triển trên máy tính để bàn, thiết bị di động và nền tảng web, giúp người dùng dễ dàng tiếp cận và sử dụng.

  5. Khó khăn lớn nhất trong nhận dạng chữ Nôm là gì?
    Khó khăn chính là số lượng ký tự lớn, cấu trúc phức tạp, nhiều biến thể và nét xiên khó xử lý. Ngoài ra, dữ liệu huấn luyện còn hạn chế và ảnh đầu vào có chất lượng không đồng đều cũng ảnh hưởng đến kết quả.

Kết luận

  • Luận văn đã xây dựng thành công phương pháp nhận dạng chữ Nôm dựa trên gốc từ, kết hợp mạng nơ-ron truyền thẳng và máy vectơ hỗ trợ, đạt tỷ lệ nhận dạng đúng trên 90%.
  • Phương pháp tách gốc từ và trích xuất đặc trưng dựa trên histogram điểm ảnh giúp giảm độ phức tạp và tăng hiệu quả nhận dạng.
  • Kết quả nghiên cứu góp phần quan trọng trong việc số hóa, bảo tồn và phát huy giá trị văn hóa chữ Nôm.
  • Đề xuất phát triển thêm bộ dữ liệu đa dạng, tối ưu hóa thuật toán và ứng dụng trên thiết bị di động để phổ cập chữ Nôm rộng rãi hơn.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, thử nghiệm mô hình học sâu và phát triển phần mềm ứng dụng thực tiễn.

Hành động ngay hôm nay: Các nhà nghiên cứu và phát triển phần mềm có thể áp dụng phương pháp này để xây dựng các công cụ nhận dạng chữ Nôm, góp phần bảo tồn di sản văn hóa Việt Nam trong kỷ nguyên số.