Tổng quan nghiên cứu

Chữ Nôm là một di sản văn hóa quý giá, ghi lại tiếng nói và lịch sử của dân tộc Việt Nam trong gần 10 thế kỷ. Hiện nay, số lượng người biết chữ Nôm ngày càng giảm, trong khi kho tư liệu chữ Nôm còn lưu giữ rất lớn với gần 800 tên sách, hàng nghìn bia đá, câu đối và các tài liệu văn hóa, lịch sử. Việc phục hồi và phát triển chữ Nôm không chỉ góp phần bảo tồn văn hóa mà còn mở ra cơ hội khai thác kho tri thức đồ sộ này qua các ứng dụng công nghệ hiện đại. Một trong những thách thức lớn là xây dựng hệ thống nhận dạng ký tự quang học (OCR) cho chữ Nôm, giúp chuyển đổi hình ảnh chữ viết thành dữ liệu số có thể xử lý tự động.

Mục tiêu nghiên cứu của luận văn là phát triển một bộ nhận dạng chữ Nôm dựa trên thuật toán Máy véc-tơ hỗ trợ (SVM), kết hợp với kỹ thuật phân cụm K-Mean nhằm nâng cao độ chính xác và hiệu quả nhận dạng. Nghiên cứu tập trung trên bộ dữ liệu NOM-DB0 gồm 495 chữ Nôm phổ biến, mỗi chữ có 24 mẫu ảnh được chuẩn hóa, thu thập từ các font chữ tiêu biểu và các chế độ scan khác nhau. Phạm vi nghiên cứu bao gồm các bước trích chọn đặc trưng, xây dựng mô hình nhận dạng và đánh giá hiệu quả trên bộ dữ liệu này.

Ý nghĩa của nghiên cứu được thể hiện qua việc tạo ra công cụ hỗ trợ số hóa chữ Nôm, góp phần bảo tồn và phát huy giá trị văn hóa truyền thống, đồng thời mở rộng ứng dụng trong khảo cổ, du lịch và giáo dục. Các chỉ số đánh giá như độ chính xác nhận dạng, tốc độ xử lý và khả năng mở rộng mô hình được xem xét kỹ lưỡng để đảm bảo tính khả thi và ứng dụng thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: nhận dạng ký tự quang học (OCR) và thuật toán Máy véc-tơ hỗ trợ (SVM).

  1. Nhận dạng ký tự quang học (OCR): OCR là công nghệ chuyển đổi hình ảnh chữ viết tay hoặc chữ in thành dữ liệu văn bản số. Với chữ tượng hình như chữ Nôm, OCR phải xử lý các đặc điểm phức tạp về cấu trúc và số lượng ký tự lớn. Các bước chính trong OCR bao gồm tiền xử lý ảnh, phân đoạn ký tự, trích chọn đặc trưng, nhận dạng và hậu xử lý. Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) được áp dụng để biểu diễn ảnh ký tự dưới dạng vector đặc trưng dựa trên phân bố điểm ảnh đen trong các vùng con của ảnh.

  2. Máy véc-tơ hỗ trợ (SVM): SVM là thuật toán phân lớp dựa trên lý thuyết học thống kê, tìm siêu phẳng phân tách dữ liệu với lề cực đại nhằm tối ưu hóa khả năng phân loại. SVM có thể mở rộng cho bài toán phân lớp phi tuyến bằng cách sử dụng hàm kernel, như hàm tuyến tính, đa thức, hoặc RBF. Để giải quyết bài toán đa lớp với số lượng lớp lớn như chữ Nôm, phương pháp one-versus-one (OVO) được sử dụng, xây dựng nhiều bộ phân lớp nhị phân để phân biệt từng cặp lớp.

Ba khái niệm chính trong nghiên cứu là:

  • Zoning: Phương pháp trích chọn đặc trưng dựa trên phân vùng ảnh ký tự thành các ô lưới, tính tỷ lệ điểm ảnh đen trong mỗi ô.
  • Kernel SVM: Sử dụng hàm kernel để ánh xạ dữ liệu vào không gian đặc trưng có chiều cao hơn, giúp phân tách phi tuyến.
  • Phân lớp đa lớp OVO: Xây dựng bộ phân lớp nhị phân cho từng cặp lớp, kết hợp kết quả bầu chọn để xác định lớp cuối cùng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ cơ sở dữ liệu NOM-DB0 gồm 495 ký tự chữ Nôm phổ biến, mỗi ký tự có 24 mẫu ảnh được tạo từ 3 font chữ tiêu biểu (Hán Nôm A, Hán Nôm B, Nôm Na Tông) và 4 kiểu chữ (thường, đậm, nghiêng, đậm nghiêng), thu thập qua nhiều chế độ scan khác nhau với độ phân giải trên 300 DPI. Tổng số mẫu huấn luyện là 11.880, mẫu kiểm thử là 2.970.

Phương pháp phân tích gồm các bước:

  • Tiền xử lý ảnh: chuẩn hóa kích thước, tách ký tự rời rạc từ ảnh scan.
  • Trích chọn đặc trưng: sử dụng phương pháp trọng số vùng (Zoning) với lưới kích thước 3x3 hoặc 4x4 để tạo vector đặc trưng.
  • Phân cụm: áp dụng thuật toán K-Mean để phân nhóm dữ liệu thành các cụm đại diện (First Class - FC).
  • Nhận dạng: xây dựng bộ phân lớp SVM theo phương pháp OVO cho từng cụm (Second Class - SC), tạo thành mô hình KSVM kết hợp K-Mean và SVM.
  • Đánh giá: sử dụng các chỉ số độ chính xác nhận dạng, tốc độ huấn luyện và nhận dạng, so sánh với các phương pháp khác.

Timeline nghiên cứu kéo dài trong khoảng một năm, bao gồm giai đoạn xây dựng dữ liệu, phát triển thuật toán, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng cao: Thuật toán KSVM đạt độ chính xác trên 90% trên bộ dữ liệu NOM-DB0, vượt trội so với các phương pháp SVM đơn thuần và mạng nơ-ron nhân tạo trước đó (khoảng 70-82%). Việc kết hợp phân cụm K-Mean giúp giảm số lượng lớp cần nhận dạng trực tiếp, tăng hiệu quả và độ chính xác.

  2. Ảnh hưởng của kích thước ảnh đầu vào: Kích thước ảnh ký tự tối thiểu 120x120 pixel được xác định là phù hợp để đảm bảo độ chính xác nhận dạng trên 90%. Kích thước nhỏ hơn làm giảm đáng kể hiệu quả do mất thông tin đặc trưng.

  3. Ảnh hưởng của kích thước lưới Zoning: Lưới 3x3 cho kết quả cân bằng giữa độ chính xác và tốc độ xử lý, trong khi lưới 4x4 tăng độ chính xác nhưng làm tăng thời gian huấn luyện và nhận dạng. Lưới quá nhỏ không thể hiện đủ đặc trưng, lưới quá lớn dễ bị nhiễu.

  4. Tốc độ huấn luyện và nhận dạng: Việc sử dụng mẫu đại diện và phân cụm giúp giảm đáng kể thời gian huấn luyện K-Mean và SVM, phù hợp với yêu cầu ứng dụng thực tế. Ví dụ, với 495 lớp, số lượng SVM cần huấn luyện giảm từ hơn 124.000 xuống còn khoảng 6.000 khi phân cụm thành 20 cụm.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy mô hình KSVM là một giải pháp hiệu quả cho bài toán nhận dạng chữ Nôm với số lượng lớp lớn và cấu trúc phức tạp. Việc kết hợp phân cụm K-Mean và SVM theo phương pháp OVO giúp khắc phục hạn chế của SVM trong bài toán đa lớp, đồng thời tận dụng ưu điểm của từng thuật toán.

So sánh với các nghiên cứu trước đây về nhận dạng chữ Nôm bằng mạng nơ-ron hoặc phương pháp thống kê, KSVM cho độ chính xác cao hơn đáng kể, đồng thời giảm thời gian huấn luyện. Kết quả này phù hợp với các nghiên cứu về OCR chữ tượng hình như tiếng Trung và Nhật, nơi SVM và phân cụm cũng được áp dụng thành công.

Dữ liệu thực nghiệm được trình bày qua các biểu đồ độ chính xác theo kích thước ảnh và lưới Zoning, bảng so sánh số lượng SVM cần huấn luyện và thời gian thực hiện. Các kết quả này minh chứng cho tính khả thi của mô hình trong ứng dụng thực tế, đặc biệt trong bối cảnh số lượng người biết chữ Nôm ngày càng giảm và nhu cầu số hóa tài liệu tăng cao.

Đề xuất và khuyến nghị

  1. Phát triển bộ dữ liệu mở rộng: Tiếp tục xây dựng và mở rộng bộ dữ liệu chữ Nôm với đa dạng font chữ, kiểu chữ và điều kiện thu thập thực tế như ảnh chụp bia đá, sách cổ để nâng cao khả năng tổng quát của mô hình. Thời gian thực hiện dự kiến 1-2 năm, phối hợp với các viện nghiên cứu văn hóa và thư viện quốc gia.

  2. Tối ưu hóa thuật toán KSVM: Nghiên cứu cải tiến thuật toán phân cụm và nhận dạng, áp dụng các kỹ thuật học sâu kết hợp SVM để tăng độ chính xác và giảm thời gian huấn luyện, đặc biệt với dữ liệu thực tế có nhiễu cao. Chủ thể thực hiện là nhóm nghiên cứu công nghệ thông tin trong 1 năm.

  3. Phát triển ứng dụng di động: Xây dựng ứng dụng nhận dạng chữ Nôm trên thiết bị di động, tích hợp công nghệ OCR để hỗ trợ tra cứu, dịch nghĩa chữ Nôm trực tiếp từ ảnh chụp, phục vụ khảo cổ, du lịch và giáo dục. Thời gian triển khai 1 năm, phối hợp với các công ty phần mềm.

  4. Tăng cường đào tạo và phổ biến: Tổ chức các khóa đào tạo, hội thảo về chữ Nôm và công nghệ nhận dạng chữ Nôm cho các nhà nghiên cứu, sinh viên và cộng đồng để nâng cao nhận thức và kỹ năng sử dụng công nghệ mới. Chủ thể là các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu ngôn ngữ học và văn hóa: Luận văn cung cấp cơ sở dữ liệu và công cụ nhận dạng chữ Nôm, hỗ trợ nghiên cứu lịch sử, văn hóa, dịch thuật và bảo tồn di sản văn hóa.

  2. Chuyên gia công nghệ thông tin và trí tuệ nhân tạo: Tài liệu chi tiết về ứng dụng SVM, phân cụm K-Mean trong bài toán nhận dạng đa lớp phức tạp, có thể áp dụng cho các bài toán tương tự trong xử lý ảnh và nhận dạng mẫu.

  3. Nhà quản lý di sản và bảo tồn: Cung cấp giải pháp công nghệ để số hóa, lưu trữ và khai thác tài liệu chữ Nôm, phục vụ công tác bảo tồn và phát huy giá trị di sản văn hóa.

  4. Phát triển phần mềm và ứng dụng di động: Thông tin về mô hình nhận dạng chữ Nôm giúp phát triển các ứng dụng hỗ trợ tra cứu, dịch thuật chữ Nôm trên nền tảng số, đáp ứng nhu cầu thực tế của người dùng.

Câu hỏi thường gặp

  1. Tại sao cần xây dựng bộ nhận dạng chữ Nôm riêng biệt mà không dùng OCR chữ Hán?
    Chữ Nôm có cấu trúc phức tạp hơn chữ Hán, nhiều ký tự tự tạo không có trong chữ Hán, do đó các OCR chữ Hán không thể nhận dạng chính xác chữ Nôm. Việc xây dựng bộ nhận dạng riêng giúp xử lý đặc thù và nâng cao độ chính xác.

  2. Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) có ưu điểm gì?
    Zoning đơn giản, hiệu quả trong việc biểu diễn phân bố điểm ảnh đen trong ảnh ký tự, giúp giảm chiều dữ liệu và tăng khả năng phân biệt giữa các ký tự phức tạp như chữ Nôm.

  3. Làm thế nào để giải quyết bài toán phân lớp đa lớp với số lượng lớp lớn?
    Sử dụng phương pháp one-versus-one (OVO) kết hợp phân cụm K-Mean để chia nhỏ bài toán thành các bài toán phân lớp nhị phân, giảm độ phức tạp và tăng độ chính xác nhận dạng.

  4. Bộ dữ liệu NOM-DB0 được xây dựng như thế nào?
    NOM-DB0 gồm 495 ký tự chữ Nôm phổ biến trong truyện Kiều, mỗi ký tự có 24 mẫu ảnh được tạo từ 3 font chữ và 4 kiểu chữ, thu thập qua nhiều chế độ scan khác nhau, chuẩn hóa kích thước và tách ký tự rời rạc.

  5. Ứng dụng thực tế của bộ nhận dạng chữ Nôm là gì?
    Bộ nhận dạng giúp số hóa tài liệu chữ Nôm, hỗ trợ tra cứu, dịch thuật, bảo tồn di sản văn hóa, phát triển ứng dụng di động phục vụ khảo cổ, du lịch và giáo dục.

Kết luận

  • Luận văn đã xây dựng thành công mô hình nhận dạng chữ Nôm KSVM kết hợp phân cụm K-Mean và SVM theo phương pháp OVO, đạt độ chính xác trên 90% trên bộ dữ liệu NOM-DB0.
  • Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) với lưới 3x3 được xác định là phù hợp nhất cho bài toán nhận dạng chữ Nôm.
  • Bộ dữ liệu NOM-DB0 được xây dựng bài bản, chuẩn hóa, làm nền tảng cho các nghiên cứu và ứng dụng tiếp theo.
  • Nghiên cứu mở ra hướng phát triển các ứng dụng OCR chữ Nôm trên thiết bị di động, góp phần bảo tồn và phát huy giá trị văn hóa truyền thống.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu thuật toán, phát triển ứng dụng thực tế và đào tạo phổ biến công nghệ.

Mời các nhà nghiên cứu và chuyên gia quan tâm tiếp tục khai thác và phát triển công nghệ nhận dạng chữ Nôm để bảo tồn di sản văn hóa Việt Nam một cách hiệu quả và bền vững.