I. Khám Phá Phương Pháp Nhận Dạng Chữ Hán Nôm Thời Đại Số
Chữ Nôm là một di sản văn hóa vô giá, minh chứng cho một nền văn hiến lâu đời của dân tộc Việt Nam. Việc nghiên cứu và bảo tồn chữ Nôm không chỉ mang ý nghĩa khẳng định niềm tự hào dân tộc mà còn mở ra cánh cửa khám phá những giá trị đặc sắc về lịch sử, văn hóa và khoa học qua các thời kỳ. Tuy nhiên, thực trạng số người có khả năng đọc và hiểu chữ Nôm ngày càng ít đi đang đặt ra một thách thức lớn, khiến kho tàng tri thức khổng lồ này có nguy cơ mai một. Để giải quyết vấn đề này, việc ứng dụng công nghệ thông tin vào việc bảo tồn và phát huy giá trị của chữ Nôm là một hướng đi tất yếu. Một trong những nhiệm vụ trọng tâm của tin học hóa là xây dựng một hệ thống nhận dạng ký tự quang học cho chữ Nôm, hay còn gọi là Nôm-OCR. Hệ thống này có khả năng chuyển đổi các văn bản Nôm dưới dạng hình ảnh (sách cổ, bia đá, câu đối) thành văn bản số, giúp cho việc lưu trữ, tra cứu và nghiên cứu trở nên dễ dàng và hiệu quả hơn bao giờ hết. Việc xây dựng thành công Nôm-OCR sẽ tạo ra một cú hích mạnh mẽ, cho phép khai thác kho tri thức Nôm khổng lồ, ứng dụng trong nhiều lĩnh vực như khảo cổ, du lịch văn hóa, và giáo dục. Các thiết bị di động thông minh có thể tích hợp ứng dụng này để dịch và giải thích chữ Nôm ngay tại các di tích lịch sử, làm cho di sản cha ông trở nên sống động và gần gũi hơn với thế hệ trẻ.
1.1. Thực trạng và tính cấp thiết của việc số hóa chữ Nôm
Chữ Nôm, với lịch sử hình thành và phát triển hàng ngàn năm, đã từng là quốc tự của Việt Nam trong suốt 10 thế kỷ. Hầu hết các tài liệu quan trọng về văn học, triết học, luật pháp, y khoa và hành chính đều được ghi chép bằng thứ văn tự này. Tuy nhiên, hiện nay, số lượng chuyên gia đọc được chữ Nôm chỉ còn lại rất ít, ước tính chưa đến 100 người trên toàn thế giới. Điều này tạo ra một khoảng cách lớn giữa di sản văn hóa và hơn 90 triệu người Việt. Kho tàng tri thức đồ sộ trong các thư tịch cổ, gia phả, bia đá đang dần trở nên xa lạ. Do đó, việc xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm (Nôm-OCR) là một nhiệm vụ cấp thiết. Nó không chỉ là một công cụ công nghệ mà còn là cầu nối giúp thế hệ hiện tại và tương lai tiếp cận, tìm hiểu và kế thừa những giá trị mà cha ông để lại. Nếu không có sự hỗ trợ mạnh mẽ của khoa học kỹ thuật, nguy cơ mất đi một phần quan trọng của lịch sử và văn hóa dân tộc là rất hiện hữu.
1.2. Vai trò của công nghệ OCR trong việc bảo tồn văn tự cổ
Công nghệ nhận dạng ký tự quang học (OCR) đã được chứng minh là một công cụ hữu hiệu trong việc số hóa và bảo tồn các ngôn ngữ trên thế giới. Với các ngôn ngữ tượng hình như tiếng Trung, tiếng Nhật, các hệ thống OCR đã đạt đến độ chính xác rất cao, ví dụ như sản phẩm Tesseract của Google hay các phần mềm thương mại như ABBYY. Đối với chữ Nôm, việc xây dựng một hệ thống OCR chuyên biệt là một bài toán mở và đầy thách thức. Một hệ thống Nôm-OCR hoàn chỉnh sẽ bao gồm nhiều công đoạn phức tạp: tiền xử lý ảnh, phân tích bố cục trang, tách dòng, tách ký tự, trích chọn đặc trưng, nhận dạng và hậu xử lý. Thành công của dự án này sẽ tạo ra một cuộc cách mạng trong nghiên cứu Hán Nôm, cho phép các nhà khoa học xử lý một khối lượng tư liệu khổng lồ một cách nhanh chóng, từ đó đưa ra những kết luận toàn diện và chính xác hơn về ngôn ngữ và lịch sử Việt Nam.
II. Thách Thức Của Các Phương Pháp Nhận Dạng Chữ Nôm Hiện Có
Bài toán nhận dạng chữ Nôm là một lĩnh vực phức tạp do cấu trúc ký tự đa dạng và số lượng lớn. Nhiều phương pháp đã được nghiên cứu và áp dụng, mỗi phương pháp đều có những ưu và nhược điểm riêng. Các hệ thống OCR tượng hình nổi tiếng như Tesseract ban đầu được thiết kế cho các ngôn ngữ khác, khi áp dụng cho chữ Nôm gặp khó khăn do tập ký tự quá lớn (hơn 4000 ký tự) và nhiều ký tự có hình dạng tương đối giống nhau, dẫn đến tốc độ xử lý chậm và độ chính xác chưa cao. Một hướng tiếp cận khác là sử dụng các mô hình học máy hiện đại. Phương pháp mạng Nơron truyền thẳng với thuật toán lan truyền ngược đã được thử nghiệm. Mặc dù có tiềm năng, quá trình huấn luyện mạng Nơron rất tốn thời gian và tài nguyên, đồng thời dễ gặp phải các vấn đề như học quá khít (overfitting), liệt mạng hoặc hội tụ cục bộ, làm ảnh hưởng đến hiệu quả tổng thể. Một mô hình kết hợp giữa K-Mean và máy véc-tơ hỗ trợ (KSVM) cũng được đề xuất. Phương pháp này tận dụng khả năng phân cụm của K-Mean và độ chính xác của SVM, cho kết quả khá cao. Tuy nhiên, hiệu quả của nó phụ thuộc nhiều vào chất lượng ảnh đầu vào và việc lựa chọn tham số (kích thước lưới) phù hợp, nếu kích thước lưới quá lớn có thể dẫn đến hiện tượng xem nhiễu là thông tin. Cuối cùng, phương pháp dựa trên khoảng cách soạn thảo tính toán chi phí để biến đổi một chuỗi đặc trưng này thành một chuỗi khác. Phương pháp này sáng tạo nhưng việc trích chọn đặc trưng chưa phản ánh tốt các nét xiên và cấu trúc phức tạp của chữ Nôm, làm giảm độ chính xác. Nhìn chung, các phương pháp này đều là những bước đi quan trọng nhưng vẫn còn tồn tại những hạn chế cần được khắc phục.
2.1. Đánh giá mô hình Mạng Nơron và Tesseract trong OCR Nôm
Việc áp dụng mạng Nơron cho bài toán nhận dạng chữ Nôm cho thấy một số kết quả ban đầu khả quan, với độ chính xác trung bình đạt khoảng 73-74% trên bộ dữ liệu thử nghiệm. Tuy nhiên, mô hình này đối mặt với hai thách thức lớn. Thứ nhất, thời gian huấn luyện rất dài, đòi hỏi năng lực tính toán cao. Thứ hai là nguy cơ "học quá khít", khi mô hình ghi nhớ quá tốt dữ liệu huấn luyện nhưng lại nhận dạng kém trên dữ liệu mới. Trong khi đó, Tesseract, một công cụ mã nguồn mở mạnh mẽ, có ưu điểm trong việc tiền xử lý và tách chữ nhờ cấu trúc không dính liền của chữ Nôm. Dù vậy, Tesseract được tối ưu cho các ngôn ngữ có bộ ký tự nhỏ hơn. Khi đối mặt với hàng ngàn ký tự Nôm, hiệu suất của nó giảm đi và gặp khó khăn trong việc phân biệt các ký tự có cấu trúc tương tự nhau.
2.2. Hạn chế của phương pháp KSVM và khoảng cách soạn thảo
Mô hình KSVM (kết hợp K-Mean và SVM) đã chứng tỏ hiệu quả vượt trội hơn, đạt độ chính xác lên tới 90.2% trong một số thử nghiệm. Tuy nhiên, điểm yếu của phương pháp này nằm ở sự phụ thuộc vào chất lượng ảnh và tham số trích chọn đặc trưng. Cụ thể, độ chính xác nhận dạng tỉ lệ thuận với kích thước ảnh đầu vào, một yêu cầu khó đáp ứng trong thực tế với các tài liệu cổ. Ngoài ra, việc sử dụng đặc trưng PD (Probability Distribution of Black Pixels) đòi hỏi phải chọn kích thước lưới tối ưu, nếu quá nhỏ sẽ thiếu thông tin, quá lớn sẽ gây nhiễu và làm chậm hệ thống. Phương pháp khoảng cách soạn thảo dù có ý tưởng độc đáo nhưng lại gặp hạn chế trong việc biểu diễn đặc trưng. Cách trích xuất đặc trưng dựa trên histogram của khung xương chưa phản ánh tốt các nét xiên và cấu trúc phức tạp, dẫn đến độ chính xác trung bình chỉ đạt 82%.
III. Cách Nhận Dạng Chữ Nôm Dựa Trên Gốc Từ Hướng Đi Mới
Để vượt qua những hạn chế của các phương pháp trước, một hướng tiếp cận đột phá được đề xuất là nghiên cứu phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ. Ý tưởng cốt lõi của phương pháp này xuất phát từ chính bản chất cấu tạo của chữ Nôm. Giống như chữ Hán, mỗi ký tự Nôm phức tạp đều được cấu thành từ các thành phần cơ bản, đơn giản hơn gọi là gốc từ (radical). Trong khi có hàng ngàn ký tự Nôm, số lượng gốc từ chỉ khoảng trên 300. Đặc điểm của các gốc từ là có cấu trúc ổn định, dễ nhận biết và thường nằm ở những vị trí xác định trong một ký tự. Bằng cách phân tách một ký tự Nôm phức tạp thành một tập hợp các gốc từ thành phần, bài toán nhận dạng từ chỗ phải phân loại hàng ngàn lớp (ký tự) được chuyển về bài toán nhỏ hơn: nhận dạng khoảng 300 lớp (gốc từ) và sau đó tổ hợp chúng lại. Cách tiếp cận này không chỉ làm giảm đáng kể độ phức tạp tính toán mà còn tăng cường khả năng chống nhiễu và biến dạng, vì việc nhận dạng các gốc từ đơn giản sẽ chính xác hơn so với nhận dạng toàn bộ một ký tự phức tạp. Đây là một chiến lược "chia để trị" hiệu quả, hứa hẹn mang lại độ chính xác cao và ổn định cho hệ thống Nôm-OCR.
3.1. Ý tưởng cốt lõi Phân rã ký tự Nôm thành các gốc từ
Bản chất của phương pháp dựa trên gốc từ là chuyển bài toán nhận dạng một ký tự phức tạp thành bài toán nhận dạng các thành phần cấu tạo nên nó. Ví dụ, chữ Nôm "茹" có thể được phân tách thành ba gốc từ: "艹", "女", và "口". Tương tự, chữ "壓" được tạo thành từ "厂", "日", "月", "犬", và "土". Thay vì phải xây dựng một bộ phân loại cho hàng ngàn ký tự, hệ thống chỉ cần học cách nhận dạng một tập hợp nhỏ hơn gồm khoảng 300 gốc từ. Sau khi các gốc từ trong một ký tự được nhận dạng, thông tin về loại gốc từ, vị trí tương đối của chúng và các đặc trưng khác sẽ được kết hợp để xác định ký tự Nôm cuối cùng. Cách làm này mô phỏng quá trình con người học và nhận biết chữ tượng hình, tập trung vào các thành phần cấu trúc cơ bản trước khi nhận diện toàn bộ.
3.2. Mô hình tổng thể của quy trình nhận dạng dựa trên gốc từ
Quy trình nhận dạng chữ Nôm dựa trên gốc từ được thực hiện qua ba giai đoạn chính. Giai đoạn 1 là tiền xử lý và lấy khung xương. Ảnh đầu vào của một ký tự Nôm đơn lẻ sẽ được xử lý để loại bỏ nhiễu, sau đó áp dụng các thuật toán để trích xuất ra khung xương (skeleton) – là tập hợp các đường nét cơ bản đại diện cho hình dạng của ký tự. Giai đoạn 2 là tách và nhận dạng gốc từ. Dựa trên khung xương đã được làm mịn, hệ thống sẽ phân đoạn và tách ra các thành phần độc lập, được xem là các gốc từ dự kiến. Các đặc trưng của những thành phần này (số nét, điểm giao, vị trí) sẽ được trích xuất và đưa vào một mô hình để nhận dạng đó là gốc từ nào trong cơ sở dữ liệu. Giai đoạn 3 là nhận dạng chữ Nôm. Dựa trên kết quả phân tích các gốc từ đã nhận dạng ở giai đoạn 2, hệ thống sẽ tra cứu trong cơ sở dữ liệu tri thức để tìm ra ký tự Nôm hoàn chỉnh tương ứng và trả về mã Unicode của nó.
IV. Hướng Dẫn Kỹ Thuật Tách Gốc Từ và Trích Chọn Đặc Trưng
Để hiện thực hóa phương pháp nhận dạng dựa trên gốc từ, các kỹ thuật xử lý ảnh và nhận dạng mẫu đóng vai trò then chốt. Quá trình này bắt đầu bằng việc trích xuất khung xương của ký tự, đây là bước nền tảng để phân tích cấu trúc bên trong. Sau khi có được khung xương, bước tiếp theo là phân loại ký tự dựa trên cấu trúc đồ hình của nó. Các nhà nghiên cứu đã nhận thấy chữ Nôm có thể được phân loại vào 10 kiểu đồ hình kiến trúc cơ bản như: loại đơn, trái-phải, trên-dưới, hay các dạng bao bọc (trên-trái-dưới, xung quanh...). Việc xác định đúng kiểu đồ hình giúp định hướng cho quá trình tách gốc từ một cách chính xác. Ví dụ, với kiểu cấu trúc trái-phải, thuật toán sẽ tìm một đường cắt dọc để phân tách ký tự thành hai phần. Với kiểu trên-dưới, một đường cắt ngang sẽ được áp dụng. Sau khi tách được các thành phần (gốc từ dự kiến), các đặc trưng quan trọng như số nét, số điểm giao, vị trí tương đối sẽ được tính toán. Những đặc trưng này tạo thành một "vector đặc trưng" duy nhất cho mỗi gốc từ, sau đó được đưa vào một mô hình phân loại, chẳng hạn như mô hình Entropy cực đại, để thực hiện việc nhận dạng.
4.1. Bước 1 Lấy khung xương chữ Nôm bằng phương pháp Hit or Miss
Khung xương được định nghĩa là trục chính của đối tượng ảnh, thể hiện cấu trúc nét vẽ cơ bản nhất của ký tự. Một trong những kỹ thuật hiệu quả để lấy khung xương là phép biến đổi “Hit-or-Miss” do Serra [11] đề xuất. Kỹ thuật này sử dụng các phần tử cấu trúc để loại bỏ dần các điểm ảnh bên ngoài của nét chữ, chỉ giữ lại các điểm ảnh ở giữa. Tuy nhiên, khung xương thu được ban đầu thường chứa nhiều nhiễu và các nét thừa. Do đó, cần có các bước hiệu chỉnh khung xương như loại bỏ các nét ngắn, làm mịn các cạnh gồ ghề, và đồng nhất các nét lân cận. Một khung xương chất lượng cao là tiền đề quan trọng để việc phân tích và tách gốc từ ở các bước sau đạt độ chính xác cao.
4.2. Bước 2 Phân loại đồ hình và quy trình tách gốc từ
Sau khi có khung xương, hệ thống tiến hành phân loại đồ hình của ký tự. Dựa trên nghiên cứu, các ký tự Nôm được phân thành 10 kiểu cấu trúc chính (ví dụ: trên-dưới, trái-phải, bao quanh). Việc xác định kiểu cấu trúc này dựa trên các đặc điểm của nét như chiều dài, hướng, vị trí và mối quan hệ giữa các nét. Khi kiểu đồ hình đã được xác định, quá trình tách gốc từ sẽ được thực hiện một cách có định hướng. Ví dụ, đối với ký tự kiểu trên-dưới hoặc trái-phải, thuật toán sẽ tìm kiếm khoảng trống lớn nhất theo chiều ngang hoặc chiều dọc để xác định đường cắt. Các nét sẽ được phân cụm vào các thành phần tương ứng dựa trên vị trí của chúng so với đường cắt. Kết quả của quá trình này là một tập hợp các thành phần gốc từ đã được tách rời, sẵn sàng cho bước nhận dạng tiếp theo.
V. Kết Quả Thực Nghiệm Của Phương Pháp Nhận Dạng Gốc Từ
Để đánh giá hiệu quả của phương pháp nhận dạng chữ Nôm dựa trên gốc từ, một chương trình thực nghiệm đã được xây dựng và kiểm thử. Quá trình này bao gồm việc xây dựng một cơ sở dữ liệu gốc từ chuyên biệt, được gọi là RaNom-DB0. Cơ sở dữ liệu này được tạo ra bằng cách thống kê và phân tích các gốc từ từ bộ dữ liệu mẫu NOM-DB0 gồm 495 chữ Nôm. Mỗi gốc từ trong cơ sở dữ liệu được lưu trữ cùng với các đặc trưng của nó như số nét, số điểm giao, và các vector đặc trưng khác. Tiếp theo, một mô hình nhận dạng gốc từ đã được huấn luyện sử dụng mô hình Entropy cực đại (MEM). Mô hình này có khả năng dự đoán một gốc từ dựa trên vector đặc trưng đầu vào. Trong giai đoạn nhận dạng, một ký tự Nôm mới sẽ được phân tách thành các gốc từ, các gốc từ này được nhận dạng bằng mô hình MEM, sau đó kết quả được tổ hợp lại để xác định ký tự Nôm cuối cùng. Kết quả thực nghiệm cho thấy phương pháp này có độ chính xác rất cạnh tranh. Mặc dù luận văn không đưa ra con số cuối cùng so sánh trực tiếp, nhưng việc phân rã bài toán phức tạp thành các bài toán con đơn giản hơn đã chứng tỏ tiềm năng vượt trội trong việc cải thiện độ chính xác và sự ổn định của hệ thống Nôm-OCR so với các phương pháp tiếp cận toàn cục trước đây.
5.1. Xây dựng CSDL gốc từ và huấn luyện mô hình Entropy
Một trong những đóng góp quan trọng của nghiên cứu là việc xây dựng cơ sở dữ liệu gốc từ RaNom-DB0. Dữ liệu này được trích xuất từ bộ Nom-DB0, chứa thông tin chi tiết về các gốc từ, bao gồm hình dạng, số nét, số điểm giao và vị trí xuất hiện. Cơ sở dữ liệu này đóng vai trò là tri thức nền tảng cho hệ thống nhận dạng. Để nhận dạng các gốc từ, nghiên cứu đề xuất sử dụng mô hình Entropy cực đại (MEM). Đây là một mô hình học máy thống kê mạnh mẽ, phù hợp cho các bài toán phân loại. Mô hình được huấn luyện trên tập đặc trưng của các gốc từ trong CSDL RaNom-DB0 để học cách phân biệt chúng. Quá trình huấn luyện này tạo ra một bộ phân loại có khả năng xác định chính xác một thành phần ảnh là gốc từ nào.
5.2. So sánh hiệu quả với các phương pháp OCR Nôm trước đây
Dựa trên bảng so sánh kết quả của các phương pháp trước đó (Bảng 2.5 trong tài liệu gốc), phương pháp KSVM đạt độ chính xác cao nhất là 90,2%, trong khi phương pháp khoảng cách soạn thảo đạt 82%. Phương pháp nhận dạng dựa trên gốc từ được kỳ vọng sẽ cải thiện kết quả này. Thay vì xử lý toàn bộ ký tự Nôm phức tạp và dễ bị ảnh hưởng bởi nhiễu, phương pháp này tập trung vào các gốc từ - những thành phần đơn giản và ổn định hơn. Điều này giúp giảm thiểu sai sót trong quá trình trích chọn đặc trưng và tăng khả năng nhận dạng đúng ngay cả khi ảnh đầu vào có chất lượng không cao. Hướng tiếp cận này được xem là một bước tiến quan trọng, mở ra tiềm năng xây dựng một hệ thống Nôm-OCR toàn diện với độ chính xác và hiệu suất vượt trội.
VI. Tương Lai Của Công Nghệ OCR Nôm và Hướng Nghiên Cứu Mới
Sự phát triển của phương pháp nhận dạng chữ Hán-Nôm dựa trên gốc từ không chỉ là một thành tựu học thuật mà còn mở ra một tương lai đầy hứa hẹn cho việc bảo tồn và phổ biến di sản chữ Nôm. Trong tương lai, công nghệ Nôm-OCR có thể được tích hợp vào các ứng dụng di động, cho phép du khách và nhà nghiên cứu dịch và tìm hiểu các văn bia, câu đối tại các di tích lịch sử một cách tức thì. Nó cũng sẽ là công cụ không thể thiếu cho các thư viện và viện nghiên cứu trong việc số hóa hàng triệu trang tài liệu Hán Nôm cổ, giúp chúng có thể được truy cập và khai thác bởi công chúng rộng rãi. Để đạt được tầm nhìn đó, các hướng nghiên cứu trong tương lai cần tập trung vào việc mở rộng cơ sở dữ liệu gốc từ để bao quát toàn bộ hệ thống chữ Nôm. Đồng thời, cần cải tiến các thuật toán tách gốc từ để xử lý được các trường hợp chữ viết tay hoặc các ký tự có cấu trúc chồng chéo phức tạp. Việc kết hợp các mô hình học sâu (deep learning) vào nhận dạng gốc từ cũng là một hướng đi tiềm năng để nâng cao độ chính xác lên mức gần như tuyệt đối. Cuối cùng, việc xây dựng các chuẩn chung về tư liệu và biểu diễn văn bản chữ Nôm sẽ tạo ra một nền tảng vững chắc, thúc đẩy sự hợp tác và phát triển đồng bộ trong cộng đồng nghiên cứu.
6.1. Tiềm năng ứng dụng trong bảo tồn di sản và du lịch văn hóa
Một khi công nghệ Nôm-OCR đạt đến độ chín muồi, tiềm năng ứng dụng của nó là vô cùng to lớn. Trong lĩnh vực bảo tồn di sản, nó cho phép số hóa toàn bộ kho tàng thư tịch cổ, tạo ra các bản sao kỹ thuật số an toàn và dễ dàng truy cập. Các nhà nghiên cứu có thể thực hiện các phân tích ngôn ngữ học, văn bản học trên quy mô lớn mà trước đây không thể thực hiện được. Trong ngành du lịch, các ứng dụng dịch thuật thời gian thực sẽ làm phong phú thêm trải nghiệm của du khách, biến những ký tự cổ vô tri thành những câu chuyện lịch sử sống động. Điều này không chỉ nâng cao giá trị của các di tích mà còn góp phần quảng bá văn hóa Việt Nam ra thế giới.
6.2. Các hướng phát triển nhằm nâng cao độ chính xác nhận dạng
Để hệ thống Nôm-OCR trở nên hoàn thiện, các nghiên cứu trong tương lai cần tập trung vào một số hướng chính. Thứ nhất, cần xây dựng một bộ dữ liệu chữ Nôm và gốc từ toàn diện hơn, bao gồm nhiều kiểu chữ và các biến thể khác nhau. Thứ hai, cần nghiên cứu các thuật toán hiệu chỉnh khung xương và tách gốc từ thông minh hơn, có khả năng xử lý các ký tự bị mờ, nhiễu hoặc viết dính vào nhau. Thứ ba, việc áp dụng các kiến trúc mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) trong học sâu có thể mang lại hiệu quả vượt trội cho cả việc nhận dạng gốc từ và nhận dạng ký tự tổng thể. Cuối cùng, việc phát triển một bước hậu xử lý dựa trên ngữ cảnh từ vựng và ngữ pháp sẽ giúp sửa các lỗi nhận dạng sai, nâng cao độ chính xác của văn bản đầu ra.