Luận văn thạc sĩ về nhận dạng chữ Nôm sử dụng máy học SVM

Luận văn thạc sĩ nghiên cứu nhận dạng chữ nôm bằng máy véc tơ hỗ trợ svm, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN CHỮ NÔM

1.1. Lịch sử và một số đặc điểm của chữ Nôm

1.2. Cấu tạo chữ Nôm

1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán

1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán

1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm

1.3. Một số thống kê về chữ Nôm

1.4. Tổng kết chương 1

2. CHƯƠNG 2: NHẬN DẠNG CHỮ NÔM

2.1. Nhận dạng ký tự quang học

2.2. Mô hình OCR chữ Trung Quốc

2.3. Các kết quả đạt được và những vấn đề đặt ra

2.4. Bài toán nhận dạng chữ Nôm

2.5. Tổng kết chương 2

3. CHƯƠNG 3: MÁY VÉC-TƠ HỖ TRỢ (SVM)

3.1. Tổng quan về SVM

3.2. SVM tuyến tính

3.3. SVM phi tuyến

3.4. SVM cho bài toán phân đa lớp

3.5. Tổng kết chương 3

4. CHƯƠNG 4: GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM

4.1. Giải thuật KSVM cho nhận dạng chữ Nôm

4.2. Phương pháp trích chọn đặc trưng trọng số vùng (Zoning)

4.3. Xây dựng bộ nhận dạng OVOF

4.4. Tạo mẫu đại diện

4.5. Phân cụm bằng K-Mean

4.6. Tổng kết chương 4

5. CHƯƠNG 5: THỰC NGHIỆM, ĐÁNH GIÁ

5.1. Quy trình thực nghiệm

5.2. Xây dựng bộ dữ liệu thực nghiệm

5.3. Tiến hành thực nghiệm

5.3.1. Cách thực hiện

5.3.2. Kết quả thực nghiệm

5.3.3. Đánh giá kết quả

5.4. Tổng kết chương 5

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về chữ Nôm

Chữ Nôm là một phần quan trọng trong di sản văn hóa Việt Nam, được hình thành từ thế kỷ 10 và sử dụng rộng rãi cho đến thế kỷ 20. Chữ Nôm không chỉ là công cụ ghi lại tiếng nói của người Việt mà còn là phương tiện để truyền tải văn hóa, lịch sử và tri thức của dân tộc. Việc nghiên cứu chữ Nôm giúp khẳng định giá trị văn hóa và lịch sử của dân tộc Việt Nam. Chữ Nôm được xây dựng trên cơ sở chữ Hán, nhưng có những đặc điểm riêng biệt. Chữ Nôm có thể được phân loại thành ba loại chính: chữ Nôm mượn nguyên dạng chữ Hán, chữ Nôm kết hợp hai chữ Hán, và chữ Nôm kết hợp giữa chữ Hán và chữ Nôm. Điều này cho thấy sự phong phú và đa dạng trong cấu trúc của chữ Nôm, đồng thời phản ánh sự sáng tạo của người Việt trong việc phát triển ngôn ngữ của mình.

1.1 Lịch sử và đặc điểm của chữ Nôm

Chữ Nôm ra đời sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc, nhằm ghi lại tiếng nói của người Việt. Chữ Nôm không chỉ đơn thuần là sự mượn chữ Hán mà còn là sự sáng tạo độc đáo của người Việt. Mỗi chữ Nôm thường có hai phần: phần thể hiện ý nghĩa và phần thể hiện âm thanh. Điều này cho thấy chữ Nôm không chỉ là một hệ thống ký tự mà còn là một phần không thể thiếu trong văn hóa và lịch sử Việt Nam.

1.2 Cấu tạo chữ Nôm

Cấu tạo chữ Nôm rất đa dạng và phong phú. Chữ Nôm có thể được tạo ra từ việc mượn nguyên dạng chữ Hán hoặc kết hợp giữa các chữ Hán và chữ Nôm. Việc phân tích cấu trúc của chữ Nôm cho thấy sự kết hợp giữa âm và nghĩa, tạo nên một hệ thống ngôn ngữ độc đáo. Điều này không chỉ giúp ghi lại tiếng nói của người Việt mà còn phản ánh sự phát triển của ngôn ngữ qua các thời kỳ.

II. Nhận dạng chữ Nôm

Nhận dạng chữ Nôm là một thách thức lớn trong lĩnh vực công nghệ thông tin, đặc biệt là trong việc phát triển các hệ thống nhận dạng ký tự quang học (OCR). Việc xây dựng một hệ thống OCR cho chữ Nôm không chỉ giúp bảo tồn di sản văn hóa mà còn tạo điều kiện cho việc nghiên cứu và khai thác tri thức từ các tài liệu chữ Nôm. Các phương pháp nhận dạng hiện tại chủ yếu dựa vào các thuật toán học máy, trong đó có SVM (Máy véc-tơ hỗ trợ) là một trong những phương pháp hiệu quả nhất. SVM cho phép phân loại các ký tự Nôm một cách chính xác, từ đó giúp cải thiện độ chính xác của hệ thống nhận dạng.

2.1 Bài toán nhận dạng chữ Nôm

Bài toán nhận dạng chữ Nôm bao gồm nhiều bước, từ tiền xử lý dữ liệu đến trích chọn đặc trưng và nhận dạng. Việc xây dựng bộ dữ liệu mẫu là rất quan trọng để huấn luyện các mô hình học máy. Các phương pháp như trích chọn đặc trưng trọng số vùng (Zoning) và phân cụm K-Mean được áp dụng để tối ưu hóa quá trình nhận dạng. Điều này không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý.

2.2 Công nghệ nhận dạng ký tự

Công nghệ nhận dạng ký tự đã có những bước tiến đáng kể trong những năm gần đây. Các hệ thống OCR hiện tại đã được áp dụng thành công cho nhiều ngôn ngữ, trong đó có chữ Nôm. Việc áp dụng SVM trong nhận dạng chữ Nôm cho thấy tiềm năng lớn trong việc phát triển các ứng dụng thực tiễn, từ việc số hóa tài liệu đến việc hỗ trợ nghiên cứu văn hóa và lịch sử.

III. Giải thuật KSVM cho nhận dạng chữ Nôm

Giải thuật KSVM (K-Mean & Support Vector Machine) được đề xuất nhằm cải thiện hiệu quả nhận dạng chữ Nôm. Giải thuật này kết hợp giữa phương pháp phân cụm K-Mean và SVM để tối ưu hóa quá trình nhận dạng. Việc áp dụng KSVM cho phép phân loại các ký tự Nôm một cách chính xác hơn, đồng thời giảm thiểu độ phức tạp trong quá trình xử lý. Điều này không chỉ giúp nâng cao độ chính xác mà còn tạo điều kiện thuận lợi cho việc phát triển các ứng dụng nhận dạng chữ Nôm trong thực tế.

3.1 Phương pháp trích chọn đặc trưng

Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) được áp dụng để tối ưu hóa quá trình nhận dạng. Phương pháp này giúp xác định các vùng quan trọng trong ký tự Nôm, từ đó cải thiện độ chính xác của hệ thống nhận dạng. Việc áp dụng phương pháp này cho thấy sự cần thiết trong việc phát triển các kỹ thuật mới nhằm nâng cao hiệu quả nhận dạng chữ Nôm.

3.2 Xây dựng bộ nhận dạng OVOF

Bộ nhận dạng OVOF (One Versus One) được xây dựng nhằm cải thiện khả năng phân loại các ký tự Nôm. Phương pháp này cho phép so sánh từng cặp ký tự, từ đó giúp nâng cao độ chính xác trong quá trình nhận dạng. Việc áp dụng OVOF cho thấy tiềm năng lớn trong việc phát triển các ứng dụng nhận dạng chữ Nôm trong tương lai.

IV. Thực nghiệm và đánh giá

Quy trình thực nghiệm được thực hiện nhằm đánh giá hiệu quả của giải thuật KSVM trong nhận dạng chữ Nôm. Bộ dữ liệu thực nghiệm được xây dựng từ kho mẫu NOM-DB0 chứa 495 chữ Nôm, mỗi chữ có 24 mẫu. Kết quả thực nghiệm cho thấy giải thuật KSVM đạt được độ chính xác cao trong việc nhận dạng các ký tự Nôm. Việc đánh giá kết quả thực nghiệm không chỉ giúp khẳng định tính khả thi của giải thuật mà còn mở ra hướng nghiên cứu mới trong lĩnh vực nhận dạng chữ Nôm.

4.1 Quy trình thực nghiệm

Quy trình thực nghiệm bao gồm các bước từ xây dựng bộ dữ liệu đến tiến hành thực nghiệm và đánh giá kết quả. Việc xây dựng bộ dữ liệu thực nghiệm là rất quan trọng để đảm bảo tính chính xác của hệ thống nhận dạng. Các bước thực nghiệm được thực hiện một cách cẩn thận nhằm đảm bảo độ tin cậy của kết quả.

4.2 Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy giải thuật KSVM đạt được độ chính xác cao trong việc nhận dạng chữ Nôm. Việc đánh giá kết quả thực nghiệm không chỉ giúp khẳng định tính khả thi của giải thuật mà còn mở ra hướng nghiên cứu mới trong lĩnh vực nhận dạng chữ Nôm. Điều này cho thấy tiềm năng lớn trong việc phát triển các ứng dụng thực tiễn từ nghiên cứu này.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nhận dạng chữ nôm bằng máy véc tơ hỗ trợ svm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Chữ Nôm là một di sản văn hóa quý giá, ghi lại tiếng nói và lịch sử của dân tộc Việt Nam trong gần 10 thế kỷ. Hiện nay, số lượng người biết chữ Nôm ngày càng giảm, trong khi kho tư liệu chữ Nôm còn lưu giữ rất lớn với gần 800 tên sách, hàng nghìn bia đá, câu đối và các tài liệu văn hóa, lịch sử. Việc phục hồi và phát triển chữ Nôm không chỉ góp phần bảo tồn văn hóa mà còn mở ra cơ hội khai thác kho tri thức đồ sộ này qua các ứng dụng công nghệ hiện đại. Một trong những thách thức lớn là xây dựng hệ thống nhận dạng ký tự quang học (OCR) cho chữ Nôm, giúp chuyển đổi hình ảnh chữ viết thành dữ liệu số có thể xử lý tự động.

Mục tiêu nghiên cứu của luận văn là phát triển một bộ nhận dạng chữ Nôm dựa trên thuật toán Máy véc-tơ hỗ trợ (SVM), kết hợp với kỹ thuật phân cụm K-Mean nhằm nâng cao độ chính xác và hiệu quả nhận dạng. Nghiên cứu tập trung trên bộ dữ liệu NOM-DB0 gồm 495 chữ Nôm phổ biến, mỗi chữ có 24 mẫu ảnh được chuẩn hóa, thu thập từ các font chữ tiêu biểu và các chế độ scan khác nhau. Phạm vi nghiên cứu bao gồm các bước trích chọn đặc trưng, xây dựng mô hình nhận dạng và đánh giá hiệu quả trên bộ dữ liệu này.

Ý nghĩa của nghiên cứu được thể hiện qua việc tạo ra công cụ hỗ trợ số hóa chữ Nôm, góp phần bảo tồn và phát huy giá trị văn hóa truyền thống, đồng thời mở rộng ứng dụng trong khảo cổ, du lịch và giáo dục. Các chỉ số đánh giá như độ chính xác nhận dạng, tốc độ xử lý và khả năng mở rộng mô hình được xem xét kỹ lưỡng để đảm bảo tính khả thi và ứng dụng thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: nhận dạng ký tự quang học (OCR) và thuật toán Máy véc-tơ hỗ trợ (SVM).

Nhận dạng ký tự quang học (OCR): OCR là công nghệ chuyển đổi hình ảnh chữ viết tay hoặc chữ in thành dữ liệu văn bản số. Với chữ tượng hình như chữ Nôm, OCR phải xử lý các đặc điểm phức tạp về cấu trúc và số lượng ký tự lớn. Các bước chính trong OCR bao gồm tiền xử lý ảnh, phân đoạn ký tự, trích chọn đặc trưng, nhận dạng và hậu xử lý. Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) được áp dụng để biểu diễn ảnh ký tự dưới dạng vector đặc trưng dựa trên phân bố điểm ảnh đen trong các vùng con của ảnh.
Máy véc-tơ hỗ trợ (SVM): SVM là thuật toán phân lớp dựa trên lý thuyết học thống kê, tìm siêu phẳng phân tách dữ liệu với lề cực đại nhằm tối ưu hóa khả năng phân loại. SVM có thể mở rộng cho bài toán phân lớp phi tuyến bằng cách sử dụng hàm kernel, như hàm tuyến tính, đa thức, hoặc RBF. Để giải quyết bài toán đa lớp với số lượng lớp lớn như chữ Nôm, phương pháp one-versus-one (OVO) được sử dụng, xây dựng nhiều bộ phân lớp nhị phân để phân biệt từng cặp lớp.

Ba khái niệm chính trong nghiên cứu là:

Zoning: Phương pháp trích chọn đặc trưng dựa trên phân vùng ảnh ký tự thành các ô lưới, tính tỷ lệ điểm ảnh đen trong mỗi ô.
Kernel SVM: Sử dụng hàm kernel để ánh xạ dữ liệu vào không gian đặc trưng có chiều cao hơn, giúp phân tách phi tuyến.
Phân lớp đa lớp OVO: Xây dựng bộ phân lớp nhị phân cho từng cặp lớp, kết hợp kết quả bầu chọn để xác định lớp cuối cùng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ cơ sở dữ liệu NOM-DB0 gồm 495 ký tự chữ Nôm phổ biến, mỗi ký tự có 24 mẫu ảnh được tạo từ 3 font chữ tiêu biểu (Hán Nôm A, Hán Nôm B, Nôm Na Tông) và 4 kiểu chữ (thường, đậm, nghiêng, đậm nghiêng), thu thập qua nhiều chế độ scan khác nhau với độ phân giải trên 300 DPI. Tổng số mẫu huấn luyện là 11.880, mẫu kiểm thử là 2.970.

Phương pháp phân tích gồm các bước:

Tiền xử lý ảnh: chuẩn hóa kích thước, tách ký tự rời rạc từ ảnh scan.
Trích chọn đặc trưng: sử dụng phương pháp trọng số vùng (Zoning) với lưới kích thước 3x3 hoặc 4x4 để tạo vector đặc trưng.
Phân cụm: áp dụng thuật toán K-Mean để phân nhóm dữ liệu thành các cụm đại diện (First Class - FC).
Nhận dạng: xây dựng bộ phân lớp SVM theo phương pháp OVO cho từng cụm (Second Class - SC), tạo thành mô hình KSVM kết hợp K-Mean và SVM.
Đánh giá: sử dụng các chỉ số độ chính xác nhận dạng, tốc độ huấn luyện và nhận dạng, so sánh với các phương pháp khác.

Timeline nghiên cứu kéo dài trong khoảng một năm, bao gồm giai đoạn xây dựng dữ liệu, phát triển thuật toán, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng cao: Thuật toán KSVM đạt độ chính xác trên 90% trên bộ dữ liệu NOM-DB0, vượt trội so với các phương pháp SVM đơn thuần và mạng nơ-ron nhân tạo trước đó (khoảng 70-82%). Việc kết hợp phân cụm K-Mean giúp giảm số lượng lớp cần nhận dạng trực tiếp, tăng hiệu quả và độ chính xác.
Ảnh hưởng của kích thước ảnh đầu vào: Kích thước ảnh ký tự tối thiểu 120x120 pixel được xác định là phù hợp để đảm bảo độ chính xác nhận dạng trên 90%. Kích thước nhỏ hơn làm giảm đáng kể hiệu quả do mất thông tin đặc trưng.
Ảnh hưởng của kích thước lưới Zoning: Lưới 3x3 cho kết quả cân bằng giữa độ chính xác và tốc độ xử lý, trong khi lưới 4x4 tăng độ chính xác nhưng làm tăng thời gian huấn luyện và nhận dạng. Lưới quá nhỏ không thể hiện đủ đặc trưng, lưới quá lớn dễ bị nhiễu.
Tốc độ huấn luyện và nhận dạng: Việc sử dụng mẫu đại diện và phân cụm giúp giảm đáng kể thời gian huấn luyện K-Mean và SVM, phù hợp với yêu cầu ứng dụng thực tế. Ví dụ, với 495 lớp, số lượng SVM cần huấn luyện giảm từ hơn 124.000 xuống còn khoảng 6.000 khi phân cụm thành 20 cụm.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy mô hình KSVM là một giải pháp hiệu quả cho bài toán nhận dạng chữ Nôm với số lượng lớp lớn và cấu trúc phức tạp. Việc kết hợp phân cụm K-Mean và SVM theo phương pháp OVO giúp khắc phục hạn chế của SVM trong bài toán đa lớp, đồng thời tận dụng ưu điểm của từng thuật toán.

So sánh với các nghiên cứu trước đây về nhận dạng chữ Nôm bằng mạng nơ-ron hoặc phương pháp thống kê, KSVM cho độ chính xác cao hơn đáng kể, đồng thời giảm thời gian huấn luyện. Kết quả này phù hợp với các nghiên cứu về OCR chữ tượng hình như tiếng Trung và Nhật, nơi SVM và phân cụm cũng được áp dụng thành công.

Dữ liệu thực nghiệm được trình bày qua các biểu đồ độ chính xác theo kích thước ảnh và lưới Zoning, bảng so sánh số lượng SVM cần huấn luyện và thời gian thực hiện. Các kết quả này minh chứng cho tính khả thi của mô hình trong ứng dụng thực tế, đặc biệt trong bối cảnh số lượng người biết chữ Nôm ngày càng giảm và nhu cầu số hóa tài liệu tăng cao.

Đề xuất và khuyến nghị

Phát triển bộ dữ liệu mở rộng: Tiếp tục xây dựng và mở rộng bộ dữ liệu chữ Nôm với đa dạng font chữ, kiểu chữ và điều kiện thu thập thực tế như ảnh chụp bia đá, sách cổ để nâng cao khả năng tổng quát của mô hình. Thời gian thực hiện dự kiến 1-2 năm, phối hợp với các viện nghiên cứu văn hóa và thư viện quốc gia.
Tối ưu hóa thuật toán KSVM: Nghiên cứu cải tiến thuật toán phân cụm và nhận dạng, áp dụng các kỹ thuật học sâu kết hợp SVM để tăng độ chính xác và giảm thời gian huấn luyện, đặc biệt với dữ liệu thực tế có nhiễu cao. Chủ thể thực hiện là nhóm nghiên cứu công nghệ thông tin trong 1 năm.
Phát triển ứng dụng di động: Xây dựng ứng dụng nhận dạng chữ Nôm trên thiết bị di động, tích hợp công nghệ OCR để hỗ trợ tra cứu, dịch nghĩa chữ Nôm trực tiếp từ ảnh chụp, phục vụ khảo cổ, du lịch và giáo dục. Thời gian triển khai 1 năm, phối hợp với các công ty phần mềm.
Tăng cường đào tạo và phổ biến: Tổ chức các khóa đào tạo, hội thảo về chữ Nôm và công nghệ nhận dạng chữ Nôm cho các nhà nghiên cứu, sinh viên và cộng đồng để nâng cao nhận thức và kỹ năng sử dụng công nghệ mới. Chủ thể là các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu ngôn ngữ học và văn hóa: Luận văn cung cấp cơ sở dữ liệu và công cụ nhận dạng chữ Nôm, hỗ trợ nghiên cứu lịch sử, văn hóa, dịch thuật và bảo tồn di sản văn hóa.
Chuyên gia công nghệ thông tin và trí tuệ nhân tạo: Tài liệu chi tiết về ứng dụng SVM, phân cụm K-Mean trong bài toán nhận dạng đa lớp phức tạp, có thể áp dụng cho các bài toán tương tự trong xử lý ảnh và nhận dạng mẫu.
Nhà quản lý di sản và bảo tồn: Cung cấp giải pháp công nghệ để số hóa, lưu trữ và khai thác tài liệu chữ Nôm, phục vụ công tác bảo tồn và phát huy giá trị di sản văn hóa.
Phát triển phần mềm và ứng dụng di động: Thông tin về mô hình nhận dạng chữ Nôm giúp phát triển các ứng dụng hỗ trợ tra cứu, dịch thuật chữ Nôm trên nền tảng số, đáp ứng nhu cầu thực tế của người dùng.

Câu hỏi thường gặp

Tại sao cần xây dựng bộ nhận dạng chữ Nôm riêng biệt mà không dùng OCR chữ Hán?
Chữ Nôm có cấu trúc phức tạp hơn chữ Hán, nhiều ký tự tự tạo không có trong chữ Hán, do đó các OCR chữ Hán không thể nhận dạng chính xác chữ Nôm. Việc xây dựng bộ nhận dạng riêng giúp xử lý đặc thù và nâng cao độ chính xác.
Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) có ưu điểm gì?
Zoning đơn giản, hiệu quả trong việc biểu diễn phân bố điểm ảnh đen trong ảnh ký tự, giúp giảm chiều dữ liệu và tăng khả năng phân biệt giữa các ký tự phức tạp như chữ Nôm.
Làm thế nào để giải quyết bài toán phân lớp đa lớp với số lượng lớp lớn?
Sử dụng phương pháp one-versus-one (OVO) kết hợp phân cụm K-Mean để chia nhỏ bài toán thành các bài toán phân lớp nhị phân, giảm độ phức tạp và tăng độ chính xác nhận dạng.
Bộ dữ liệu NOM-DB0 được xây dựng như thế nào?
NOM-DB0 gồm 495 ký tự chữ Nôm phổ biến trong truyện Kiều, mỗi ký tự có 24 mẫu ảnh được tạo từ 3 font chữ và 4 kiểu chữ, thu thập qua nhiều chế độ scan khác nhau, chuẩn hóa kích thước và tách ký tự rời rạc.
Ứng dụng thực tế của bộ nhận dạng chữ Nôm là gì?
Bộ nhận dạng giúp số hóa tài liệu chữ Nôm, hỗ trợ tra cứu, dịch thuật, bảo tồn di sản văn hóa, phát triển ứng dụng di động phục vụ khảo cổ, du lịch và giáo dục.

Kết luận

Luận văn đã xây dựng thành công mô hình nhận dạng chữ Nôm KSVM kết hợp phân cụm K-Mean và SVM theo phương pháp OVO, đạt độ chính xác trên 90% trên bộ dữ liệu NOM-DB0.
Phương pháp trích chọn đặc trưng trọng số vùng (Zoning) với lưới 3x3 được xác định là phù hợp nhất cho bài toán nhận dạng chữ Nôm.
Bộ dữ liệu NOM-DB0 được xây dựng bài bản, chuẩn hóa, làm nền tảng cho các nghiên cứu và ứng dụng tiếp theo.
Nghiên cứu mở ra hướng phát triển các ứng dụng OCR chữ Nôm trên thiết bị di động, góp phần bảo tồn và phát huy giá trị văn hóa truyền thống.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu thuật toán, phát triển ứng dụng thực tế và đào tạo phổ biến công nghệ.

Mời các nhà nghiên cứu và chuyên gia quan tâm tiếp tục khai thác và phát triển công nghệ nhận dạng chữ Nôm để bảo tồn di sản văn hóa Việt Nam một cách hiệu quả và bền vững.

Trích đoạn nội dung tài liệu

chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác. Tiếp đó, trong chương 2, những nội dung về bài toán nhận dạng chữ Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và OCR dành cho chữ tượng hình về phương diện kết quả đạt được, mô hình và các giải thuật cần được tiếp tục nghiên cứu. Trong chương 3, chúng tôi tập trung tìm hiểu ý tưởng của SVM và đi sâu làm rõ nội dung liên quan nhiều đến luận văn là áp dụng SVM cho bài toán phân đa lớp, vốn là một trong những chủ để đang được quan tâm nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn. Trên cơ sở những kiến thức có được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán nhận dạng chữ Nôm do tác giả đề xuất.

Để thực hiện đánh giá hiệu quả của KSVM, trong chương 5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá KSVM. Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn tiến z hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến phần mềm tách chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá. TỔNG QUAN CHỮ NÔM 1. Lịch sử và một số đặc điểmcủa chữ Nôm Sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần đầu tiên thành chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý.000 năm sau đó, từ thế kỷ 10 cho đến thế kỷ 20, một phần lớn các tài liệu văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và hành chính được viết bằng chữ Nôm.

Suốt 24 năm (từ 1788 đến 1802) dưới triều đại nhà Tây Sơn, toàn bộ các văn kiện hành chính được viết bằng chữ Nôm. Nói cách khác, chữ Nôm là công cụ duy nhất hoàn toàn Việt Nam ghi lại lịch sử văn hoá của dân tộc trong khoảng 10 thế kỷ. Chữ Nôm là loại văn tự được người Việt sáng tạo ra trên cơ sở một loại văn tự khác, đó là chữ Hán, nhằm mục đích để ghi tiếng nói của người Việt.Chữ “Nôm‖có nghĩa là ―Nam‖, ý chỉ chữ của người Nam Việt. Trước khi chữ Nôm ra đời, chúng ta mượn chữ Hán để ghi lại âm tiếng Việt.

Tiếng Hán chỉ có 4 thanh, tiếng việt có 6 thanh, do đó việc đơn thuần mượn chữ Hán không đủ để phản ánh hết các thanh của tiếng Việt. Ví dụ các âm như: eo, ăn, ươi, on… Do đó, yêu cầu tất yếu cần bổ sung một hệ thống chữ để đáp ứng các yêu cầu ghi âm trong các hoạt động thi cử, văn hóa, pháp luật, xã hội…. Mặc dù được phát triển trong thời gian dài đến tận thế kỷ XX, song chữ Nôm không hoạt động độc lập mà được sử dụng đồng thời với những kiểu văn tự khác có trong cộng đồng người Việt, đặc biệt là chữ Hán. Chữ Nôm hình thành trên cơ sở mượn chữ Hán, do đó mang trong mình những đặc điểm của chữ Hán và cũng có những đặc trưng riêng, có thể khái quát cơ bản những đặc điểm như sau: - Về mặt hình thức, chữ Nôm là một loại văn tự khối vuông tương tự như chữ Hán.

Đây là loại văn tự mà mỗi chữ là một chỉnh thể vừa thể hiện và được phát âm như một âm tiết hoàn chỉnh, đồng thời bao giờ mỗi chữ như thế cũng có "nghĩa" xác định. Mặc dù về mặt hình thức, mỗi chữ khối vuông (chữ Hán, chữ Nôm) là một chỉnh thể hoàn chỉnh bao gồm nhiều nét kí hiệu được coi là kí hiệu gốc, trong đó có thể có những nét kí hiệu biểu âm, nhưng hầu như chúng chưa được nhiều người coi là loại chữ thuần tuý ghi âm. - Về mặt cấu trúc bên trong, khi phân tích loại chữ khối vuông này, người nghiên cứu vẫn có thể nhận ra rằng, về đại thể, mỗi một chữ thường có hai bộ phận hợp thành: bộ phận thể hiện ý nghĩa (còn gọi là nghĩa phù) và bộ phận thể hiện âm thanh (còn gọi là thanh phù). Chúng tôi nói về đại thể là vì trong thực tế không phải chữ Nôm nào cũng tuân thủ điều đó mà có những chữ chỉ có thanh phù hoặc chỉ có nghĩa phù.Và điều quan trọng là tính "cố định" của những yếu tố đó mang tính tương đối, nó phụ thuộc vào thời gian lịch sử, vào tính địa phương và đôi khi phụ thuộc vào cá nhân người sử dụng chữ viết.

Một vài ví dụ sau đây cho thấy những đặc điểm cấu tạo ấy của chữ: Chữ máy ("máy móc") gồm có mộc (ý) + mãi (âm) z may ("may vá") y (ý) mai (âm) sông ("sông ngòi") thuỷ (ý) long (âm) Vấn đề hoàn toàn rõ ràng rằng chữ Nôm là một loại văn tự được xây dựng trên cơ sở chữ Hán, thậm chí từ chất liệu (các yếu tố cấu tạo là nghĩa phù và âm phù) cho đến phương thức cấu tạo. Nhưng điều quan trọng đối với chúng ta là chất liệu Hán ở đây là chất liệu Hán Việt. Tính Hán Việt biểu hiện rõ nét nhất là âm đọc của thứ văn tự này là âm Hán Việt, hay nói một cách khác là âm đọc chữ Hán của người Việt chứ không phải âm đọc chữ Hán theo kiểu người Hán. Có lẽ chính nhờ đặc điểm quan trọng này mà chữ Nôm mới là thứ chữ ghi lại được tiếng nói của dân tộc ta ở vào thời kì tiếng Việt chưa có thứ chữ ghi âm.

Như vậy, với những đặc điểm cơ bản như đã trình bày ở trên của chữ Nôm, chúng ta nhận thấy rõ ràng đó là một thứ chữ của người Việt dùng để biểu thị chuỗi lời nói của tiếng Việt trong giai đoạn trước đây. Để làm được điều đó, như rất nhiều công trình nghiên cứu về chữ Nôm đã xác nhận, nó cần phải có một điều kiện tiên quyết là cách đọc chữ Hán của người Việt mà chúng ta quen gọi là cách đọc Hán Việt (hay âm Hán Việt). Đặc điểm ngôn ngữ ấy đến lượt nó sẽ quy định thời điểm xuất hiện của chữ Nôm trong lịch sử tiếng Việt. Cấu tạo chữ Nôm Hiện chưa có thống kê đầy đủ về các hình thức cấu tạo của chữ Nôm, trước đây có một số ý kiến cho rằng chữ Nôm là chữ bình dân nên không có quy tắc rõ ràng, chặt chẽ nhưng điều này không đúng sau nhiều nghiên cứu thống kê cho thấy chữ Nôm có quy tắc cấu tạo, hợp thành.

Theo [27] thì chữ Nôm gồm 3 loại: Chữ Nôm mượn nguyên dạng chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp một chữ Hán và một chữ Nôm. Chữ Nôm mượn nguyên dạng chữ Hán. Trong nhóm này, xét về mặt hình thì một chữ Nôm tương tự một chữ Hán, song có thể chia thành nhiều nhóm con do có thể khác nhau về âm đọc hoặc ý nghĩa. Kết quả thể thống kê sơ bộ trong Bảng 1.

Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán STT Hình thức Ví dụ Đồng âm và đồng nghĩa với 頭 đầu ; 袄 áo 1 chữ Hán Đồng nghĩa nhưng khác âm Chữ 外 có âm Hán Việt “ngoại” và âm Nôm “ngoài” 2 theo nhiều mức độ: khác ít, Chữ 捲 quyển = cuốn, Nôm đọc cuốn khác nhiều và khác hẳn Chữ 味 vị = mùi, Nôm đọc mùi 3 Đồng âm nhưng khác nghĩa Chữ 沒 một = mất, Nôm đọc một = số 1; 1. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán Theo nguyên tắc này, mỗi chữ Nôm gồm có hai thành tố: một thành tố chỉ ý nghĩa và một thành tố chỉ âm đọc, âm đọc phải thật đúng hay gần đúng chữ dùng để chỉ âm. - 𠀧 ba (số 3) = (phần chỉ âm 巴 (ba)) + (phần chỉ nghĩa 三 (tam = ba)); - ㈒ tay = (phần chỉ nghĩa 手 (thủ = tay)) + (phần chỉ âm 西 (tây)); z - 嚂trăm (số 100) = (phần chỉ nghĩa 百(bách = trăm)) + (phần chỉ âm 林 (lâm)) - 𣎃tháng = nguyệt 月 (biểu ý) + thượng 尚 (biểu âm) - 眜mắt = mục 目 (biểu ý) + mạt 末 (biểu âm) - 𡗶trời= thượng 上 (biểu ý) + thiên 天 (biểu âm) - 𠄼năm (5) = ngũ (五 biểu ý) + nam (南 biểu âm) - 𢆥năm (năm tháng) = niên (年 biểu ý) + nam (南 biểu âm) Những ví dụ trên cho ta kết luận về vị trí của phần chỉ nghĩa thay đổi, không cố định có thể.Trong một số trường hợp người ta sử dụng phần chỉ nghĩa là một bộ thủ, các bộ thủ thường gặp trong cấu tạo chữ Nôm là: 亠﹐刂﹐イ﹐厂﹐广﹐氵, 忄﹐辶﹐土﹐寸﹐口﹐巾﹐山﹐犭﹐子﹐小﹐女﹐礻﹐灬﹐木﹐艹﹐日﹐月﹐牛﹐毛 ﹐片﹐牙﹐疒﹐瓦﹐石﹐衤﹐白﹐目﹐皮﹐田﹐米﹐耳﹐竹﹐舟﹐羽﹐雨﹐色﹐耒﹐ 糸﹐貝﹐走﹐足﹐車﹐角﹐酉﹐金﹐風﹐食﹐髟﹐馬﹐魚﹐赤. Một số bộ thủ dùng trong chữ Nôm STT Bộ thủ Ví dụ 1 人 hoặc 亻(nhân / nhơn ) 佈 = người tớ già 2 冫 (băng ) mát ಭ = hơi lành lạnh 3 口 (khẩu) 㗂 tiếng = âm thanh phát ra 4 女 nữ 媽 mợ = vợ của cậu 5 心 hoặc 忄tâm 慳 ghen = đố kỵ 6 扌hoặc 手 thủ = tay 扲 cầm = giữ bằng tay 7 日 nhật / nhựt 㡥 lúc = buổi, hồi, thời 8 木 mộc = cây 槾 mận 9 火 hoả = lửa 䤋cháy Qua các ví dụ trên ta cũng nhận thấy, vị trí bộ thủ thay đổi ở nhiều vị trí, lúc thì ở bên trái (như 呐, nói), ở trên (như 摊, nong).Và quy tắc kết hợp ý và thanh cũng nhiều trường hợp ngoại lệ là cả hai đều chỉ ý nghĩa.

Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm Ví dụ như chữ “ 羆mành = màn để che” viết đúng là “ cân 巾(ý) + manh 萌 (âm)” nhưng phần chỉ ý bị bỏ sót chỉ còn có phần chỉ âm 萌. Tóm lại, chữ Nôm được tạo trên cơ sở chữ Hán, nhưng có nhiều sự thay đổi phù hợp để thể hiện âm và nghĩa. Do trong suốt quá trình hình thành và phát triển chưa có một lần nào được chuẩn hóa nên các hình thức thể hiện sự tạo chữ Nôm rất phong phú và đa dạng. Theo [6] thì theo tiến trình phát triển của lịch sử, càng vềsaucáctácphẩmviết bằngchữNômcàngcóxuthế tăng dầnloạichữ tự tạovà giảm dầnloạichữnômvay mượnchữHán.

Dựavàothànhquảnghiên cứu củanhững người đitrước, Bộmôn Hán Nôm - Khoa VăntrườngĐại họcTổngHợp HàNội (nay là TrườngĐH Khoa học xã hội nhân văn quốc gia) đã đưara bảngthống kê, tỷlệ chữ Nôm vay z mượn chữ Hán các thời kỳnhư Bảng 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về nhận dạng chữ Nôm sử dụng máy học SVM" của PGS.TS Nguyễn Ngọc Bình tại Đại học Quốc gia Hà Nội, năm 2013, tập trung vào việc áp dụng máy vectơ hỗ trợ (SVM) để nhận dạng chữ Nôm, một loại chữ viết cổ truyền của Việt Nam. Luận văn không chỉ cung cấp cái nhìn sâu sắc về công nghệ máy học mà còn mở ra hướng đi mới trong việc bảo tồn và phát triển văn hóa dân tộc thông qua việc số hóa chữ Nôm. Độc giả sẽ tìm thấy những lợi ích từ việc hiểu rõ hơn về ứng dụng của SVM trong nhận dạng văn bản, cũng như tầm quan trọng của việc bảo tồn di sản văn hóa.

Nếu bạn quan tâm đến các chủ đề liên quan đến công nghệ thông tin và ứng dụng máy học, hãy khám phá thêm về ứng dụng học máy trong sửa lỗi tự động bảo mật, nơi mà máy học được áp dụng để cải thiện an ninh thông tin. Bên cạnh đó, bạn cũng có thể tìm hiểu về các tấn công tích cực lên hệ thống thông tin di động 5G, một lĩnh vực đang thu hút sự chú ý trong công nghệ hiện đại. Cuối cùng, bài viết về tự động hóa và sửa lỗi cho các lỗi biến thể trong dòng sản phẩm phần mềm cũng sẽ mang đến cho bạn cái nhìn sâu sắc về cách công nghệ có thể cải thiện quy trình phát triển phần mềm. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của công nghệ trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#trí tuệ nhân tạo

#công nghệ nhận dạng

#nhận dạng chữ Nôm

#máy học SVM

#nhận diện ký tự

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực AI

Ngôn ngữ và văn hóa Việt Nam

Công nghệ nhận dạng ký tự

Máy học và ứng dụng