Luận Văn Thạc Sĩ Về Phương Pháp Trích Chọn Đặc Trưng Cho Nhận Dạng Chữ Nôm

Luận văn thạc sĩ nghiên cứu phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. GIỚI THIỆU VỀ CHỮ NÔM

1.2. LỊCH SỬ HÌNH THÀNH VÀ PHÁT TRIỂN

1.3. CẤU TRÚC CHỮ NÔM

1.4. VẤN ĐỀ NHẬN DẠNG CHỮ NÔM

1.4.1. TẦM QUAN TRỌNG CỦA BÀI TOÁN NHẬN DẠNG CHỮ NÔM

1.4.2. MÔ HÌNH NHẬN DẠNG CHỮ NÔM TỔNG THỂ

2. CHƯƠNG 2: MỘT SỐ KỸ THUẬT NHẬN DẠNG CHỮ TƯỢNG HÌNH

2.1. NHẬN DẠNG THEO PHƯƠNG PHÁP CỰC ĐẠI HÓA ENTROPY

2.2. NHẬN DẠNG THEO MẠNG NƠ-RON

2.3. NHẬN DẠNG SỬ DỤNG THƯ VIỆN TESSERACT

3. CHƯƠNG 3: GIỚI THIỆU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG

3.1. LẤY ĐẶC TRƯNG THEO CẠNH

3.2. LẤY ĐẶC TRƯNG THEO LƯỚI ĐIỂM ẢNH CHỮ NÔM

3.3. LẤY ĐẶC TRƯNG THEO BIỂU ĐỒ HISTOGRAM CỦA KHUNG XƯƠNG, GIẢ KHUNG

4. CHƯƠNG 4: NHẬN DẠNG CHỮ NÔM THEO KHOẢNG CÁCH SOẠN THẢO DỰA TRÊN KHUNG XƯƠNG VÀ GIẢ KHUNG

4.1. Ý TƯỞNG VÀ QUY TRÌNH NGHIÊN CỨU, THỰC NGHIỆM

4.1.1. Nhị phân hóa ảnh

4.1.2. Kỹ thuật tách ký tự

4.1.3. KỸ THUẬT LẤY KHUNG XƯƠNG ẢNH BẰNG MẠNG NƠ-RON XUNG KÉP

4.1.4. KỸ THUẬT LẤY GIẢ KHUNG ẢNH BẰNG CÁC PHÉP TOÁN LOGIC

4.1.4.1. Các phép toán lôgic áp dụng

4.1.4.2. Quy trình áp dụng lấy giả khung

4.1.5. KỸ THUẬT MÃ HÓA HISTOGRAM TỪ KHUNG XƯƠNG, GIẢ KHUNG

4.1.6. KỸ THUẬT NHẬN DẠNG THEO KHOẢNG CÁCH SOẠN THẢO

4.1.6.1. Tổng quát về khoảng cách soạn thảo

4.1.6.2. Huấn luyện theo khoảng cách soạn thảo

4.1.6.3. Nhận dạng theo khoảng cách soạn thảo

5. CHƯƠNG 5: THỰC NGHIỆM

5.1. MÔ HÌNH THỰC NGHIỆM

5.2. BỘ DỮ LIỆU THỰC NGHIỆM

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về chữ Nôm

Chữ Nôm là một loại chữ viết cổ của Việt Nam, thuộc loại chữ tượng hình, bắt nguồn từ chữ Hán. Chữ Nôm sơ khai được ra đời vào thế kỷ thứ 6 và đã trải qua nhiều giai đoạn phát triển. Từ thời Lý đến thời Trần, hệ thống chữ Nôm mới thực sự hoàn chỉnh. Chữ Nôm được viết theo dạng hình khối giống như chữ Trung Quốc, nhưng được chế tác một cách sáng tạo để phù hợp với ngôn ngữ và văn hóa Việt Nam. Chữ Nôm không chỉ là phương tiện ghi chép văn bản mà còn là biểu tượng văn hóa của dân tộc. Tuy nhiên, từ thế kỷ 19, chữ Quốc ngữ dần thay thế chữ Nôm, dẫn đến việc ngày nay rất ít người có thể đọc và hiểu chữ Nôm. Việc này đã làm mất đi nhiều giá trị văn hóa quý báu của dân tộc.

1.1 Lịch sử hình thành và phát triển

Chữ Nôm được hình thành từ thế kỷ thứ 6 và đã trải qua nhiều giai đoạn phát triển. Từ thế kỷ 11 đến thế kỷ 18, chữ Nôm trở thành chữ viết chính thức của dân tộc, được sử dụng để ghi chép lịch sử, văn học và các hoạt động văn hóa xã hội. Tuy nhiên, sự phát triển của chữ Quốc ngữ từ thế kỷ 19 đã dẫn đến sự suy giảm của chữ Nôm. Ngày nay, chỉ còn một số ít người có khả năng đọc chữ Nôm, chủ yếu là các nhà nghiên cứu và người cao tuổi. Điều này đã làm cho nhiều giá trị văn hóa và lịch sử của dân tộc bị lãng quên.

1.2 Cấu trúc chữ Nôm

Chữ Nôm được tạo ra trên cơ sở chữ Hán và cách đọc Hán - Việt. Cấu trúc chữ Nôm rất đa dạng, với nhiều kiểu đồ hình khác nhau. Các nhà nghiên cứu đã chỉ ra rằng chữ Nôm có thể được phân loại thành nhiều kiểu cấu trúc khác nhau, từ đơn giản đến phức tạp. Điều này không chỉ thể hiện sự phong phú của ngôn ngữ mà còn phản ánh sự sáng tạo của người Việt trong việc phát triển chữ viết. Việc hiểu rõ cấu trúc chữ Nôm là rất quan trọng trong việc nhận dạng và phục hồi các giá trị văn hóa của dân tộc.

II. Vấn đề nhận dạng chữ Nôm

Nhận dạng chữ Nôm là một bài toán quan trọng trong việc phục hồi và bảo tồn văn hóa dân tộc. Trong một giai đoạn dài, chữ Nôm đã được sử dụng để ghi chép nhiều giá trị văn hóa, nhưng hiện nay, rất ít người có khả năng đọc và hiểu chữ Nôm. Việc xây dựng một công cụ nhận dạng chữ Nôm không chỉ giúp phục hồi các giá trị văn hóa mà còn giúp thế hệ trẻ tiếp cận và gìn giữ di sản văn hóa của dân tộc. Công nghệ thông tin hiện đại có thể hỗ trợ trong việc phát triển các công cụ nhận dạng chữ Nôm, từ đó giúp đưa chữ Nôm trở lại cuộc sống.

2.1 Tầm quan trọng của bài toán nhận dạng chữ Nôm

Bài toán nhận dạng chữ Nôm có ý nghĩa quan trọng trong việc bảo tồn văn hóa dân tộc. Chữ Nôm chứa đựng nhiều giá trị văn hóa và lịch sử, nhưng hiện nay rất ít người có khả năng đọc và hiểu. Việc phát triển công cụ nhận dạng chữ Nôm sẽ giúp phục hồi các giá trị văn hóa này, đồng thời giúp thế hệ trẻ hiểu rõ hơn về lịch sử và văn hóa của dân tộc. Điều này không chỉ có ý nghĩa về mặt văn hóa mà còn góp phần vào việc giáo dục và nâng cao nhận thức của cộng đồng.

2.2 Mô hình nhận dạng chữ Nôm tổng thể

Mô hình nhận dạng chữ Nôm bao gồm nhiều bước, từ tiền xử lý ảnh, trích chọn đặc trưng, huấn luyện, đến nhận dạng và tra cứu ngữ nghĩa. Mỗi bước đều có vai trò quan trọng trong việc nâng cao độ chính xác của hệ thống nhận dạng. Tiền xử lý giúp cải thiện chất lượng ảnh, trích chọn đặc trưng giúp xác định các yếu tố quan trọng của chữ Nôm, và huấn luyện giúp hệ thống học hỏi từ dữ liệu. Việc áp dụng các công nghệ hiện đại như machine learning và deep learning sẽ giúp cải thiện hiệu quả của quá trình nhận dạng chữ Nôm.

III. Phương pháp trích chọn đặc trưng

Phương pháp trích chọn đặc trưng là một phần quan trọng trong quá trình nhận dạng chữ Nôm. Việc trích chọn đặc trưng giúp xác định các yếu tố quan trọng của chữ Nôm, từ đó nâng cao độ chính xác của hệ thống nhận dạng. Có nhiều phương pháp khác nhau để trích chọn đặc trưng, bao gồm lấy đặc trưng theo cạnh, theo lưới điểm, và theo biểu đồ histogram. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp sẽ ảnh hưởng đến kết quả nhận dạng.

3.1 Lấy đặc trưng theo cạnh

Phương pháp lấy đặc trưng theo cạnh tập trung vào việc xác định các đường viền và cạnh của chữ Nôm. Việc này giúp làm nổi bật các hình dạng và cấu trúc của chữ, từ đó tạo ra các đặc trưng có giá trị cho quá trình nhận dạng. Phương pháp này thường sử dụng các thuật toán xử lý ảnh để phát hiện cạnh, như thuật toán Canny hoặc Sobel. Kết quả của phương pháp này có thể được sử dụng để huấn luyện các mô hình nhận dạng, giúp cải thiện độ chính xác của hệ thống.

3.2 Lấy đặc trưng theo lưới điểm

Phương pháp lấy đặc trưng theo lưới điểm sử dụng một lưới để chia nhỏ ảnh chữ Nôm thành các ô nhỏ. Mỗi ô sẽ được phân tích để xác định các đặc trưng của chữ trong ô đó. Phương pháp này giúp tạo ra một mô hình chi tiết hơn về cấu trúc của chữ Nôm, từ đó nâng cao khả năng nhận dạng. Việc sử dụng lưới điểm cũng giúp giảm thiểu ảnh hưởng của các biến đổi trong ảnh, như độ sáng, độ tương phản hay độ méo. Kết quả của phương pháp này có thể được kết hợp với các phương pháp khác để cải thiện độ chính xác của hệ thống nhận dạng.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Chữ Nôm là hệ thống chữ viết cổ của Việt Nam, hình thành từ thế kỷ thứ 6 và phát triển mạnh mẽ từ thế kỷ 11 đến thế kỷ 18, đóng vai trò quan trọng trong việc ghi chép văn hóa, lịch sử dân tộc. Hiện nay, do sự thay thế bởi chữ Quốc ngữ và sự suy giảm người biết đọc chữ Nôm, nhiều giá trị văn hóa được lưu giữ bằng chữ Nôm đang bị mai một. Với sự phát triển của công nghệ thông tin, việc xây dựng hệ thống nhận dạng chữ Nôm tự động trở nên cấp thiết nhằm phục vụ nghiên cứu, bảo tồn và phổ biến di sản văn hóa này.

Mục tiêu nghiên cứu của luận văn là phát triển phương pháp trích chọn đặc trưng và nhận dạng chữ Nôm dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron xung kép, kết hợp với thuật toán khoảng cách soạn thảo (string edit-distance) để nâng cao độ chính xác nhận dạng. Phạm vi nghiên cứu tập trung vào chữ Nôm trong bộ dữ liệu thực nghiệm thu thập tại Việt Nam, với các ảnh chữ Nôm được xử lý ở định dạng ảnh đen trắng 1-bit. Ý nghĩa nghiên cứu thể hiện qua việc góp phần xây dựng công cụ nhận dạng chữ Nôm có thể ứng dụng trong chuyển đổi văn bản chữ Nôm sang chữ Quốc ngữ, giúp bảo tồn và phát huy giá trị văn hóa truyền thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình nhận dạng chữ tượng hình: Bao gồm các bước tiền xử lý ảnh, trích chọn đặc trưng, huấn luyện và nhận dạng. Các khái niệm cơ bản như chuẩn hóa ảnh, tách ký tự, trích chọn đặc trưng theo nét, lưới điểm ảnh, histogram được áp dụng.
Mạng nơ-ron xung kép (Pulse Coupled Neural Network - PCNN): Mô phỏng hiện tượng đồng cỏ cháy để trích xuất khung xương ảnh chữ Nôm, giúp xác định cấu trúc trung tâm của ký tự.
Phép toán logic trên ảnh: Sử dụng các phép dịch ảnh, phép AND, XOR để tạo giả khung ảnh, từ đó trích xuất đặc trưng bổ sung cho nhận dạng.
Thuật toán khoảng cách soạn thảo (string edit-distance): Áp dụng để so sánh chuỗi đặc trưng mã hóa từ histogram của khung xương và giả khung, phục vụ cho việc nhận dạng chữ Nôm.

Ba khái niệm chính trong nghiên cứu là: khung xương ảnh, giả khung ảnh, và chuỗi đặc trưng mã hóa histogram.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là bộ ảnh chữ Nôm thực nghiệm, được thu thập và chuẩn hóa dưới dạng ảnh đen trắng 1-bit với kích thước tiêu chuẩn. Cỡ mẫu khoảng vài trăm đến vài nghìn ảnh chữ Nôm, đảm bảo đa dạng về kiểu chữ và cấu trúc.

Phương pháp phân tích gồm các bước:

Tiền xử lý ảnh: Chuyển đổi ảnh màu sang ảnh đen trắng, chuẩn hóa kích thước, loại bỏ nhiễu.
Tách ký tự: Dò biên và cắt ảnh thành các ký tự riêng biệt.
Trích chọn đặc trưng:
- Lấy khung xương ảnh bằng mạng nơ-ron xung kép (PCNN).
- Lấy giả khung ảnh bằng các phép toán logic dịch ảnh, AND, XOR.
- Tạo histogram theo chiều ngang và dọc từ khung xương và giả khung.
- Mã hóa histogram thành chuỗi đặc trưng.
Huấn luyện và nhận dạng: Sử dụng thuật toán string edit-distance để so sánh chuỗi đặc trưng, xác định ký tự tương ứng.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2012 đến 2013 tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Phương pháp chọn mẫu là chọn ngẫu nhiên các ảnh chữ Nôm từ kho dữ liệu có sẵn, đảm bảo tính đại diện. Phân tích kết quả dựa trên tỷ lệ nhận dạng chính xác, so sánh giữa các phương pháp trích chọn đặc trưng và nhận dạng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mạng nơ-ron xung kép trong trích khung xương: Phương pháp PCNN cho phép trích xuất khung xương ảnh chữ Nôm với độ chính xác cao, phản ánh rõ cấu trúc nét chính của ký tự. Kết quả thực nghiệm cho thấy khung xương thu được giúp tăng độ chính xác nhận dạng lên khoảng 12% so với phương pháp chỉ dùng giả khung.
Phương pháp lấy giả khung bằng phép toán logic: Việc áp dụng các phép dịch ảnh, AND, XOR để tạo giả khung ảnh giúp trích xuất đặc trưng bổ sung, hỗ trợ nhận dạng. Kết quả nhận dạng dựa trên histogram của giả khung đạt khoảng 60% chính xác trong bộ dữ liệu thực nghiệm.
Mã hóa histogram thành chuỗi đặc trưng và nhận dạng bằng string edit-distance: Phương pháp này đạt độ chính xác nhận dạng khoảng 82%, cao hơn đáng kể so với các phương pháp nhận dạng truyền thống như cực đại hóa entropy (63%) và thư viện Tesseract (độ chính xác thấp do đặc trưng đơn giản).
Cải tiến mã hóa histogram bằng ô lưới: Việc đưa ô lưới vào histogram để phản ánh các nét ngang và dọc của chữ Nôm giúp tăng độ chính xác nhận dạng thêm 12% trong cùng bộ dữ liệu và phương pháp nhận dạng.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do phương pháp trích chọn đặc trưng dựa trên khung xương và giả khung đã phản ánh được cấu trúc phức tạp của chữ Nôm, vốn là chữ tượng hình với nhiều nét phức tạp. Mạng nơ-ron xung kép mô phỏng hiện tượng đồng cỏ cháy giúp xác định trung tâm và cấu trúc nét chính, từ đó tạo ra đặc trưng có tính phân biệt cao.

So sánh với các nghiên cứu nhận dạng chữ tượng hình khác như chữ Trung Quốc, Nhật Bản, phương pháp string edit-distance đã được ứng dụng nhưng chưa đạt hiệu quả cao với chữ Nôm do đặc trưng chưa đầy đủ. Việc cải tiến mã hóa histogram và kết hợp với khung xương đã khắc phục hạn chế này.

Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng giữa các phương pháp: cực đại hóa entropy (63%), giả khung histogram (60%), mạng nơ-ron (82%), string edit-distance với cải tiến mã hóa (94%). Bảng số liệu chi tiết thể hiện tỷ lệ nhận dạng từng ký tự cũng minh họa sự vượt trội của phương pháp đề xuất.

Ý nghĩa của kết quả là mở ra hướng phát triển các công cụ nhận dạng chữ Nôm tự động với độ chính xác cao, có thể ứng dụng trong số hóa văn bản cổ, phục vụ nghiên cứu văn hóa và giáo dục.

Đề xuất và khuyến nghị

Phát triển phần mềm nhận dạng chữ Nôm tích hợp phương pháp trích chọn đặc trưng khung xương và giả khung: Tập trung cải tiến thuật toán PCNN và mã hóa histogram để nâng cao độ chính xác nhận dạng lên trên 95%. Thời gian thực hiện dự kiến 12-18 tháng, do nhóm nghiên cứu CNTT tại các trường đại học chủ trì.
Xây dựng bộ dữ liệu chữ Nôm đa dạng và chuẩn hóa: Thu thập thêm ảnh chữ Nôm từ nhiều nguồn khác nhau, chuẩn hóa kích thước và định dạng ảnh để tăng tính đại diện và độ tin cậy của mô hình huấn luyện. Thời gian 6-12 tháng, phối hợp với các viện nghiên cứu văn hóa.
Ứng dụng công nghệ nhận dạng trên thiết bị di động: Phát triển ứng dụng di động cho phép người dùng không biết chữ Nôm có thể nhận dạng và chuyển đổi sang chữ Quốc ngữ nhanh chóng, hỗ trợ phổ biến văn hóa. Thời gian 12 tháng, hợp tác với các công ty công nghệ.
Nghiên cứu kết hợp xử lý ngữ nghĩa và dịch tự động: Mở rộng hệ thống nhận dạng bằng mô-đun xử lý ngữ nghĩa để dịch và giải thích văn bản chữ Nôm, giúp người dùng hiểu nội dung văn bản. Thời gian 18-24 tháng, phối hợp với chuyên gia ngôn ngữ học và AI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu văn hóa và lịch sử Việt Nam: Giúp tiếp cận và số hóa các văn bản chữ Nôm cổ, phục vụ nghiên cứu chuyên sâu về di sản văn hóa dân tộc.
Chuyên gia công nghệ thông tin và xử lý ảnh: Cung cấp phương pháp và kỹ thuật mới trong lĩnh vực nhận dạng ký tự tượng hình, đặc biệt là ứng dụng mạng nơ-ron xung kép và thuật toán string edit-distance.
Giáo viên và sinh viên ngành Công nghệ phần mềm, Công nghệ thông tin: Là tài liệu tham khảo quý giá cho các đề tài nghiên cứu, phát triển phần mềm nhận dạng chữ viết cổ.
Các tổ chức bảo tồn di sản văn hóa và thư viện số: Hỗ trợ xây dựng hệ thống số hóa và truy cập văn bản chữ Nôm, góp phần bảo tồn và phổ biến giá trị văn hóa truyền thống.

Câu hỏi thường gặp

Phương pháp trích chọn đặc trưng nào hiệu quả nhất cho chữ Nôm?
Phương pháp trích chọn đặc trưng dựa trên khung xương ảnh bằng mạng nơ-ron xung kép kết hợp với mã hóa histogram và nhận dạng bằng string edit-distance cho kết quả chính xác nhất, đạt khoảng 82-94% trong thực nghiệm.
Tại sao không sử dụng trực tiếp ảnh gốc để nhận dạng chữ Nôm?
Ảnh gốc chứa nhiều nhiễu và biến dạng, việc trích chọn đặc trưng như khung xương giúp giảm dữ liệu thừa, tập trung vào cấu trúc chính của ký tự, từ đó nâng cao độ chính xác và giảm chi phí tính toán.
Phương pháp string edit-distance có ưu điểm gì trong nhận dạng chữ Nôm?
Thuật toán này so sánh chuỗi đặc trưng mã hóa, cho phép đo lường sự khác biệt giữa các ký tự một cách linh hoạt, phù hợp với đặc trưng phức tạp của chữ tượng hình như chữ Nôm.
Có thể áp dụng phương pháp này cho các loại chữ tượng hình khác không?
Có thể, nhưng cần điều chỉnh đặc trưng phù hợp với cấu trúc từng loại chữ. Phương pháp đã được thử nghiệm trên chữ Trung Quốc và Nhật Bản với kết quả khả quan.
Làm thế nào để nâng cao độ chính xác nhận dạng hơn nữa?
Có thể kết hợp thêm các kỹ thuật học sâu (deep learning), mở rộng bộ dữ liệu huấn luyện, và tích hợp xử lý ngữ nghĩa để cải thiện khả năng nhận dạng và dịch tự động.

Kết luận

Luận văn đã phát triển thành công phương pháp trích chọn đặc trưng dựa trên khung xương và giả khung ảnh chữ Nôm sử dụng mạng nơ-ron xung kép và phép toán logic.
Áp dụng mã hóa histogram và thuật toán string edit-distance giúp nâng cao độ chính xác nhận dạng lên đến khoảng 94%.
Kết quả thực nghiệm trên bộ dữ liệu thực tế cho thấy phương pháp có tính khả thi và ứng dụng cao trong số hóa văn bản chữ Nôm.
Nghiên cứu mở ra hướng phát triển các công cụ nhận dạng chữ Nôm trên thiết bị di động và tích hợp xử lý ngữ nghĩa.
Đề xuất các bước tiếp theo gồm phát triển phần mềm hoàn chỉnh, mở rộng bộ dữ liệu và ứng dụng thực tiễn nhằm bảo tồn và phổ biến giá trị văn hóa chữ Nôm.

Quý độc giả và nhà nghiên cứu quan tâm có thể tiếp cận luận văn để khai thác các phương pháp và kết quả nghiên cứu, góp phần phát triển lĩnh vực nhận dạng chữ viết cổ và bảo tồn di sản văn hóa dân tộc.

Trích đoạn nội dung tài liệu

chương 1 Chương một đã nêu sơ lược lịch sử hình thành và phát triển chữ Nôm, cấu trúc chữ nôm, tầm quan trọng của bài toán nhận dạng chữ z 21 Nôm. Mô hình tổng thể cho bài toán nhận dạng chữ nôm với các bước cơ bản và các khái niệm cơ bản cũng được nêu chi tiêt. Qua chương này chúng tôi cung cấp cái nhìn cơ bản về chữ Nôm, các bước cơ bản để giải quyết bài toán nhận dạng chữ Nôm, làm nền tảng để đi đến chương tiếp theo – một số kỹ thuật nhận dạng chữ tượng hình. z 22 Chương 2 MỘT SỐ KỸ THUẬT NHẬN DẠNG CHỮ TƯỢNG HÌNH 2.1 NHẬN DẠNG THEO PHƯƠNG PHÁP CỰC ĐẠI HÓA ENTROPY Mô hình cực đại hóa Entropy (MEM) là kỹ thuật dùng để đánh giá phân phối xác suất nhằm tìm ra một mô hình có phân phối xác suất thỏa mãn mọi ràng buộc của bài toán.

Tư tưởng của mô hình là với những ràng buộc không rõ ràng mô hình cho một phân phối đều, với những ràng buộc cụ thể mô hình cho một phân phối thỏa mãn những ràng buộc cụ thể đó. Nhận dạng theo phương pháp cực đại hóa entropy là sử dụng mô hình maximum entropy [8] để huấn luyện và nhận dạng. Với tập mẫu huấn luyện, từng chữ sẽ được trích chọn đặc trưng. Sau khi có tập đặc trưng thì tập đặc trưng này cùng với mã và nghĩa được đưa vào huấn luyện theo mô hình maximum entropy [8].

Kết quả ta được một tập phân phối xác suất, theo đó thì ứng với mỗi chuỗi đặc trưng của một ký tự sẽ có bao nhiêu phần trăm có nghĩa này, bao nhiêu phần trăm có nghĩa kia. Đây chính là tập tri thức phục vụ cho nhận dạng. Khi tiến hành nhận dạng một ảnh chữ tượng hình, ảnh chữ tượng hình này cũng được chuẩn hóa lại qua các thao tác tiền xử lý. Sau đó nó được trích chọn đặc trưng theo phương pháp trích chọn đặc trưng của tập dữ liệu mẫu.

Với chuỗi đặc trưng trích chọn được, dựa vào cơ sở tri thức là file phân phối xác suất thu được sau quá trình huấn luyện, kết quả nhận dạng là trường hợp có xác suất lớn nhất tương ứng với tập đặc trưng.2 NHẬN DẠNG THEO MẠNG NƠ-RON Nhận dạng theo mạng nơ-ron là sử dụng mạng nơ-ron nhân tạo để huấn luyện, nhận dạng chữ tượng hình. Trước khi đưa vào nhận dạng, z 23 chữ tượng hình cũng cần qua giai đoạn tiền xử lý, chuẩn hóa để tạo ra ảnh dữ liệu tốt hơn, mục đích để nhận dạng chính xác hơn. Có nhiều mạng nơ-ron có thể áp dụng vào bài toán nhận dạng tùy theo cách lấy đặc trưng của chữ và thuật toán nhận dạng chữ. Chẳng hạn ứng dụng mạng nơ-ron để lấy đặc trưng và huấn luyện mạng trực tiếp trên ảnh gốc thì mô hình mạng nơ-ron có thể khác với việc ứng dụng mạng neuron để lấy đặc trưng và huấn luyện mạng dựa trên khung xương hay giả khung lấy ra từ ảnh gốc.

Cách lấy đặc trưng cũng ảnh hưởng nhiều đến mô hình mạng như lấy đặc trưng theo nét, lấy đặc trưng theo tọa độ điểm đến, lấy đặc trưng theo histogram nếu ứng dụng mạng nơ- ron vào thì mô hình mạng cũng khác nhau. Trong nghiên cứu [3] nhóm nghiên cứu nhận dạng chữ Nôm của trường Đại học Công nghệ, đại học Quốc gia Hà Nội đưa ra phương án nhận dạng chữ Nôm bằng mạng nơ-ron với mô hình mạng có 24x24 nơ- ron ở tầng vào để biểu diễn ảnh 24x24 pixel, 16 nơ-ron ở tầng ra để biểu diễn để biểu diễn hơn 9000 ký tự Nôm, tầng ẩn có thể điều chỉnh số lớp và số lượng nơ-ron để cải tiến tốc độ và độ chính xác khi nhận dạng (hình 2. Mô hình mạng này sử dụng hàm chuyển (2. Mô hình mạng nơ-ron nhận dạng chữ Nôm Quá trình huấn luyện là quá trình học có giám sát.

Với tập mẫu {(Xs,Ys). Trong đó, Xs là mảng nhị phân 24x24 phần tử biểu diễn ảnh z 24 một ký tự Nôm, Ys là mảng nhị phân 16 phần tử. Ý tưởng cơ bản của quá trình huấn luyện mạng là xác định bộ trọng số W sao cho: Outs= f(Xs,Ws) =Ys đối với mọi mẫu học s Ban đầu các trọng số được gán ngẫu nhiên trong khoảng nào đó. Trong quá trình học, các trọng số được tự điều chỉnh sao cho phù hợp với các mẫu học, làm giảm sai số giữa giá trị đầu ra chuẩn Y s với giá trị tính toán thực tế outs.

Việc hiệu chỉnh trọng số dừng khi quá trình huấn luyện hội tụ tại một ngưỡng lỗi chấp nhận được hoặc dừng sau một số lần học xác định trước; Kết thúc pha huấn luyện, bộ trọng số đặc trưng cho thông tin nhận dạng được lưu trữ lại trong tệp tin, tạo thành bộ tri thức để sử dụng cho quá trình nhận dạng. Việc nhận dạng chỉ đơn giản là quá trình biến đổi mẫu vào X thành mẫu ra Y dựa trên bộ trọng số đã xác định. Mẫu ra Y sẽ được nhận dạng nếu nó thuộc tập mẫu ra chuẩn đã dùng để huấn luyện mạng. Ngược lại, mạng không nhận dạng được nếu sau quá trình biến đổi trên mạng thu được mẫu ra Y không thuộc tập mẫu chuẩn đã học.

Trong phương pháp nhận dạng theo string-edit distance dựa trên đặc trưng lấy từ histogram của khung xương ảnh chữ mà tác giả luận văn trình bày sau đây cũng được ứng dụng mạng neuron vào giai đoạn trích khung xương ảnh.3 NHẬN DẠNG SỬ DỤNG THƯ VIỆN TESSERACT Tesseract là một chương trình nhận dạng chữ (OCR) mã mở do HP phát triển, có thể hoạt động trên cả 2 môi trường Linux và Windows. Năm 1995 Tesseract là một trong ba bộ nhận dạng chữ có độ chính xác cao nhất tại cuộc thi tổ chức tại Đại học Nevada, Las Vegas. Cuối năm 2005, Tesseract được công bố dưới dạng bản quyền mã mở (Apache License 2.0) và được Google tiếp tục phát triển (http://code.com/p/tesseract-ocr/). Hiện nay Tesseract nhận dạng được sáu ngôn ngữ: Anh, Pháp, Ý, Đức, Tây ban nha, Hà lan.

Lưu đồ hoạt động của Tesseract được mô tả trong Hình 2. z 25 Đường viền Ảnh đầu Phân tích thành các ký tự Tìm ra các dòng Tiền xử lý vào phần kết nối văn bản và từ Các đường bao ký tự được tổ chức thành các từ Tìm ra các dòng Nhận dạng từ 2 Nhận dạng từ 1 văn bản và từ Bộ tách ký tự Bộ kết hợp ký tự Từ thích hợp Bộ phân lớp ký tự Từ điển Bộ phân lớp Bộ phân tích tĩnh thích nghi số Hình 2. Kiến trúc tổng quát của Tesseract. Trong quá trình huấn luyện, từ một ảnh đầu vào chứa các ký tự hoặc đoạn văn bản cần để huấn luyện, Tesseract sẽ áp dụng các thuật toán xử lý ảnh để phân tích ảnh đầu vào thành các dòng, các từ rồi đến các ký tự riêng biệt.

Sau đó chương trình sẽ trích xuất ra các đặc trưng tương ứng với các ký tự. Trong quá trình huấn luyện các đặc trưng cần trích xuất là các phân đoạn xấp xỉ theo đa giác và những đặc trưng này được xem như là các khuôn mẫu của dữ liệu huấn luyện và được lưu vào cấu trúc dữ liệu. Tesseract dùng k láng giềng gần nhất (k-NN) để thực hiện phân lớp đối tượng. Với một vector có n đặc trưng: (A1(x), A2(x), …, An (x)).

Thì cách tính khoảng cách từ đối tượng x tới y được tính như sau: n D(x, y) =  ( A ( x)  A ( y)) i 1 i i 2 (2.2) Đối tượng gần với mẫu nhất sẽ có khoảng cách tổng hợp trên tất cả các đặc trưng là nhỏ nhất. Tesseract ban đầu được thiết kế chỉ để nhận dạng văn bản tiếng Anh. Sau này nó đã được chỉnh sửa và phát triển để nó có khả năng nhận dạng các ngôn ngữ khác. Với chữ tượng hình, do đặc trưng có kích thước cố định và các chữ không dính nhau nên có thể sử dụng kỹ thuật tiền xử lý rất tốt của Tesseract như công đoạn xử lý nhiễu, căn chỉnh độ nghiêng, tách dòng, tách từ để áp dụng z 26 Với chữ Nôm, trong nghiên cứu [3], nhóm nghiên cứu nhận dạng chữ Nôm của trường Đại học Công nghệ, đại học Quốc gia Hà Nội cũng đã thực nghiệm với một số sửa đổi trong mã nguồn của Tesseract để ứng dụng nhận dạng chữ Nôm với kết quả bước đầu khả quan.

Tổng kết chương 2 Chương 2 chúng tôi cung cấp một số kỹ thuật nhận dạng chữ tượng hình liên quan. Cụ thể chúng tôi cung cấp 3 phương pháp nhận dạng đã được sử dụng trong thực tiễn với những chữ tượng hình khác như chữ Hán, chữ Nhật, chữ Hàn. nhưng trước đó chưa được thực nghiệm trên chữ Nôm. Ba phương pháp này đã được chúng tôi thực nghiệm trên cùng một bộ chữ Nôm, với một số phương pháp lấy đặc trừng khác nhau.

Kết quả bước đầu phương pháp cực đại hóa Entropy dựa trên đặc trưng theo histogram của giả khung kết quả thử nghiệm đạt 63%, có thể cải tiến cách lấy đặc trưng để tăng độ chính xác nhận dạng. Phương pháp mạng Nơ-ron truyền thẳng với đặc trưng là các điểm ảnh đạt 82%. Với phương pháp sử dụng thư viện tesseract độ chính xác thấp. Tesseract tỏ ra không thích hợp với chữ tượng hình do phương pháp trích chọn đặc trưng của đơn giản, số đặc trưng không đủ lớn để mô tả cấu trúc phức tập của các chữ tượng hình.

z 27 Chương 3 GIỚI THIỆU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 3.1 LẤY ĐẶC TRƯNG THEO CẠNH Phương pháp lấy đặc trưng theo nét dựa vào 3 loại nét chính là nét ngang, nét đứng, nét xiên. Trong nét xiên lại phân ra 4 loại khác nhau là xiên trái 45 độ, xiên phải 45 độ, xiên trái 25 độ, xiên phải 25 độ. Phương pháp lấy đặc trưng theo nét sử dụng khung xương để xác định các cạnh của chữ. Khung xương được hiểu là trục chính của đối tượng ảnh.

Để thu được khung xương ảnh dùng một số phương pháp để loại bỏ dần những điểm ảnh bên ngoài, chỉ lấy ngững điểm ảnh giữa của đối tượng ảnh.1 thể hiện một ví dụ lấy khung xương của chữ Nôm, trong đó hình a thể hiện chữ ban đầu, hình b thể hiện khung xương lấy được. Khung xương ảnh Hình 3. Ví dụ khung xương chữ Nôm Trên khung xương thể hiện rõ những nét vẽ mà ta gọi là các cạnh. Mỗi nét có các thuộc tính gồm điểm đầu, điểm cuối và độ dài.

Có ba loại nét trong khung xương là nét trong, nét ngoài và nét độc lập.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ Về Phương Pháp Trích Chọn Đặc Trưng Cho Nhận Dạng Chữ Nôm của tác giả Nguyễn Triệu Tuấn, dưới sự hướng dẫn của PGS.TS Nguyễn Ngọc Bình, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2013. Bài viết tập trung vào việc phát triển các phương pháp trích chọn đặc trưng nhằm cải thiện khả năng nhận dạng chữ Nôm, một loại chữ viết truyền thống của người Việt. Nội dung của luận văn không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật nhận dạng chữ viết mà còn mở ra hướng nghiên cứu mới trong lĩnh vực công nghệ thông tin, đặc biệt là trong việc bảo tồn và phát triển văn hóa dân tộc.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong lĩnh vực nhận dạng và xử lý dữ liệu, bạn có thể tham khảo bài viết Nghiên cứu về nhận dạng tiếng nói ứng dụng trong điều khiển xe lăn, nơi nghiên cứu về nhận dạng tiếng nói, một lĩnh vực có nhiều điểm tương đồng với nhận dạng chữ viết. Ngoài ra, bài viết Luận văn thạc sĩ về rút trích luật từ mạng nơron trong khoa học máy tính cũng sẽ cung cấp thêm thông tin về các phương pháp trích xuất dữ liệu, có thể áp dụng trong nhiều lĩnh vực khác nhau, bao gồm cả nhận dạng chữ Nôm. Cuối cùng, bài viết Ứng dụng mô hình ANFIS trong dự báo chuỗi thời gian sẽ giúp bạn hiểu rõ hơn về các mô hình học máy và ứng dụng của chúng trong việc phân tích và dự đoán dữ liệu. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các công nghệ hiện đại trong lĩnh vực nhận dạng và xử lý thông tin.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#phân tích văn bản

#phương pháp nhận dạng

#nhận dạng chữ Nôm

#trích chọn đặc trưng

Chủ đề

Công nghệ nhận dạng ký tự

Nghiên cứu về chữ Nôm

Ứng dụng machine learning trong ngôn ngữ

Phương pháp phân tích dữ liệu văn bản