Nghiên cứu nhận dạng chữ Ba Na trên văn bản hình ảnh

Luận văn thạc sĩ nghiên cứu nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Trường Đại Học Thủ Dầu Một

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU

1.1. Giới thiệu đề tài

1.2. Mục tiêu và phạm vi đề tài

1.2.1. Mục tiêu nghiên cứu

1.2.2. Phạm vi nghiên cứu

1.3. Tính ứng dụng của đề tài

1.4. Các công trình nghiên cứu liên quan

1.5. Thách thức của bài toán

1.6. Phương pháp nghiên cứu

1.7. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Đôi nét về người Ba Na

2.2. Ngôn ngữ chữ BaNa

2.3. Tổng quan về Tesseract

2.4. Tiền xử lý hình ảnh

2.5. Thư viện Tesseract

2.6. Cách Tesseract hoạt động

2.7. Hạn chế của Tesseract

2.8. Công cụ Pytesseract

2.9. Thư viện OpenCV

2.10. Mạng nơ-ron hồi quy (RNN)

2.10.1. Phân loại bài toán RNN

2.10.2. Ứng dụng bài toán RNN

2.10.3. Huấn luyện mạng RNN

2.11. Tổng quan về thuật giải Heuristic

2.12. Khoảng cách Levenshtein

3. CHƯƠNG 3: HIỆN THỰC MÔ HÌNH ĐỀ TÀI

3.1. Thu thập dữ liệu

3.2. Xử lý trước hình ảnh

3.3. Các vấn đề cơ bản trong xử lý ảnh

3.4. Xây dựng mô hình đề xuất

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Thực hiện xử lý hình ảnh trước

4.2. Thực hiện OCR

4.3. Đặc điểm lỗi

4.4. Thực nghiệm sửa lỗi ký tự

4.5. Đánh giá kết quả

4.6. Một số hạn chế của mô hình

5. CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ

5.1. Hướng mở rộng đề tài

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu nhận dạng chữ Ba Na trên văn bản hình ảnh

Nghiên cứu về nhận dạng chữ Ba Na trên văn bản hình ảnh là một lĩnh vực quan trọng trong việc bảo tồn và phát huy văn hóa dân tộc thiểu số. Việc chuyển đổi các tài liệu từ hình ảnh sang văn bản số không chỉ giúp lưu trữ thông tin mà còn tạo điều kiện cho việc cập nhật và sửa chữa dễ dàng hơn. Tuy nhiên, việc này cũng đặt ra nhiều thách thức, đặc biệt là trong việc đảm bảo độ chính xác của văn bản sau khi chuyển đổi.

1.1. Tầm quan trọng của việc bảo tồn chữ viết Ba Na

Bảo tồn chữ viết Ba Na không chỉ là việc giữ gìn bản sắc văn hóa mà còn là cách thực hiện quyền bình đẳng giữa các dân tộc. Việc số hóa tài liệu giúp dễ dàng tiếp cận và sử dụng hơn trong giáo dục và nghiên cứu.

1.2. Các thách thức trong nhận dạng chữ Ba Na

Chất lượng hình ảnh kém, sự đa dạng trong cách viết và thiếu tài liệu hỗ trợ là những thách thức lớn trong việc nhận dạng chữ Ba Na. Điều này dẫn đến nhiều lỗi sai trong quá trình chuyển đổi từ hình ảnh sang văn bản số.

II. Phương pháp nghiên cứu nhận dạng chữ Ba Na hiệu quả

Để giải quyết vấn đề nhận dạng chữ Ba Na, nghiên cứu này áp dụng các phương pháp hiện đại như công nghệ nhận dạng ký tự quang học (OCR) và các mô hình ngôn ngữ để cải thiện độ chính xác. Việc sử dụng các công nghệ này giúp tối ưu hóa quá trình chuyển đổi và sửa lỗi chính tả.

2.1. Công nghệ OCR trong nhận dạng chữ Ba Na

Công nghệ OCR cho phép chuyển đổi hình ảnh chứa văn bản thành dữ liệu số. Việc áp dụng OCR cho chữ Ba Na giúp tiết kiệm thời gian và công sức trong việc số hóa tài liệu.

2.2. Mô hình ngôn ngữ trong sửa lỗi chính tả

Mô hình ngôn ngữ được xây dựng để phát hiện và sửa lỗi chính tả trong văn bản Ba Na. Việc này không chỉ cải thiện chất lượng văn bản mà còn giúp bảo tồn ngôn ngữ dân tộc.

III. Ứng dụng thực tiễn của nghiên cứu nhận dạng chữ Ba Na

Nghiên cứu này không chỉ mang lại giá trị lý thuyết mà còn có nhiều ứng dụng thực tiễn trong việc bảo tồn văn hóa và ngôn ngữ. Việc số hóa tài liệu giúp dễ dàng lưu trữ và chia sẻ thông tin, đồng thời tạo điều kiện cho việc nghiên cứu và giảng dạy về ngôn ngữ Ba Na.

3.1. Ứng dụng trong giáo dục

Việc số hóa tài liệu giúp giáo viên và học sinh dễ dàng tiếp cận tài liệu học tập về ngôn ngữ Ba Na, từ đó nâng cao chất lượng giáo dục cho thế hệ trẻ.

3.2. Ứng dụng trong nghiên cứu văn hóa

Nghiên cứu này cung cấp cơ sở dữ liệu quý giá cho các nhà nghiên cứu về văn hóa và ngôn ngữ dân tộc, giúp họ có thêm tài liệu để phân tích và bảo tồn văn hóa Ba Na.

IV. Kết quả nghiên cứu và đánh giá hiệu quả

Kết quả nghiên cứu cho thấy mô hình đề xuất có khả năng cải thiện đáng kể độ chính xác của văn bản sau khi chuyển đổi từ hình ảnh. Việc áp dụng các phương pháp hiện đại đã giúp giảm thiểu lỗi sai trong quá trình nhận dạng chữ Ba Na.

4.1. Đánh giá độ chính xác của mô hình

Mô hình đã đạt được độ chính xác cao trong việc nhận dạng và sửa lỗi chính tả, cho thấy tính khả thi của việc áp dụng công nghệ OCR cho chữ Ba Na.

4.2. So sánh với các phương pháp truyền thống

So với các phương pháp truyền thống, mô hình hiện đại cho thấy hiệu quả vượt trội trong việc xử lý và sửa lỗi văn bản, từ đó khẳng định giá trị của nghiên cứu.

V. Kết luận và hướng phát triển tương lai

Nghiên cứu về nhận dạng chữ Ba Na trên văn bản hình ảnh mở ra nhiều hướng phát triển mới cho việc bảo tồn ngôn ngữ dân tộc. Việc áp dụng công nghệ hiện đại không chỉ giúp cải thiện chất lượng văn bản mà còn tạo điều kiện cho việc nghiên cứu và phát triển ngôn ngữ Ba Na trong tương lai.

5.1. Hướng phát triển mô hình trong tương lai

Nghiên cứu có thể mở rộng để áp dụng cho các ngôn ngữ dân tộc khác, từ đó tạo ra một hệ thống nhận dạng văn bản đa ngôn ngữ.

5.2. Tầm quan trọng của việc bảo tồn ngôn ngữ

Bảo tồn ngôn ngữ dân tộc không chỉ là trách nhiệm của các nhà nghiên cứu mà còn là nhiệm vụ của toàn xã hội, nhằm giữ gìn bản sắc văn hóa cho các thế hệ sau.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Việc bảo tồn và phát huy tiếng nói, chữ viết của các dân tộc thiểu số là một nhiệm vụ cấp thiết nhằm giữ gìn bản sắc văn hóa và thực hiện quyền bình đẳng giữa các dân tộc. Theo ước tính, người Ba Na có dân số khoảng 287 nghìn người, cư trú chủ yếu tại các tỉnh Tây Nguyên như Gia Lai, Kon Tum, Bình Định và Phú Yên. Tuy nhiên, các tài liệu về tiếng nói, chữ viết của dân tộc này chủ yếu được lưu trữ dưới dạng sách báo in trên giấy truyền thống, dễ bị hư hỏng theo thời gian, gây khó khăn trong việc cập nhật, sửa chữa và trao đổi thông tin.

Mục tiêu nghiên cứu của luận văn là phát triển một hệ thống nhận dạng chữ Ba Na trên văn bản hình ảnh, chuyển đổi các tài liệu truyền thống thành văn bản số nhằm bảo tồn và phát huy ngôn ngữ này. Nghiên cứu tập trung vào việc áp dụng công nghệ nhận dạng ký tự quang học (OCR) kết hợp với mô hình ngôn ngữ để sửa lỗi chính tả trong văn bản số đầu ra. Phạm vi nghiên cứu bao gồm xử lý hình ảnh từ cuốn từ điển tiếng Ba Na, xây dựng và huấn luyện mô hình sửa lỗi chính tả dựa trên mô hình ngôn ngữ mức ký tự, đồng thời áp dụng các kỹ thuật heuristic để nâng cao hiệu quả sửa lỗi.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện chất lượng văn bản số, giúp lưu trữ lâu dài, dễ dàng cập nhật và tái bản tài liệu tiếng Ba Na. Kết quả nghiên cứu có thể ứng dụng trong các thư viện, nhà xuất bản và các tổ chức bảo tồn văn hóa dân tộc thiểu số, góp phần bảo vệ và phát triển ngôn ngữ Ba Na trong bối cảnh công nghệ số hiện nay.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Nhận dạng ký tự quang học (OCR): Công nghệ chuyển đổi hình ảnh chứa văn bản thành dữ liệu văn bản số. Công cụ Tesseract OCR được sử dụng làm nền tảng, với phiên bản 4.x tích hợp mạng nơ-ron LSTM giúp cải thiện độ chính xác nhận dạng.
Mạng nơ-ron hồi quy (RNN) và LSTM: Mô hình học sâu được áp dụng để xây dựng mô hình ngôn ngữ mức ký tự, giúp sửa lỗi chính tả trong văn bản số. LSTM được chọn vì khả năng ghi nhớ thông tin dài hạn và xử lý chuỗi dữ liệu hiệu quả.
Thuật toán Heuristic: Phương pháp suy nghiệm dựa trên kinh nghiệm và quy tắc để hỗ trợ sửa lỗi ký tự lặp đi lặp lại, tăng cường hiệu quả mô hình ngôn ngữ.
Khoảng cách Levenshtein: Được sử dụng làm thước đo để đánh giá sự khác biệt giữa các chuỗi ký tự, hỗ trợ trong việc phát hiện và sửa lỗi chính tả.

Các khái niệm chính bao gồm: nhận dạng ký tự quang học, mô hình ngôn ngữ mức ký tự, mạng LSTM, thuật toán heuristic, và khoảng cách chỉnh sửa Levenshtein.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu được thu thập từ nhiều nguồn, bao gồm hình ảnh quét từ cuốn từ điển tiếng Ba Na "Bơhnar Kriêm" do Sở Khoa học và Công nghệ tỉnh Bình Định phối hợp Viện Ngôn ngữ học Ba Na Nam thực hiện, sổ tay phương ngữ tiếng Ba Na do Sở Giáo dục và Đào tạo Gia Lai biên soạn, cùng các tài liệu liên quan khác. Tổng số dữ liệu hình ảnh được chia thành 80% dùng để huấn luyện và 20% để kiểm thử.

Phương pháp phân tích gồm các bước:

Tiền xử lý hình ảnh: Lọc nhiễu, nâng cao độ tương phản, chuyển đổi sang ảnh thang xám và ảnh nhị phân, chỉnh sửa biến dạng và nghiêng để cải thiện chất lượng ảnh đầu vào.
Nhận dạng ký tự quang học (OCR): Sử dụng thư viện Tesseract OCR phiên bản tiếng Việt để nhận dạng chữ Ba Na trên hình ảnh, do bảng chữ cái Ba Na tương đồng với tiếng Việt về mẫu chữ La tinh.
Xây dựng mô hình sửa lỗi chính tả: Huấn luyện mô hình ngôn ngữ dựa trên mạng LSTM ở mức ký tự nhằm phát hiện và sửa các lỗi sai trong văn bản số đầu ra từ OCR.
Áp dụng thuật toán heuristic: Kết hợp các quy tắc và kinh nghiệm để sửa các lỗi ký tự lặp lại và lỗi đặc thù của tiếng Ba Na, nâng cao hiệu quả sửa lỗi.
Đánh giá kết quả: So sánh chất lượng văn bản số trước và sau khi áp dụng mô hình sửa lỗi bằng các chỉ số độ chính xác và tỷ lệ lỗi ký tự.

Timeline nghiên cứu kéo dài trong năm 2021, với các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Chất lượng hình ảnh ảnh hưởng lớn đến kết quả OCR: Qua xử lý tiền đề, hình ảnh được nâng cao độ tương phản và loại bỏ nhiễu giúp tăng tỷ lệ nhận dạng chính xác lên khoảng 75%, so với dưới 60% khi chưa xử lý.
Tesseract OCR phiên bản tiếng Việt có thể áp dụng cho tiếng Ba Na: Mặc dù không hỗ trợ trực tiếp tiếng Ba Na, thư viện này nhận dạng được khoảng 70% ký tự chính xác do sự tương đồng bảng chữ cái, tuy nhiên vẫn tồn tại nhiều lỗi sai đặc thù.
Mô hình ngôn ngữ LSTM cải thiện đáng kể chất lượng văn bản số: Sau khi áp dụng mô hình sửa lỗi, tỷ lệ lỗi ký tự giảm từ khoảng 30% xuống còn dưới 10%, thể hiện qua các phép đo khoảng cách Levenshtein và thống kê lỗi ký tự.
Thuật toán heuristic hỗ trợ hiệu quả trong việc sửa lỗi lặp và lỗi đặc thù: Kết hợp heuristic với mô hình LSTM giúp giảm thêm khoảng 3-5% lỗi ký tự, đặc biệt với các lỗi phổ biến như thay thế sai nguyên âm và ký tự đặc biệt trong tiếng Ba Na.

Thảo luận kết quả

Nguyên nhân chính của các lỗi OCR là do chất lượng hình ảnh đầu vào không đồng đều, bao gồm hiện tượng mờ, lem, nghiêng và nhiễu nền. Việc sử dụng tiền xử lý hình ảnh đã cải thiện đáng kể chất lượng nhận dạng, phù hợp với các nghiên cứu trong lĩnh vực thị giác máy tính.

Việc áp dụng Tesseract OCR tiếng Việt cho tiếng Ba Na là một giải pháp thực tiễn do sự tương đồng bảng chữ cái, tuy nhiên vẫn cần có bước hậu xử lý để khắc phục các lỗi đặc thù. Mô hình LSTM thể hiện ưu thế vượt trội trong việc sửa lỗi chính tả ở mức ký tự, phù hợp với các nghiên cứu về xử lý ngôn ngữ tự nhiên cho các ngôn ngữ ít tài nguyên.

Thuật toán heuristic đóng vai trò bổ trợ quan trọng, giúp xử lý các lỗi lặp và lỗi đặc thù mà mô hình ngôn ngữ khó nhận diện chính xác. Kết quả có thể được trình bày qua biểu đồ so sánh tỷ lệ lỗi ký tự trước và sau khi áp dụng mô hình sửa lỗi, cũng như bảng thống kê các loại lỗi phổ biến và tỷ lệ sửa thành công.

So với các nghiên cứu về OCR cho các ngôn ngữ thiểu số khác, kết quả nghiên cứu này có tính ứng dụng cao và mở ra hướng phát triển cho các hệ thống nhận dạng và xử lý ngôn ngữ tự nhiên cho tiếng Ba Na.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý hình ảnh: Áp dụng các kỹ thuật nâng cao như lọc nhiễu nâng cao, chỉnh sửa biến dạng và cân bằng sáng để cải thiện chất lượng ảnh đầu vào, nhằm nâng cao tỷ lệ nhận dạng chính xác. Chủ thể thực hiện: các nhà phát triển phần mềm OCR; Thời gian: 6 tháng.
Phát triển mô hình ngôn ngữ chuyên biệt cho tiếng Ba Na: Thu thập thêm dữ liệu văn bản tiếng Ba Na để huấn luyện mô hình LSTM sâu hơn, tăng khả năng nhận diện và sửa lỗi chính tả phức tạp. Chủ thể thực hiện: nhóm nghiên cứu ngôn ngữ; Thời gian: 12 tháng.
Tích hợp thuật toán heuristic nâng cao: Xây dựng bộ quy tắc heuristic dựa trên đặc điểm ngôn ngữ và lỗi phổ biến, kết hợp với mô hình học sâu để tối ưu hóa hiệu quả sửa lỗi. Chủ thể thực hiện: nhà phát triển phần mềm; Thời gian: 6 tháng.
Xây dựng hệ thống kiểm thử và đánh giá tự động: Thiết lập bộ công cụ đánh giá chất lượng văn bản số đầu ra, giúp theo dõi và cải tiến liên tục mô hình nhận dạng và sửa lỗi. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 3 tháng.
Mở rộng ứng dụng sang các tài liệu khác: Áp dụng mô hình và phương pháp nghiên cứu cho các tài liệu tiếng Ba Na khác như sách báo, tài liệu lịch sử để bảo tồn và số hóa rộng rãi hơn. Chủ thể thực hiện: các tổ chức bảo tồn văn hóa; Thời gian: 18 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu ngôn ngữ và văn hóa dân tộc thiểu số: Luận văn cung cấp phương pháp và kết quả ứng dụng công nghệ số trong bảo tồn ngôn ngữ Ba Na, hỗ trợ nghiên cứu và phát triển tài liệu ngôn ngữ.
Chuyên gia công nghệ thông tin và xử lý ngôn ngữ tự nhiên (NLP): Tài liệu trình bày chi tiết về ứng dụng mạng LSTM, thuật toán heuristic và OCR trong xử lý ngôn ngữ ít tài nguyên, có thể áp dụng cho các dự án tương tự.
Các tổ chức bảo tồn văn hóa và thư viện số: Nghiên cứu cung cấp giải pháp số hóa và lưu trữ tài liệu dân tộc thiểu số, giúp bảo tồn lâu dài và dễ dàng truy cập.
Nhà xuất bản và biên tập viên tài liệu tiếng Ba Na: Kết quả nghiên cứu hỗ trợ việc chuyển đổi tài liệu truyền thống sang dạng số, giúp cập nhật, chỉnh sửa và tái bản hiệu quả hơn.

Câu hỏi thường gặp

Tại sao chọn Tesseract OCR tiếng Việt để nhận dạng chữ Ba Na?
Do bảng chữ cái tiếng Ba Na sử dụng mẫu tự La tinh tương tự tiếng Việt, Tesseract tiếng Việt có thể nhận dạng được khoảng 70% ký tự chính xác, giúp tiết kiệm thời gian phát triển công cụ mới.
Mô hình LSTM có ưu điểm gì trong sửa lỗi chính tả?
LSTM có khả năng ghi nhớ thông tin dài hạn trong chuỗi ký tự, giúp dự đoán và sửa lỗi chính tả hiệu quả hơn so với các mô hình truyền thống, đặc biệt với ngôn ngữ có cấu trúc phức tạp như tiếng Ba Na.
Thuật toán heuristic được áp dụng như thế nào?
Heuristic sử dụng các quy tắc và kinh nghiệm để sửa các lỗi ký tự lặp lại và lỗi đặc thù không dễ nhận diện bằng mô hình học sâu, giúp tăng tỷ lệ sửa lỗi thành công thêm 3-5%.
Chất lượng hình ảnh ảnh hưởng thế nào đến kết quả nhận dạng?
Hình ảnh có độ tương phản thấp, bị mờ hoặc nghiêng làm giảm độ chính xác OCR đáng kể. Tiền xử lý hình ảnh giúp nâng cao chất lượng, từ đó cải thiện tỷ lệ nhận dạng lên khoảng 75%.
Luận văn có thể áp dụng cho các ngôn ngữ thiểu số khác không?
Phương pháp kết hợp OCR, mô hình ngôn ngữ LSTM và heuristic có tính tổng quát cao, có thể được điều chỉnh và áp dụng cho các ngôn ngữ thiểu số khác có đặc điểm tương tự.

Kết luận

Luận văn đã phát triển thành công mô hình nhận dạng chữ Ba Na trên văn bản hình ảnh, kết hợp OCR và mô hình ngôn ngữ LSTM để sửa lỗi chính tả.
Tiền xử lý hình ảnh và thuật toán heuristic đóng vai trò quan trọng trong việc nâng cao chất lượng văn bản số đầu ra.
Kết quả thực nghiệm cho thấy tỷ lệ lỗi ký tự giảm từ khoảng 30% xuống dưới 10% sau khi áp dụng mô hình sửa lỗi.
Nghiên cứu góp phần bảo tồn và phát huy ngôn ngữ Ba Na, đồng thời mở ra hướng phát triển cho các ứng dụng xử lý ngôn ngữ tự nhiên cho dân tộc thiểu số.
Các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, nâng cao mô hình và ứng dụng cho các tài liệu tiếng Ba Na khác, đồng thời phát triển hệ thống đánh giá tự động.

Hành động khuyến nghị: Các nhà nghiên cứu và tổ chức bảo tồn văn hóa nên phối hợp triển khai các giải pháp số hóa và xử lý ngôn ngữ tự nhiên dựa trên kết quả nghiên cứu này để bảo vệ và phát triển ngôn ngữ Ba Na trong thời đại số.

Trích đoạn nội dung tài liệu

Chương 1, giới thiệu tổng quan toàn bộ nội dung đề tài “Nhận dạng chữ Ba Na trên văn bản hình ảnh” gồm: mục tiêu và phạm vi đề tài, tính ứng dụng của đề tài, các công trình nghiên cứu liên quan, thách thức của bài toán, Phương pháp nghiên cứu và cấu trúc luận văn. 5 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2. Đôi nét về người Ba Na Người Ba Na (Bahnar; các tên gọi khác: Jơ Lơng, Rơ Ngao, Glar, Tơ Lô, Bơ Nâm, Krem, Roh, Con Kde) là một dân tộc trong số 54 dân tộc tại Ba Na Nam. - [4] Người Ba Na cư trú chủ yếu ở vùng Tây Nguyên và cao nguyên trung phần Ba Na Nam, có dân số xấp xỉ 287 nghìn người năm 2019.

Theo tổng điều tra dân số và nhà ở người Ba Na ở Ba Na cư trú tại 51 trên tổng số 63 tỉnh, thành phố. Người Ba Na cư trú tập trung tại các tỉnh: • Gia Lai (104.997 người, chiếm 11,8% dân số toàn tỉnh và 45,9% tổng số người Ba Na tại Ba Na Nam), • Kon Tum (99.416 người, chiếm 12,5% dân số toàn tỉnh và 43,7% tổng số người Ba Na tại Ba Na Nam), • Bình Định (18.175 người, chiếm 8,0% tổng số người Ba Na tại Ba Na Nam), • Phú Yên (4.145 người, chiếm 1,8 % tổng số người Ba Na tại Ba Na Nam). Người Ba Na có nhiều tên gọi khác nhau theo nơi cư trú hay phong tục tập quán mỗi vùng. Người Ba Na là dân tộc bản địa Ba Na Nam có từ lâu đời tập trung ở các vùng Tây Nguyên điển hình là hai tỉnh Kon Tum, Gia Lai đây được coi là bản địa cũng như địa bàn cư trú của người Ba Na Tại Mỹ có một số người Ba Na nhập cư theo diện HO.

Tiếng Ba Na liên quan đến tiếng Kinh. Người Ba Na nói tiếng Ba Na thuộc Ngữ chi Ba Na là một ngôn ngữ thuộc Ngữ hệ Nam Á (hay còn gọi ngôn ngữ Môn-Khmer), cùng với đó là Ngữ chi Ba Na và Ngữ chi Ba Na-Mường được xếp vào ngôn ngữ Môn-Khmer. Ngôn ngữ chữ BaNa Tiếng Ba Na là ngôn ngữ của người Ba Na, sắc tộc thiểu số ở miền trung Ba Na Nam. – [4] (Theo Bách khoa toàn thư mở Wikipedia) 6 Tiếng Ba Na còn ít được nghiên cứu.

Hiện nó được xếp loại là nhóm Bắc Ba Na, thuộc Ngữ chi Bahnar, Ngữ hệ Nam Á. Ngôn ngữ này có 9 nguyên âm về chất, hơn nữa còn phân biệt độ dài nguyên âm. Năm 1861, chữ Ba Na viết theo mẫu tự la tinh. 1: Bộ bảng chữ cái Tiếng Ba Na (Nguồn tác giả) 2.

Tổng quan về Tesseract Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và thị giác máy tính - [6]. Đây là một công nghệ phổ biến để nhận dạng văn bản bên trong hình ảnh, chẳng hạn như tài liệu và ảnh được quét. Công nghệ OCR được sử dụng để chuyển đổi hầu như bất kỳ loại hình ảnh nào có chứa văn bản viết (đánh máy, viết tay hoặc in) thành dữ liệu văn bản có thể đọc được bằng máy.

Những dữ liệu được sinh ra từ việc nhận dạng ký tự quang học có thể được sử dụng cho rất nhiều việc, ví dụ như: số hóa các văn bản, tài liệu cũ, sách báo, dịch sang các ngôn ngữ khác, hoặc kiểm tra và xác minh vị trí văn bản,… Công nghệ OCR trở nên phổ biến vào đầu những năm 1990 khi cố gắng số hóa các tờ báo lịch sử. Kể từ đó, công nghệ đã trải qua một số cải tiến. Ngày nay, các giải pháp cung cấp độ chính xác OCR gần như hoàn hảo. 7 Một ví dụ về OCR như hình dưới : Hình 2.

2: OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số OCR là một quy trình thường bao gồm một số quy trình phụ để thực hiện chính xác nhất có thể [7]. Các quy trình phụ thường bao gồm: 2. Tiền xử lý hình ảnh • Cục bộ hóa văn bản: phân tách tài liệu các yếu tố (dòng, từ, ký tự .) • Phân đoạn ký tự: xác định các tính năng đặc trưng cho các phần tử được phân cách của một tài liệu. • Nhận dạng ký tự: nhận biết và xác định từng phần tử.

Nó được thực hiện dựa trên các tính năng được trích xuất. • Hậu xử lý: Nó có thể là tự động hoặc thủ công Tất nhiên, các quy trình phụ trong danh sách trên có thể khác nhau, nhưng đây là những bước gần như cần thiết để tiếp cận nhận dạng ký tự tự động. Trong phần mềm OCR, mục đích chính là xác định và nắm bắt tất cả các từ duy nhất bằng các ngôn ngữ khác nhau từ các ký tự văn bản viết. 3: Quá trình OCR (Optical Character Recognition process) 8 Nguồn: [7] 2.

Thư viện Tesseract Tesseract - một công cụ OCR mã nguồn mở đang phổ biến hiện nay. Nó giúp tiết kiệm thời gian và công sức của con người. Nó hoạt động tự động trích xuất văn bản từ một hình ảnh, tồn tại trong nhiều loại phông chữ và bị bóp méo theo mọi cách. Nhận dạng ký tự quang học (OCR), ban đầu được phát triển tại Hewlett Packard từ năm 1984 đến năm 1994, là một nguồn mở (theo Giấy phép Apache 2.0) quang ngoại tuyến công cụ nhận dạng ký tự.

Bristol, lần đầu tiên bắt đầu phát triển Tesseract như một dự án nghiên cứu tiến sĩ trong HP Labs. Năm 1995, Tesseract được gửi đến Đại học Nevada, Les Vegas (UNLV). Đến năm 2005, Tesseract đã được phát hành bởi Hewlett Packard và Đại học Nevada, Las Vegas và hiện tại nó được tài trợ và duy trì một phần bởi Google. Tesseract với phiên bản 3.x khi nó bắt đầu hỗ trợ nhiều định dạng hình ảnh và dần dần bổ sung một số lượng lớn các tập lệnh (ngôn ngữ).x dựa trên các thuật toán thị giác máy tính truyền thống.

Trong vài năm qua, các phương pháp dựa trên Deep Learning đã vượt qua các kỹ thuật máy học truyền thống nhờ một lợi nhuận rất lớn về độ chính xác trong nhiều lĩnh vực của Thị giác máy tính. Nhận dạng chữ viết tay là một trong những ví dụ nổi bật. Đến phiên bản 4.x trở đi, Tesseract đã triển khai một công cụ nhận dạng dựa trên Bộ nhớ Ngắn hạn Dài hạn (LSTM). LSTM là một loại Mạng thần kinh tái diễn (RNN).

9 Hiện tại, Tesseract đã được hỗ trợ trên ba hệ điều hành Linux , của Windows và Mac OS X. Thư viện Tesseract cũng hỗ trợ rất nhiều ngôn ngữ lập trình, như: Java, C/C++, Python, … 2. Cách Tesseract hoạt động Tesseract 3.x phụ thuộc vào quy trình nhiều giai đoạn, ở đó chúng ta có thể phân biệt qua các bước: • Tìm từ • Tìm dòng • Phân loại kí tự Việc tìm kiếm từ được thực hiện bằng cách sắp xếp các dòng văn bản thành các đốm màu, các dòng và vùng được phân tích để tìm cao độ cố định hoặc văn bản theo tỷ lệ. Các dòng văn bản được chia thành các từ khác nhau tùy theo loại khoảng cách ký tự.

Việc nhận dạng sẽ được tiến hành như một quá trình hai lần. Trong lần vượt qua đầu tiên, một nỗ lực được thực hiện để nhận ra lần lượt từng từ. Mỗi từ đạt yêu cầu được chuyển đến bộ phân loại thích ứng làm dữ liệu huấn luyện. Sau đó, trình phân loại thích ứng sẽ có cơ hội nhận dạng chính xác hơn văn bản ở dưới trang (Hình 2.

4: Kiến trúc Tesseract OCR 2. Hạn chế của Tesseract Tesseract hoạt động tốt nhất khi có sự phân đoạn rõ ràng của từ nền khỏi văn bản nền. Trong thực tế, có thể cực kỳ khó khăn để đảm bảo các loại thiết lập này. Có nhiều lý do khiến chúng ta không nhận được đầu ra chất lượng tốt từ Tesseract như việc hình ảnh bị nhiễu trên nền.

Chất lượng hình ảnh (kích thước, độ tương phản, độ sáng) càng 10 tốt thì kết quả nhận dạng càng tốt. Nó đòi hỏi một chút xử lý trước để cải thiện kết quả OCR, hình ảnh cần được chia tỷ lệ thích hợp, có độ tương phản hình ảnh nhiều nhất có thể và văn bản phải được căn chỉnh theo chiều ngang. Tesseract OCR khá mạnh nhưng có những hạn chế sau: • OCR không chính xác như một số giải pháp thương mại có sẵn • Không hoạt động tốt với hình ảnh bị ảnh hưởng bởi hiện vật bao gồm tắc một phần, phối cảnh méo mó và nền phức tạp. • Nó có thể không nhận dạng được (vô nghĩa) và báo cáo đây là đầu ra OCR.

• Không phải lúc nào việc phân tích thứ tự đọc tự nhiên của tài liệu cũng tốt. Ví dụ: nó có thể không nhận ra rằng một tài liệu chứa hai cột và có thể cố gắng nối văn bản giữa các cột. • Bản quét chất lượng kém có thể tạo ra OCR chất lượng kém. Công cụ Pytesseract Để phục vụ cho việc thực hiện bài toán, tôi sẽ sử dụng công cụ chính là Pytesseract.

Pytesseract là một công cụ nhận dạng ký tự quang học (OCR) dành cho ngôn ngữ lập trình Python - [7]. Tức là, nó sẽ nhận ra và “đọc” văn bản được nhúng trong hình ảnh. Pytesseract là một trình bao bọc cho công cụ Tesseract-OCR của Google. Nó cũng hữu ích như một tập lệnh gọi độc lập đối với Tesseract, vì nó có thể đọc tất cả các loại hình ảnh được hỗ trợ bởi thư viện hình ảnh Pillow và Leptonica, bao gồm jpeg, png, gif, bmp, tiff và các loại khác.

Ngoài ra, nếu được sử dụng làm script, Python- tesseract sẽ in văn bản được nhận dạng thay vì ghi nó vào tệp. Thư viện OpenCV OpenCV (Open Source Computer Vision) là một thư viện mã nguồn mở về thị giác máy với hơn 500 hàm và hơn 2500 các thuật toán đã được tối ưu về xử lý ảnh, và các vấn đề liên quan tới thị giác máy. OpenCV được thiết kế một cách tối ưu, sử dụng tối đa sức mạnh của các dòng chip đa li… để thực hiện các phép tính toán trong thời gian thực, nghĩa là tốc độ đáp ứng của nó có thể đủ nhanh cho các ứng dụng thông thường. OpenCV là thư viện được thiết kế để chạy trên nhiều nền tảng khác nhau (cross- platform), nghĩa là nó có thể chạy trên hệ điều hành Window, Linux, Mac, iOS… Thư viện OpenCV ban đầu được sự hỗ trợ từ Intel, sau đó được hỗ trợ bở Willow Garage, một phòng thí nghiệm chuyên nghiên cứu về công nghệ robot.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu nhận dạng chữ Ba Na trên văn bản hình ảnh" tập trung vào việc phát triển và cải thiện công nghệ nhận dạng chữ viết trong ngữ cảnh văn bản hình ảnh, đặc biệt là đối với chữ Ba Na. Nghiên cứu này không chỉ giúp nâng cao khả năng nhận diện ngôn ngữ thiểu số mà còn mở ra cơ hội cho việc bảo tồn và phát triển văn hóa dân tộc. Những điểm chính của tài liệu bao gồm phương pháp tiếp cận công nghệ hiện đại, ứng dụng trong thực tiễn và tiềm năng phát triển trong tương lai.

Để hiểu rõ hơn về các khía cạnh liên quan đến ngôn ngữ và công nghệ, bạn có thể tham khảo tài liệu Augmenting the computational and reasoning proficiencies of large language models for tackling vietnamese high school ma, nơi khám phá khả năng của các mô hình ngôn ngữ lớn trong việc giải quyết các bài toán toán học. Ngoài ra, tài liệu Luận văn liên kết thực thể cho tiếng việt entity linking for vietnamese cũng cung cấp cái nhìn sâu sắc về việc liên kết thực thể trong ngữ cảnh tiếng Việt, giúp bạn mở rộng kiến thức về các ứng dụng ngôn ngữ trong công nghệ hiện đại. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về sự phát triển của ngôn ngữ và công nghệ trong bối cảnh Việt Nam.

#xử lý ngôn ngữ tự nhiên

#hệ thống thông tin

#Công nghệ OCR

#Nhận dạng chữ Ba Na

#Văn bản hình ảnh

#Mô hình ngôn ngữ tiếng Ba Na

Chủ đề

Phát triển mô hình ngôn ngữ

Nghiên cứu về chữ viết dân tộc

Ứng dụng công nghệ OCR

Bảo tồn ngôn ngữ dân tộc thiểu số