Luận văn nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

Chuyên khảo kỹ thuật phân tích Luận văn nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt, đánh giá các khía cạnh quan trọng, đề xuất hướng

Trường đại học

Đại học Lạc Hồng

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

báo cáo nghiên cứu khoa học

2012

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu đề tài

Đề tài nghiên cứu tập trung vào giải pháp và xây dựng phần mềm chuyển đổi văn bản tiếng Việt trong ảnh sang text. Với sự phát triển của công nghệ thông tin, việc số hóa tài liệu trở nên cấp thiết. Phần mềm chuyển đổi văn bản tiếng Việt từ ảnh đòi hỏi độ chính xác cao và tốc độ xử lý nhanh. Đề tài này nhằm giải quyết các thách thức trong nhận diện văn bản tiếng Việt, đặc biệt là từ hình ảnh scan. Công nghệ OCR tiếng Việt hiện tại còn nhiều hạn chế, do đó, việc nghiên cứu và phát triển phần mềm hỗ trợ văn bản là cần thiết.

1.1 Mô hình giải quyết bài toán

Bài toán chuyển đổi văn bản tiếng Việt từ ảnh được chia thành ba giai đoạn chính: phân đoạn ảnh, nhận dạng ký tự, và hậu xử lý. Phân đoạn ảnh bao gồm việc loại bỏ nhiễu, nhị phân hóa, và tách các thành phần văn bản. Nhận dạng ký tự sử dụng các thuật toán học máy như mạng Neural để xác định ký tự từ ảnh. Hậu xử lý tập trung vào việc hiệu chỉnh lỗi và hiển thị kết quả.

1.2 Mức độ phức tạp của bài toán

Bài toán chuyển đổi ảnh sang text tiếng Việt gặp nhiều thách thức do sự đa dạng của font chữ, kích thước chữ, và nhiễu ảnh. Các hệ thống OCR hiện tại khó xử lý các văn bản có chất lượng thấp hoặc font chữ nghệ thuật. Công nghệ nhận diện văn bản cần đủ linh hoạt để xử lý các khác biệt nhỏ trong kiểu chữ mà không gây ra lỗi nhận dạng.

II. Phân đoạn ảnh văn bản

Quá trình phân đoạn ảnh văn bản là bước quan trọng trong chuyển đổi ảnh sang text. Đầu tiên, ảnh màu được chuyển đổi thành ảnh nhị phân thông qua phương pháp phân ngưỡng thích nghi. Thành phần liên thông được sử dụng để xác định các ký tự và từ trong ảnh. Phép chiếu và profile giúp tách các dòng và ký tự riêng biệt. Đồ thị kề khối được áp dụng để phân tích cấu trúc của văn bản.

2.1 Nhị phân hóa ảnh số

Ảnh màu được chuyển đổi thành ảnh nhị phân bằng cách so sánh giá trị điểm ảnh với ngưỡng xác định. Phương pháp Otsu được sử dụng để tự động tính toán ngưỡng phù hợp. Quá trình này giúp phân biệt rõ ràng giữa đối tượng và nền ảnh.

2.2 Thành phần liên thông

Thành phần liên thông được xác định dựa trên khái niệm điểm lân cận. Các điểm ảnh liên thông với nhau tạo thành các ký tự hoặc từ. Liên thông bốn và liên thông tám là hai phương pháp chính để xác định mối quan hệ giữa các điểm ảnh.

III. Trích chọn đặc trưng và nhận dạng

Trích chọn đặc trưng là bước quan trọng trong nhận dạng văn bản tiếng Việt. Các đặc trưng được trích xuất từ cấu trúc và hình học của ký tự. Mạng Neural được sử dụng để huấn luyện và nhận dạng các ký tự. Các thuật toán học máy như SVM và Markov ẩn cũng được áp dụng để cải thiện độ chính xác.

3.1 Trích chọn đặc trưng

Các đặc trưng được trích xuất dựa trên cấu trúc và hình học của ký tự. Profile phép chiếu và đồ thị kề khối là các phương pháp chính để trích xuất đặc trưng. Các đặc trưng này được sử dụng làm đầu vào cho mô hình học máy.

3.2 Huấn luyện mạng Neural

Mạng Neural được huấn luyện để nhận dạng các ký tự tiếng Việt. Các kiểu học như học có giám sát và học không giám sát được áp dụng để cải thiện hiệu suất nhận dạng. Các thuật toán học máy giúp tối ưu hóa quá trình nhận dạng.

IV. Xây dựng phần mềm

Phần mềm chuyển đổi văn bản tiếng Việt được xây dựng dựa trên quy trình xử lý từ phân đoạn ảnh đến nhận dạng ký tự. Môi trường phát triển và các engine được lựa chọn để đảm bảo hiệu suất và độ chính xác. Các class chính được thiết kế để xử lý từng bước trong quy trình.

4.1 Sơ đồ xử lý

Quy trình xử lý của phần mềm chuyển đổi văn bản bao gồm các bước: phân đoạn ảnh, trích chọn đặc trưng, nhận dạng ký tự, và hậu xử lý. Mỗi bước được thực hiện bởi các module riêng biệt.

4.2 Các engine sử dụng

Các engine như OpenCV và Tesseract được sử dụng để xử lý ảnh và nhận dạng ký tự. Các engine này được tích hợp vào phần mềm để đảm bảo hiệu suất và độ chính xác cao.

V. Thử nghiệm và đánh giá kết quả

Phần mềm chuyển đổi văn bản tiếng Việt được thử nghiệm trên nhiều loại văn bản khác nhau. Kết quả cho thấy độ chính xác cao đối với các văn bản có chất lượng tốt. Tốc độ xử lý trung bình là 3-5 giây cho mỗi trang. Các thử nghiệm cũng so sánh kết quả với các phần mềm OCR khác.

5.1 Đánh giá kết quả

Kết quả thử nghiệm cho thấy phần mềm đạt độ chính xác khoảng 80% đối với các văn bản scan chất lượng tốt. Tốc độ xử lý nhanh và ổn định, đáp ứng được yêu cầu thực tế.

5.2 Hướng phát triển

Trong tương lai, phần mềm sẽ được phát triển để hỗ trợ các nền tảng di động và cải thiện độ chính xác đối với các văn bản có chất lượng thấp.

01/03/2025

Bạn đang xem trước tài liệu:

Luận văn nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 GIỚI THIỆU ĐÈ TÀI 1.1 Dat van dé Ngày nay công nghệ thông tin là ngành khoa học mới nhưng tốc độ phát triển rất nhanh trên toàn thế giới. Những ứng dụng của công nghệ thông tin cũng rộng khắp trong tất cả các linh vực khoa học như: giáo dục, y tế, kinh tế, văn hóa,. nó góp phần giúp đời sống con người ngày càng hiện đại giảm đi những công việc nặng nhọc trong đời sống hằng ngày. Nhận dạng và xử lý ảnh cũng là một trong những chuyên ngành của tin học có tầm ứng dụng to lớn.

Có thé ké ra hàng loạt các lĩnh vực áp dung kỹ thuật nhận dạng ảnh như: xử lý ảnh chụp vé tinh, du bao thoi tiết, điều khiển giao thong cong cộng, nhận dang vân tay, nhận dang mặt người,.Hiện nay các đề tài và công trình nghiên cứu về chuyển đổi văn bản tiếng việt từ hình ảnh vẫn còn hạn chế và chưa đạt được kết quả như mong muốn mặc dù đây là một hướng được nhà nước ưu tiên phát triển. Đề tài này nhằm đáp ứng các nhu cầu hiện nay về xử lý , nhận dạng ngôn ngữ tiếng Việt và tập trung nghiên cứu các phương pháp tách văn bản tiếng Việt từ hình ảnh chứa văn bản ( những tắm ảnh này có thê được thu thông qua máy scanner), từ đó xây dựng chương trình thử nghiệm.2 Mô hình giải quyết bài toán Bài toán nhận dạng văn bản tiếng Việt được thực hiện qua ba giai đoạn chính: phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Được thể hiện qua sơ đồ dưới đây: *Scan *Load anh BMP, TIFF. Anh dau vao *Nhi phan héa, chinh nghiéng ` Tach khối Phân Đoạn *Tách dòng sTách từ *Tách kí tự 7 » *Neural Network *Support Vector Machine Hidden Markov Model rs *N6i cac kí tự đã nhận dạng lại thành từ, đòng, đoạn *Hiệu chỉnh nhận dạng, báo/ sửa lỗi chính tả oA » «Định dạng TXT, PDF.1 Sơ đồ hệ nhận dạng văn bản tiếng Việt Đầu vào hệ thống nhận dạng của chúng ta là một hình ảnh scan từ một văn bản tiếng Việt hoặc một tập tin hình ảnh chứa văn bản tiếng Việt bất kì.

Đầu ra là một văn bản đã được nhận dạng. Để xử lý được điều này hệ thống nhận dạng của chúng ta sẽ trải qua giai đoạn cụ thê như sau: 1. Phân đoạn ảnh: Giai đoạn này có nhiệm vụ loại bỏ nhiễu nhằm nâng cao chất lượng hình ảnh đầu vào. Sau đó thực hiện việc nhị phân hóa, chỉnh nghiêng, tách đoạn, tách dòng, tách từ, tách kí tự.

Nhận dạng kí tự: Đầu vào của giai đoạn này là ảnh của một kí tự, đầu ra là kí tự nhận dạng được. Thông thường trong phần này sử dụng một thuật toán máy học (dùng mạng Neural, mô hình Markov ân hoặc máy SVM) hoặc một bộ đối sánh mẫu. Hậu xử lý: Tổng hợp các kí tự nhận dạng được và hiển thị lên giao diện người dùng. Điều chỉnh nhận dạng sai dùng từ điển hoặc mô hình ngôn ngữ.3 Mức độ phức tạp của bài toán Nếu phân chia quá trình đọc văn bản thành các tác vụ cơ bản thì các hệ nhận dạng hiện nay thực hiện các tác vụ đó khá chật vật và không phải khi nào cũng mang lại kết quả mong muốn.

Nhiều hệ thống nhận dạng đã làm việc khá tốt với các trang văn bản rõ nét, nhưng xét tông thể thì vẫn còn khoảng cách khá lớn giữa tính năng của các hệ nhận dạng và đòi hỏi thực tế. Thực tế các trang văn bản không bao giờ đạt được mức độ sạch sẽ, chuẩn mực hoàn toàn. Nhiễu bắn hiện tại là một vấn đề lớn đối với các hệ OCR, bởi vì chỉ cần một vai cham mực nhỏ chữ c có thể biến thành chữ o, hoặc chữ j thành chữ ¡. Nếu tài liệu đã qua photocopy thì các nét mảnh có thê trở thành đứt đoạn, khi đó lỗi sẽ rất nhiều vì nhiều hệ OCR sẽ chuyên mỗi ô liền nét thành một chữ cái riêng.

Nếu văn bản có rất sạch sẽ đi chăng nữa thì sự phong phú của các kiểu font chữ cũng là một thách thức lớn với các hệ thống nhận dạng. Các kiểu font chữ mang tính nghệ thuật ngày càng nhiều. Ngoài sự phức tạp về font chữ và nhiễu ra, các hệ OCR cũng phải giải quyết các vấn đề về kích cỡ chữ khác nhau, góc nghiêng, bố cục văn bản, hệ thống dấu thanh.Vì thế các thuật toán nhận dạng phải đủ mềm dẻo để xử lý các khía cạnh phức tạp này. Nếu không đủ mềm dẻo thì một khác biệt rất bé của kiểu chữ cũng đòi hỏi quản lý và xử lý riêng.

Ngược lại, quá mềm dẻo thì lỗi có thể rất nhiều, chẳng hạn chữ b và chữ h khác nhau không nhiều có thê bị đồng nhất làm một. OCR north over the tropical Indian > north over thc tropical Indian north over the tropical Indiagl OCR north over thc tropical OCR north over the tropical Indian — »= north mer thc tmpieul Imdhm Hình 1.2 Ảnh hưởng của chất lượng văn bản đến kết quả nhận dạng 1.4 Pham vi dé tai: e Dé tai “Nghién ciru giai phap và xây dựng phần mềm thử nghiệm chuyền các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text” tập trung vào việc trình bày một quy trình tổng quát để giải quyết bài toán nhận dạng văn bản in tiếng Việt và làm rõ phương pháp để giải quyết từng phần trong quy trình. Có sự phân tích, so sánh, đánh giá giữa các phương pháp với nhau nhằm tìm ra phương pháp tối uu dé giải quyết bài toán. e_ Xây dựng một chương trình nhận dạng văn bản in tiếng Việt với độ chính xác cao (khoảng 80%) với các văn bản scan có chất lượng tốt.

Tốc độ nhận dạng cao (thời gian nhận dạng trung bình 3-5 giây trên mỗi trang). Chương 2 PHAN DOAN ANH VAN BAN 2.1 Nhị phân hóa ảnh số Ảnh số được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ được coi là những thành tố của bức ảnh gọi là điểm ảnh (pixel). Giá trị mỗi điểm ảnh được gán cho một số nguyên biểu diễn màu sắc tại điểm ảnh đó. VỀ + F Bê Hình 2.1 Ví dụ điểm ảnh Đầu vào của hệ thống là một ảnh có màu bất kì, nhưng để thực hiện được việc phân đoạn ảnh thì bắt buộc phải thực hiện trên ảnh nhị phân.

Về cơ bản quá trình này sẽ thực hiện chuyên ảnh màu thành ảnh đa mức xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị Red, Green, Blue của ảnh đầu vào. Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm ảnh với một ngưỡng cho trước đề quyết định điểm ảnh đó sẽ là 0 hoặc 1.2 Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân Quá trình chuyên ảnh đa mức xám sang ảnh nhị phân nhằm phân hoạch một bức ảnh ra làm 2 phần, một phần chứa các đối tượng (object hay foreground) trong bức ảnh và phần kia chứa nền ảnh. Quá trình này gọi là phân hoạch ngưỡng (thresholding segmenrtation) được thực hiện nhờ vào hàm phân ngưỡng, trong trường hợp phân hoạch đơn ngưỡng thì công thức được sử dụng như sau: 1if source(x, y) =T Dest (x,y) = {5 if source (x,y) <T Trong đó, Source(x,y) là giá trị điểm ảnh ở vị trí (x,y) của ảnh nguon, Dest(x,y) la giá trị điểm ảnh tương ứng ở vị trí (x,y) của anh dich va T là giá trị ngưỡng. Nếu sử dụng một T duy nhất cho toàn bộ bức ảnh, có nghĩa là công thức trên áp dụng cho toàn ảnh trong quá trình phân hoạch thì ta gọi đó là cách dùng ngưỡng toàn cục (global thresholding).

Ngược lại nếu sử dụng ngưỡng khác nhau tùy theo từng vùng trong ảnh, T biến thiên theo từng vị trí khác nhau và được tính toán lại tại từng vùng ảnh, có nghĩa là công thức trên áp dụng cho từng vùng cục bộ của ảnh với T thay đổi thì đó gọi là phương pháp dùng ngưỡng cục bộ (local thresholding). Trong Đề tài này sử dụng phương pháp phân ngưỡng thích nghi (adaptive thresholding) theo phương pháp Otsu. Ý tưởng chính của phương pháp này là tính ngưỡng T một cách tự động dựa vào giá trị điểm ảnh của ảnh đầu vào. Phương pháp này cho kết quả là mỗi ảnh khác nhau có một ngưỡng tương ứng khác nhau bằng các bước xử lý như sau: 1.

Chọn một giá trị khởi tạo cho T: Thường chọn giá trị mang tính công thức, ví dụ T = (min + max) / 2, T = giá trị trung bình,. tránh dùng các giá trị mang tính định lượng thiết lập cứng). Phân hoạch ảnh sử dụng T: Kết quả của bước này sẽ tạo ra 2 nhóm điểm anh: G1 chứa tất cả các điểm ảnh với gia tri (intensity) > T và G2 chứa các điểm ảnh với giá trị (intensity) <= T. Tính trung bình: Tính trung bình m1 và m2 của các điểm ảnh thuộc G1 và G2.

Tính lại T dựa vào m1 và m2: T = (m1 + m2) /2 5. Bước lặp: Lặp lại bước 2 đến 4 cho tới khi nào giá trị chênh lệch giữa T cũ và T mới là không đáng kê (nhỏ hơn một giá trị cho trước Delta T). Delta T thường được sử dụng là sai số từ các phép tính toán trong quá trình xử lý.2 Thành phần liên thông 2.1 Khái niệm điểm lân cận Cho một điểm P với tọa độ (x, y), khi đó bốn điểm Ni(ŒX+1,y)N;(Œ - 1, y), N;(x, y + 1), N¿Œ, y— D được gọi là lân cận 4 của điểm P. Các điểm : Ñ¡Œœ+1,y),N;(x— l1, y), N; &, y+ D, N¿(@,y— ]) Ñs(x-I1,y-1),NÑs(x—1,y+l), Ñ;(x+l1,y- l), Ñs(x+l,y+l) Tám điểm N¡ đến N; được gọi là lân cận 8 của điểm P.

(x,y+l) x-l,y+l)J (x,y+l) Kx+l,y+ (x-Ly) |) (wy) | G&+ly) (x-l,y) (xy) | @+Ly) (x,y-1) x-l,y-l)J (xy-1) Kx+l,y- 4-neighbourhood 8-neighbourhood Hình 2.3 Ví dụ về lân cận 4 và lân cận 8 2.2 Thành phần liên thông: liên thông bốn và liên thông tám Hai diém P,, P, duoc goi la lién thong bốn với nhau nếu thỏa mãn một trong hai điều kiện: e P, 1a lan cận bốn của P¡ (hoặc P¡ là lân cận bốn với P;) e Tôn tại điểm Pa mà P; là lân cận bốn của Pa và Pa là lân cận bốn của P\.4 Ví dụ về thành phần liên thông 4 Hai diém P,, P, duoc gọi là liên thông tám với nhau nếu thỏa mãn một trong hai điều kiện: e P, la lan can tám của P¡ (hoặc P; là lân cận tám với P;) e_ Tôn tại điểm P¿ mà P; là lân cận tám của P; và P; là lân cận tám của P¡.5 Ví dụ về thành phần liên thông 8 2.3 Phép chiếu và các profile Đề thực hiện phân đoạn trong nhận dạng, người ta thường sử dụng phép chiếu hình chữ nhật bao.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt về giải pháp và xây dựng phần mềm chuyển đổi văn bản tiếng Việt trong ảnh sang text:

Tài liệu này trình bày giải pháp và quá trình xây dựng phần mềm có khả năng chuyển đổi văn bản tiếng Việt từ hình ảnh sang dạng text có thể chỉnh sửa được. Đây là một công cụ hữu ích giúp số hóa tài liệu, trích xuất thông tin từ ảnh chụp văn bản, và hỗ trợ các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên tiếng Việt.

Nếu bạn quan tâm đến các kỹ thuật nền tảng được sử dụng trong việc xử lý ảnh và nhận dạng, bạn có thể tìm hiểu thêm trong luận văn Luận văn nghiên cứu kỹ thuật deep learning và ứng dụng trong phân loại ảnh, nơi các kỹ thuật deep learning được áp dụng để phân loại ảnh. Hoặc, để hiểu rõ hơn về các phương pháp hiệu chỉnh mẫu và nhận dạng trong xử lý ảnh, hãy tham khảo luận văn Luận văn hiệu chỉnh mẫu và nhận dạng trong nhập điểm tự động. Các tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các khía cạnh kỹ thuật liên quan đến việc xây dựng một hệ thống chuyển đổi văn bản từ ảnh.

#Công nghệ OCR

#OCR tiếng Việt

#chuyển đổi văn bản ảnh

#phần mềm nhận dạng text

#xử lý ảnh tiếng Việt

#giải pháp chuyển đổi text

Chủ đề

công nghệ nhận dạng text

xử lý ngôn ngữ tiếng Việt

phát triển phần mềm OCR

ứng dụng AI trong xử lý ảnh

Luận văn nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

I. Giới thiệu đề tài

1.1 Mô hình giải quyết bài toán

1.2 Mức độ phức tạp của bài toán

II. Phân đoạn ảnh văn bản

2.1 Nhị phân hóa ảnh số

2.2 Thành phần liên thông

III. Trích chọn đặc trưng và nhận dạng

3.1 Trích chọn đặc trưng

3.2 Huấn luyện mạng Neural

IV. Xây dựng phần mềm

4.1 Sơ đồ xử lý

4.2 Các engine sử dụng

V. Thử nghiệm và đánh giá kết quả

5.1 Đánh giá kết quả

5.2 Hướng phát triển

THÔNG TIN CHI TIẾT

Tác giả: Võ Hoàng Minh

Trường học: Đại học Lạc Hồng

Chuyên ngành: Công nghệ thông tin

Đề tài: Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng Việt trong hình ảnh sang văn bản dạng text

Loại tài liệu: báo cáo nghiên cứu khoa học

Năm xuất bản: 2012

Địa điểm: Biên Hòa

Luận văn nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

I. Giới thiệu đề tài

1.1 Mô hình giải quyết bài toán

1.2 Mức độ phức tạp của bài toán

II. Phân đoạn ảnh văn bản

2.1 Nhị phân hóa ảnh số

2.2 Thành phần liên thông

III. Trích chọn đặc trưng và nhận dạng

3.1 Trích chọn đặc trưng

3.2 Huấn luyện mạng Neural

IV. Xây dựng phần mềm

4.1 Sơ đồ xử lý

4.2 Các engine sử dụng

V. Thử nghiệm và đánh giá kết quả

5.1 Đánh giá kết quả

5.2 Hướng phát triển

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Võ Hoàng Minh

Trường học: Đại học Lạc Hồng

Chuyên ngành: Công nghệ thông tin

Đề tài: Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng Việt trong hình ảnh sang văn bản dạng text

Loại tài liệu: báo cáo nghiên cứu khoa học

Năm xuất bản: 2012

Địa điểm: Biên Hòa

Có thể bạn quan tâm