Luận văn thạc sĩ về phát hiện và nhận dạng văn bản trong video

Luận văn thạc sĩ phân tích phát hiện và nhận dạng văn bản trong video, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO

1.1. Phát biểu bài toán

1.2. Các nghiên cứu trước đây về phân tích dữ liệu video

1.3. Tổng quan về video

1.4. Những nghiên cứu liên quan

1.5. Phát hiện và nhận dạng văn bản trong thời điểm hiện tại

1.6. Hướng nghiên cứu của tác giả

1.7. Kết luận chương 1

2. CHƯƠNG 2: PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO

2.1. Bài toán nhận dạng văn bản Video trong lĩnh vực dịch thuật bài giảng trực tuyến

2.2. Kỹ thuật phân đoạn video thành ảnh

2.3. Kỹ thuật nhận dạng và trích xuất văn bản từ ảnh

2.4. Các giải thuật trong nhận dạng văn bản

2.5. Phát hiện và nhận dạng văn bản bằng công nghệ OCR

3. CHƯƠNG 3: XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO

3.1. Phân tích, thiết kế bài toán nhận dạng nội dung video bằng kỹ thuật nhận dạng ký tự quang học

3.2. Nghiên cứu và xây dựng chương trình dựa trên phần mềm mã nguồn mở Tesseract – OCR

3.3. Công cụ và môi trường xây dựng chương trình

3.4. Giao diện chương trình

3.5. Thử nghiệm chương trình trên tập dữ liệu thực

3.6. Kết luận chương 3

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phát hiện và nhận dạng văn bản trong video

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc phát hiện văn bản trong video trở thành một nhu cầu thiết yếu. Nhận dạng văn bản không chỉ giúp tối ưu hóa việc tìm kiếm thông tin mà còn hỗ trợ trong việc phân tích và khai thác dữ liệu từ video. Các nghiên cứu trước đây đã chỉ ra rằng khối lượng thông tin trong video là rất lớn, tuy nhiên, việc trích xuất thông tin này gặp nhiều khó khăn do chất lượng video và kiểu dáng văn bản khác nhau. Đặc biệt, công nghệ nhận dạng như OCR (Optical Character Recognition) đã được áp dụng để giải quyết vấn đề này. Mục tiêu của luận văn là phát triển một công cụ có khả năng nhận dạng văn bản từ video, giúp người dùng dễ dàng tiếp cận nội dung mà không cần xem toàn bộ video.

1.1. Bài toán nhận dạng văn bản trong video

Bài toán nhận dạng văn bản trong video được đặt ra với nhiều thách thức. Văn bản có thể xuất hiện dưới nhiều hình thức khác nhau, từ kích thước, kiểu chữ đến vị trí trong khung hình. Việc phát hiện và nhận dạng văn bản yêu cầu các thuật toán phải có khả năng xử lý các yếu tố như độ phân giải thấp, nền phức tạp và sự biến đổi trong ánh sáng. Các nghiên cứu đã chỉ ra rằng việc phát hiện văn bản trong video không chỉ đơn thuần là nhận diện ký tự mà còn cần phải phân tích ngữ cảnh và cấu trúc của văn bản. Điều này đòi hỏi sự kết hợp giữa các kỹ thuật machine learning và trí tuệ nhân tạo để nâng cao độ chính xác trong việc nhận dạng.

II. Công nghệ và phương pháp phát hiện văn bản

Công nghệ nhận dạng văn bản trong video chủ yếu dựa vào các phương pháp xử lý hình ảnh và machine learning. Một trong những kỹ thuật quan trọng là OCR, cho phép chuyển đổi hình ảnh chứa văn bản thành văn bản có thể chỉnh sửa. Các thuật toán như SVM (Support Vector Machines) và ANN (Artificial Neural Networks) đã được áp dụng để cải thiện độ chính xác của việc nhận dạng. Việc phân đoạn video thành các khung hình và sau đó áp dụng OCR để trích xuất văn bản là một quy trình quan trọng. Các nghiên cứu đã chỉ ra rằng việc tối ưu hóa quy trình này có thể giúp giảm thiểu lỗi trong việc nhận dạng và tăng cường khả năng xử lý dữ liệu lớn từ video.

2.1. Kỹ thuật phân đoạn video

Phân đoạn video thành các khung hình là bước đầu tiên trong quy trình nhận dạng văn bản. Kỹ thuật này cho phép tách biệt các khung hình và xử lý từng khung hình một cách độc lập. Việc sử dụng các thuật toán như keyframe extraction giúp xác định các khung hình quan trọng, từ đó giảm thiểu khối lượng dữ liệu cần xử lý. Các nghiên cứu đã chỉ ra rằng việc lựa chọn khung hình phù hợp có thể cải thiện đáng kể hiệu suất của hệ thống nhận dạng. Hơn nữa, việc áp dụng các kỹ thuật xử lý video tiên tiến như deep learning có thể giúp nâng cao khả năng phát hiện văn bản trong các điều kiện ánh sáng và chất lượng hình ảnh khác nhau.

III. Ứng dụng và triển vọng của nghiên cứu

Nghiên cứu về phát hiện và nhận dạng văn bản trong video có nhiều ứng dụng thực tiễn. Trong lĩnh vực giáo dục, công nghệ này có thể được sử dụng để tự động hóa việc tạo ra tài liệu học tập từ video bài giảng. Ngoài ra, trong lĩnh vực thương mại, việc nhận dạng văn bản từ video quảng cáo có thể giúp phân tích hiệu quả chiến dịch marketing. Hệ thống cũng có thể được áp dụng trong các lĩnh vực như an ninh, giám sát và quản lý dữ liệu. Triển vọng của nghiên cứu này không chỉ dừng lại ở việc phát triển công nghệ mà còn mở ra hướng đi mới cho việc khai thác thông tin từ video, giúp người dùng dễ dàng tiếp cận và sử dụng thông tin một cách hiệu quả.

3.1. Tương lai của công nghệ nhận dạng văn bản

Với sự phát triển không ngừng của công nghệ trí tuệ nhân tạo và machine learning, tương lai của công nghệ nhận dạng văn bản trong video hứa hẹn sẽ có nhiều bước tiến vượt bậc. Các nghiên cứu hiện tại đang tập trung vào việc cải thiện độ chính xác và tốc độ xử lý của các thuật toán nhận dạng. Hơn nữa, việc tích hợp các công nghệ mới như học sâu (deep learning) và trí tuệ nhân tạo có thể giúp nâng cao khả năng nhận dạng văn bản trong các điều kiện khó khăn. Điều này không chỉ mang lại lợi ích cho các ứng dụng hiện tại mà còn mở ra nhiều cơ hội mới trong việc phát triển các sản phẩm và dịch vụ dựa trên công nghệ nhận dạng văn bản.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện và nhận dạng văn bản trong video

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin, lượng dữ liệu video trên internet ngày càng tăng nhanh chóng, đặc biệt là các video bài giảng, thuyết trình phục vụ học tập trực tuyến. Theo ước tính, Youtube có hơn 1 tỷ người dùng với hàng triệu giờ video được xem mỗi ngày, trong khi Facebook trung bình mỗi 13 người dùng đăng tải ít nhất 3 ảnh. Điều này tạo ra nhu cầu cấp thiết về công cụ trích xuất và nhận dạng nội dung văn bản trong video nhằm rút ngắn thời gian tiếp cận thông tin mà vẫn đảm bảo đầy đủ nội dung. Luận văn tập trung nghiên cứu phát hiện và nhận dạng văn bản trong video bài giảng, thuyết trình dưới dạng slide hoặc có phụ đề, với mục tiêu xây dựng một công cụ tự động trích xuất văn bản từ video, giúp người dùng dễ dàng tiếp cận nội dung dưới dạng văn bản thay vì phải xem toàn bộ video.

Phạm vi nghiên cứu tập trung vào kỹ thuật xử lý video, phân đoạn video thành các khung hình chính (keyframes), áp dụng công nghệ nhận dạng ký tự quang học (OCR) để trích xuất văn bản từ ảnh, xử lý trùng lặp và lưu trữ kết quả dưới dạng văn bản. Nghiên cứu được thực hiện trên dữ liệu video bài giảng trực tuyến tại Việt Nam trong giai đoạn 2016-2019. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả tiếp cận tri thức, giảm dung lượng lưu trữ và hỗ trợ dịch thuật, tìm kiếm nội dung video. Các chỉ số hiệu quả như độ chính xác nhận dạng văn bản và tốc độ xử lý được đặt ra làm tiêu chí đánh giá.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính:

Lý thuyết xử lý ảnh và phân đoạn video: Video được phân tách thành các khung hình chính (keyframes) dựa trên đặc điểm kỹ thuật video như FPS (24-30 khung hình/giây). Các khung hình chính chứa thông tin quan trọng, đặc biệt là văn bản được chồng lên video. Phân đoạn video thành ảnh giúp giảm thiểu số lượng ảnh cần xử lý, tập trung vào các khung hình có khả năng chứa văn bản.
Công nghệ nhận dạng ký tự quang học (OCR): OCR là kỹ thuật chuyển đổi hình ảnh chứa văn bản thành dữ liệu văn bản có thể chỉnh sửa và tìm kiếm. Luận văn sử dụng công nghệ OCR mã nguồn mở Tesseract, kết hợp các thuật toán xử lý ảnh như nhị phân hóa, dò hướng, giảm nhiễu, phân tích bố cục trang, tách dòng và từ, huấn luyện và nhận dạng ký tự. Ngoài ra, các thuật toán học máy như mạng Neural nhân tạo (ANN), logic mờ (Fuzzy logic) được áp dụng để nâng cao độ chính xác nhận dạng.

Các khái niệm chuyên ngành quan trọng bao gồm: thành phần liên thông (connected component), nhị phân hóa ảnh, baseline, capline, mean line trong văn bản, thuật toán back-propagation trong mạng Neural, và các phương pháp đo khoảng cách Euclid, Manhattan, Hamming trong nhận dạng mẫu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các video bài giảng, thuyết trình trực tuyến được thu thập từ các nền tảng phổ biến trong giai đoạn 2016-2019. Phương pháp nghiên cứu bao gồm:

Nghiên cứu lý thuyết: Tổng hợp, phân tích các công trình khoa học, tài liệu chuyên ngành về xử lý video, nhận dạng văn bản và OCR từ các nguồn như hội thảo, tạp chí chuyên ngành.
Nghiên cứu thực nghiệm: Xây dựng chương trình phát hiện và nhận dạng văn bản trong video dựa trên thư viện Tesseract OCR. Quá trình thực nghiệm gồm phân đoạn video thành ảnh theo keyframes bằng công cụ FFMpeg, xử lý ảnh, nhận dạng văn bản, xử lý trùng lặp và lưu trữ kết quả.

Cỡ mẫu thử nghiệm gồm khoảng vài trăm khung hình chính từ nhiều video bài giảng khác nhau. Phương pháp chọn mẫu là ngẫu nhiên có kiểm soát để đảm bảo tính đại diện. Phân tích kết quả sử dụng các chỉ số độ chính xác nhận dạng, tỷ lệ lỗi, và so sánh với các nghiên cứu trước đây. Timeline nghiên cứu kéo dài trong 12 tháng, từ khảo sát lý thuyết đến xây dựng và thử nghiệm chương trình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phân đoạn video thành khung hình chính (keyframes) hiệu quả: Sử dụng FFMpeg với bộ lọc chọn khung hình chỉ mục (I-frames) giúp giảm số lượng ảnh cần xử lý xuống khoảng 80% so với tổng số khung hình, đồng thời giữ lại các khung hình chứa văn bản quan trọng. Khoảng cách giữa các keyframe dao động từ 2-5 giây, phù hợp với thời gian đọc hiểu của người dùng.
Độ chính xác nhận dạng văn bản đạt trên 85% trên tập dữ liệu thực: Chương trình xây dựng dựa trên Tesseract OCR phiên bản 4.0, kết hợp tiền xử lý ảnh như nhị phân hóa cục bộ, chỉnh độ nghiêng và giảm nhiễu, đạt tỷ lệ nhận dạng chính xác trung bình 87% trên các video bài giảng thử nghiệm. Tỷ lệ lỗi chủ yếu do chất lượng ảnh đầu vào thấp và các font chữ đặc biệt.
Xử lý trùng lặp văn bản giúp giảm dung lượng lưu trữ đến 60%: Sau khi nhận dạng, các đoạn văn bản trùng lặp trên các khung hình liên tiếp được lọc bỏ, giúp rút gọn nội dung và giảm dung lượng lưu trữ. Điều này cũng hỗ trợ người dùng tiếp cận nội dung nhanh hơn.
So sánh với các nghiên cứu trước đây cho thấy cải tiến về tốc độ và độ chính xác: Nghiên cứu kết hợp kỹ thuật phân đoạn video và OCR hiện đại, đồng thời áp dụng các thuật toán học máy giúp nâng cao hiệu quả so với các phương pháp truyền thống chỉ dựa vào xử lý ảnh hoặc nhận dạng ký tự đơn thuần.

Thảo luận kết quả

Nguyên nhân chính của độ chính xác nhận dạng chưa đạt mức tối ưu là do chất lượng video đầu vào không đồng đều, bao gồm độ phân giải thấp, nhiễu nền phức tạp và đa dạng font chữ. Việc sử dụng kỹ thuật nhị phân hóa cục bộ và chỉnh sửa độ nghiêng giúp cải thiện đáng kể chất lượng ảnh đầu vào cho OCR. Kết quả có thể được trình bày qua biểu đồ cột so sánh tỷ lệ nhận dạng chính xác giữa các phương pháp tiền xử lý khác nhau, hoặc bảng thống kê tỷ lệ lỗi theo loại font chữ và chất lượng video.

So với các nghiên cứu trước đây, việc kết hợp phân đoạn video theo keyframes và xử lý trùng lặp văn bản là điểm mới, giúp giảm đáng kể khối lượng dữ liệu cần xử lý và lưu trữ. Điều này có ý nghĩa thực tiễn lớn trong việc xây dựng các hệ thống trích xuất nội dung video bài giảng trực tuyến, hỗ trợ học tập và dịch thuật hiệu quả.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý ảnh đầu vào: Áp dụng các kỹ thuật nâng cao như lọc nhiễu phi tuyến, cải thiện nhị phân hóa cục bộ và tự động chỉnh độ nghiêng để nâng cao chất lượng ảnh đầu vào, từ đó tăng độ chính xác nhận dạng văn bản. Thời gian thực hiện: 3-6 tháng. Chủ thể thực hiện: nhóm phát triển phần mềm OCR.
Phát triển thuật toán lọc trùng lặp văn bản thông minh hơn: Sử dụng các phương pháp học máy để nhận diện và loại bỏ các đoạn văn bản trùng lặp hoặc tương tự nhau trong video, giúp giảm dung lượng lưu trữ và tăng tốc độ truy xuất. Thời gian thực hiện: 6 tháng. Chủ thể thực hiện: nhóm nghiên cứu AI và xử lý ngôn ngữ tự nhiên.
Mở rộng hỗ trợ đa ngôn ngữ và font chữ: Tích hợp thêm các mô hình nhận dạng cho các ngôn ngữ và font chữ phổ biến trong video bài giảng, đặc biệt là tiếng Việt và tiếng Anh với các font chữ đa dạng. Thời gian thực hiện: 9 tháng. Chủ thể thực hiện: nhóm phát triển phần mềm OCR và chuyên gia ngôn ngữ.
Xây dựng giao diện người dùng thân thiện và tích hợp trên nền tảng web: Phát triển giao diện GUI dễ sử dụng, cho phép người dùng tải video, xem kết quả nhận dạng văn bản và chỉnh sửa trực tiếp. Thời gian thực hiện: 4 tháng. Chủ thể thực hiện: nhóm phát triển phần mềm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Công nghệ thông tin: Nghiên cứu các phương pháp xử lý video, nhận dạng ký tự quang học và ứng dụng OCR trong thực tế.
Các doanh nghiệp phát triển phần mềm giáo dục trực tuyến và e-learning: Áp dụng công nghệ trích xuất văn bản từ video để nâng cao trải nghiệm người dùng, hỗ trợ tìm kiếm và dịch thuật nội dung bài giảng.
Chuyên gia xử lý dữ liệu lớn và trí tuệ nhân tạo: Tìm hiểu cách kết hợp kỹ thuật xử lý ảnh, học máy và OCR để phát triển các hệ thống phân tích nội dung video tự động.
Cơ quan quản lý giáo dục và đào tạo: Ứng dụng công nghệ để số hóa, lưu trữ và quản lý nội dung bài giảng trực tuyến, nâng cao hiệu quả quản lý và truy cập tài liệu.

Câu hỏi thường gặp

Phân đoạn video thành khung hình chính có tác dụng gì?
Phân đoạn video thành các khung hình chính (keyframes) giúp giảm số lượng ảnh cần xử lý, tập trung vào những khung hình chứa nội dung quan trọng như văn bản. Ví dụ, sử dụng FFMpeg để trích xuất keyframes giúp giảm khoảng 80% số ảnh so với tổng số khung hình.
Tại sao cần tiền xử lý ảnh trước khi nhận dạng văn bản?
Tiền xử lý ảnh như nhị phân hóa, chỉnh độ nghiêng và giảm nhiễu giúp nâng cao chất lượng ảnh đầu vào, từ đó tăng độ chính xác của OCR. Ví dụ, nhị phân hóa cục bộ giúp xử lý ảnh có nền phức tạp và độ tương phản thấp hiệu quả hơn.
Tesseract OCR có ưu điểm gì so với các phần mềm khác?
Tesseract là thư viện OCR mã nguồn mở, hỗ trợ nhiều ngôn ngữ, có khả năng nhận dạng chính xác cao và được phát triển liên tục với công nghệ học sâu (LSTM). Nó phù hợp để xây dựng các ứng dụng tùy biến và tích hợp.
Làm thế nào để xử lý lỗi nhận dạng trong OCR?
Các lỗi nhận dạng thường do nhiễu, font chữ đặc biệt hoặc chất lượng ảnh kém. Có thể áp dụng các biện pháp sửa lỗi chính tả tự động, sử dụng từ điển ngôn ngữ và kết hợp xử lý ngữ cảnh để cải thiện kết quả.
Ứng dụng của công nghệ phát hiện và nhận dạng văn bản trong video là gì?
Công nghệ này giúp số hóa nội dung video bài giảng, hỗ trợ tìm kiếm, dịch thuật, lưu trữ và truy cập nhanh chóng. Ví dụ, người học có thể đọc nội dung văn bản thay vì xem toàn bộ video, tiết kiệm thời gian và tăng hiệu quả học tập.

Kết luận

Luận văn đã xây dựng thành công chương trình phát hiện và nhận dạng văn bản trong video bài giảng dựa trên công nghệ OCR Tesseract, đạt độ chính xác nhận dạng trung bình 87%.
Phân đoạn video theo keyframes giúp giảm đáng kể số lượng ảnh cần xử lý, tăng hiệu quả và tốc độ xử lý.
Xử lý trùng lặp văn bản sau nhận dạng giúp giảm dung lượng lưu trữ đến 60%, hỗ trợ truy xuất nhanh và tiện lợi.
Nghiên cứu kết hợp các kỹ thuật xử lý ảnh, học máy và OCR, mở ra hướng phát triển ứng dụng trong lĩnh vực giáo dục trực tuyến và số hóa tài liệu.
Các bước tiếp theo bao gồm nâng cao tiền xử lý ảnh, mở rộng hỗ trợ đa ngôn ngữ, phát triển giao diện người dùng và tích hợp hệ thống trên nền tảng web.

Để tiếp tục phát triển công nghệ này, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng và cải tiến dựa trên nền tảng đã xây dựng, nhằm nâng cao hiệu quả và mở rộng ứng dụng trong thực tế.

Trích đoạn nội dung tài liệu

chương 1, học viên đã trình bày khái quát về bài toán phát hiện và nhận dạng văn bản trong video. Đồng thời dựa trên những nghiên cứu trước đây của các tác giả khác và công nghệ trong thời gian hiện tại để đưa ra hướng giải quyết bài toán có thể áp dụng trong lĩnh vực phát hiện và nhận dạng văn bản trong video. Học viên cũng đã đề xuất được kiến trúc của chương trình phát hiện và nhận dạng văn bản trong viđeo để từ đó tạo tiền đề cho các chương tiếp theo để tiến hành nghiên cứu và xây dựng chương trình kiểm thử trên tập dữ liệu thực. Luan van 11 Chương 2 - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 2.

Bài toán nhận dạng văn bản Video trong lĩnh vực dịch thuật bài giảng trực tuyến Văn bản trong video Văn bản trong video có thể được phân loại thành hai loại: văn bản nằm trên cảnh và văn bản hậu xử lý. Văn bản nằm trên cảnh là một phần của môi trường và được máy ảnh chụp cùng với phần còn lại của cảnh. Văn bản nhân tạo được tạo riêng biệt từ quay video và phủ lên cảnh trong giai đoạn hậu xử lý[10]. Chúng tôi quan tâm đến các phương pháp phát hiện văn bản nhân tạo (hoặc được nhúng) trong video vì nó mang thông tin quan trọng về ngữ nghĩa của nội dung video.

Ví dụ: văn bản phụ đề có trong chương trình phát sóng tin tức và phim tài liệu thường chú thích thông tin về vị trí, thời gian và sự kiện được báo cáo. Cũng trong các chương trình thể thao, điểm số và tên người chơi hoặc tên nhóm thường được xếp chồng lên video ở dạng văn bản thay vì được nói to. Một số đặc tính chính của văn bản mà ta cần biết: [3]  Độ tương phản giữa văn bản và nền (Contrast between text and background) Độ tương phản là một tính năng quan trọng vì trong hầu hết ảnh muốn đọc được thì ảnh không được mờ hay bị che khuất. Thông thường ảnh phải có độ tương phản cao cũng như ánh sáng ổn định.

Một trong những vấn đề chính khiến rất khó phát hiện văn bản chính là độ tương phản thấp và nền phức tạp. Trong trường hợp này, ta cần một số công cụ nâng cao để xử lý ảnh trước.  Không gian kết nối (Spatial cohesion) Các tính năng được nhắc đến trong phần này liên quan đến khía cạnh hình học của ký tự, chẳng hạn như:  Kiểu in (Typography): đề cập đến loại font sử dụng, kích thước, chiều cao và độ rộng tối thiểu mà người ta có thể đọc được. Chiều dài từ và Luan van 12 câu cũng có thể được tính toán để tách các từ bằng khoảng trắng giữa chúng.

 Độ gắn kết (Compactness): phụ thuộc vào cách bố trí của tác giả khi từ hay đoạn văn bản được đặt trong một hộp giới hạn.  Hướng của văn bản (Direction): một văn bản có định hướng sẽ dễ đọc hơn và thường được hiển thị theo chiều ngang.  Kiến trúc bên ngoài (Textured appearance): Hai tính năng ở trên, độ tương phản và không gian kết nối có thể khiến việc phát hiện văn bản trở thành phân đoạn kết cấu. Việc xem xét văn bản dưới dạng toàn bộ xem nó có đủ các tính năng để phát hiện là văn bản hay không.

Sự cố xảy ra khi kiến trúc của hình ảnh và văn bản giống nhau sẽ khiến việc phát hiện là rất khó khăn.  Đồng nhất màu sắc (Colour homogeneit): Chữ in thường là đơn sắc. Một số loại giấy tờ yêu cầu tính đồng nhất về màu sắc là yếu tố hàng đầu, vì phân chia màu giữa đường biên sẽ dễ dàng hơn là phân chia bằng độ tương phản. Các chữ đa sắc cũng có thể được phát hiện, tuy nhiên chúng mang tính nghệ thuật nhiều hơn là thông tin, do đó một vài tác giả có xu hướng bỏ qua chúng.

 Độ dày của nét (Strokes thickness): Thông thường độ dày của nét chữ là không đổi, ngoại trừ một số kiểu chữ đặc biệt. Độ dày nét còn phụ thuộc vào mật độ của nó trong ký tự.  Tính đồng nhất và dư thừa tạm thời (Temporal uniformity redundancy) Con người cần thời gian để đọc 1 câu. Điều này có nghĩa là cứ sau 25 khung hình thứ hai xuất hiện.

Cùng một văn bản sẽ được chồng lên nhau trong nhiều khung hình để người có thể đủ thời gian để đọc được. Nghiên cứu chỉ ra rằng con người cần 2-3 giây để hiểu và xử lý một hình ảnh phức tạp. Ngoài thời gian hiển thị thì còn là sự biến đổi và kích thước hoặc chuyển động của chúng trong suốt video mà không thay đổi quá nhiều trong mỗi khung hình. Luan van 13  Chuyển động trên khung hình (Movement on the frame): Là sự dịch chuyển của văn bản trên khung hình.

Có thể là chuyển động tuyến tính hoặc theo chiều từ phải sang trái, cuộn từ dưới lên hoặc bay tự do trên khung hình. Khi đó khối văn bản có thể bị loại bỏ do giả định rằng văn bản này thường không có ý định cung cấp thông tin, nhưng để thu hút sự chú ý. Mặt khác vận tốc trong chuyển động cũng là một yếu tố. Khi vận tốc quá nhanh thì có nghĩa là vùng đó không để đọc.

 Vị trí trong khung hình (Position in the frame): Thông thường, văn bản thường xếp chồng lên nhau trong cùng một vùng trong khung hình. Ta vẫn thường thấy chúng xuất hiện ở những vị trí không bao gồm nội dung video (Ví dụ: Bảng tỉ số trận bóng nằm ở góc trên bên trái/phải khung hình) Vì vậy, có thể nói việc nhận dạng văn bản từ Video là ta sẽ lấy văn bản từ từng frame được cắt. Sau đó tổng hợp lại và xử lý lọc trùng lặp các văn bản giống nhau. Để từ đó rút gọn lại được thành văn bản hoàn chỉnh.

Kỹ thuật phân đoạn video thành ảnh Như đã nói ở phần trên, thì một video có thể được trích xuất ra đến hàng trăm, hàng nghìn hoặc thậm chí hàng vạn bức ảnh. Tuy nhiên trên thực tế lượng thông tin nằm trong video không nhiều đến vậy. Thông tin hay trong khuôn khổ luận văn này là văn bản được trích xuất chỉ nằm trên các khung hình chính của video (keyframes)[17], là những hình ảnh được sử dụng làm tham chiếu trong video. Chúng được sử dụng làm tham chiếu để ta có thể tìm kiếm và dễ dàng tham chiếu đến các khung hình phía sau để có thể nén video lưu trữ sự khác biệt giữa các khung hình chính và các khung hình sau nó thay vì lưu trữ tất cả chúng.

Đó là lý do ta có thể mong đợi chất lượng hình ảnh và thông tin trên khung hình chính này. Khoảng cách giữa các khung hình chính phụ thuộc vào video được sử dụng. Tuy nhiên thông thường thì khoảng cách này dao động từ 2-5 giây. Chúng ta có thể tìm kiếm được phần mềm, công cụ khác nhau để hỗ trợ việc chuyển đổi video thành các Luan van 14 frames như phần mềm total video converter, video to picture converter… Nhưng tác giả quan tâm nhất là công cụ mã nguồn mở Ffmpeg bởi ba lý do chính:  Hỗ trợ nhiều định dạng video khác nhau, ví dụ .mp4, avi, flv…  Điều chỉnh được FPS.

FFMpeg là một thư viện có rất nhiều tiện ích cho việc xử lý video. Tính năng nổi bật nhất có lẽ là khả năng encode/decode nhiều video định dạng khác nhau, giúp chuyển đổi qua lại nhiều định dạng video. Ngoài ra, chúng ta cũng có thể dùng FFMpeg để chia cắt một đoạn video, chụp lại các frame và xuất ra dạng hình ảnh,… Để trích xuất các khung hình chính từ tệp video bằng ffmpeg, ta có thể sử dụng lệnh sau: ffmpeg –I {IP} –vf “select=eq(pict_type\,I)” –vsync vfr {OP} –hide_banner Trong đó: -vf: Bộ lọc của video. Trong trường hợp này, bộ lọc video phức tạp hơn một chút so với trước đây.

“select = eq (pict_type \, I)” sẽ làm cho bộ lọc chọn tất cả hình ảnh là khung hình chính. (“pict_type \, I” dùng để chỉ loại hình ảnh chỉ mục, “eq” đề cập đến bằng nhau, vì vậy chúng tôi có thể đọc nó là “chọn tất cả bằng hình ảnh chỉ mục”) -vsync vfr: Đây là thông số cho bộ lọc sử dụng đồng bộ hóa bitrate của biến. Nếu chúng ta không sử dụng tham số này ffmpeg sẽ không tìm thấy chỉ các khung hình chính và trích xuất các khung hình khác có thể không được xử lý chính xác. 1: Phân đoạn video thành ảnh theo keyframes [17] Luan van 15 2.

Kỹ thuật nhận dạng và trích xuất văn bản từ ảnh 2. Các giải thuật trong nhận dạng văn bản Ứng dụng Logic mờ trong nhận dạng văn bản Hệ logic đơn giản nhất là logic mệnh đề, bất cứ một mệnh đề chỉ có thể nhận một trong hai giá trị là đúng hay sai. Các mệnh đề kết hợp với nhau qua các phép toán phủ định, và, hoặc, kéo theo… Nhược điểm của logic mệnh đề là nó thiếu cơ chế diễn tả các quan hệ giữa các đối tượng, nó cũng không tổng quát hóa được các đối tượng trong tự nhiên. Logic vị từ là một phương tiện để nâng cao tính rõ nghĩa của logic mệnh đề.

Sự tổng quát hóa của nó cho phép ta biểu diễn tri thức cũng như lập luận về các đối tượng và các thực thể quan hệ. Cần phải nhấn mạnh rằng, phát biểu trong logic vị từ không mang giá trị đúng hoặc sai trừ phi các đối số nhận giá trị rõ. Tuy nhiên, logic vị từ vẫn là hệ logic hai giá trị, điều này dẫn tới sự hình thành hệ logic đa trị có giá trị thứ ba là không xác định (0. Logic mờ (Fuzzy logic) được xây dựng dựa trên sự tổng quát của logic đa trị, nó cho phép lập luận trên các đối tượng thực tế được định nghĩa không rõ ràng như các thực thể quan hệ.

Trong logic mờ, chỉ có các đối tượng xấp xỉ chứ không có đối tượng chính xác, do đó lập luận cũng là xấp xỉ. Một chân trị là một điểm trong khoảng [0, 1] trường hợp giá trị là số hay là cụm từ như đúng, rất đúng, sai, kém… trường hợp giá trị chân lý là ngôn ngữ. Ví dụ như thông tin dự báo thời tiết “Có mưa rải rác vài nơi” không thể biểu diễn bằng một trị chân lý 0 hay 1, nhưng nó vẫn có giá trị đúng theo số phần trăm nào đó theo công tác nghiên cứu thống kê. Trong trường hợp này, một khẳng định A kèm theo giá trị độ thuộc 0 ≤ μ(A) ≤ 1 đo sự chính xác của A, ký hiệu là (A, μ(A)).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về phát hiện và nhận dạng văn bản trong video" của tác giả Ngô Ngọc Hà, dưới sự hướng dẫn của TS. Vũ Hữu Tiến tại Học viện Công nghệ Bưu chính Viễn thông, tập trung vào việc phát triển các phương pháp và công nghệ để nhận diện văn bản trong video. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện có mà còn mở ra hướng đi mới cho việc ứng dụng trong nhiều lĩnh vực như truyền thông, giáo dục và an ninh. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các phương pháp này trong thực tiễn, từ đó nâng cao hiệu quả trong việc xử lý và phân tích thông tin từ video.

Nếu bạn quan tâm đến các chủ đề liên quan, hãy khám phá thêm về Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu về nhận diện giọng nói, một lĩnh vực có nhiều điểm tương đồng với nhận dạng văn bản trong video. Bên cạnh đó, bạn cũng có thể tham khảo Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, một nghiên cứu khác về công nghệ nhận diện, giúp mở rộng hiểu biết về các ứng dụng của học máy trong lĩnh vực này. Cuối cùng, bài viết Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ cũng sẽ cung cấp thêm thông tin về việc áp dụng học sâu trong các lĩnh vực ngôn ngữ, liên quan mật thiết đến nhận diện văn bản.

#Luận văn Thạc sĩ

#công nghệ nhận dạng

#phát hiện văn bản

#nhận dạng văn bản

#OCR trong video

Chủ đề

Học máy và trí tuệ nhân tạo

Công nghệ nhận dạng văn bản

Ứng dụng của computer vision