Trích Xuất Tự Động Văn Bản Từ Truyện Tranh: Nghiên Cứu và Ứng Dụng

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp khoa học máy tính trích xuất tự động văn bản tiếng nhật từ truyện tranh nhật bản, vận dụng lý thuyết vào thực tế, đề xuất giải pháp cụ

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

2. CHƯƠNG 2: TỔNG QUAN

3. CHƯƠNG 3: MÔ HÌNH PHÁT HIỆN VÙNG CHỨA VĂN BẢN

3.1. Giới thiệu chung

3.2. Mô hình YOLOv3

3.2.1. Chi tiết mô hình

3.2.2. Lý do chọn YOLOv3

3.2.3. Các kỹ thuật sử dụng trong mô hình

3.2.4. Thêm các tính năng chi tiết (Fine-grained feature)

4. CHƯƠNG 4: THÍ NGHIỆM VÀ KẾT QUẢ

4.1. Giới thiệu bộ dữ liệu Manga109

4.2. Phương pháp đánh giá

4.3. Cài đặt thí nghiệm

4.4. Đánh giá mô hình phát hiện vùng chứa văn bản

5. CHƯƠNG 5: NHẬN DIỆN KÍ TỰ

5.1. Định nghĩa bài toán

5.2. Tổng quan về hệ thống Tesseract

5.3. Tiền xử lý ảnh sau khi phát hiện vùng chứa văn bản

5.4. Ví dụ kết quả khi áp dụng Tesseract cho nhận diện kí tự sau khi xử lý

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

TÓM TẮT KHÓA LUẬN

Tóm tắt

I. Tổng Quan Về Trích Xuất Tự Động Văn Bản Từ Truyện Tranh

Trích xuất tự động văn bản từ truyện tranh là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Với sự bùng nổ của công nghệ 4.0, việc số hóa và dịch thuật truyện tranh trở nên cần thiết hơn bao giờ hết. Nghiên cứu này không chỉ giúp người đọc dễ dàng tiếp cận các tác phẩm văn học mà còn mở ra cơ hội cho việc phát triển các công cụ hỗ trợ dịch thuật tự động. Các phương pháp hiện tại chủ yếu dựa vào công nghệ nhận diện ký tự quang học (OCR) và các mô hình học sâu để phát hiện và trích xuất văn bản từ hình ảnh.

1.1. Khái Niệm Về Trích Xuất Văn Bản Từ Truyện Tranh

Trích xuất văn bản từ truyện tranh là quá trình nhận diện và chuyển đổi văn bản trong hình ảnh thành dạng số. Điều này bao gồm việc phát hiện các vùng chứa văn bản và nhận diện ký tự trong các vùng đó. Công nghệ này giúp cải thiện khả năng truy cập thông tin cho người dùng không biết ngôn ngữ gốc.

1.2. Tầm Quan Trọng Của Nghiên Cứu

Nghiên cứu về trích xuất tự động văn bản từ truyện tranh không chỉ giúp nâng cao trải nghiệm đọc mà còn hỗ trợ việc dịch thuật nhanh chóng và chính xác. Điều này đặc biệt quan trọng trong bối cảnh toàn cầu hóa, nơi mà người đọc muốn tiếp cận các tác phẩm văn học từ nhiều nền văn hóa khác nhau.

II. Các Thách Thức Trong Trích Xuất Tự Động Văn Bản

Mặc dù công nghệ trích xuất văn bản đã phát triển, nhưng vẫn còn nhiều thách thức cần phải vượt qua. Các yếu tố như độ phức tạp của hình ảnh, sự đa dạng trong kiểu chữ và cách bố trí văn bản trong truyện tranh gây khó khăn cho quá trình nhận diện. Hơn nữa, việc xử lý các đoạn văn bản không nằm trong khung thoại cũng là một thách thức lớn.

2.1. Độ Phức Tạp Của Hình Ảnh

Hình ảnh trong truyện tranh thường có nhiều yếu tố như màu sắc, độ sáng và các hình dạng khác nhau. Điều này làm cho việc phát hiện vùng chứa văn bản trở nên khó khăn hơn, đặc biệt là khi các vùng văn bản có màu sắc tương tự với nền.

2.2. Kiểu Chữ Phức Tạp

Nhiều tác giả sử dụng kiểu chữ cách điệu trong truyện tranh, điều này gây khó khăn cho các hệ thống nhận diện ký tự. Các ký tự có thể được viết bằng nhiều phong cách khác nhau, làm giảm độ chính xác của quá trình nhận diện.

III. Phương Pháp Trích Xuất Tự Động Văn Bản Hiện Nay

Có nhiều phương pháp được áp dụng để trích xuất văn bản từ truyện tranh, bao gồm các kỹ thuật học sâu và nhận diện ký tự quang học. Các mô hình như YOLOv3 và Tesseract đã được sử dụng để phát hiện và nhận diện văn bản trong hình ảnh. Những phương pháp này cho thấy hiệu quả cao trong việc xử lý các trang truyện tranh.

3.1. Mô Hình YOLOv3

YOLOv3 là một trong những mô hình tiên tiến nhất hiện nay cho việc phát hiện đối tượng trong hình ảnh. Mô hình này cho phép phát hiện nhiều đối tượng cùng lúc và xác định vị trí của chúng, rất hữu ích trong việc phát hiện vùng chứa văn bản trong truyện tranh.

3.2. Công Nghệ Tesseract

Tesseract là một công cụ nhận diện ký tự quang học mạnh mẽ, có khả năng nhận diện văn bản từ hình ảnh với độ chính xác cao. Công nghệ này đã được áp dụng thành công trong nhiều nghiên cứu để trích xuất văn bản từ truyện tranh.

IV. Ứng Dụng Thực Tiễn Của Trích Xuất Tự Động Văn Bản

Trích xuất tự động văn bản từ truyện tranh có nhiều ứng dụng thực tiễn, từ việc hỗ trợ dịch thuật đến việc cải thiện trải nghiệm đọc cho người dùng. Các công cụ này giúp người đọc dễ dàng tiếp cận các tác phẩm văn học từ nhiều nền văn hóa khác nhau mà không cần phải biết ngôn ngữ gốc.

4.1. Hỗ Trợ Dịch Thuật

Việc trích xuất văn bản tự động giúp cho quá trình dịch thuật trở nên nhanh chóng và hiệu quả hơn. Người dùng có thể dễ dàng dịch các trang truyện tranh từ tiếng Nhật sang các ngôn ngữ khác mà không cần phải làm thủ công.

4.2. Cải Thiện Trải Nghiệm Đọc

Công nghệ này không chỉ giúp người đọc tiếp cận thông tin mà còn nâng cao trải nghiệm đọc. Người dùng có thể thưởng thức các tác phẩm văn học mà không bị rào cản ngôn ngữ.

V. Kết Luận Và Tương Lai Của Trích Xuất Tự Động Văn Bản

Trích xuất tự động văn bản từ truyện tranh là một lĩnh vực đầy tiềm năng với nhiều cơ hội phát triển trong tương lai. Các nghiên cứu hiện tại đang mở ra hướng đi mới cho việc cải thiện công nghệ nhận diện văn bản và dịch thuật tự động. Với sự phát triển không ngừng của công nghệ, hy vọng rằng trong tương lai, việc trích xuất văn bản sẽ trở nên chính xác và hiệu quả hơn.

5.1. Hướng Phát Triển Công Nghệ

Công nghệ trích xuất văn bản sẽ tiếp tục phát triển với sự hỗ trợ của các mô hình học sâu và AI. Điều này sẽ giúp cải thiện độ chính xác và hiệu quả của quá trình nhận diện văn bản trong truyện tranh.

5.2. Tương Lai Của Nghiên Cứu

Nghiên cứu về trích xuất tự động văn bản từ truyện tranh sẽ tiếp tục thu hút sự quan tâm của các nhà khoa học và kỹ sư. Các công nghệ mới sẽ được phát triển để giải quyết các thách thức hiện tại và mở ra nhiều cơ hội mới cho người dùng.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính trích xuất tự động văn bản tiếng nhật từ truyện tranh nhật bản

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Mở dau. Trình bày lý do chọn đề tài, mục tiêu, đối tượng phạm vi và kết quả nghiên cứu. chương 2: Tổng quan. Trình bày một số công trình nghiên cứu có liên quan đến đề tài, chỉ ra những vấn đề còn tồn đọng và hướng giải quyết.

Chương 3: Mô hình Phát hiện vùng chứa văn bản: Trình bày kỹ thuật áp dụng để phát hiện vùng chứa văn bản trong Manga. Chương 4: Thí nghiệm và kết quả: Trình bày thiết kế thí nghiệm và đánh giá kết quả đạt được trên mô hình phát hiện vùng chứa văn bản chương 5: Nhận diện kí tự: Trinh bay kỹ thuật xử lý anh dé có thé áp dung Tesseract vào nhận diện kí tự trong Manga. chương 6: kết luận và hướng phát triển. Trinh bày những kết qua mà đề tài đạt được, rút ra nhận xét, tự đánh giá và trình bày hướng phát triên của đê tài này.

Tổng Quan Hiện nay đã có nhiều phương pháp phát hiện vùng chứa văn bản từ anh[5], nhưng nghiên cứu về trích xuất văn bản trong truyện tranh thì vẫn chưa được nhiều[2]. Sau đây là tóm tắt và nhận xét một số công trình có liên quan đến bài toán. Tiêp cận dựa trên vùng và kêt cầu của ảnh Tác giả Kohei Arai, Herman Tolle[1] đã dé xuất hai cách tiép can chinh đó là: phát hiện vùng chứa văn ban dựa trên vùng và dựa trên kết cấu của ảnh. Cách tiếp cận này dựa trên những đặc trưng cấp thấp của ảnh và xử lý ảnh cơ bản đây là cách tiếp cận nhằm phát hiện các vùng ảnh khác nhau về các thuộc tính, chang hạn như độ sáng hoặc màu sắc, so với các vùng xung quanh dựa Vào gia thiết các đoạn văn bản trong một trang truyện Manga sẽ nằm trong một bóng thoại hoàn chỉnh với nền trắng và chữ đen.

Chính vì vậy nên vẫn có rất nhiều trường hợp phát hiện sai và sự sai lệch này sẽ dẫn đến nhận dạng kí tự sai. Tiếp cận dựa trên đề xuất vùng, phân lớp và hồi quy H Tác giả Wei-ta Chu, Chih-chi Yu[3] đưa ra phương pháp dựa trên đề xuất vùng (Region proposal Network), phân lớp và hồi quy. Trong bài báo dé xuất hai cách tiếp cận dựa trên mạng học sâu dé phát hiện vùng chứa văn ban trong truyện tranh. e Cách 1: Các đặc trưng được trích xuất từ CNN (Convolutional Neural Network) sau đó được đưa vào mạng phân loại/hồi quy.

e Cách2: dựa trên đề xuất vùng, trích xuất đặc trưng và phân loai/héi quy sau đó kết hợp tất cả lại vào một mạng học sâu. Độ chính xác của phương pháp này chỉ dừng lại ở mức chấp nhận được (độ chính xác 62%). e Số liệu đánh giá tuân theo thiết kế trong cuộc thi của ICDAR 2013, với vùng kết quả phát hiện A và nhãn vùng kí tự B, chúng ta xem A là vùng phát hiện đúng nêu có tỉ lệ 7, = ial ! lớn hơn một ngưỡng x oS ⁄¿ Đ:A , k 24244 ANBl,, A ~ , X z2 1A |JANB|,, ^ ~. t, cho trước và tỉ lỆ 7, = lớn hơn một ngưỡng f„ cho trước.

, |B | 7 Ta có tập kết quả phát hiện A={4., A„} và tập nhãn vùng did; dij van bản B={V,., B,} ta tính độ chính xác Precision = , All oii = | 0 các các trường trường h sn hợp còn lai’ với IIAII biêu thị sô lượng cua lại tap A. Dựa trên tích chap sâu Tác giả David Dubray, Jochen Laubrock [4] đề xuất phương pháp phát hiện vùng chứa văn bản dựa trên mạng tích chập sâu, kết cầu mạng này có được nhờ sự kết hợp mạng VGG-16 và cấu trúc mạng U (U-net)[4]. Phương pháp này đã hoạt động tốt trong việc phát hiện bóng thoại trên bộ dit liệu GNC (đây là một bộ dữ liệu truyện tranh với những tập truyện tranh dài hơn 64 trang, ké về một câu chuyện liên tục) Nhưng hiện tại mới chỉ có kết quả tốt trên bộ dữ liệu ƠNC này và có kết quả không được tốt trên truyện tranh Nhật Bản (Manga) cụ thể là bộ dữ liệu Manga109 (bao gồm 109 tập truyện được vẽ bởi các tác giả chuyên nghiệp tại Nhật Bản). Dựa trên SSD300-fork Đây là một phương pháp phát hiện các đối tượng có sự chồng chéo cao, với những phương pháp phát hiện vật thé dựa trên khung neo, mỗi khung neo có kích cỡ, hình dang và vị trí riêng.

Trong giai đoạn huấn luyện, các phương pháp dựa trên khung neo dự đoán vị trí và danh mục của đối tượng gần nhất cho mỗi khung neo. Dé loại bỏ các kết qua đầu ra cho biết cùng một đối tượng NMS được tiến hành trong giai đoạn huấn luyện, mỗi khung neo được huấn luyện dé trả về vị trí và danh mục gần nhất. Từ đó có một vẫn đề xảy ra là các phương thức hiện tại chúng không thé gan các đối tượng dé có một khung neo đúng cách nếu có một số đối tượng có vi trí, kích thước và hình dạng tương tự nhau, kết quả là một trong những đối tượng đó không được dùng để huấn luyện. Điều này trở nên cực kỳ ảnh hưởng tới mô hình khi các đối tượng có sự chồng chéo nhau.

Và trong dit liệu truyện tranh có rất nhiều trường hop chồng chéo nhau. Trong trường hợp này hệ thống phát hiện sẽ không hoạt động tốt ngay cả khi số lượng nhãn nhỏ. Dé giải quyết van đề này, Tác giả đề xuất mô hình phân nhánh (forked model)[7]. Mô hình này tạo bản sao của tập mỏ neo.

Mỗi tập neo được sao chép chịu trách nhiệm cho một danh mục, các đối tượng được gán trong các khung neo của tập neo tương ứng. Bằng cách sử dụng mô hình phân nhánh được đề xuất tác giả có thé giải quyết van đề phân công và các đối tượng chồng chéo có thê được phát hiện một cách chính xác. Để xây dựng mô hình phân nhánh, tác giả đã chọn SSD300[8] làm mạng cơ sở vì nó lưu trữ hiệu suất tốt dựa trên CNN. SSD300 được làm bởi bộ trích xuất đặc trưng đa quy mô và lớp phát hiện, bộ trích xuất đặc trưng đa quy mô là mạng tích chập nhận đầu vào là một bức ảnh và đầu ra là một tập các ban đồ đặc trưng.

Phương pháp này là SOTA của bài toán phát hiện vùng chứa văn bản trong truyện tranh Nhật Bản. độ chính xác là 84.1% theo như bai báo đã công bó. Các thách thức Những thách thức trong phát hiện vùng chứa văn bản trong Manga là: e Bong bóng thoại trong truyện tranh có nhiều hình dang và được đặt ở những vi trí khác nhau, có vô sô hình dạng va vi trí bóng thoại. e_ Một số Manga được số hóa là qua quá trình quét từ bản vẽ tay nên khó nhận dạng.

e C6 nhiều đoạn hội thoại không nằm trong bong bóng thoại chèn lên nhân vật và ngoại cảnh (ví dụ: suy nghĩ của nhân vật). Những thách thức trong nhận diện kí tự trong Manga. e Nhiều đoạn hội thoại được tác giả viết bằng phông chữ cách điệu hay sử dụng trong Manga đây là phông chữ phức tạp của Nhật Bản và khó có thể nhận diện chính xác được. e Trong một bong bóng thoại tác giả thường chú thích những chữ khó ngay bên cạnh bằng nét chữ nhỏ hơn, nhưng điều này hệ thống nhận diện kí tự hiểu nhằm đây cũng là một kí tự riêng biệt trong vùng văn bản này nên cũng sẽ nhận diện điều này dẫn đến kết quả nhận diện kí tự của vùng văn bản đó bị sai lệch.

Mô hình phát hiện vùng chứa van ban trong Manga, Trong phạm vi đề tài này, chúng tôi thực hiện tìm hiểu mô hình phát hiện vật thé YOLOv3 dé áp dụng vào phát hiện vùng chứa văn bản trong truyện tranh[6]. Song song với đó là cai đặt và áp dụng lên bộ dữ liệu Manga109. Giới thiệu chung Đề giải quyết bài toán phát hiện vùng chứa văn ban cụ thé ở khóa luận này là bài toán phát hiện vùng chứa văn bản, chúng tôi đã tìm hiểu các nội dung về các kỹ thuật liên quan dé có thé áp dụng vào bài toán. Như chúng tôi đã đề cập ở Chương 2, việc phát hiện vùng chứa văn bản không thể chỉ dựa vào các đặc trưng và kết cau của ảnh như vậy sẽ dẫn tới hậu quả là chỉ hiệu quả với những trang truyện có kết cấu phù hợp với giả thiết đề ra.

Nhưng truyện tranh là một thế giới đa dạng và rộng lớn có rất nhiều kết cấu trang truyện khác nhau mà những phương pháp cổ dién đó không thé nào phát hiện chính xác được vì thế ta cần một phương pháp Máy học có thể tự động trích xuất đặc trưng và có thê áp dụng với tat cả thé loại truyện tranh. Với mục tiêu đê ra và sự đặc biệt của những nơi có văn bản trong một trang truyện, chúng tôi xem nhưng phân có văn bản đó như một vật thê có trong ảnh và tiễn hành thực hiện một thuật toán phát hiện vật thê. Trong lĩnh vực phát hiện vật thể trong ảnh hiện nay đã có nhiều mô hình tốt phục vụ cho việc rút đích đặc trưng từ ảnh. Chúng tôi chọn phương pháp YOLOV3.

YOLO — You Only Look Once (Bạn chỉ nhìn một lần) là một thuật toán sử dụng CNN cho nhận dạng đối tượng. Bạn chỉ cần nhìn 1 lần hay YOLO là một trong những thuật toán nhận dạng đối tượng nhanh và chính xác. Đây là một thuật toán không chỉ dự đoán lớp của vật thể mà còn nhận ra vị trí đối tượng, vì vậy không chi là phân loại hình ảnh vào 1 lớp nào đó mà trong bai toán của chúng ta còn đông thời nhận diện nhiêu vật thê trong một ảnh và còn 10 cần nhận diện chính xác vi trí của vật thé trong ảnh. Thuật toán nay áp dụng một NN đơn cho một ảnh đầy đủ, nó có nghĩa là mạng này chia ảnh thành các khu vực và nhận diện các vùng có chứa vật thê đó.

Chi tiết mô hình YOLO sử dụng các lớp tích chập (CNN), khiến nó trở thành một mạng kết nối toàn phan (fully convolutional network FCN). Trong YOLOv3 ta có một kiến trúc sâu hơn về trích xuất đặc trưng gọi là Darknet-53. Giống như tên gọi, nó bao gồm 53 lớp tích chập (CNN), mỗi lớp tích chập với trượt 11 (stride) là 2 được sử dụng để hạ mẫu (downsampling) các biểu đồ đặc trưng. Điều này giúp tránh khỏi mat mát của những đặc trưng cấp thấp thường bị ảnh hưởng bởi gộp lại (pooling).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu về trích xuất văn bản

Ứng dụng công nghệ trong truyện tranh

Phương pháp nhận diện ký tự

Thách thức trong xử lý văn bản Manga