Khóa Luận Tốt Nghiệp Về Trích Xuất Thông Tin Từ Bìa Sách Tiếng Việt

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. MỞ ĐẦU

2. CHƯƠNG 1: BÀI TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH TIẾNG VIỆT

2.1. Bài toán trích xuất thông tin trên bìa sách tiếng Việt

2.2. Phương pháp đề xuất giải quyết bài toán

3. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Các công trình nghiên cứu trên ngôn ngữ nước ngoài

3.2. Các công trình nghiên cứu trên ngôn ngữ tiếng Việt

4. CHƯƠNG 4: XÂY DỰNG BỘ DỮ LIỆU CHO BÀI TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH TIẾNG VIỆT

4.1. Hướng dẫn gán nhãn dữ liệu

4.2. Quá trình gán nhãn dữ liệu

5. CÁC PHƯƠNG PHÁP TIẾP CẬN

5.1. Tiền xử lý chia dữ liệu tập huấn luyện, tập kiểm thử và tập đánh giá

5.2. Tiền xử lý dữ liệu cho mô hình phát hiện văn bản (Text Detection)

5.3. Tiền xử lý dữ liệu cho mô hình Text Recognition

5.4. Tiền xử lý dữ liệu cho mô hình Object detection

5.5. Bài toán phát hiện chữ trên ảnh (Text Detection)

5.5.1. Hệ thống nhận dạng chữ viết PaddleOCR

5.5.2. Mô hình EAST

5.5.3. Mô hình SAST

5.5.4. Mô hình CRAFT

5.6. Bài toán nhận diện chữ trên ảnh (Text Recognition)

5.6.1. Mô hình CRNN trong hệ thống PP-OCR

5.6.2. Mô hình SVTR-LCNet trong hệ thống PP-OCR

5.6.3. Thư viện VietOCR

5.7. Bài toán xử lý tổng hợp thông tin

5.7.1. Mô hình Yolov4

6. CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ

6.1. Cài đặt, thực nghiệm

6.1.1. Bài toán phát hiện văn bản (Text Detection)

6.1.2. Bài toán nhận diện văn bản

6.1.3. Phân loại và tổng hợp thông tin

6.2. Kết quả thực nghiệm và đánh giá

7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về khóa luận tốt nghiệp khoa học dữ liệu trích xuất thông tin

Khóa luận tốt nghiệp về khoa học dữ liệu trích xuất thông tin từ bìa sách tiếng Việt là một nghiên cứu quan trọng trong lĩnh vực trích xuất thông tin. Mục tiêu chính của khóa luận là xây dựng một hệ thống có khả năng nhận diện và trích xuất thông tin từ bìa sách, bao gồm tên sách, tên tác giả và nhà xuất bản. Nghiên cứu này không chỉ giúp nâng cao khả năng quản lý sách mà còn góp phần vào việc số hóa tài liệu văn hóa Việt Nam.

1.1. Mục tiêu và ý nghĩa của nghiên cứu

Mục tiêu của nghiên cứu là xây dựng bộ dữ liệu cho bài toán trích xuất thông tin từ bìa sách tiếng Việt. Ý nghĩa của nghiên cứu nằm ở việc cải thiện khả năng truy cập thông tin sách và hỗ trợ quản lý thư viện hiệu quả hơn.

1.2. Phạm vi nghiên cứu và đối tượng

Phạm vi nghiên cứu tập trung vào các bìa sách tiếng Việt, với nguồn dữ liệu thu thập từ các nhà sách và thư viện. Đối tượng nghiên cứu bao gồm các thông tin như tên sách, tên tác giả và nhà xuất bản.

II. Thách thức trong việc trích xuất thông tin từ bìa sách tiếng Việt

Việc trích xuất thông tin từ bìa sách tiếng Việt gặp nhiều thách thức do sự đa dạng về kiểu dáng và chất lượng hình ảnh. Các yếu tố như độ phân giải thấp, ánh sáng không đồng đều và phông chữ khác nhau có thể ảnh hưởng đến độ chính xác của quá trình nhận diện. Điều này đòi hỏi các phương pháp xử lý hình ảnh và nhận diện văn bản phải được tối ưu hóa.

2.1. Các vấn đề về chất lượng hình ảnh

Chất lượng hình ảnh là một yếu tố quan trọng ảnh hưởng đến khả năng nhận diện văn bản. Hình ảnh mờ, thiếu sáng hoặc bị méo có thể dẫn đến sai sót trong quá trình trích xuất thông tin.

2.2. Độ phức tạp của ngôn ngữ tiếng Việt

Ngôn ngữ tiếng Việt có nhiều đặc điểm riêng biệt như dấu câu và các ký tự đặc biệt, điều này làm cho việc nhận diện văn bản trở nên phức tạp hơn so với các ngôn ngữ khác.

III. Phương pháp trích xuất thông tin hiệu quả từ bìa sách

Để giải quyết các thách thức trong việc trích xuất thông tin, nghiên cứu áp dụng nhiều phương pháp khác nhau, bao gồm học máy và xử lý ngôn ngữ tự nhiên. Các mô hình như EasyOCR, PaddleOCR và Tesseract được sử dụng để nhận diện văn bản trên bìa sách.

3.1. Xây dựng bộ dữ liệu cho mô hình

Bộ dữ liệu được xây dựng từ khoảng 10.000 ảnh bìa sách tiếng Việt, được gán nhãn rõ ràng để phục vụ cho việc huấn luyện các mô hình nhận diện văn bản.

3.2. Các mô hình học máy được áp dụng

Nghiên cứu sử dụng các mô hình học máy tiên tiến như EAST và CRAFT cho việc phát hiện văn bản, cùng với các mô hình như CRNN và SVTR cho việc nhận diện văn bản.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Kết quả nghiên cứu cho thấy các mô hình được áp dụng đạt được độ chính xác cao trong việc trích xuất thông tin từ bìa sách. Hệ thống không chỉ giúp số hóa thông tin sách mà còn hỗ trợ quản lý thư viện hiệu quả hơn. Các ứng dụng thực tiễn của nghiên cứu bao gồm việc phát triển các ứng dụng quản lý sách và thư viện điện tử.

4.1. Đánh giá hiệu suất của mô hình

Các mô hình được đánh giá dựa trên các chỉ số như Precision, Recall và F1-score, với kết quả đạt được trên 75% cho độ chính xác.

4.2. Ứng dụng trong quản lý thư viện

Hệ thống trích xuất thông tin từ bìa sách có thể được ứng dụng trong việc quản lý thư viện, giúp tiết kiệm thời gian và nâng cao hiệu quả công việc.

V. Kết luận và hướng phát triển tương lai

Khóa luận đã đạt được những kết quả khả quan trong việc trích xuất thông tin từ bìa sách tiếng Việt. Tuy nhiên, vẫn còn nhiều hướng phát triển trong tương lai, bao gồm việc cải thiện độ chính xác của các mô hình và mở rộng phạm vi nghiên cứu sang các loại tài liệu khác.

5.1. Hướng phát triển công nghệ OCR

Công nghệ OCR sẽ tiếp tục được cải tiến để đáp ứng nhu cầu ngày càng cao trong việc số hóa tài liệu và quản lý thông tin.

5.2. Nghiên cứu mở rộng sang các ngôn ngữ khác

Nghiên cứu có thể mở rộng sang các ngôn ngữ khác, từ đó tạo ra các bộ dữ liệu phong phú hơn và nâng cao khả năng ứng dụng của hệ thống.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu trích xuất thông tin trên bìa sách tiếng việt

Tải đầy đủ

Tài liệu có tiêu đề Trích Xuất Thông Tin Từ Bìa Sách Tiếng Việt cung cấp cái nhìn sâu sắc về quy trình và kỹ thuật trích xuất thông tin từ bìa sách, đặc biệt là trong ngữ cảnh tiếng Việt. Nội dung chính của tài liệu nhấn mạnh tầm quan trọng của việc sử dụng công nghệ hiện đại để nhận diện và phân tích các đặc trưng của bìa sách, từ đó giúp cải thiện khả năng tìm kiếm và quản lý thông tin trong thư viện số.

Độc giả sẽ nhận được nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về các phương pháp trích xuất thông tin, cũng như ứng dụng của chúng trong các hệ thống thông tin hiện đại. Để mở rộng kiến thức và khám phá thêm về các khía cạnh liên quan, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học dữ liệu trích xuất các đặc trưng sử dụng mô hình học sâu ứng dụng trong hệ thống phát hiện xâm nhập. Tài liệu này sẽ giúp bạn hiểu rõ hơn về việc áp dụng các mô hình học sâu trong việc trích xuất thông tin, từ đó nâng cao khả năng phát hiện và phân tích dữ liệu trong các hệ thống hiện đại.

#ứng dụng công nghệ thông tin

#kỹ thuật xử lý ảnh

#nhận diện văn bản tiếng Việt

#dữ liệu ảnh bìa sách

#quản lý sách điện tử

#trích xuất thông tin bìa sách

Chủ đề

Xây dựng bộ dữ liệu cho OCR

Phát triển hệ thống quản lý sách

Nghiên cứu về OCR và ứng dụng

Kỹ thuật nhận diện văn bản trong ảnh