Nghiên cứu phát triển thuật toán trích xuất thông tin trong văn bản tiếng Việt

Nghiên cứu phát triển thuật toán nhận dạng và trích xuất thông tin trong văn bản tiếng Việt, nâng cao hiệu quả xử lý ngôn ngữ tự nhiên.

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Kỹ thuật Điện tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

110

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Cơ sở lý thuyết cho bài toán phát hiện chữ viết

1.1.1. Bài toán phát hiện đối tượng

1.1.2. Thuật toán faster R-CNN trong phát hiện đối tượng

1.1.3. Thuật toán cascade R-CNN trong phát hiện đối tượng

1.1.4. Thuật toán YoLo trong phát hiện đối tượng

1.2. Cơ sở lý thuyết cho bài toán nhận dạng ký tự tiếng Việt

1.2.1. Nhận dạng ký tự quang học

1.3. Cơ sở lý thuyết cho bài toán trích xuất thông tin trong văn bản từ ảnh

1.3.1. Bài toán trích xuất thông tin trong văn bản từ ảnh

1.3.2. Một số lý thuyết đồ thị cơ bản

1.3.3. Một số bài toán khi sử dụng Graph Convolutional Network

1.3.4. Graph Convolutional Network trong bài toán trích xuất thông tin trong hóa đơn

1.4. Kết luận chương

3. CHƯƠNG 3: THỬ NGHIỆM TRÍCH XUẤT THÔNG TIN TRONG HÓA ĐƠN TIẾNG VIỆT

3.1. Thử nghiệm phát hiện chữ viết viết với thuật toán Faster R-CNN, Cascade R-CNN và YoLov4

3.1.1. Thiết lập các thông số cho mô hình Faster R-CNN và Cascade R-CNN

3.1.2. Thiết lập các thông số cho mô hình YoLov4

3.1.3. Xử lý dữ liệu cho bài toán phát hiện chữ viết

3.2. Thử nghiệm nhận dạng ký tự quang học với mô hình AttentionOCR và TransformerOCR

3.2.1. Thiết lập thông số cho mô hình AttentionOCR và TransformerOCR

3.2.2. Xử lý dữ liệu cho bài toán nhận dạng ký tự quang học

3.3. Thử nghiệm trích xuất thông tin trong hóa đơn tiếng Việt sử dụng mô hình Graph Convolutional Network

3.3.1. Thiết lập thông số cho mô hình Graph Convolutional Network

3.3.2. Xử lý dữ liệu cho bài toán trích xuất thông tin

3.4. Kết luận chương

4. CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ

4.1. Kết quả thử nghiệm và đánh giá cho bài toán phát hiện chữ viết

4.1.1. Các tham số sử dụng để đánh giá mô hình

4.1.2. Kết quả và đánh giá kết quả

4.2. Kết quả thử nghiệm và đánh giá cho bài toán nhận dạng ký tự

4.2.1. Các tham số sử dụng để đánh giá mô hình

4.2.2. Kết quả và đánh giá kết quả

4.3. Kết quả thử nghiệm và đánh giá cho bài toán nhận trích xuất thông tin và cho cả hệ thống

4.3.1. Các tham số sử dụng để đánh giá mô hình

4.3.2. Kết quả và đánh giá kết quả

4.4. Kết luận chương

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phát triển thuật toán trích xuất thông tin văn bản tiếng Việt

Phát triển thuật toán trích xuất thông tin văn bản tiếng Việt là một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên. Với sự gia tăng của dữ liệu văn bản, việc tự động hóa quá trình trích xuất thông tin trở nên cần thiết. Nghiên cứu này không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc thu thập thông tin từ các tài liệu. Đặc biệt, việc áp dụng các công nghệ mới như machine learning và deep learning đã mở ra nhiều cơ hội cho việc cải thiện hiệu suất của các hệ thống trích xuất thông tin.

1.1. Khái niệm và tầm quan trọng của trích xuất thông tin văn bản

Trích xuất thông tin văn bản là quá trình tự động nhận diện và thu thập thông tin từ các tài liệu văn bản. Điều này đặc biệt quan trọng trong bối cảnh hiện đại, nơi mà khối lượng thông tin khổng lồ cần được xử lý. Việc áp dụng thuật toán trích xuất thông tin giúp các doanh nghiệp và tổ chức tiết kiệm thời gian và nguồn lực.

1.2. Các ứng dụng thực tiễn của thuật toán trích xuất thông tin

Các ứng dụng của trích xuất thông tin văn bản rất đa dạng, từ việc tự động hóa quy trình kế toán đến phân tích dữ liệu trong các lĩnh vực như y tế, tài chính và giáo dục. Hệ thống có thể tự động nhận diện và trích xuất các thông tin quan trọng như tên, địa chỉ, và số điện thoại từ hóa đơn, giúp nâng cao hiệu quả công việc.

II. Thách thức trong phát triển thuật toán trích xuất thông tin tiếng Việt

Mặc dù có nhiều tiến bộ trong lĩnh vực trích xuất thông tin văn bản, nhưng vẫn tồn tại nhiều thách thức đặc thù đối với tiếng Việt. Ngôn ngữ này có cấu trúc ngữ pháp phức tạp và nhiều biến thể từ vựng, điều này gây khó khăn cho việc nhận diện và phân tích. Hơn nữa, việc xử lý các văn bản viết tay cũng là một thách thức lớn, do sự đa dạng trong cách viết của từng cá nhân.

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến trích xuất thông tin

Tiếng Việt có nhiều dấu và biến thể từ vựng, điều này làm cho việc nhận diện ký tự trở nên khó khăn hơn. Các thuật toán xử lý ngôn ngữ tự nhiên cần được điều chỉnh để phù hợp với đặc điểm ngôn ngữ này, nhằm nâng cao độ chính xác trong việc trích xuất thông tin.

2.2. Thách thức trong nhận diện chữ viết tay tiếng Việt

Nhận diện chữ viết tay là một trong những thách thức lớn nhất trong trích xuất thông tin văn bản. Các mẫu chữ viết tay rất đa dạng và khó đoán, điều này đòi hỏi các mô hình học sâu phải được huấn luyện trên một tập dữ liệu phong phú và đa dạng để đạt được hiệu suất cao.

III. Phương pháp phát triển thuật toán trích xuất thông tin văn bản tiếng Việt

Để phát triển một hệ thống trích xuất thông tin hiệu quả, cần áp dụng các phương pháp hiện đại như machine learning và deep learning. Các mô hình như Faster R-CNN, YoLov4 và Graph Convolutional Network đã được chứng minh là hiệu quả trong việc nhận diện và trích xuất thông tin từ văn bản. Việc kết hợp các phương pháp này sẽ giúp tối ưu hóa quy trình trích xuất.

3.1. Sử dụng deep learning trong nhận diện chữ viết

Deep learning đã trở thành một công cụ mạnh mẽ trong việc nhận diện chữ viết. Các mô hình như Faster R-CNN và YoLov4 cho phép phát hiện và phân loại các ký tự trong văn bản một cách chính xác, từ đó hỗ trợ quá trình trích xuất thông tin.

3.2. Ứng dụng Graph Convolutional Network trong trích xuất thông tin

Graph Convolutional Network (GCN) là một phương pháp mới trong việc trích xuất thông tin từ văn bản. GCN cho phép mô hình hóa mối quan hệ giữa các thông tin trong văn bản, từ đó nâng cao khả năng trích xuất các thông tin quan trọng một cách chính xác hơn.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu đã cho thấy rằng việc áp dụng các thuật toán hiện đại trong trích xuất thông tin văn bản tiếng Việt có thể đạt được độ chính xác cao. Cụ thể, hệ thống đã đạt được độ chính xác 92% cho hóa đơn chữ in và 78% cho chữ viết tay. Kết quả này cho thấy tiềm năng lớn của các ứng dụng trong thực tiễn, từ tự động hóa quy trình kế toán đến phân tích dữ liệu lớn.

4.1. Đánh giá hiệu suất của hệ thống trích xuất thông tin

Hệ thống đã được thử nghiệm với nhiều mẫu hóa đơn khác nhau và cho thấy hiệu suất cao trong việc nhận diện và trích xuất thông tin. Độ chính xác cao cho thấy khả năng ứng dụng của hệ thống trong thực tế.

4.2. Ứng dụng trong các lĩnh vực khác nhau

Hệ thống trích xuất thông tin có thể được áp dụng trong nhiều lĩnh vực như tài chính, y tế và giáo dục. Việc tự động hóa quy trình trích xuất thông tin sẽ giúp tiết kiệm thời gian và nâng cao hiệu quả công việc.

V. Kết luận và tương lai của thuật toán trích xuất thông tin văn bản tiếng Việt

Phát triển thuật toán trích xuất thông tin văn bản tiếng Việt là một lĩnh vực đầy tiềm năng. Với sự phát triển không ngừng của công nghệ, các hệ thống trích xuất thông tin sẽ ngày càng hoàn thiện hơn. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều giá trị cho các doanh nghiệp và tổ chức trong việc quản lý và phân tích dữ liệu.

5.1. Hướng phát triển trong nghiên cứu tiếp theo

Nghiên cứu tiếp theo có thể tập trung vào việc cải thiện độ chính xác của các mô hình nhận diện chữ viết tay và mở rộng ứng dụng của hệ thống trong các lĩnh vực khác nhau.

5.2. Tác động của công nghệ mới đến trích xuất thông tin

Công nghệ mới như trí tuệ nhân tạo và học sâu sẽ tiếp tục đóng vai trò quan trọng trong việc phát triển các hệ thống trích xuất thông tin. Việc áp dụng các công nghệ này sẽ giúp nâng cao hiệu suất và độ chính xác của các hệ thống trong tương lai.

16/07/2025

Bạn đang xem trước tài liệu:

Nghiên cứu phát triển thuật toán nhận dạng trích xuất thông tin trong văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và thị giác máy tính, bài toán trích xuất thông tin tự động từ văn bản tiếng Việt, đặc biệt là từ các hóa đơn thanh toán, đang trở thành một lĩnh vực nghiên cứu cấp thiết. Theo ước tính, việc xử lý thủ công các hóa đơn tiêu tốn nhiều thời gian và nhân lực, gây ra sự chậm trễ và sai sót trong quản lý tài chính doanh nghiệp. Luận văn thạc sĩ này tập trung nghiên cứu phát triển thuật toán nhận dạng và trích xuất thông tin trong văn bản tiếng Việt, với phạm vi áp dụng trên hóa đơn thanh toán bao gồm cả chữ in và chữ viết tay. Dữ liệu nghiên cứu gồm 384 ảnh hóa đơn, trong đó có 240 ảnh chữ in và 144 ảnh chữ viết tay, thu thập từ nhiều nguồn khác nhau và đa dạng về mẫu mã, người viết.

Mục tiêu chính của nghiên cứu là xây dựng một hệ thống hoàn chỉnh từ bước phát hiện chữ viết trong ảnh scan hoặc ảnh chụp đến nhận dạng ký tự và trích xuất các trường thông tin quan trọng như mã hóa đơn, ngày tháng, thông tin bên bán, bên mua, tổng tiền và thuế. Nghiên cứu ứng dụng các mô hình deep learning hiện đại như Faster R-CNN, Cascade R-CNN, YoLov4 cho phát hiện chữ viết; AttentionOCR và TransformerOCR cho nhận dạng ký tự; Graph Convolutional Network (GCN) cho trích xuất thông tin. Kết quả thử nghiệm cho thấy độ chính xác đạt khoảng 92% với hóa đơn chữ in và 78% với hóa đơn chữ viết tay, thể hiện tiềm năng ứng dụng thực tiễn trong tự động hóa quy trình xử lý hóa đơn tại các doanh nghiệp và cơ quan kế toán.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba khung lý thuyết chính tương ứng với ba bài toán nhỏ trong hệ thống:

Phát hiện chữ viết (Object Detection): Sử dụng các mô hình deep learning trong thị giác máy tính như Faster R-CNN, Cascade R-CNN và YoLov4 để xác định vị trí các dòng chữ trong ảnh hóa đơn. Các thuật toán này dựa trên kiến trúc mạng nơ-ron tích chập (CNN) và các kỹ thuật như Region Proposal Network (RPN), ROI pooling, và anchor boxes để phát hiện chính xác các vùng chứa chữ viết.
Nhận dạng ký tự quang học (Optical Character Recognition - OCR): Áp dụng mô hình AttentionOCR và TransformerOCR, kết hợp CNN và cơ chế attention trong mạng LSTM hoặc Transformer, nhằm chuyển đổi hình ảnh các dòng chữ thành chuỗi ký tự văn bản. Các mô hình này giúp xử lý đặc thù của tiếng Việt với dấu và các ký tự phức tạp.
Trích xuất thông tin (Information Extraction): Sử dụng Graph Convolutional Network (GCN) để phân loại và trích xuất các trường thông tin quan trọng từ các đoạn văn bản đã nhận dạng. GCN khai thác cấu trúc liên kết giữa các textbox trong hóa đơn, giúp mô hình hiểu được mối quan hệ ngữ cảnh giữa các phần thông tin.

Các khái niệm chuyên ngành quan trọng bao gồm Intersection over Union (IoU) để đánh giá độ chính xác phát hiện vùng chữ, Non-Maximal Suppression (NMS) để loại bỏ các vùng trùng lặp, và embedding vector để biểu diễn văn bản dưới dạng số phục vụ cho GCN.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là 384 ảnh hóa đơn thanh toán tiếng Việt, gồm 240 ảnh chữ in và 144 ảnh chữ viết tay, thu thập từ internet và tự tạo thêm với sự tham gia của 20 người viết khác nhau. Dữ liệu được gán nhãn thủ công bằng phần mềm chuyên dụng để xác định vị trí và nội dung các dòng chữ.

Phương pháp phân tích gồm ba bước:

Phát hiện chữ viết: Thử nghiệm và so sánh ba mô hình Faster R-CNN, Cascade R-CNN và YoLov4 trên bộ dữ liệu đã chuẩn bị. Các tham số huấn luyện được thiết lập phù hợp với từng mô hình, sử dụng thư viện PyTorch để triển khai.
Nhận dạng ký tự: Áp dụng hai mô hình AttentionOCR và TransformerOCR để nhận dạng ký tự từ các vùng chữ đã phát hiện. Dữ liệu được xử lý để phù hợp với yêu cầu đầu vào của từng mô hình, đồng thời đánh giá hiệu suất qua các chỉ số như độ chính xác và tỉ lệ lỗi.
Trích xuất thông tin: Xây dựng mô hình GCN để phân loại các đoạn văn bản thành các trường thông tin đã định nghĩa trước. Dữ liệu đầu vào là các vector embedding của các textbox, mô hình được huấn luyện và kiểm thử trên tập dữ liệu đã gán nhãn.

Quá trình nghiên cứu kéo dài trong năm 2022, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và đánh giá kết quả. Hệ thống cuối cùng được triển khai dưới dạng một trang web đơn giản để người dùng có thể thử nghiệm trực tiếp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện chữ viết: Mô hình Cascade R-CNN đạt kết quả tốt nhất với chỉ số mAP (mean Average Precision) khoảng 85% trên bộ dữ liệu hóa đơn chữ in, vượt trội hơn Faster R-CNN và YoLov4. Đối với hóa đơn chữ viết tay, YoLov4 cho kết quả khả quan với độ chính xác khoảng 75%, thể hiện khả năng xử lý tốt các mẫu chữ khó nhận dạng.
Nhận dạng ký tự: TransformerOCR cho độ chính xác nhận dạng ký tự lên đến 90% trên dữ liệu chữ in, cao hơn so với AttentionOCR (khoảng 85%). Tuy nhiên, với chữ viết tay, cả hai mô hình đều giảm hiệu suất, đạt khoảng 78% do đặc thù khó khăn của chữ viết tay tiếng Việt.
Trích xuất thông tin: Mô hình GCN phân loại chính xác các trường thông tin trong hóa đơn với độ chính xác trung bình 88% trên dữ liệu chữ in và 75% trên chữ viết tay. Việc sử dụng cấu trúc đồ thị giúp mô hình hiểu được mối quan hệ giữa các textbox, cải thiện đáng kể so với các phương pháp phân loại truyền thống.
Hệ thống tổng thể: Khi tích hợp ba bước trên, hệ thống đạt độ chính xác tổng thể 92% với hóa đơn chữ in và 78% với hóa đơn chữ viết tay. Thời gian xử lý trung bình cho một hóa đơn khoảng vài giây, phù hợp với ứng dụng thực tế.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng các mô hình deep learning hiện đại trong từng bước xử lý văn bản tiếng Việt là khả thi và hiệu quả. Cascade R-CNN vượt trội trong phát hiện chữ viết nhờ cơ chế hồi quy phân tầng giúp tăng độ chính xác vùng phát hiện, phù hợp với đặc điểm đa dạng của hóa đơn. TransformerOCR thể hiện ưu thế trong nhận dạng ký tự nhờ khả năng chú ý và xử lý chuỗi tốt, đặc biệt với văn bản rõ ràng.

Mô hình GCN là điểm mới trong trích xuất thông tin, khai thác cấu trúc liên kết giữa các phần văn bản, giúp phân loại chính xác hơn so với các mô hình phân loại đơn thuần. Tuy nhiên, hiệu suất giảm khi xử lý chữ viết tay do tính đa dạng và khó đoán của chữ viết cá nhân, đòi hỏi thêm dữ liệu và cải tiến mô hình.

So sánh với các nghiên cứu trước chủ yếu tập trung vào tiếng Anh hoặc các ngôn ngữ khác, nghiên cứu này đóng góp quan trọng trong việc phát triển công nghệ xử lý ngôn ngữ tự nhiên và thị giác máy tính cho tiếng Việt, đặc biệt trong lĩnh vực hóa đơn thanh toán đa dạng về mẫu mã và hình thức.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác từng mô hình phát hiện chữ viết, nhận dạng ký tự và trích xuất thông tin, cũng như bảng tổng hợp kết quả cuối cùng của hệ thống trên hai loại hóa đơn.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu hóa đơn chữ viết tay từ nhiều đối tượng khác nhau để tăng tính đa dạng, giúp cải thiện độ chính xác nhận dạng ký tự và trích xuất thông tin. Thời gian thực hiện dự kiến 6-12 tháng, do các tổ chức kế toán và doanh nghiệp phối hợp cung cấp dữ liệu.
Tối ưu mô hình nhận dạng ký tự: Nghiên cứu và áp dụng các kiến trúc Transformer mới hoặc kết hợp với kỹ thuật augmentation dữ liệu để nâng cao khả năng nhận dạng chữ viết tay. Mục tiêu tăng độ chính xác lên trên 85% trong vòng 6 tháng, do nhóm nghiên cứu AI chuyên sâu thực hiện.
Phát triển giao diện người dùng thân thiện: Xây dựng ứng dụng web hoặc phần mềm tích hợp hệ thống trích xuất thông tin, hỗ trợ người dùng doanh nghiệp dễ dàng tải lên hóa đơn và nhận kết quả nhanh chóng. Thời gian phát triển 3-4 tháng, do nhóm phát triển phần mềm đảm nhiệm.
Triển khai thử nghiệm thực tế: Hợp tác với các doanh nghiệp, phòng kế toán để áp dụng hệ thống vào quy trình làm việc thực tế, thu thập phản hồi và điều chỉnh mô hình phù hợp. Kế hoạch triển khai trong 6 tháng, với mục tiêu giảm thời gian xử lý hóa đơn ít nhất 50%.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử, Trí tuệ nhân tạo: Có thể áp dụng các phương pháp và mô hình deep learning trong xử lý ngôn ngữ tự nhiên và thị giác máy tính, đặc biệt cho tiếng Việt.
Doanh nghiệp và phòng kế toán: Hỗ trợ tự động hóa quy trình xử lý hóa đơn, giảm thiểu sai sót và tăng hiệu quả công việc thông qua hệ thống trích xuất thông tin tự động.
Nhà phát triển phần mềm và công nghệ: Tham khảo kiến trúc hệ thống, thuật toán và cách tích hợp các mô hình deep learning để xây dựng các ứng dụng tương tự trong lĩnh vực xử lý văn bản và tài liệu.
Cơ quan quản lý và tổ chức tài chính: Áp dụng công nghệ để nâng cao hiệu quả quản lý tài liệu, kiểm tra và xử lý hóa đơn, góp phần hiện đại hóa quy trình hành chính.

Câu hỏi thường gặp

Hệ thống có thể xử lý các hóa đơn có nhiều trang không?
Hiện tại, hệ thống được thiết kế để xử lý hóa đơn một trang với nội dung rõ ràng và độ nghiêng chữ không quá 10 độ. Việc mở rộng cho nhiều trang cần nghiên cứu thêm về phân đoạn và nối kết thông tin giữa các trang.
Độ chính xác của hệ thống với chữ viết tay như thế nào?
Độ chính xác nhận dạng và trích xuất thông tin với chữ viết tay đạt khoảng 78%, thấp hơn so với chữ in do tính đa dạng và khó đoán của chữ viết cá nhân. Cần thêm dữ liệu và cải tiến mô hình để nâng cao hiệu quả.
Hệ thống có hỗ trợ các loại hóa đơn khác ngoài hóa đơn thanh toán không?
Nghiên cứu tập trung vào hóa đơn thanh toán tiếng Việt với 16 trường thông tin cụ thể. Việc áp dụng cho các loại văn bản khác cần điều chỉnh mô hình và huấn luyện lại với dữ liệu phù hợp.
Thời gian xử lý một hóa đơn là bao lâu?
Trung bình hệ thống xử lý một hóa đơn trong vài giây, phù hợp với yêu cầu ứng dụng thực tế trong doanh nghiệp và phòng kế toán.
Có thể tích hợp hệ thống vào phần mềm quản lý hiện có không?
Có thể, hệ thống được xây dựng với giao diện web đơn giản và có thể phát triển API để tích hợp vào các phần mềm quản lý tài chính, kế toán hiện hành.

Kết luận

Luận văn đã xây dựng thành công hệ thống nhận dạng và trích xuất thông tin tự động từ hóa đơn thanh toán tiếng Việt, bao gồm cả chữ in và chữ viết tay.
Ứng dụng các mô hình deep learning hiện đại như Cascade R-CNN, TransformerOCR và GCN giúp đạt độ chính xác cao, lần lượt 92% và 78% cho hai loại hóa đơn.
Nghiên cứu góp phần mở rộng lĩnh vực xử lý ngôn ngữ tự nhiên và thị giác máy tính cho tiếng Việt, đặc biệt trong ứng dụng thực tiễn.
Các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và triển khai thử nghiệm thực tế tại doanh nghiệp.
Khuyến khích các nhà nghiên cứu và doanh nghiệp quan tâm áp dụng và phát triển thêm để nâng cao hiệu quả tự động hóa xử lý văn bản.

Hãy bắt đầu ứng dụng công nghệ nhận dạng và trích xuất thông tin tự động để nâng cao hiệu quả quản lý tài liệu và tiết kiệm thời gian cho doanh nghiệp của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

Đặt vấn đề Chƣơng 2: Cơ sở lý thuyết Chƣơng 3: Các phƣơng pháp thử nghiệm Chƣơng 4: Kết quả thử nghiệm và đánh giá 6 CHƢƠNG 2. CƠ SỞ LÝ THUYẾT Chƣơng 2 sẽ trình bày lần lƣợt các lý thuyết sử dụng trong từng bài toán nhỏ. Bao gồm các khái niệm, công thức, cấu trúc mô hình học sâu đƣợc sử dụng trong nghiên cứu và thử nghiệm. Do nghiên cứu đã đƣợc chia làm ba bài toán nhỏ nên các lý thuyết cũng sẽ đƣợc trình bày lần lƣợt phục vụ cho ba bài toán đó.1 Cơ sở lý thuyết cho bài toán phát hiện chữ viết.1 Bài toán phát hiện đối tượng Computer Vision – là một lĩnh vực làm cho máy tính có thể nhìn đƣợc nhƣ con ngƣời, nhìn ở đây có nghĩa là hiểu đƣợc hình ảnh, video từ đó có thể làm cơ sở để trả lời các câu hỏi nhƣ: có gì trong ảnh, con mèo ở đâu trong bức ảnh, trong ảnh có bao nhiêu con chó, con mèo, con mèo có đang bắt chuột không?… Trong xử lý ảnh có bốn bài toán khác nhau bao gồm: phân loại hình ảnh (Image classification), Định vị vật thể (Classification with Localization), Phát hiện đối tƣợng (Object Detection), Phân đoạn đối tƣợng (Instance Segmentation).

Nhận dạng đối tƣợng là một thuật ngữ chung để mô tả một tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định các đối tƣợng trong ảnh kỷ thuật số. Phân loại hình ảnh liên quan đến việc dự đoán lớp của một đối tƣợng trong một hình ảnh. Định vị vật thể đề cập đến việc xác định vị trí của một hoặc nhiều đối tƣợng trong một hình ảnh và vẽ bounding box xung quanh chúng. Phát hiện đối tƣợng kết hợp hai nhiệm vụ trên và thực hiện cho một hoặc nhiều đối tƣợng trong hình ảnh.

Chúng ta có thể phân biệt giữa ba nhiệm vụ thị giác máy tính cơ bản trên thông qua input và output của chúng nhƣ sau: ● Phân loại hình ảnh: Dự đoán nhãn của một đối tƣợng trong một hình ảnh. o Input: Một hình ảnh với một đối tƣợng, chẳng hạn nhƣ một bức ảnh. o Output: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên đƣợc ánh xạ tới nhãn lớp). ● Định vị đối tƣợng: Xác định vị trí hiện diện của các đối tƣợng trong ảnh và cho biết vị trí của chúng bằng bounding box.

7 o Input: Một hình ảnh có một hoặc nhiều đối tƣợng, chẳng hạn nhƣ một bức ảnh. o Output: Một hoặc nhiều bounding box đƣợc xác định bởi tọa độ tâm, chiều rộng và chiều cao. ● Phát hiện đối tƣợng: Xác định vị trí hiện diện của các đối tƣợng trong bounding box và nhãn của các đối tƣợng nằm trong một hình ảnh. o Input: Một hình ảnh có một hoặc nhiều đối tƣợng, chẳng hạn nhƣ một bức ảnh.

o Output: Một hoặc nhiều bounding box và nhãn cho mỗi bounding box. Một số định nghĩa khác cũng rất quan trọng trong computer vision là phân đoạn đối tƣợng (object segmentation), trong đó các đối tƣợng đƣợc nhận dạng bằng cách làm nổi bật các pixel cụ thể của đối tƣợng thay vì bounding box. Bên dƣới là sơ đồ tổng hợp các tác vụ của computer vision.1 Sơ đồ các mối liên hệ giữa các tác vụ trong computer vision Khác với bài toán Classification with Localization xác định vị trí của một đối tƣợng trong hình, bài toán detection hay Object Detection sẽ xác định vị trí tất cả các đối tƣợng có trong bức hình. Theo đó Input của bài toán này là ảnh và danh sách các đối tƣợng quan tâm.

Đầu ra của bài toán là các vị trí của các đối tƣợng kèm theo nhãn của đối tƣợng đó.2 So sánh đầu ra của bài toán classification với localization và detection[46] Object Detection đã có rất nhiều ứng dụng khác nhau: Image Annotation (Chú thích hình ảnh), Face Detection (Phát hiện khuôn mặt), License Plate Identification (Nhận diện biển số xe), People Counting (Đếm số lƣợng ngƣời),… Nhƣ vậy xét trên một khía cạnh nào đó ta có thể nhận xét rằng bài toán Classification là tiền đề của bài toán Localization và thông tin của bài toán Localization cũng rất hữu ích cho bài toán Detection. Để phân biệt các bài toán khác nhau ta có thể xác định dựa trên việc kết quả của bài toán đang trả lời các câu hỏi gì.3 Phân biết bài toán classification, object localization, object detection [46] Với bài toán phát hiện đối tƣợng, ngày nay có nhiều phƣơng pháp học sâu (deep learning) đƣợc thiết kế để giải quyết bài toán. Lịch sử hình thành, phát triển và đặc điểm cấu trúc của các thuật toán object detection bao gồm 2 nhóm chính: ● Họ các mô hình R-CNN (Region-Based Convolutional Neural Networks) giải quyết các nhiệm vụ định vị vật thể và nhận diện vật thể. 9 ● Họ các mô hình YoLo (You Only Look Once), là một nhóm kỷ thuật thứ hai để nhận dạng đối tƣợng đƣợc thiết kế để nhận diện vật thể real time.2 Thuật toán faster R-CNN trong phát hiện đối tượng 2.1 Thuật toán R-CNN R-CNN đƣợc giới thiệu lần đầu vào 2014 bởi Ross Girshick và các cộng sự ở UC Berkeley một trong những trung tâm nghiên cứu AI hàng đầu thế giới trong bài báo Rich feature hierarchies for accurate object detection and semantic segmentation.

Nó có thể là một trong những ứng dụng nền móng đầu tiên của mạng nơ-ron tích chập đối với vấn đề định vị, phát hiện và phân đoạn đối tƣợng. Cách tiếp cận đã đƣợc chứng minh trên các bộ dữ liệu điểm chuẩn, đạt đƣợc kết quả tốt nhất trên bộ dữ liệu VOC-2012[15] và bộ dữ liệu phát hiện đối tƣợng ILSVRC-2013[16] gồm 200 lớp. Kiến trúc của R-CNN gồm 3 thành phần đó là: ● Vùng đề xuất hình ảnh (Region proposal): Có tác dụng tạo và trích xuất các vùng đề xuất chứa vật thể đƣợc bao bởi các bounding box. ● Trích lọc đặc trƣng (Feature Extractor): Trích xuất các đặc trƣng giúp nhận diện hình ảnh từ các region proposal thông qua các mạng deep convolutional neural network.

● Phân loại (classifier): Dựa vào input là các features ở phần trƣớc để phân loại hình ảnh chứa trong region proposal về đúng nhãn. Kiến trúc của mô hình đƣợc mô tả trong biểu đồ bên dƣới: Hình 2.4 Sơ đồ pipeline xử lý trong mô hình mạng R-CNN. Tiếp theo đó áp dụng một mạng deep CNN để tính 10 toán các feature tại bƣớc ba và trả ra kết quả dự báo nhãn ở bƣớc thứ tƣ nhƣ một tác vụ phân loại ảnh thông thƣờng. Một kỷ thuật đƣợc sử dụng để đề xuất các region proposal hoặc các bounding box chứa các đối tƣợng tiềm năng trong hình ảnh đƣợc gọi là “selective search”.

Thuật toán Selective search có đầu vào là ảnh màu, đầu ra sẽ là khoảng 2000 region proposal (bounding box) mà có khả năng chứa các đối tƣợng. Đầu tiên ảnh đƣợc segment qua thuật toán Graph Based Image Segmentation, dựa vào màu sắc của từng pixel mà gắn nhãn các pixel đó chung một đối tƣợng, tô màu giống nhau cho các pixel có cùng giá trị.5 Đầu ra sau khi thực hiện Graph Based Image Segmentation. [18] Nhận xét: Ta không thể dùng mỗi màu trong output để làm một region proposal đƣợc vì: ● Mỗi đối tƣợng trong ảnh có thể chứa nhiều hơn một màu vì một đối tƣợng thƣờng có nhiều bộ phận với màu sắc khác nhau. ● Các đối tƣợng bị che mất một phần.

Vì vậy cần nhóm các vùng màu với nhau để làm region proposal. Tiếp theo, các vùng màu đƣợc nhóm với nhau dựa trên độ tƣơng đồng về màu sắc, hƣớng gradient, kích thƣớc,…Cuối cùng các region proposal đƣợc xác định dựa trên các nhóm vùng màu. Vấn đề với R-CNN là có khá nhiều hạn chế nhƣ sau: ● Training qua một pipeline gồm nhiều bƣớc: Pipeline liên quan đến việc chuẩn bị và vận hành ba mô hình riêng biệt. 11 ● Chi phí training tốn kém về số lƣợng bounding box và thời gian huấn luyện: Mô hình huấn luyện một mạng CNN học sâu trên rất nhiều region proposal cho mỗi hình ảnh nên rất chậm.

● Phát hiện đối tƣợng chậm: Tốc độ xử lý không thể đảm bảo realtime.2 Thuật toán Fast R-CNN Fast R-CNN ra đời để giải quyết đƣợc một số hạn chế của R-CNN là cải thiện tốc độ. Tƣơng tự nhƣ R-CNN thì Fast R-CNN vẫn dùng selective search để lấy ra các region proposal. Tuy nhiên là nó không tách 2000 region proposal ra khỏi ảnh và thực hiện bài toán image classification cho mỗi ảnh. Fast R-CNN cho cả bức ảnh vào ConvNet (một vài convolutional layer + max pooling layer) để tạo ra convolutional feature map.

Sau đó các vùng region proposal đƣợc lấy ra tƣơng ứng từ convolutional feature map. Tiếp đó đƣợc Flatten và thêm hai lớp Fully connected layer (FCs) để dự đoán lớp của region proposal và giá trị offset values của bounding box.6 Kiến trúc single model Fast R-CNN. [19] Tuy nhiên là kích thƣớc của các region proposal khác nhau nên khi Flatten sẽ ra các vector có kích thƣớc khác nhau nên không thể áp dụng neural network đƣợc nên cần resize các region proposal về cùng kích thƣớc trƣớc khi dùng transfer learning. Tuy nhiên ở feature map không thể resize đƣợc, nên phải chuyển các region proposal trong feature map về cùng kích thƣớc.

Region of Interest (ROI) pooling ra đời để thực hiện nhiệm vụ đó. Region of Interest (ROI) pooling 12 ROI pooling là một dạng của pooling layer. Điểm khác so với max pooling hay average pooling là bất kể kích thƣớc của tensor input, ROI pooling luôn cho ra output có kích thƣớc cố định đƣợc định nghĩa trƣớc. Ta kí hiệu a/b là phần nguyên của a khi chia cho b và a%b là phần dƣ của a khi chia cho b.

Gọi input của ROI pooling kích thƣớc m*n và output có kích thƣớc h*k (thông thƣờng h, k nhỏ, thƣờng là 3*3 hay 5*5 hoặc 7*7). ● Chia chiều rộng thành h phần, (h-1) phần có kích thƣớc m/h, phần cuối có kích thƣớc m/h + m%h. ● Tƣơng tự chia chiều dài thành k phần, (k-1) phần có kích thƣớc n/k, phần cuối có kích thƣớc n/k + n%k. Ví dụ m=n=10, h=k=3, do m/h = 3 và m%h = 1, nên ta sẽ chia chiều rộng thành 3 phần, 2 phần có kích thƣớc 3, và 1 phần có kích thƣớc 4.

Sau đó với mỗi khối đƣợc tạo ra bằng các đƣờng đỏ và cạnh, thực hiện max pooling lấy ra 1 giá trị.7 Thực hiện ROI pooling 13 Đánh giá Fast R-CNN Hình 2.8 So sánh thời train và test giữa R-CNN và Fast R-CNN[20] Fast R-CNN thực hiện feature map với cả ảnh sau đó với lấy các region proposal ra từ feature map, còn R-CNN thực hiện tách các region proposal ra rồi mới thực hiện CNN trên từng region proposal. Do đó Fast R-CNN nhanh hơn đáng kể nhờ tối ƣu việc tính toán. Tuy nhiên với thời gian testing của Fast R-CNN thì thời gian tính region proposal rất lâu và điều đó sẽ làm chậm thuật toán.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phát triển thuật toán trích xuất thông tin văn bản tiếng Việt tập trung vào việc xây dựng và cải tiến các thuật toán nhằm trích xuất thông tin từ văn bản tiếng Việt một cách hiệu quả. Nội dung chính của tài liệu bao gồm các phương pháp và kỹ thuật hiện đại trong lĩnh vực xử lý ngôn ngữ tự nhiên, giúp nâng cao độ chính xác và tốc độ trích xuất thông tin. Độc giả sẽ nhận được cái nhìn sâu sắc về cách thức hoạt động của các thuật toán này, cũng như ứng dụng thực tiễn của chúng trong việc xử lý dữ liệu văn bản.

Để mở rộng thêm kiến thức, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học máy tính tìm hiểu và xây dựng hệ thống trích xuất thông tin văn bản trên dữ liệu ảnh văn bản hành chính. Tài liệu này cung cấp cái nhìn chi tiết về việc phát triển hệ thống trích xuất thông tin từ dữ liệu ảnh, mở ra nhiều cơ hội nghiên cứu và ứng dụng trong lĩnh vực này.

Việc tìm hiểu sâu hơn về các thuật toán và ứng dụng của chúng sẽ giúp bạn nắm bắt được xu hướng phát triển trong ngành công nghệ thông tin, từ đó nâng cao khả năng áp dụng vào thực tiễn.

#trích xuất thông tin tự động

#phát hiện đối tượng trong ảnh

#thuật toán trích xuất thông tin

#nhận dạng chữ viết tiếng Việt

#hệ thống xử lý ngôn ngữ tự nhiên

#deep learning trong OCR

Chủ đề

Thách thức trong xử lý ngôn ngữ tiếng Việt

Phát triển hệ thống nhận dạng văn bản

Nghiên cứu về trích xuất thông tin

Ứng dụng deep learning trong OCR