I. Giới thiệu
Trong bối cảnh hiện đại, việc trích xuất thông tin từ các tài liệu cố định như hóa đơn, biên lai đang trở thành một nhu cầu thiết yếu. Các tài liệu này thường chứa thông tin quan trọng cần được lưu trữ và quản lý một cách hiệu quả. Tuy nhiên, việc thực hiện thủ công việc này tiêu tốn nhiều tài nguyên con người và dễ dẫn đến sai sót. Vì vậy, việc phát triển mô hình nhận dạng văn bản tự động là một giải pháp khả thi. Luận văn này sẽ tập trung vào việc xây dựng mô hình nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định, nhằm tối ưu hóa quy trình trích xuất thông tin. Mục tiêu chính là tạo ra một hệ thống có thể phát hiện và trích xuất các vùng văn bản từ tài liệu, từ đó cải thiện hiệu suất làm việc cho các doanh nghiệp.
1.1 Đặt vấn đề và lý do chọn đề tài
Việc nhận diện và trích xuất thông tin từ các tài liệu như biên lai Viettel Post là rất cần thiết trong bối cảnh số hóa hiện nay. Các tài liệu này thường chứa nhiều thông tin quan trọng như tên, địa chỉ, số điện thoại và các thông tin khác liên quan đến giao dịch. Mặc dù công nghệ phát triển, việc điền thông tin vẫn phụ thuộc vào con người, dẫn đến nhiều bất cập. Do đó, việc nghiên cứu và phát triển một hệ thống nhận diện tự động sẽ giúp giảm thiểu lỗi và tiết kiệm thời gian. Điều này không chỉ đáp ứng nhu cầu thực tiễn mà còn góp phần vào sự phát triển của lĩnh vực thị giác máy tính.
II. Cơ sở lý thuyết
Chương này trình bày các lý thuyết cơ bản liên quan đến mạng nơ-ron nhân tạo và mạng nơ-ron tích chập. Các mô hình này đã được áp dụng rộng rãi trong lĩnh vực nhận diện văn bản và phân đoạn ngữ nghĩa. Mạng nơ-ron nhân tạo được xây dựng dựa trên cấu trúc của nơ-ron sinh học, cho phép xử lý và phân tích thông tin một cách hiệu quả. Đặc biệt, mô hình U-Net đã được lựa chọn để phát hiện các vùng văn bản trong tài liệu, nhờ vào khả năng phân đoạn chính xác. Việc áp dụng các kỹ thuật học sâu sẽ giúp cải thiện độ chính xác của hệ thống nhận diện.
2.1 Mạng nơ ron nhân tạo
Mạng nơ-ron nhân tạo là một trong những công nghệ quan trọng trong lĩnh vực học máy. Nó bao gồm các nơ-ron liên kết với nhau để hình thành một mạng lưới, cho phép xử lý thông tin phức tạp. Các nơ-ron này nhận tín hiệu đầu vào và thực hiện các phép toán để tạo ra đầu ra. Mạng nơ-ron nhân tạo có khả năng học từ dữ liệu, từ đó cải thiện hiệu suất qua từng lần huấn luyện. Điều này rất hữu ích trong việc phát hiện và nhận diện các khung văn bản trong tài liệu cố định.
III. Phương pháp đề xuất
Luận văn này đề xuất một phương pháp tiếp cận để nhận diện các vùng văn bản trong tài liệu cố định. Phương pháp này bao gồm việc sử dụng mô hình U-Net để phân đoạn các vùng văn bản, kết hợp với các kỹ thuật hậu xử lý nhằm cải thiện độ chính xác. Hệ thống sẽ được thực hiện trên tập dữ liệu biên lai Viettel Post, với các bước từ tiền xử lý, huấn luyện mô hình đến đánh giá kết quả. Đánh giá sẽ được thực hiện thông qua các chỉ số như độ đo IoU để đảm bảo tính chính xác của mô hình.
3.1 Phân tích bài toán
Phân tích bài toán là bước quan trọng trong việc phát triển mô hình nhận diện. Cần xác định rõ các yêu cầu và mục tiêu của hệ thống. Mô hình sẽ tập trung vào việc phát hiện các vùng văn bản từ các tài liệu có bố cục cố định, như biên lai và hóa đơn. Dữ liệu đầu vào sẽ được xử lý qua nhiều bước, từ việc nhận diện các khung đến trích xuất thông tin. Qua đó, hệ thống sẽ giúp giảm thiểu thời gian và công sức cho người dùng trong việc quản lý và lưu trữ thông tin.
IV. Kết quả thí nghiệm và đánh giá
Kết quả thí nghiệm cho thấy mô hình đề xuất có khả năng nhận diện các vùng văn bản với độ chính xác cao. Qua việc so sánh với các mô hình khác như Mask-CNN, mô hình U-Net đã chứng minh được hiệu quả trong việc phát hiện các khung và vùng văn bản. Đánh giá được thực hiện dựa trên các chỉ số như độ đo IoU và tỷ lệ sai số điểm ảnh. Những kết quả này không chỉ chứng minh tính khả thi của mô hình mà còn mở ra hướng phát triển cho các ứng dụng thực tiễn trong lĩnh vực trích xuất thông tin.
4.1 Kết quả đạt được
Mô hình đã đạt được kết quả tốt trong việc nhận diện các vùng văn bản. Cụ thể, độ chính xác của mô hình U-Net trong việc phát hiện các khung văn bản lên tới 85%, cho thấy khả năng hoạt động hiệu quả trong môi trường thực tế. Điều này cho phép hệ thống có thể được áp dụng vào nhiều lĩnh vực khác nhau, từ quản lý tài liệu đến tự động hóa quy trình làm việc.