Luận Văn Thạc Sĩ: Nhận Diện Đối Tượng Trong Thị Giác Máy Tính

Khám phá cách sử dụng Microsoft Word hiệu quả với hướng dẫn chi tiết trên trang 3. Tối ưu hóa kỹ năng soạn thảo văn bản ngay hôm nay.

Trường đại học

Trường Đại học Quy Nhơn

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2022

59
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. GIỚI THIỆU TỔNG QUAN

1.2. THỊ GIÁC MÁY TÍNH (COMPUTER VISION)

1.3. PHÁT HIỆN ĐỐI TƯỢNG (OBJECT DETECTION)

1.4. MẠNG NƠ-RON

1.5. MẠNG NƠ-RON TÍCH CHẬP (CONVOLUTIONAL NEURAL NETWORK)

1.5.1. Lớp tích chập (Convolutional Layer)

1.5.2. Lớp tổng hợp (Pooling layer)

1.5.3. Lớp kết nối đầy đủ (Fully Connected Layer)

1.5.4. Lớp đầu ra

1.6. NHẬN DIỆN KÝ TỰ QUANG HỌC

1.6.1. Cơ chế hoạt động

1.6.2. Nhận diện text (Text Recognition)

1.7. KẾT LUẬN CHƯƠNG 1

2. CHƯƠNG 2: THUẬT TOÁN PHÁT HIỆN ĐỐI TƯỢNG, CÔNG CỤ TESSRACT OCR

2.1. THUẬT TOÁN PHÁT HIỆN ĐỐI TƯỢNG

2.1.1. Mô hình RetinaNet

2.1.2. Mô hình YOLO

2.2. CÔNG CỤ TESSERACT OCR

2.2.1. Cơ chế hoạt động

2.3. KẾT LUẬN CHƯƠNG 2

3. CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG NHẬN DIỆN BIỂN SỐ XE

3.1. THU THẬP VÀ PHÂN CHIA DỮ LIỆU

3.1.1. Thu thập dữ liệu

3.1.2. Phân chia dữ liệu

3.2. HUẤN LUYỆN MÔ HÌNH

3.2.1. Đánh giá mô hình huấn luyện

3.2.2. Kết quả mô hình huấn luyện

3.3. CHUYỂN ĐỔI WEIGHT SANG TENSORFLOW

3.4. NHẬN DIỆN KÝ TỰ BIỂN SỐ XE

3.5. HIỂN THỊ THÔNG TIN

3.6. KẾT LUẬN CHƯƠNG 3

KẾT LUẬN CHUNG

DANH MỤC TÀI LIỆU THAM KHẢO

QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao)

Trích đoạn nội dung tài liệu

i LỜI CAM ĐOAN Sau quá trình học tập tại Trƣờng Đại học Quy Nhơn, với những kiến thức lý thuyết và thực hành đã tích lũy đƣợc, với việc vận dụng các kiến thức vào thực tế, tự nghiên cứu các tài liệu, các công trình nghiên cứu, đồng thời có sự phân tích, tổng hợp, đúc kết và phát triển để hoàn thành luận văn thạc sĩ của mình, Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tác giả Lê Minh Nhật ii LỜI CẢM ƠN Để hoàn thành đề tài luận văn thạc sĩ, tôi xin tỏ lòng biết ơn sâu sắc đối với các Thầy, Cô của Trƣờng Đại học Quy Nhơn, đặc biệt là các Thầy, Cô Khoa Công nghệ Thông tin đã tận tình truyền đạt những kiến thức quý báu cũng nhƣ tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập, nghiên cứu và cho đến khi thực hiện đề tài luận văn. Đặc biệt, tôi xin gửi đến giáo viên hƣớng dẫn TS. Lê Xuân Vinh đã tận tình hƣớng dẫn, giúp đỡ tôi hoàn thành luận văn này với lời cảm ơn sâu sắc nhất. Cuối cùng, tôi xin chân thành cảm ơn đến các anh, chị em và các bạn đồng nghiệp đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh. Quy Nhơn, ngày . năm 2022 Học viên thực hiện Lê Minh Nhật ii MỤC LỤC LỜI CAM ĐOAN . ii MỤC LỤC . ii DANH MỤC CÁC TỪ VIẾT TẮT. v DANH MỤC CÁC BẢNG .vi DANH MỤC CÁC HÌNH . vii LỜI MỞ ĐẦU . Lý do chọn đề tài. Tổng quan về tình hình nghiên cứu đề tài . Mục đích và nhiệm vụ nghiên cứu . Đối tƣợng và phạm vi nghiên cứu . Phƣơng pháp nghiên cứu . Cấu trúc của luận văn . 2 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT . GIỚI THIỆU TỔNG QUAN . THỊ GIÁC MÁY TÍNH (COMPUTER VISION) . PHÁT HIỆN ĐỐI TƢỢNG (OBJECT DETECTION) . MẠNG NƠ-RON TÍCH CHẬP (CONVOLUTIONAL NEURAL NETWORK) . Lớp tích chập (Convolutional Layer) . Lớp tổng hợp (Pooling layer) . Lớp kết nối đầy đủ (Fully Connected Layer) . Lớp đầu ra . NHẬN DIỆN KÝ TỰ QUANG HỌC . Cơ chế hoạt động . Nhận diện text (Text Recognition) . 20 KẾT LUẬN CHƢƠNG 1 . 20 CHƢƠNG 2: THUẬT TOÁN PHÁT HIỆN ĐỐI TƢỢNG, CÔNG CỤ TESSRACT OCR. THUẬT TOÁN PHÁT HIỆN ĐỐI TƢỢNG . Mô hình RetinaNet .2 Mô hình YOLO . CÔNG CỤ TESSERACT OCR . Cơ chế hoạt động . 30 KẾT LUẬN CHƢƠNG 2 . 32 CHƢƠNG 3: XÂY DỰNG ỨNG DỤNG NHẬN DIỆN BIỂN SỐ XE . THU THẬP VÀ PHÂN CHIA DỮ LIỆU . Thu thập dữ liệu . Phân chia dữ liệu . HUẤN LUYỆN MÔ HÌNH . Đánh giá mô hình huấn luyện . Kết quả mô hình huấn luyện . CHUYỂN ĐỔI WEIGHT SANG TENSORFLOW . NHẬN DIỆN KÝ TỰ BIỂN SỐ XE . HIỂN THỊ THÔNG TIN . 43 iv KẾT LUẬN CHƢƠNG 3 . 44 KẾT LUẬN CHUNG . 45 DANH MỤC TÀI LIỆU THAM KHẢO. 47 QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao) v DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Mạng Nơ-ron tích chập - CNN Convolution Neural Network Mô hình mạng nơ-ron tái tạo – RNN Recurrent Neural Network Phân loại thời gian kết nối – CTC Connectionist temporal classification Thuật toán Vec-tơ hỗ trợ – SVM Support Vector Machine Thuật toán Phát hiện đối tƣợng YOLO – YOLO You only look once Độ đo đánh giá mô hình Object Detection – AP Average Precision Độ đo trung bình AP - mAP Measure Average Precision Độ đo về tốc độ xử lý 1 khung hình trên 1 giây – FPS Frame per second Mạng đề xuất khu vực – RPN Region Proposal Network Thuật toán Phát hiện đối tƣợng – SSD Single Shot Detection Tỷ lệ trùng nhau của 2 Box - IoU Intersection over Union vi DANH MỤC CÁC BẢNG Ký hiệu Nội dung Trang Mô tả ý nghĩa giá trị các thuộc tính trong file Bảng 3.1 37 annotations định dạng txt Bảng 3.2 Bảng phân chia tập dữ liệu 38 vii DANH MỤC CÁC HÌNH Ký hiệu Nội dung Trang Mối quan hệ giữa AI, Machine Learning và Deep Hình 1.1 5 Learning Sơ đồ các mối liên hệ giữa các tác vụ trong Hình 1.2 6 computer vision Hình 1.3 Ví dụ về phát hiện đối tƣợng 7 So sánh sự khác nhau của mô hình one-stage và Hình 1.4 8 two-stage Hình 1.5 Mối quan hệ giữa đầu vào và đầu ra của một node 9 Hình 1.6 Đồ thị hàm sigmoid (a) và hàm tanh (b) 10 Hình 1.7 Đồ thị hàm ReLU 11 Hình 1.8 Đồ thị hàm Leaky ReLU 11 Hình 1.9 Đồ thị hàm Mish 12 Hình 1.10 Cấu trúc của CNN 13 Hình 1.11 Minh họa việc áp dụng phép tính Conv 14 Hình 1.12 Lớp tổng hợp sử dụng Max pooling 14 Hình 1.13 Phép flatten đƣa tensor về thành 1 vector 15 Hình 1.14 Ví dụ về đầu vào và đầu ra của hàm softmax 16 Hình 1.15 Một mô hình OCR Pipeline 17 Hình 1.16 Hình ảnh thu đƣợc sau khi qua bƣớc tiền xử lý 17 Hình 1.17 Những cách nhận dạng của OCR 18 Hình 1.18 Kết quả các ký tự đƣợc nhận dạng 19 viii Hình 2.1 Mô hình kiến trúc RetinaNet 23 Chuyển các lớp Fully Connected cuối thành các lớp Hình 2.2 26 tích chập Vị trí và thông tin của vật thể đƣợc duy trì đến lúc Hình 2.3 26 cuối cùng Mô tả grid system trong bài toán nhận diện biển Hình 2.5 Phần giao nhau giữa 2 box A và B 28 Tâm của 2 vật thể trùng nhau và cùng nằm trong 1 Hình 2.7 Thuật toán đƣợc áp dụng ở đầu ra 31 Hình 2.8 Chia nhỏ các ký tự trong từ (fixed word) 32 Hình 3.1 Công thức minh họa để tính IoU 39 Hình 3.2 Precision and recall 40 Biểu đồ giá trị độ lỗi sau mỗi vòng lặp và độ đo Hình 3.3 mAP đánh giá trong quá trình huấn luyện bằng tập 41 đánh giá (validation) với YOLOv4 Hình 3.4 Kết quả là 99% đối với biển số xe máy 42 Kết quả dự đoán là 94% với biển số xe ô tô đƣợc đặt Hình 3.5 42 với góc nghiêng Cấu trúc thƣ mục sau khi chuyển đổi Darknet Hình 3.6 43 Weight sang Tensorflow Hình 3.7 Lấy bounding box biển số xe 43 Hình 3.8 Hình ảnh sau khi đã tăng kích thƣớc gấp 3 lần 44 Hình 3.9 Hình ảnh thu đƣợc sau khi áp dụng ngƣỡng Otsu’s 44 Hình 3.10 Tạo đƣờng bao xung quanh các ký tự 44 ix Hình 3.11 Hiển thị thông tin biển số xe trên xe máy 45 Hình 3.12 Hiển thị thông tin biển số xe trên xe ô tô 45 1 LỜI MỞ ĐẦU 1. Lý do chọn đề tài Cùng với sự phát triển khoa học kỹ thuật, nhu cầu đi lại của con ngƣời ngày càng tăng, lƣu lƣợng giao thông ngày càng lớn. Với số lƣợng phƣơng tiện giao thông ngày càng lớn và còn không ngừng tăng thì việc quản lý các phƣơng tiện giao thông gặp rất nhiều khó khăn do đó cần có một hệ thống tự động. Một trong những hệ thống đó là hệ thống nhận dạng biển số xe. Đó là một hệ thống có khả năng ―đọc‖ và ―hiểu‖ các biển số xe một cách tự động. Trong phạm vi nghiên cứu của đề tài, tôi sẽ sử dụng mô hình mạng RetinaNet, YOLO và kết hợp bài toán nhận diện ký tự quang học OCR để xây dựng mô hình nhận diện biển số xe, bao gồm biển số xe máy và xe ô tô. Với những phân tích trên tôi chọn đề tài “NHẬN DIỆN BIỂN SỐ XE VIỆT NAM”. Tổng quan về tình hình nghiên cứu đề tài Đối với bài toán phát hiện biển số xe, tức là nhận diện bức ảnh hoặc đoạn video có hay không và đâu là biển số xe. Có nhiều thuật toán để phát hiện đối tƣợng, từ cổ điển đến hiện đại, loại một bƣớc xử lý hoặc hai bƣớc xử lý nhƣ R-CNN, Fast-RCNN, Faster-RCNN. Nhƣng RetinaNet và YOLO đƣợc đánh giá là thuật toán hiệu quả, tránh đƣợc tác động từ môi trƣờng, nhiễu, sự thay đổi khoảng cách ảnh đến camera. Đƣợc xem là vƣợt trội hơn về mặt thời gian khi có thể đáp ứng thời gian thực tốt hơn. Với bài toán nhận diện ký tự trong biển số xe, đƣợc chia thành hai bài toán lớn đó phát hiện ký tự trong biển số xe và nhận diện ký tự đó. Có rất nhiều cách để giải quyết bài toán nhận diện ký tự quang học nêu trên nhƣ kết hợp mô hình CNN + RNN + CTC, hay nhƣ kết hợp mô hình CNN + SVM. Trong đó, Công cụ Tesseract OCR đƣợc đánh giá khá tốt. Mỗi mô hình đều có những ƣu và nhƣợc điểm riêng. 2 Trong đề tài luận văn này, đầu tiên tôi sử dụng mô hình RetinaNet để thực hiện việc phát hiện đối tƣợng, trong quá trình tìm hiểu và đƣợc đề xuất từ Thầy hƣớng dẫn, tôi nghiên cứu thêm mô hình YOLO, từ những so sánh và thời gian huấn luyện, thời gian thực hiện, độ chính xác,… tôi đã quyết định chuyển sang sử dụng thuật toán của YOLO, cụ thể là YOLOv4 để thực hiện việc phát hiện đối tƣợng trong đề tài luận văn. YOLOv4 có đáp ứng thời gian thực không khác so với YOLOv3 nhƣng cho kết quả nhận diện chính xác hơn. Đồng thời sử dụng Tesseract OCR để nhận diện các ký tự trong biển số xe, công cụ này cho phép nhận diện tƣơng đối chính xác. Mục đích và nhiệm vụ nghiên cứu - Nghiên cứu cơ sở lý thuyết về học sâu, mạng nơ-ron tích chập (CNN), đặc biệt là RetinaNet, YOLO trong kỹ thuật phát hiện đối tƣợng. - Nghiên cứu cơ sở lý thuyết về nhận diện ký tự quang học OCR, công cụ hỗ trợ thực hiện OCR trong việc nhận diện ký tự trong hình ảnh. - Cài đặt chƣơng trình ứng dụng nhận diện biển số xe. Đối tƣợng và phạm vi nghiên cứu - Đối tƣợng nghiên cứu: Học máy; Học sâu (Deep learning). - Phạm vi nghiên cứu: Thực nghiệm về ứng dụng mô hình RetinaNet, YOLO, nhận diện ký tự quang học OCR trong việc nhận diện biển số xe Việt Nam. Phƣơng pháp nghiên cứu - Phƣơng pháp nghiên cứu tài liệu - Phƣơng pháp phân tích, tổng hợp - Phƣơng pháp thực nghiệm 6.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ