Luận văn thạc sĩ về nhận diện biển số xe Việt Nam

Khóa luận tốt nghiệp nghiên cứu 0683 nhận diện biển số xe việt nam luận văn tốt nghiệp, vận dụng lý thuyết vào thực tế, đề xuất giải pháp cụ thể cho vấn đề .

Trường đại học

Đại học Quy Nhơn

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

LỜI MỞ ĐẦU

0.1. Lý do chọn đề tài

0.2. Tổng quan về tình hình nghiên cứu đề tài

0.3. Mục đích và nhiệm vụ nghiên cứu

0.4. Đối tượng và phạm vi nghiên cứu

0.5. Phương pháp nghiên cứu

0.6. Cấu trúc của luận văn

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. GIỚI THIỆU TỔNG QUAN

1.2. THỊ GIÁC MÁY TÍNH (COMPUTER VISION)

1.3. PHÁT HIỆN ĐỐI TƯỢNG (OBJECT DETECTION)

1.4. MẠNG NƠ-RON

1.5. MẠNG NƠ-RON TÍCH CHẬP (CONVOLUTIONAL NEURAL NETWORK)

1.5.1. Lớp tích chập (Convolutional Layer)

1.5.2. Lớp tổng hợp (Pooling layer)

1.5.3. Lớp kết nối đầy đủ (Fully Connected Layer)

1.5.4. Lớp đầu ra

1.6. NHẬN DIỆN KÝ TỰ QUANG HỌC

1.6.1. Cơ chế hoạt động

1.6.2. Nhận diện text (Text Recognition)

1.7. KẾT LUẬN CHƯƠNG 1

2. CHƯƠNG 2: THUẬT TOÁN PHÁT HIỆN ĐỐI TƯỢNG, CÔNG CỤ TESSERACT OCR

2.1. THUẬT TOÁN PHÁT HIỆN ĐỐI TƯỢNG

2.1.1. Mô hình RetinaNet

2.1.2. Mô hình YOLO

2.2. CÔNG CỤ TESSERACT OCR

2.2.1. Cơ chế hoạt động

2.3. KẾT LUẬN CHƯƠNG 2

3. CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG NHẬN DIỆN BIỂN SỐ XE

3.1. THU THẬP VÀ PHÂN CHIA DỮ LIỆU

3.1.1. Thu thập dữ liệu

3.1.2. Phân chia dữ liệu

3.2. HUẤN LUYỆN MÔ HÌNH

3.2.1. Đánh giá mô hình huấn luyện

3.2.2. Kết quả mô hình huấn luyện

3.3. CHUYỂN ĐỔI WEIGHT SANG TENSORFLOW

3.4. NHẬN DIỆN KÝ TỰ BIỂN SỐ XE

3.5. HIỂN THỊ THÔNG TIN

3.6. KẾT LUẬN CHƯƠNG 3

KẾT LUẬN CHUNG

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận diện biển số xe Việt Nam Luận văn thạc sĩ

Nhận diện biển số xe là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin, đặc biệt là trong bối cảnh giao thông ngày càng phức tạp tại Việt Nam. Luận văn thạc sĩ này sẽ trình bày tổng quan về các phương pháp và công nghệ hiện có trong việc nhận diện biển số xe, từ đó đưa ra những giải pháp tối ưu cho vấn đề này. Việc áp dụng các mô hình học sâu như YOLO và RetinaNet sẽ được phân tích chi tiết.

1.1. Lịch sử và sự phát triển của nhận diện biển số xe

Nhận diện biển số xe đã có một lịch sử dài, bắt đầu từ những năm 1990 với các phương pháp truyền thống. Tuy nhiên, sự phát triển của công nghệ học sâu đã mang lại những bước tiến vượt bậc trong lĩnh vực này.

1.2. Tình hình nghiên cứu hiện tại về nhận diện biển số xe

Hiện nay, nhiều nghiên cứu đã chỉ ra rằng các mô hình như YOLO và RetinaNet có khả năng nhận diện biển số xe với độ chính xác cao. Các nghiên cứu này sẽ được tổng hợp và phân tích trong luận văn.

II. Vấn đề và thách thức trong nhận diện biển số xe Việt Nam

Mặc dù công nghệ nhận diện biển số xe đã phát triển, nhưng vẫn còn nhiều thách thức cần giải quyết. Các vấn đề như độ chính xác trong điều kiện ánh sáng khác nhau, sự biến đổi của biển số và các yếu tố môi trường khác là những thách thức lớn.

2.1. Độ chính xác trong điều kiện thực tế

Độ chính xác của các mô hình nhận diện biển số xe thường bị ảnh hưởng bởi điều kiện ánh sáng và góc chụp. Nghiên cứu sẽ chỉ ra các giải pháp để cải thiện độ chính xác trong các điều kiện này.

2.2. Sự biến đổi của biển số xe

Biển số xe có thể thay đổi về hình thức và màu sắc, điều này gây khó khăn cho việc nhận diện. Các phương pháp xử lý hình ảnh sẽ được đề xuất để giải quyết vấn đề này.

III. Phương pháp nghiên cứu và giải pháp chính cho nhận diện biển số xe

Luận văn sẽ trình bày các phương pháp nghiên cứu đã được áp dụng để phát triển hệ thống nhận diện biển số xe. Các mô hình học sâu như YOLO và RetinaNet sẽ được sử dụng để phát hiện và nhận diện biển số xe một cách hiệu quả.

3.1. Mô hình YOLO trong nhận diện biển số xe

Mô hình YOLO (You Only Look Once) được biết đến với khả năng phát hiện đối tượng trong thời gian thực. Nghiên cứu sẽ phân tích cách mà YOLO có thể được áp dụng để nhận diện biển số xe.

3.2. Mô hình RetinaNet và ứng dụng của nó

RetinaNet là một mô hình học sâu nổi bật với khả năng phát hiện đối tượng chính xác. Luận văn sẽ trình bày chi tiết về cách mà mô hình này có thể cải thiện hiệu suất nhận diện biển số xe.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu về nhận diện biển số xe

Kết quả nghiên cứu sẽ được trình bày thông qua các ứng dụng thực tiễn của hệ thống nhận diện biển số xe. Các số liệu và phân tích sẽ cho thấy hiệu quả của các mô hình đã được áp dụng.

4.1. Kết quả thử nghiệm với mô hình YOLO

Kết quả thử nghiệm cho thấy mô hình YOLO đạt được độ chính xác cao trong việc nhận diện biển số xe trong các điều kiện khác nhau. Các số liệu cụ thể sẽ được trình bày.

4.2. Đánh giá hiệu suất của mô hình RetinaNet

Mô hình RetinaNet cũng cho thấy hiệu suất tốt trong việc nhận diện biển số xe. Nghiên cứu sẽ so sánh kết quả giữa hai mô hình để đưa ra những nhận định chính xác.

V. Kết luận và tương lai của nhận diện biển số xe tại Việt Nam

Luận văn sẽ kết luận về những thành tựu đạt được trong nghiên cứu nhận diện biển số xe và đề xuất hướng phát triển trong tương lai. Các công nghệ mới và xu hướng nghiên cứu sẽ được thảo luận.

5.1. Tóm tắt các kết quả chính

Các kết quả chính từ nghiên cứu sẽ được tóm tắt, nhấn mạnh những đóng góp của luận văn cho lĩnh vực nhận diện biển số xe.

5.2. Hướng phát triển trong tương lai

Nghiên cứu sẽ đề xuất các hướng phát triển trong tương lai cho công nghệ nhận diện biển số xe, bao gồm việc áp dụng trí tuệ nhân tạo và học sâu.

15/07/2025

Bạn đang xem trước tài liệu:

0683 nhận diện biển số xe việt nam luận văn tốt nghiệp

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của khoa học kỹ thuật và sự gia tăng không ngừng của lưu lượng giao thông, việc quản lý phương tiện trở thành một thách thức lớn. Theo ước tính, số lượng phương tiện giao thông tại Việt Nam tăng mạnh hàng năm, dẫn đến nhu cầu cấp thiết về các hệ thống tự động hỗ trợ quản lý. Một trong những giải pháp hiệu quả là hệ thống nhận diện biển số xe tự động, giúp "đọc" và "hiểu" biển số xe một cách chính xác và nhanh chóng.

Luận văn tập trung nghiên cứu và phát triển mô hình nhận diện biển số xe Việt Nam, bao gồm cả xe máy và ô tô, trong phạm vi thời gian nghiên cứu năm 2022 tại Việt Nam. Mục tiêu chính là xây dựng ứng dụng nhận diện biển số xe dựa trên các mô hình mạng nơ-ron tích chập (CNN) hiện đại như RetinaNet và YOLO, kết hợp với công nghệ nhận diện ký tự quang học (OCR) sử dụng công cụ Tesseract OCR. Nghiên cứu nhằm nâng cao độ chính xác và tốc độ nhận diện trong điều kiện thực tế đa dạng về môi trường và góc chụp.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số hiệu suất như độ chính xác trung bình (mAP) đạt khoảng 77.3% với mô hình YOLOv4, độ chính xác nhận diện biển số xe máy lên đến 99% và biển số xe ô tô đạt 94% trong các thử nghiệm thực tế. Kết quả này góp phần quan trọng vào việc phát triển các hệ thống giám sát giao thông thông minh, hỗ trợ công tác quản lý và xử lý vi phạm giao thông hiệu quả hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của lĩnh vực học sâu (Deep Learning) và thị giác máy tính (Computer Vision). Hai mô hình chính được áp dụng là:

Mô hình RetinaNet: Một mô hình one-stage phát hiện đối tượng, sử dụng backbone ResNet50 kết hợp với Feature Pyramid Network (FPN) để trích xuất đặc trưng đa tỷ lệ. RetinaNet sử dụng hàm mất mát Focal Loss nhằm xử lý vấn đề mất cân bằng lớp giữa các anchor box chứa đối tượng và không chứa đối tượng, giúp tăng độ chính xác phát hiện.
Mô hình YOLO (You Only Look Once): Thuật toán phát hiện đối tượng nhanh, xem bài toán như một bài toán hồi quy duy nhất trên toàn bộ ảnh. YOLO chia ảnh thành các ô lưới (grid) và dự đoán bounding box cùng xác suất phân loại cho từng ô, giúp tăng tốc độ xử lý và phù hợp với ứng dụng thời gian thực.

Ngoài ra, công nghệ nhận diện ký tự quang học (OCR) được triển khai qua công cụ Tesseract OCR, một engine mã nguồn mở có khả năng nhận diện chính xác các ký tự trong ảnh, đặc biệt phù hợp với các ký tự biển số xe có cấu trúc phức tạp và đa dạng.

Các khái niệm chuyên ngành quan trọng bao gồm: mạng nơ-ron tích chập (CNN), hàm kích hoạt (ReLU, Leaky ReLU, Mish), hàm softmax, Intersection over Union (IoU), Average Precision (AP), Mean Average Precision (mAP), Non-max suppression (NMS).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm 1748 ảnh biển số xe máy thu thập từ công ty GreenParking và 1247 ảnh biển số xe ô tô lấy từ website chuyên ngành, tất cả đều là biển số xe Việt Nam. Dữ liệu được gán nhãn bằng phần mềm labelImg, tạo file annotation định dạng txt theo chuẩn YOLO, bao gồm tọa độ tâm bounding box và kích thước chuẩn hóa.

Dữ liệu được chia thành ba tập: training (60%), validation (20%) và test (20%) nhằm đảm bảo đánh giá khách quan và tránh hiện tượng overfitting hoặc underfitting. Kích thước ảnh đầu vào được chuẩn hóa về 68x68x3.

Phương pháp phân tích sử dụng kỹ thuật huấn luyện mô hình học sâu với batch size 64, số vòng lặp tối đa 50,000, learning rate khởi tạo 0.001 với decay 0.005, momentum 0.949. Quá trình huấn luyện được đánh giá qua các chỉ số IoU, Precision, Recall và mAP. Mô hình YOLOv4 được lựa chọn do cân bằng tốt giữa tốc độ và độ chính xác.

Sau khi huấn luyện, file trọng số (weight) được chuyển đổi sang định dạng TensorFlow để triển khai ứng dụng thực tế. Ứng dụng thực hiện các bước tiền xử lý ảnh, phát hiện biển số xe, bóc tách ký tự và nhận diện ký tự bằng Tesseract OCR, cuối cùng hiển thị kết quả nhận diện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình YOLOv4: Mô hình đạt mAP@0.5 IoU khoảng 77.3% trên tập validation, thể hiện khả năng phát hiện biển số xe chính xác trong nhiều điều kiện khác nhau.
Độ chính xác nhận diện biển số xe máy: Trong thử nghiệm thực tế, mô hình đạt độ chính xác lên đến 99%, cho thấy khả năng nhận diện rất tốt đối với biển số xe máy.
Độ chính xác nhận diện biển số xe ô tô: Mô hình đạt 94% độ chính xác khi nhận diện biển số xe ô tô, kể cả khi biển số được đặt ở góc nghiêng, chứng tỏ tính ổn định và khả năng xử lý biến dạng hình ảnh.
Tác động của tiền xử lý và OCR: Việc áp dụng các bước tiền xử lý ảnh như tăng kích thước ảnh gấp 3 lần, áp dụng ngưỡng Otsu và tạo đường bao xung quanh ký tự giúp nâng cao chất lượng nhận diện ký tự bằng Tesseract OCR, góp phần cải thiện độ chính xác tổng thể của hệ thống.

Thảo luận kết quả

Kết quả cho thấy mô hình YOLOv4 vượt trội so với RetinaNet về mặt thời gian huấn luyện và độ chính xác nhận diện, phù hợp với yêu cầu ứng dụng thời gian thực trong quản lý giao thông. Độ chính xác cao với biển số xe máy (99%) và xe ô tô (94%) phản ánh khả năng thích ứng tốt với các điều kiện thực tế đa dạng như ánh sáng, góc chụp và nhiễu nền.

So sánh với các nghiên cứu trong ngành, việc kết hợp YOLOv4 với Tesseract OCR mang lại hiệu quả nhận diện ký tự vượt trội so với các phương pháp truyền thống hoặc kết hợp CNN + SVM. Việc sử dụng các kỹ thuật tiền xử lý ảnh giúp giảm thiểu ảnh hưởng của nhiễu và biến dạng, từ đó nâng cao độ chính xác nhận diện.

Dữ liệu có thể được trình bày qua biểu đồ mAP theo số vòng lặp huấn luyện, biểu đồ Precision-Recall cho từng loại phương tiện, và bảng so sánh độ chính xác nhận diện giữa các mô hình. Các biểu đồ này minh họa rõ ràng sự cải thiện hiệu suất trong quá trình huấn luyện và đánh giá mô hình.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng tập dữ liệu với nhiều điều kiện ánh sáng, góc chụp và loại biển số khác nhau nhằm nâng cao khả năng tổng quát hóa của mô hình. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 6-12 tháng.
Tối ưu hóa mô hình YOLOv4: Nghiên cứu và áp dụng các kỹ thuật tăng cường dữ liệu (data augmentation) và điều chỉnh siêu tham số để cải thiện độ chính xác và tốc độ xử lý. Chủ thể thực hiện: kỹ sư AI; Thời gian: 3-6 tháng.
Phát triển module nhận diện ký tự nâng cao: Kết hợp các mô hình deep learning hiện đại hơn cho OCR, như CNN + RNN + CTC, để tăng độ chính xác nhận diện ký tự trong điều kiện phức tạp. Chủ thể thực hiện: nhóm phát triển phần mềm; Thời gian: 6 tháng.
Triển khai ứng dụng thực tế và đánh giá liên tục: Áp dụng hệ thống vào các điểm giao thông trọng điểm để thu thập phản hồi, đánh giá hiệu quả và điều chỉnh mô hình phù hợp với môi trường thực tế. Chủ thể thực hiện: cơ quan quản lý giao thông; Thời gian: 12 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Nghiên cứu sâu về ứng dụng học sâu trong thị giác máy tính và nhận diện ký tự, áp dụng vào bài toán thực tế.
Kỹ sư phát triển phần mềm và AI: Tham khảo quy trình xây dựng, huấn luyện và triển khai mô hình YOLOv4 kết hợp OCR cho các ứng dụng nhận diện đối tượng và ký tự.
Cơ quan quản lý giao thông và an ninh: Áp dụng hệ thống nhận diện biển số xe tự động để nâng cao hiệu quả quản lý phương tiện và xử lý vi phạm giao thông.
Doanh nghiệp phát triển giải pháp giám sát và an ninh: Tận dụng công nghệ nhận diện biển số xe để phát triển các sản phẩm giám sát thông minh, tăng cường tính năng và độ chính xác.

Câu hỏi thường gặp

Mô hình YOLOv4 có ưu điểm gì so với các mô hình khác?
YOLOv4 cung cấp tốc độ xử lý nhanh, phù hợp với ứng dụng thời gian thực, đồng thời đạt độ chính xác cao nhờ kiến trúc tối ưu và các kỹ thuật tăng cường dữ liệu. Ví dụ, trong nghiên cứu, YOLOv4 đạt mAP 77.3%, vượt trội so với RetinaNet.
Tại sao sử dụng Tesseract OCR cho nhận diện ký tự biển số xe?
Tesseract OCR là công cụ mã nguồn mở, hỗ trợ nhiều ngôn ngữ và có khả năng nhận diện ký tự chính xác trong điều kiện đa dạng. Kết hợp với tiền xử lý ảnh, Tesseract giúp nhận diện ký tự biển số xe đạt độ chính xác cao, như 99% với xe máy.
Làm thế nào để xử lý các biển số xe bị nghiêng hoặc biến dạng?
Mô hình YOLOv4 có khả năng nhận diện đối tượng trong nhiều điều kiện biến dạng nhờ sử dụng grid system và anchor boxes. Thực nghiệm cho thấy độ chính xác nhận diện biển số xe ô tô nghiêng đạt 94%, chứng tỏ tính ổn định của mô hình.
Phân chia dữ liệu như thế nào để đảm bảo hiệu quả huấn luyện?
Dữ liệu được chia theo tỷ lệ 60% training, 20% validation và 20% test để đảm bảo mô hình học tốt, tránh overfitting và đánh giá khách quan. Tỷ lệ này phù hợp với tập dữ liệu khoảng 3,000 ảnh biển số xe.
Có thể áp dụng mô hình này cho các loại biển số xe khác không?
Mô hình có thể được điều chỉnh và huấn luyện lại với dữ liệu mới để nhận diện các loại biển số khác nhau. Việc mở rộng tập dữ liệu và tinh chỉnh mô hình là cần thiết để đảm bảo độ chính xác trong các môi trường khác nhau.

Kết luận

Luận văn đã xây dựng thành công mô hình nhận diện biển số xe Việt Nam sử dụng YOLOv4 kết hợp Tesseract OCR, đạt độ chính xác cao với biển số xe máy (99%) và ô tô (94%).
Phương pháp huấn luyện và đánh giá mô hình dựa trên các chỉ số IoU, mAP, Precision và Recall đảm bảo tính khách quan và hiệu quả.
Việc áp dụng các kỹ thuật tiền xử lý ảnh và thuật toán Non-max suppression giúp nâng cao chất lượng nhận diện trong điều kiện thực tế đa dạng.
Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong việc phát triển các hệ thống giám sát giao thông thông minh tại Việt Nam.
Đề xuất các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và triển khai ứng dụng thực tế nhằm nâng cao hiệu quả và độ tin cậy của hệ thống.

Hãy bắt đầu áp dụng các giải pháp này để nâng cao hiệu quả quản lý giao thông và phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực thị giác máy tính.

Trích đoạn nội dung tài liệu

phần mở đầu, kết luận, danh mục các từ viết tắt, danh mục bảng biểu, danh mục hình ảnh, danh mục tài liệu tham khảo, luận văn gồm có 3 chƣơng: 3 Chƣơng 1: Cơ sở lý thuyết Chƣơng 2: Thuật toán phát hiện đối tƣợng, Công cụ Tesseract OCR Chƣơng 3: Xây dựng ứng dụng nhận diện biển số xe 4 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT Trong khoảng vài năm trở lại đây sự bùng nổ của Artificial Intelligence (Trí tuệ nhân tạo) hay cụ thể hơn là Machine Learning (Máy học) và Deep Learning, Big Data đã giúp con ngƣời giải quyết đƣợc rất nhiều bài toán khó và đang tạo ra những bƣớc đột phá mới trong lĩnh vực công nghệ thông tin. Trong chƣơng này, tôi sẽ trình bày một số cơ sở lý thuyết, khái niệm cũng nhƣ các nghiên cứu liên quan tới bài toán Phát hiện đối tƣợng bằng phƣơng pháp học sâu. GIỚI THIỆU TỔNG QUAN Machine Learning là một lĩnh vực của Trí tuệ nhân tạo, liên quan tới việc nghiên cứu và xây dựng các thuật toán, mô hình cho phép các hệ thống có khả năng "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Nếu nhƣ trƣớc kia, để giải quyết vấn đề, con ngƣời sử dụng dòng code để đƣa những chỉ thị, hành động cụ thể cho máy tính thực hiện, thì nay chỉ với dữ liệu và các thuật toán, máy tính đƣợc huấn luyện và có thể tự mình đƣa ra những quyết định hoặc dự đoán từ quá trình học hỏi.

Phƣơng pháp này đƣa ra kết quả nhanh, chính xác và hiệu quả, thậm chí còn tốt hơn con ngƣời rất nhiều nhờ áp dụng các thuật toán để phân tích, thống kê từ hàng trăm, hàng nghìn dữ liệu. Tóm lại, Machine Learning là quá trình dạy máy tính có khả năng học hỏi để hoàn thành một nhiệm vụ mà không cần kỹ thuật lập trình phức tạp. Machine Learning là ngành rất rộng về toán, gồm rất nhiều thuật toán và mỗi thuật toán có ứng dụng riêng tùy vào bài toán: • Linear Regression. • Decision Tree và Random Forest.

• Support Vector Machines. • Principal Component Analysis (PCA). Trong số đó, Deep Learning đƣợc bắt nguồn từ thuật toán Neural Network, một trong những thuật toán lấy cảm hứng từ cấu trúc bộ não con ngƣời để xử lý dữ liệu. Dù chỉ là một ngành nhỏ của Machine Learning nhƣng sự phát triển cùng khả năng tính toán vƣợt trội của máy tính và lƣợng dữ liệu khổng lồ mà con ngƣời tạo ra, những ứng dụng của Deep Learning đã và đang tạo ra những bƣớc đột phá thực sự lớn.1: Mối quan hệ giữa AI, Machine Learning và Deep Learning 1.

THỊ GIÁC MÁY TÍNH (COMPUTER VISION) Thị giác máy tính (Computer Vision) là một trong những ứng dụng nổi bất nhất của Deep Learning. Thị giác máy tính là một lĩnh vực bao gồm các phƣơng pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh và, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tƣợng. Một số kỹ thuật phổ biến trong Thị giác máy tính gồm: • Nhận diện vật thể (Object Recognition): là một kỹ thuật liên quan đến việc nhận dạng, xác định và định vị các đối tƣợng trong một bức ảnh với một mức độ tin cậy nhất định. 6 • Phân loại hình ảnh (Image Classification): là một kỹ thuật liên quan đến việc dự đoán lớp của một đối tƣợng trong một hình ảnh.

• Định vị vật thể (Object Localization): là một kỹ thuật xác định vị trí của một hoặc nhiều đối tƣợng trong một hình ảnh và vẽ bounding box xung quanh chúng. • Phát hiện đối tƣợng (Object Detection): là một kỹ thuật kết hợp phân loại hình ảnh và định vị vật thể cho một hoặc nhiều đối tƣợng trong hình ảnh. • Phân đoạn đối tƣợng (Object Segmentation): là một kỹ thuật nhận dạng đối tƣợng bằng cách nổi bật các pixel cụ thể của đối tƣợng thay vì bounding box. • Chú thích ảnh (Image Captioning): là một kỹ thuật kết hợp giữa Computer Vision (thị giác máy tính) và NLP (Xử lý ngôn ngữ tự nhiên), Dựa trên một hình ảnh làm dữ liệu đầu vào, chú thích ảnh tạo ra văn bản ngắn gọn mô tả nội dung của bức ảnh đó.2: Sơ đồ các mối liên hệ giữa các tác vụ trong Computer Vision 1.

PHÁT HIỆN ĐỐI TƢỢNG (OBJECT DETECTION) Phát hiện đối tƣợng (Object Detection) là một thuật ngữ chung để mô tả một tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc 7 xác định các đối tƣợng trong ảnh kỹ thuật số. Phát hiện đối tƣợng kết hợp hai nhiệm vụ gồm phân loại hình ảnh (Image Classification) và định vị vật thể (Object Localization). Trong đó, ta có thể phân loại các kỹ thuật trên nhƣ sau: • Phân loại hình ảnh (Image Classification): Dự đoán nhãn của một đối tƣợng trong một hình ảnh. o Đầu vào: Một hình ảnh với một đối tượng, chẳng hạn như một bức ảnh.

o Đầu ra: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên được ánh xạ tới nhãn lớp). • Định vị đối tƣợng (Object Localization): Xác định vị trí hiện diện của các đối tƣợng trong ảnh và cho biết vị trí của chúng bằng bounding box. o Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một bức ảnh. o Đầu ra: Một hoặc nhiều bounding box được xác định bởi tọa độ tâm, chiều rộng và chiều cao.

• Phát hiện đối tƣợng: Xác định vị trí hiện diện của các đối tƣợng trong bounding box và nhãn của các đối tƣợng nằm trong một hình ảnh. o Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một bức ảnh. o Đầu ra: Một hoặc nhiều bounding box và nhãn cho mỗi bounding box.3: Ví dụ về phát hiện đối tƣợng Thuật toán Object Detection bao gồm 2 nhóm chính: • Two-stage: bao gồm họ các mô hình R-CNN [6] (Region-Based Convolutional Neural Networks), Mask R-CNN… Gọi là two-stage vì model sẽ thực hiện 2 phần gồm trích chọn (extract) các vùng trên ảnh có khả năng chứa đối tƣợng dựa vào các anchor box, sau đó sẽ thực hiện tiếp phân loại đối tƣợng và xác định vị trí nhờ vào việc chia làm 2 nhánh tại phần cuối của mô hình (Object Classification và Bounding Box Regression). Các mô hình này đƣợc dùng để giải quyết các bài toán định vị và nhận diện vật thể tĩnh (hình ảnh) do yêu cầu cao về độ chính xác nhƣng không yêu cầu quá cao về tốc độ.

• One-stage hay còn gọi là single-stage: Bao gồm các mô hình Restina, YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector),. Gọi là one-stage vì model sẽ không có phần trích chọn các vùng đặc trƣng nhƣ two-stage. Các mô hình one-stage sẽ coi việc phát hiện đối tƣợng nhƣ một bài toán hồi quy và dựa trên pre-define box hay còn gọi là anchor để phát hiện đối tƣợng. Các mô hình one-stage thƣờng có tốc độ nhanh hơn tuy nhiên độ chính xác thƣờng kém hơn so với two-stage và thƣờng đƣợc dùng để nhận dạng đối tƣợng, đặc biệt là các đối tƣợng real time.4: So sánh sự khác nhau của mô hình one-stage và two-stage 9 1.

MẠNG NƠ-RON Mạng nơ-ron là một phƣơng thức trong lĩnh vực trí tuệ nhân tạo, đƣợc sử dụng để dạy máy tính xử lý dữ liệu theo cách đƣợc lấy cảm hứng từ bộ não con ngƣời. Lớp đầu tiên bên trái thể hiện cho mạng đầu vào đƣợc gọi là Input Layer. Và layer cuối cùng mang kết quả dự đoán gọi Output Layer. Một mạng nơ-ron có thể có hoặc không có các lớp ở giữa Input Layer và Output Layer gọi là Hidden Layer, các Hidden Layer này giúp cho tỉ lệ dự đoán chính xác cao hơn tuy nhiên việc huấn luyện cũng tốn nhiều thời gian và dung lƣợng hơn.

Mỗi Layer là tập hợp nhiều node, các node của lớp sau kết nối với toàn bộ các node của lớp trƣớc. Mỗi node trong hidden layer và output layer thực hiện các công việc sau: Liên kết với tất cả các node ở layer trƣớc đó với các hệ số w riêng. Mỗi node có 1 hệ số bias b riêng. Từ đó w, b biểu thị mối quan hệ giữa node trƣớc và node sau.5: Mối quan hệ giữa đầu vào và đầu ra của một node Node ở hình 1.5 có đầu vào là X1, X2, trọng số w1, w2.

Đầu ra y là kết quả của một hàm phi tuyến và một hàm tuyến tính. Hàm phi tuyến g còn đƣợc gọi là hàm kích hoạt (activation) giúp tăng khả năng học của mạng nơ- ron. 1 Các hàm phi kích hoạt thƣờng đƣợc sử dụng là: Sigmoid: Giá trị đầu ra đƣợc chuyển về trong khoảng [0,1] bằng công thức:  (x)  1 1 ex Hàm sigmoid cho đầu ra có giá trị bằng 1 khi đầu vào lớn và đầu ra bằng 0 khi đầu vào bằng 1. Ở thời gian đầu hàm sigmoid rất đƣợc sử dụng rất rộng rãi, tuy nhiên sau này vì hàm luôn dƣơng nên khi lấy gradient, hàm sẽ khó hội tụ.

Mặt khác hàm sigmoid dễ bị bão hòa và không có gradient khi đầu vào rất nhỏ. Vì vậy, sau này hàm sigmoid chỉ đƣợc sử dụng ở những lớp tích chập cuối khi cần tính binary cross-entropy loss. Tanh: Giá trị đầu ra đƣợc chuyển về trong khoảng [-1,1] khiến nó có tính chất tâm không (zero-centered), theo công thức: 𝑔(𝑧) 𝑒 𝑧 − 𝑒−𝑧 = 𝑒𝑧 + 𝑒−𝑧 Khi đó, đầu ra bằng 1 khi đầu vào lớn và đầu ra bằng -1 khi đầu vào nhỏ. Hàm Tanh với tính chất tâm không giúp các dữ liệu đƣợc phân bố quanh điểm 0, tanh khi lấy đạo hàm có cả phần dƣơng và phần âm giúp việc hội tụ trở nên tốt hơn.

Tuy nhiên hàm tanh không giải quyết đƣợc vấn đề bão hòa khi giá trị đầu vào quá lớn hoặc quá nhỏ của sigmoid.6: Đồ thị hàm sigmoid (a) và hàm tanh (b)[3] 1 ReLU và leaky ReLU: Lấy ngƣỡng giá trị ở 0 (Thay thế các giá trị âm bằng 0): g(x)= max(0,x). Hàm ReLU loại bỏ các giá trị âm, việc hội tụ cũng diễn ra nhanh hơn khi không còn bị bão hòa ở hai đầu nhƣ hàm Sigmoid và hàm Tanh. Tuy nhiên, với các giá trị âm nhỏ gần 0, việc giữ lại đạo hàm vẫn có giá trị khi lấy Gradient, nhƣng lại bị triệt tiêu gây ra hiện tƣợng ―Dying ReLU‖. Để khắc phục việc đó, hàm Leaky ReLU ra đời và là biến thể của ReLU: F(x) = 1(x < 0)(αx) + 1(x >= 0)(x) các giá trị âm lớn gần nhƣ xấp xỉ bằng 0 trong khi các giá trị âm nhỏ vẫn mang giá trị khi đạo hàm.

Nhƣng cả hai hàm ReLU và Leaky ReLU lại không có đạo hàm tại 0.7: Đồ thị hàm ReLU [3] Hình 1.8: Đồ thị hàm Leaky ReLU 1 Mish: Mish là hàm kích hoạt đƣợc sử dụng trong YOLOv4.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ "Nhận diện biển số xe Việt Nam" cung cấp cái nhìn sâu sắc về công nghệ nhận diện biển số xe, một lĩnh vực đang ngày càng trở nên quan trọng trong việc quản lý giao thông và an ninh. Tài liệu này không chỉ trình bày các phương pháp và kỹ thuật hiện đại trong việc nhận diện biển số, mà còn phân tích các thách thức và giải pháp cụ thể cho bối cảnh Việt Nam. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng công nghệ này, như cải thiện hiệu quả giám sát giao thông và tăng cường an ninh công cộng.

Để mở rộng kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Tìm hiểu học sâu và xây dựng ứng dụng dự đoán hình ảnh được vẽ bằng cử chỉ, nơi cung cấp cái nhìn sâu hơn về ứng dụng của học sâu trong nhận diện hình ảnh, một khía cạnh có liên quan mật thiết đến nhận diện biển số xe. Những tài liệu này sẽ giúp bạn nắm bắt được các xu hướng công nghệ mới và cách chúng có thể được áp dụng trong thực tiễn.

#Luận văn Thạc sĩ

#nhận diện biển số xe

#mạng nơ-ron tích chập

#phát hiện đối tượng

Chủ đề

Nghiên cứu về học sâu và AI

Cơ sở lý thuyết về nhận diện biển số

Thuật toán phát hiện đối tượng

Ứng dụng nhận diện biển số xe