PHÁT HIỆN NGƯỜI DỰA VÀO KHUÔN MẶT TRÊN NGUỒN VIDEO TRỰC TIẾP TỪ MÁY BAY KHÔNG NGƯỜI LÁI

Trường đại học

Trường Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn tốt nghiệp

2021

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

1. CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI

1.1. Động lực nghiên cứu

1.2. Mục tiêu đề tài

1.3. Phát biểu bài toán

1.4. Đối tượng và phạm vi nghiên cứu

1.5. Vấn đề giải quyết

1.6. Đóng góp luận văn

1.7. Bố cục luận văn

2. CHƯƠNG 2: TRÌNH BÀY CÁC PHƯƠNG PHÁP HỌ YOLO VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Hàm kích hoạt

2.2. Artificial Neural Network (ANN)

2.3. Convolutional Neural Network (CNN)

2.4. Lan truyền ngược (Backpropagation)

2.5. Nghiên cứu các phương pháp họ YOLO

2.5.1. YOLOv1

2.5.2. YOLOv2

3. CHƯƠNG 3: TRÌNH BÀY PHƯƠNG PHÁP YOLOV4 TINY FACE

3.1. Cấu trúc mạng

3.2. Quá trình dự đoán

4. CHƯƠNG 4: TRÌNH BÀY CÁC PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT

4.1. Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt

4.2. Hệ thống sinh trắc học

4.3. Hệ thống nhận dạng khuôn mặt

4.4. Những thách thức trong bài toán nhận dạng khuôn mặt

4.5. Tổng quan về các ứng dụng tương tác người máy liên quan tới khuôn mặt

4.6. Các công trình nghiên cứu về phương pháp nhận dạng và kiểm tra chất lượng cho một hệ thống nhận dạng khuôn mặt

5. CHƯƠNG 5: TRÌNH BÀY PHƯƠNG PHÁP MOBILE FACE NET NHẬN DẠNG KHUÔN MẶT

5.1. Một số khái niệm liên quan

5.2. Depthwise Separable Convolution

5.3. Kiến trúc MobileNet

6. CHƯƠNG 6: THỰC NGHIỆM VÀ ĐÁNH GIÁ

6.1. Mô tả bộ dữ liệu

6.2. Intersection over Union (IoU)

6.3. Precision và Recall

6.4. Kiến trúc mô hình và giải thích

6.5. Kết quả thực nghiệm

6.6. Môi trường thực nghiệm

6.7. Đánh giá kết quả phát hiện khuôn mặt bằng phương pháp YOLOv4 Tiny face trên bộ dữ liệu DroneSURF

6.8. Thử nghiệm với IoU = 0

6.9. Đánh giá kết quả mô hình bài toán từ video thực tế

6.10. Xây dựng ứng dụng

6.10.1. Tổng quan hệ thống

6.10.2. Một số thông tin về ứng dụng

6.10.3. Cài đặt hệ thống

6.10.4. Yêu cầu phần cứng/phần mềm

6.10.5. Yêu cầu hệ điều hành

6.10.6. Yêu cầu nền tảng

6.10.7. Cài đặt nvidia-docker

6.10.8. Cài đặt mã nguồn

7. CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

7.1. Kết quả nghiên cứu

7.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phát Hiện Khuôn Mặt Từ Video Drone

Thiết bị bay không người lái (drone) ngày càng phổ biến, ứng dụng rộng rãi trong nhiều lĩnh vực. Cùng với sự phát triển của công nghệ, drone tích hợp nhiều tính năng, trong đó có truyền hình ảnh trực tuyến. Nghiên cứu phát hiện đối tượng từ video drone, đặc biệt là khuôn mặt, đang được quan tâm. Tuy nhiên, các nhà sản xuất gặp rào cản về phần cứng, phần mềm và giá thành. Trong khi đó, các thuật toán trong lĩnh vực thị giác máy tính ngày càng mạnh mẽ nhờ sự phát triển của dữ liệu, phần cứng và máy học. Các thuật toán học sâu cho phép phát hiện đối tượng với độ chính xác cao, tốc độ nhanh, thích hợp cho các bài toán yêu cầu xử lý video thời gian thực. Một trích dẫn quan trọng từ tài liệu gốc: 'Trong một số bài báo chỉ ra rằng, các thiết bị bay này đang hướng tới áp dụng các công nghệ xử lý hình ảnh phát hiện đối tượng tuy nhiên nhiều nhà sản xuất gặp rào cản về phần cứng, phần mềm cũng như giá thành sản xuất'.

1.1. Động Lực Nghiên Cứu Nhận Diện Khuôn Mặt Drone

Nghiên cứu này được thúc đẩy bởi sự phổ biến của drone và nhu cầu ứng dụng chúng trong nhiều lĩnh vực khác nhau. Việc tích hợp khả năng nhận diện khuôn mặt vào drone mở ra tiềm năng lớn trong các lĩnh vực như an ninh, cứu hộ, và giám sát. Sử dụng drone để phát hiện khuôn mặt thời gian thực từ trên không có thể giúp xác định và theo dõi các đối tượng quan tâm một cách nhanh chóng và hiệu quả. Đồng thời, nghiên cứu này cũng nhằm vượt qua những rào cản về phần cứng và phần mềm để tạo ra một giải pháp khả thi về mặt kinh tế.

1.2. Mục Tiêu Phát Triển Ứng Dụng Nhận Diện Khuôn Mặt

Mục tiêu chính của nghiên cứu là xây dựng một ứng dụng tích hợp khả năng nhận diện khuôn mặt vào video trực tiếp từ drone. Ứng dụng này sẽ phục vụ cho việc tìm kiếm người từ đám đông, giúp tối ưu hóa thời gian và độ chính xác so với việc kiểm tra bằng mắt thường. Hệ thống tự động xử lý dữ liệu, kiểm tra tất cả các khuôn mặt người có trong khung hình và so sánh với khuôn mặt gốc cần tìm. Điều này đặc biệt hữu ích trong các tình huống khẩn cấp như tìm kiếm cứu nạn hoặc giám sát an ninh.

II. Thách Thức Vấn Đề Phát Hiện Khuôn Mặt Từ Drone

Bài toán phát hiện đối tượng là một trong những bài toán được quan tâm trong lĩnh vực thị giác máy tính. Dữ liệu đầu vào là ảnh, đầu ra là vị trí của các đối tượng. Bài toán phát hiện đối tượng trong video tương tự, nhưng đầu vào là một chuỗi các ảnh. Phát hiện người dựa vào khuôn mặt trên video trực tiếp từ drone là một bài toán cụ thể. Yêu cầu là từ 3-5 ảnh đầu vào là khuôn mặt của người cần tìm. Các yếu tố như góc quay, ánh sáng, và khoảng cách đều có thể ảnh hưởng đến độ chính xác. Theo tài liệu gốc, 'Bài toán phát hiện người dựa vào khuôn mặt trên nguồn video trực tiếp từ máy bay không người lái là một bài toán phát hiện đối tượng, với yêu cầu từ 03 05 ảnh đầu vào là khuôn mặt của người cần tìm, phát hiện đối tượng có trong video trực tiếp từ máy bay không người lái'.

2.1. Phạm Vi Nghiên Cứu Ứng Dụng Nhận Diện Khuôn Mặt

Nghiên cứu tập trung vào người dùng có nhu cầu sử dụng hệ thống phát hiện đối tượng trong lĩnh vực an ninh và cứu hộ cứu nạn. Để phù hợp với nhiều đối tượng và tính đơn giản, hệ thống được phát triển trên nền tảng ứng dụng web. Ứng dụng chỉ phát triển hệ thống với đầu vào là luồng phát trực tiếp, giúp người sử dụng dễ dàng cài đặt. Ảnh đầu vào là ảnh chân dung của đối tượng, có chất lượng tốt với số lượng 5 tấm hình ở các góc nhìn khác nhau để đảm bảo kết quả cao.

2.2. Các Thuật Toán Phát Hiện Khuôn Mặt Thời Gian Thực

Có nhiều thuật toán giải quyết bài toán phát hiện đối tượng. Cùng với sự phát triển của phần cứng và học sâu, các thuật toán dựa trên mạng nơ ron tích chập (CNN) ngày càng được quan tâm. Các thuật toán này cho kết quả với độ chính xác cao, tốc độ nhanh, cho ra kết quả theo thời gian thực. Một trong những thuật toán điển hình là YOLO. Với phiên bản mới nhất là YOLOv4, thuật toán này vừa cho phép phát hiện đối tượng với độ chính xác cao, vừa cho kết quả trong thời gian thực.

III. Phương Pháp YOLO Phát Hiện Khuôn Mặt Thời Gian Thực

Chương này trình bày các phương pháp họ YOLO và các khái niệm liên quan. Các phương pháp này đóng vai trò quan trọng trong việc phát hiện khuôn mặt thời gian thực từ video drone. YOLO (You Only Look Once) là một thuật toán object detection mạnh mẽ, nổi tiếng với tốc độ xử lý nhanh và độ chính xác cao. Nó chia ảnh đầu vào thành các ô lưới và dự đoán các bounding box và xác suất lớp cho mỗi ô. Theo tài liệu, 'YOLO chia ảnh đầu vào thành một lưới có kích thước 7x7, mỗi ô trong lưới sẽ làm nhiệm vụ dự đoán một đối tượng. Mỗi ô sẽ dự đoán 30 thông tin: 2 bounding box, mỗi bounding box có 5 thông tin bao gồm x, y, width, height, box objectness score'.

3.1. Tổng Quan Về Thuật Toán YOLOv4 Tiny Face

YOLOv4 Tiny Face là một phiên bản rút gọn của YOLOv4, được thiết kế để có thể chạy trên các thiết bị có tài nguyên hạn chế, như drone. Nó giảm số lượng tham số và lớp mạng để tăng tốc độ xử lý, đồng thời vẫn duy trì độ chính xác chấp nhận được trong việc phát hiện khuôn mặt. Việc sử dụng YOLOv4 Tiny Face cho phép phát hiện khuôn mặt thời gian thực trên video drone, mở ra nhiều ứng dụng tiềm năng trong thực tế.

3.2. Ưu Điểm Của YOLO Trong Phát Hiện Khuôn Mặt

YOLO có nhiều ưu điểm so với các thuật toán object detection khác, bao gồm tốc độ xử lý nhanh, khả năng phát hiện đối tượng trong thời gian thực, và độ chính xác cao. Việc sử dụng YOLO cho phép phát hiện khuôn mặt từ video drone một cách hiệu quả và chính xác, đặc biệt là trong các tình huống đòi hỏi tốc độ xử lý nhanh, ví dụ như drone surveillance.

IV. MobileFaceNet Nhận Dạng Khuôn Mặt Từ Video Drone

Chương này trình bày các phương pháp nhận dạng khuôn mặt, trong đó MobileFaceNet được sử dụng để nhận dạng khuôn mặt từ video drone. MobileFaceNet là một mô hình nhận diện khuôn mặt được thiết kế để chạy trên các thiết bị di động và nhúng, có hiệu suất cao và kích thước nhỏ. Việc sử dụng MobileFaceNet cho phép nhận dạng khuôn mặt một cách hiệu quả trên drone, ngay cả khi tài nguyên tính toán hạn chế. Theo tài liệu gốc, 'Chương 5. Trình bày phương pháp MobileFaceNet kết hợp ArcFace nhận dạng khuôn mặt'.

4.1. Kiến Trúc Và Nguyên Lý Hoạt Động Của MobileFaceNet

MobileFaceNet sử dụng các kỹ thuật tối ưu hóa để giảm số lượng tham số và phép tính, trong khi vẫn duy trì độ chính xác cao. Nó sử dụng các lớp depthwise separable convolution để giảm số lượng tham số và tăng tốc độ tính toán. MobileFaceNet cũng được huấn luyện với các hàm mất mát đặc biệt, như ArcFace, để cải thiện độ chính xác trong việc nhận dạng khuôn mặt.

4.2. Tích Hợp MobileFaceNet Với Hệ Thống Drone Giám Sát

Việc tích hợp MobileFaceNet với hệ thống drone giám sát cho phép nhận dạng khuôn mặt một cách tự động và hiệu quả. Drone có thể bay qua một khu vực và nhận dạng khuôn mặt của những người trong đám đông. Điều này có thể được sử dụng để tìm kiếm những người mất tích, theo dõi tội phạm, hoặc cung cấp thông tin nhận dạng cho các cơ quan chức năng.

V. Thực Nghiệm Đánh Giá Hệ Thống Phát Hiện Khuôn Mặt

Chương này trình bày các bước thực hiện và kết quả của các thực nghiệm. Các thực nghiệm được thực hiện để đánh giá hiệu suất của hệ thống phát hiện khuôn mặt từ video drone sử dụng YOLO và MobileFaceNet. Các kết quả cho thấy hệ thống có thể phát hiện khuôn mặt và nhận dạng khuôn mặt một cách chính xác và hiệu quả, ngay cả trong các điều kiện khó khăn như ánh sáng yếu hoặc góc quay không thuận lợi. Tài liệu gốc nhấn mạnh, 'Trình bày các bước thực hiện và kết quả của các thực nghiệm. Trình bày tông quan về hệ thống được xây dựng, kiến trúc và thiết kế của hệ thống'.

5.1. Đánh Giá Độ Chính Xác Của YOLO Face Detection

Độ chính xác của YOLO face detection được đánh giá bằng cách sử dụng các bộ dữ liệu chuẩn, như WIDER FACE. Các kết quả cho thấy YOLO có thể phát hiện khuôn mặt với độ chính xác cao, đặc biệt là trong các tình huống có nhiều khuôn mặt trong ảnh. Tuy nhiên, độ chính xác có thể giảm trong các tình huống có ánh sáng yếu hoặc khuôn mặt bị che khuất.

5.2. So Sánh Hiệu Suất Phát Hiện Khuôn Mặt với Các Mô Hình Khác

Hiệu suất của hệ thống phát hiện khuôn mặt được so sánh với các mô hình khác, như SSD và Faster R-CNN. Các kết quả cho thấy YOLO có tốc độ xử lý nhanh hơn và độ chính xác tương đương với các mô hình khác. Điều này cho thấy YOLO là một lựa chọn tốt cho các ứng dụng yêu cầu phát hiện khuôn mặt thời gian thực từ video drone.

VI. Kết Luận Hướng Phát Triển Phát Hiện Khuôn Mặt Drone

Luận văn đã nghiên cứu và xây dựng ứng dụng tích hợp nhận diện khuôn mặt từ video drone sử dụng YOLO và MobileFaceNet. Hệ thống có thể phát hiện khuôn mặt và nhận dạng khuôn mặt một cách chính xác và hiệu quả, mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như an ninh, cứu hộ, và giám sát. Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện độ chính xác và tốc độ của hệ thống, cũng như mở rộng ứng dụng sang các lĩnh vực khác. Theo tài liệu gốc, 'Kết luận các kết quả đạt được và các hướng phát triển sau này'.

6.1. Các Hướng Nghiên Cứu Phát Triển Mô Hình AI Nhận Diện

Một trong những hướng nghiên cứu tiềm năng là phát triển các mô hình AI nhận diện khuôn mặt mạnh mẽ hơn, có khả năng xử lý các điều kiện khó khăn như ánh sáng yếu, góc quay không thuận lợi, và khuôn mặt bị che khuất. Điều này có thể đạt được bằng cách sử dụng các kỹ thuật học sâu tiên tiến, như transformer networks, và bằng cách huấn luyện mô hình trên các bộ dữ liệu lớn và đa dạng.

6.2. Ứng Dụng Phát Hiện Khuôn Mặt Thời Gian Thực Trong Tương Lai

Ứng dụng phát hiện khuôn mặt thời gian thực từ video drone có nhiều tiềm năng trong tương lai. Ví dụ, nó có thể được sử dụng để giám sát các khu vực công cộng, tìm kiếm những người mất tích, và cung cấp thông tin nhận dạng cho các cơ quan chức năng. Ngoài ra, nó cũng có thể được sử dụng trong các ứng dụng thương mại, như drone delivery và drone photography.

25/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phát hiện người dựa vào khuôn mặt trên nguồn video trực tiếp từ máy bay không người lái realtime face based human detection on drone live streaming

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ thiết bị bay không người lái (drone) ngày càng phổ biến và được ứng dụng rộng rãi trong nhiều lĩnh vực như an ninh, cứu hộ, giám sát, việc phát hiện và nhận dạng người từ nguồn video trực tiếp trở thành một nhu cầu cấp thiết. Theo ước tính, các thiết bị drone hiện nay có khả năng truyền tải hình ảnh trực tiếp với chất lượng cao, tạo điều kiện thuận lợi cho việc áp dụng các thuật toán thị giác máy tính nhằm phát hiện đối tượng trong thời gian thực. Tuy nhiên, việc phát hiện người dựa trên khuôn mặt từ video drone gặp nhiều thách thức do đa dạng về góc nhìn, kích thước khuôn mặt, ánh sáng và che khuất.

Mục tiêu chính của luận văn là nghiên cứu và xây dựng hệ thống phát hiện và nhận dạng người dựa trên khuôn mặt từ luồng video trực tiếp do drone truyền về, nhằm hỗ trợ tìm kiếm người trong đám đông một cách nhanh chóng và chính xác. Phạm vi nghiên cứu tập trung vào việc áp dụng và cải tiến các thuật toán phát hiện khuôn mặt họ YOLO, đặc biệt là YOLOv4 Tiny Face, kết hợp với phương pháp nhận dạng MobileFaceNet trên bộ dữ liệu DroneSURF và WiderFace. Nghiên cứu được thực hiện trong môi trường thực nghiệm tại TP. Hồ Chí Minh, năm 2021.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả phát hiện và nhận dạng khuôn mặt trong các ứng dụng an ninh và cứu hộ cứu nạn, giúp giảm thiểu thời gian xử lý và tăng độ chính xác so với phương pháp thủ công. Kết quả nghiên cứu có thể ứng dụng trong các hệ thống giám sát thông minh, hỗ trợ ra quyết định nhanh chóng trong các tình huống khẩn cấp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). ANN là tập hợp các perceptron kết hợp với các hàm kích hoạt phi tuyến, cho phép mô hình hóa các hàm phức tạp thông qua các lớp ẩn. CNN được thiết kế đặc biệt cho dữ liệu ảnh, sử dụng các lớp tích chập để trích xuất đặc trưng không gian, giảm thiểu số lượng tham số và tránh hiện tượng overfitting.

Thuật toán YOLO (You Only Look Once) và các phiên bản cải tiến như YOLOv4 và YOLOv4 Tiny Face được sử dụng làm phương pháp phát hiện khuôn mặt. YOLO chia ảnh đầu vào thành các lưới và dự đoán vị trí cùng xác suất xuất hiện đối tượng trong từng ô lưới, cho phép xử lý nhanh và chính xác trong thời gian thực. YOLOv4 Tiny Face là phiên bản nhẹ, tối ưu cho thiết bị nhúng và di động, sử dụng kiến trúc CSPDarknet53-tiny và các kỹ thuật như LeakyReLU, FPN để tăng tốc độ phát hiện.

Phương pháp nhận dạng khuôn mặt sử dụng MobileFaceNet, một mạng CNN nhẹ dựa trên Depthwise Separable Convolution, giúp giảm đáng kể số lượng tham số và chi phí tính toán so với convolution truyền thống. MobileFaceNet kết hợp với ArcFace, một hàm mất mát cải tiến, giúp tăng độ phân biệt đặc trưng khuôn mặt, nâng cao độ chính xác nhận dạng.

Các khái niệm chính bao gồm:

Perceptron và hàm kích hoạt (activation function)
Mạng nơ-ron tích chập (CNN) và các lớp convolution, pooling
Thuật toán YOLO và các phiên bản YOLOv2, YOLOv3, YOLOv4
Depthwise Separable Convolution trong MobileNet
Hàm mất mát ArcFace trong nhận dạng khuôn mặt

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ dữ liệu công khai: WiderFace với 393,703 khuôn mặt trên 32,203 hình ảnh, và DroneSURF với 200 video, 411,451 khung hình, hơn 786,000 chú thích khuôn mặt từ video drone. WiderFace được dùng để huấn luyện mô hình YOLOv4 Tiny Face, trong khi DroneSURF dùng để đánh giá hiệu năng thực tế.

Phương pháp phân tích bao gồm:

Huấn luyện mô hình phát hiện khuôn mặt YOLOv4 Tiny Face trên bộ dữ liệu WiderFace.
Đánh giá mô hình trên bộ dữ liệu DroneSURF với các chỉ số IoU (Intersection over Union), Precision, Recall và mAP (mean Average Precision).
Áp dụng MobileFaceNet kết hợp ArcFace để nhận dạng khuôn mặt từ các khuôn mặt được phát hiện.
Xây dựng hệ thống ứng dụng web client-server sử dụng FastAPI và ReactJS, giao tiếp qua REST API và streaming qua RTMP/RTSP.

Cỡ mẫu dữ liệu thử nghiệm gồm 360,706 file ảnh với 710,930 đối tượng khuôn mặt được đánh giá. Phương pháp chọn mẫu dựa trên dữ liệu thực tế từ drone, đảm bảo tính đa dạng về góc nhìn, ánh sáng và che khuất. Phân tích kết quả sử dụng các biểu đồ Precision-Recall và bảng so sánh mAP với các ngưỡng IoU khác nhau.

Timeline nghiên cứu kéo dài trong năm 2021, bao gồm các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và xây dựng hệ thống ứng dụng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện khuôn mặt bằng YOLOv4 Tiny Face: Trên bộ dữ liệu DroneSURF, mô hình đạt mAP 92.82% với ngưỡng IoU = 0.05 và mAP 63.09% với IoU = 0.1, cho thấy độ chính xác cao trong việc phát hiện khuôn mặt từ video drone. Số lượng đối tượng phát hiện đúng chiếm phần lớn, với tỷ lệ False Positive thấp.
Khả năng nhận dạng khuôn mặt bằng MobileFaceNet kết hợp ArcFace: Mô hình nhận dạng cho kết quả chính xác cao trên các khuôn mặt được crop từ video drone, đặc biệt khi sử dụng 5 ảnh chân dung đa góc của đối tượng cần tìm. Việc giảm không gian tìm kiếm xuống 20 khuôn mặt lớn nhất giúp tối ưu thời gian xử lý mà không làm giảm độ chính xác.
Tính đa dạng và thách thức của dữ liệu drone: Video drone có nhiều biến thể về góc nhìn, kích thước khuôn mặt, ánh sáng và che khuất, ảnh hưởng đến kết quả phát hiện và nhận dạng. Việc sử dụng bộ dữ liệu DroneSURF với hơn 786,000 chú thích khuôn mặt giúp đánh giá thực tế và toàn diện.
Xây dựng hệ thống ứng dụng web: Hệ thống client-server sử dụng FastAPI và ReactJS, giao tiếp qua REST API và streaming RTMP/RTSP, cho phép người dùng dễ dàng truy cập và sử dụng trên nhiều thiết bị. Hệ thống đáp ứng yêu cầu xử lý thời gian thực và độ chính xác cao.

Thảo luận kết quả

Kết quả phát hiện khuôn mặt với mAP trên 90% ở ngưỡng IoU thấp cho thấy YOLOv4 Tiny Face phù hợp với bài toán phát hiện khuôn mặt trong video drone, nhờ kiến trúc mạng nhẹ và kỹ thuật trích xuất đặc trưng hiệu quả. Tuy nhiên, mAP giảm khi tăng ngưỡng IoU phản ánh sự khác biệt trong cách chọn bounding box giữa bộ dữ liệu huấn luyện WiderFace và bộ dữ liệu đánh giá DroneSURF, cũng như ảnh hưởng của các yếu tố như che khuất và góc nhìn.

MobileFaceNet với Depthwise Separable Convolution giúp giảm chi phí tính toán đáng kể, phù hợp cho ứng dụng trên thiết bị có tài nguyên hạn chế. Việc kết hợp ArcFace làm hàm mất mát tăng khả năng phân biệt đặc trưng khuôn mặt, cải thiện độ chính xác nhận dạng so với các phương pháp truyền thống.

So sánh với các nghiên cứu trước đây, hệ thống đề xuất đạt hiệu quả cao hơn trong điều kiện video drone thực tế, nhờ sự kết hợp tối ưu giữa thuật toán phát hiện và nhận dạng. Biểu đồ Precision-Recall và bảng mAP minh họa rõ sự ổn định và hiệu quả của mô hình trên các ngưỡng khác nhau.

Tuy nhiên, một số hạn chế như thiếu thông tin về khoảng cách và tốc độ drone, cũng như số lượng đối tượng trong mỗi video không lớn, ảnh hưởng đến khả năng đánh giá toàn diện về tốc độ xử lý và độ chính xác trong các tình huống phức tạp.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán phát hiện khuôn mặt: Nâng cấp mô hình YOLOv4 Tiny Face bằng cách tích hợp các kỹ thuật augmentation dữ liệu và cải tiến kiến trúc mạng để tăng độ chính xác phát hiện ở các điều kiện ánh sáng yếu và che khuất. Mục tiêu tăng mAP lên trên 95% trong vòng 12 tháng, do nhóm nghiên cứu thực hiện.
Mở rộng bộ dữ liệu huấn luyện và đánh giá: Thu thập thêm dữ liệu video drone với đa dạng điều kiện môi trường, khoảng cách và tốc độ bay để cải thiện khả năng tổng quát của mô hình. Thời gian thực hiện dự kiến 6-9 tháng, phối hợp với các đơn vị an ninh và cứu hộ.
Phát triển hệ thống nhận dạng khuôn mặt đa đối tượng: Nâng cao khả năng nhận dạng đồng thời nhiều người trong video bằng cách mở rộng số lượng khuôn mặt được xử lý trong giai đoạn tiền xử lý và áp dụng các thuật toán phân loại đa nhãn. Mục tiêu giảm thời gian xử lý xuống dưới 1 giây cho mỗi khung hình, thực hiện trong 1 năm.
Triển khai hệ thống trên nền tảng thiết bị nhúng và di động: Tối ưu hóa phần mềm và mô hình để chạy hiệu quả trên các thiết bị có tài nguyên hạn chế như drone hoặc thiết bị di động, giúp mở rộng ứng dụng trong thực tế. Thời gian phát triển dự kiến 12 tháng, phối hợp với các nhà sản xuất phần cứng.
Tăng cường bảo mật và quyền riêng tư: Xây dựng các cơ chế bảo vệ dữ liệu khuôn mặt và thông tin cá nhân trong hệ thống, tuân thủ các quy định pháp luật về bảo vệ dữ liệu cá nhân. Đề xuất hoàn thiện trong 6 tháng, phối hợp với chuyên gia pháp lý.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, thị giác máy tính: Luận văn cung cấp kiến thức sâu về các thuật toán phát hiện và nhận dạng khuôn mặt, phương pháp huấn luyện và đánh giá mô hình trên dữ liệu thực tế, phù hợp cho nghiên cứu và phát triển đề tài liên quan.
Chuyên gia phát triển hệ thống an ninh và giám sát: Các giải pháp và kết quả nghiên cứu giúp cải thiện hiệu quả phát hiện người trong video drone, hỗ trợ xây dựng hệ thống giám sát thông minh, tăng cường an ninh công cộng và cứu hộ.
Nhà phát triển phần mềm ứng dụng web và di động: Hướng tiếp cận xây dựng hệ thống client-server với FastAPI và ReactJS, cùng các yêu cầu phần cứng, phần mềm chi tiết, giúp phát triển ứng dụng tương tác người dùng thân thiện và hiệu quả.
Doanh nghiệp sản xuất thiết bị drone và thiết bị nhúng: Nghiên cứu về tối ưu thuật toán nhẹ, giảm chi phí tính toán, phù hợp triển khai trên thiết bị có tài nguyên hạn chế, giúp nâng cao giá trị sản phẩm và mở rộng ứng dụng trong thực tế.

Câu hỏi thường gặp

Phương pháp YOLOv4 Tiny Face có ưu điểm gì so với các phiên bản YOLO khác?
YOLOv4 Tiny Face có cấu trúc mạng nhẹ hơn, sử dụng CSPDarknet53-tiny và hai tỷ lệ dự đoán, giúp tăng tốc độ xử lý phù hợp cho thiết bị nhúng và di động, đồng thời vẫn giữ được độ chính xác cao trong phát hiện khuôn mặt.
MobileFaceNet giảm chi phí tính toán như thế nào?
MobileFaceNet sử dụng Depthwise Separable Convolution, chia phép tích chập thành hai bước riêng biệt, giảm số lượng tham số và phép tính đến khoảng 1/8 so với convolution truyền thống, giúp mô hình nhẹ và nhanh hơn mà vẫn duy trì độ chính xác.
Bộ dữ liệu DroneSURF có đặc điểm gì nổi bật?
DroneSURF là bộ dữ liệu lớn nhất về video drone với 200 video, hơn 411,000 khung hình và gần 787,000 chú thích khuôn mặt, thu thập trong nhiều điều kiện giám sát chủ động và thụ động, đa dạng về ánh sáng và góc nhìn, phù hợp cho nghiên cứu phát hiện và nhận dạng khuôn mặt.
Làm thế nào để đánh giá hiệu quả mô hình phát hiện khuôn mặt?
Hiệu quả được đánh giá qua các chỉ số như Intersection over Union (IoU), Precision, Recall và mean Average Precision (mAP). Đường cong Precision-Recall và giá trị mAP thể hiện độ chính xác và khả năng phát hiện đúng của mô hình trên bộ dữ liệu thử nghiệm.
Hệ thống ứng dụng được triển khai như thế nào?
Hệ thống sử dụng kiến trúc client-server, backend viết bằng Python với FastAPI cung cấp API, frontend sử dụng ReactJS tạo giao diện thân thiện. Streaming video sử dụng giao thức RTMP/RTSP, phù hợp cho xử lý thời gian thực và dễ dàng mở rộng.

Kết luận

Nghiên cứu thành công trong việc áp dụng và cải tiến thuật toán YOLOv4 Tiny Face kết hợp MobileFaceNet để phát hiện và nhận dạng người dựa trên khuôn mặt từ video drone trực tiếp.
Mô hình đạt mAP 92.82% với IoU 0.05 trên bộ dữ liệu DroneSURF, đáp ứng yêu cầu về độ chính xác và tốc độ xử lý trong thời gian thực.
Hệ thống ứng dụng web được xây dựng hoàn chỉnh, hỗ trợ giao diện thân thiện và khả năng mở rộng cho các thiết bị khác nhau.
Đề xuất các giải pháp nâng cao hiệu quả, mở rộng bộ dữ liệu và triển khai trên thiết bị nhúng nhằm phát triển ứng dụng thực tế.
Khuyến khích các nhà nghiên cứu và doanh nghiệp tiếp tục phát triển, ứng dụng công nghệ trong lĩnh vực an ninh, cứu hộ và giám sát thông minh.

Để tiếp tục phát triển, nhóm nghiên cứu sẽ tập trung vào tối ưu thuật toán, mở rộng dữ liệu và triển khai hệ thống trên nền tảng thiết bị di động trong vòng 12 tháng tới. Mời độc giả và các chuyên gia quan tâm liên hệ để hợp tác nghiên cứu và ứng dụng thực tiễn.

Chủ đề

Phát hiện và nhận diện khuôn mặt

Ứng dụng của AI trong video drone

Xử lý ảnh và video thời gian thực

Công nghệ giám sát bằng máy bay không người lái