Nghiên Cứu Đề Xuất Thuật Toán Nhận Diện Đối Tượng Trong Ứng Dụng E-Dogs

Luận văn thạc sĩ kỹ thuật nghiên cứu công nghệ thông tin nghiên cứu đề xuất thuật toán nhận diện đối tượng trong ứng dụng e dogs, khảo sát thực trạng, phân tích nguyên nhân, đề

Trường đại học

Đại học Quốc gia TP HCM Trường Đại học Công nghệ Thông tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

CHƯƠNG 0: MỞ ĐẦU

0.1. Lý do chọn đề tài

0.2. Ý nghĩa khoa học đạt được

0.3. Ý nghĩa thực tiễn đạt được

0.4. Mục tiêu nghiên cứu của đề tài

0.5. Những đóng góp mới của đề tài

0.6. Hướng nghiên cứu của luận văn

0.7. Đối tượng và phạm vi nghiên cứu

0.8. Nội dung nghiên cứu và hướng phát triển

0.9. Bố cục của đề tài

1. CHƯƠNG 1: TỔNG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIẾP CẬN

1.1. Giới thiệu tổng quát hiện trạng

1.2. Các công trình nghiên cứu liên quan

1.3. Hướng tiếp cận

1.4. Các phương pháp liên quan

1.4.1. Phương pháp mạng Neural

1.4.2. Phương pháp Support Vector Machine - SVM

1.4.3. Phương pháp mô hình Markov ẩn - Hidden Markov Model - HMM

1.4.4. Phương pháp Histogram of Oriented Gradients (HOGs)

1.4.5. Phương pháp Adaboost

1.4.6. Tổng quan về OpenCV

2. CHƯƠNG 2: ĐỀ XUẤT PHƯƠNG PHÁP PHÁT HIỆN KHUÔN MẶT - NHẬN DIỆN ĐỐI TƯỢNG

2.1. Mô hình ứng dụng E-Dog

2.2. Đề xuất phương pháp giải quyết bài toán phát hiện khuôn mặt người

2.2.1. Các đặc trưng Haar-like

2.2.2. Tháp phân loại — Cascade of Classifiers

2.2.3. Bài toán phát hiện khuôn mặt người của đề tài

2.2.4. Đề xuất bài toán phát hiện cơ thể người

2.2.4.1. Khối nhận diện (Descriptor Blocks)

2.2.5. Những ưu điểm của OpenCV

3. CHƯƠNG 3: HIỆN THỰC VÀ ĐÁNH GIÁ THỰC NGHIỆM

3.1. Hiện thực phát hiện khuôn mặt người

3.1.1. Thực nghiệm ngoài trời với cơ sở dữ liệu của đề tài

3.1.2. Thực nghiệm ngoài trời với CSDL của OpenCV

3.1.3. So sánh thực nghiệm ngoài trời

3.1.4. So sánh thực nghiệm ngoài trời trên CSDL của đề tài và OpenCV

3.1.5. Thực nghiệm trong nhà với CSDL của đề tài

3.1.6. Thực nghiệm trong nhà với CSDL của OpenCV

3.1.7. So sánh thực nghiệm trong nhà giữa PC và RAS từ CSDL của đề tài và của OpenCV

3.1.8. So sánh thực nghiệm trên CSDL của đề tài và OpenCV

3.2. Hiện thực phát hiện người

3.2.1. Thực nghiệm phát hiện người trên thiết bị RAS

3.2.2. Thực nghiệm phát hiện người trên thiết bị PC

3.2.3. So sánh thực nghiệm phát hiện cơ thể người trên PC và RAS

3.3. Thực hiện phát hiện khuôn mặt kết hợp với cơ thể người

3.3.1. Thực hiện phát hiện khuôn mặt CSDL của đề tài kết hợp với cơ thể người của OpenCV

3.3.2. Thực hiện phát hiện khuôn mặt CSDL của OpenCV kết hợp với cơ thể người của OpenCV

3.3.3. So sánh tích hợp bài toán phát hiện khuôn mặt và cơ thể người

3.4. Hình ảnh kết quả thực nghiệm

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Kết quả đề tài

4.2. Một số hạn chế của đề tài

4.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Thuật Toán Nhận Diện Đối Tượng E Dogs 55 ký tự

Bài toán phát hiện khuôn mặt và nhận diện đối tượng đã được nghiên cứu từ những năm 70, tập trung vào ảnh xám, tĩnh. Hiện nay, các công trình nghiên cứu phát hiện khuôn mặt trong thời gian thực vẫn đang trong giai đoạn nghiên cứu. Vấn đề giám sát, an ninh ngày càng được quan tâm và các hệ thống nhận dạng con người được phát triển với độ chính xác cao. Nhiều bài toán nhận dạng đã được đưa ra, chẳng hạn như nhận dạng con ngươi, vân tay, giọng nói, khuôn mặt, và mã thẻ cá nhân. Bài toán nhận diện khuôn mặt đang được quan tâm nhất hiện nay, với đầu tư mạnh mẽ từ các tổ chức điều tra tội phạm và các công ty công nghệ lớn. Các ứng dụng như đếm số lượng người trong ảnh, thống kê lượng khách hàng ra vào siêu thị, sân bay, hoặc mật độ giao thông trên đường rất có ý nghĩa thực tiễn.

1.1. Ứng dụng Trí tuệ nhân tạo AI cho nhận diện đối tượng

Các tổ chức điều tra tội phạm ở các nước châu Âu, cũng như những công ty công nghệ nổi tiếng như Microsoft, Facebook, Apple, Google,. đang đầu tư mạnh mẽ về lĩnh vực nhận dạng khuôn mặt để điều tra tội phạm một cách nhanh chóng và chính xác, cũng như làm tăng sự thuận tiện sử dụng công nghệ của công ty. Gần đây, với nhu cầu an ninh quốc gia, một số nước phát triển ở Châu Âu, cụ thể là Mỹ đã đầu tư hệ thống phát hiện và nhận dạng khuôn mặt ở các sân bay để phát hiện kịp thời những tội phạm, nhưng vẫn còn hạn chế ở các nước Châu Á.

1.2. Thực trạng công nghệ Object Detection tại Việt Nam

Việc phát hiện khuôn mặt trong ảnh, có thể đếm được bao nhiêu người trong ảnh, việc đếm số lượng người có ý nghĩa rất thiết thực như thống kê được lượng khách hàng ra vào siêu thị, sân bay, nhà sách, mật độ lưu thông trên đường. Boston Dynamics là một trong những công ty nổi tiếng ở Mỹ chuyên nghiên cứu và chế tạo nhiều loại robot khác nhau như LS3, Atlas, Petman, Cheetah, Bigdog, SandFlea, Rhex, RiSE, LittleDog. Đặc biệt đối với BigDog hay LS3 được dùng trong quân đội. Bigdog có thể mang tổng khối lượng là 154 Kg.

II. Thách Thức Khi Phát Triển Ứng Dụng E Dogs Nhận Diện 58 ký tự

Phát triển một hệ thống E-Dogs application hiệu quả đối mặt với nhiều thách thức. Cần đảm bảo độ chính xác cao trong việc nhận diện đối tượng, đặc biệt là trong môi trường ánh sáng thay đổi và góc nhìn khác nhau. Tốc độ xử lý là một yếu tố quan trọng để đạt được khả năng real-time object detection. Việc tích hợp thuật toán vào thiết bị di động với tài nguyên hạn chế (CPU, bộ nhớ) cũng là một thách thức lớn. Bên cạnh đó, cần xây dựng một cơ sở dữ liệu đủ lớn và đa dạng để huấn luyện mô hình học sâu nhận diện đối tượng đạt hiệu quả cao.

2.1. Ảnh hưởng của ánh sáng đến độ chính xác E Dogs

Cần đảm bảo độ chính xác cao trong việc nhận diện đối tượng, đặc biệt là trong môi trường ánh sáng thay đổi và góc nhìn khác nhau. Chất lượng của ảnh đầu vào ảnh hưởng trực tiếp đến kết quả nhận diện. Các thuật toán phải có khả năng xử lý nhiễu và biến dạng.

2.2. Tối ưu hóa tốc độ nhận diện trên thiết bị di động

Tốc độ xử lý là một yếu tố quan trọng để đạt được khả năng real-time object detection. Việc tích hợp thuật toán vào thiết bị di động với tài nguyên hạn chế (CPU, bộ nhớ) cũng là một thách thức lớn. Cần tìm kiếm các thuật toán nhẹ nhàng và tối ưu hóa mã nguồn.

III. Adaboost Haar like Giải Pháp Nhận Diện Khuôn Mặt 59 ký tự

Luận văn sử dụng giải thuật Adaboost kết hợp với các đặc trưng Haar-like để phát hiện khuôn mặt người. Adaboost là một thuật toán boosting hiệu quả, kết hợp nhiều bộ phân loại yếu để tạo thành một bộ phân loại mạnh. Đặc trưng Haar-like là một tập hợp các đặc trưng đơn giản, được tính toán dựa trên sự khác biệt về cường độ sáng giữa các vùng lân cận trong ảnh. Sự kết hợp này giúp hệ thống đạt được tốc độ nhận diện đối tượng nhanh và độ chính xác chấp nhận được.

3.1. Chi tiết về thuật toán Adaboost trong E Dogs

Luận văn góp phần giới thiệu các bước chuẩn bị dữ liệu mẫu và xây dựng hệ thống phát hiện khuôn mặt người và đối tượng di chuyển trong thời gian thực. Nghiên cứu và cài đặt thử nghiệm thuật toán Adaboost cùng với phương pháp rút trích đặc trưng Haar-like. Tạo tiền đề cho những nghiên cứu tiếp theo trong tương lai.

3.2. Ưu điểm và hạn chế của Đặc trưng Haar like

Đề tài đã xây dựng thành công hệ thống phát hiện khuôn mặt người bằng giải thuật kinh điển Adaboost kết hợp với rút trích đặc trưng Haar-like nhưng tốc độ nhanh hơn rất nhiều so với các công trình nghiên cứu trước đó. Ứng dụng thành công trong việc áp dụng công nghệ xử lý ảnh của OpenCV vào bài toán mà tác giả đã đề xuất trong luận văn.

IV. History Oriented Gradient HOG Phát Hiện Chuyển Động 60 ký tự

Để phát hiện người di chuyển, luận văn sử dụng phương pháp History Oriented Gradient (HOG). HOG mô tả hình dạng của đối tượng bằng cách tính toán histogram của các hướng gradient trong các vùng cục bộ của ảnh. Phương pháp này ít nhạy cảm với sự thay đổi về ánh sáng và tư thế, giúp tăng cường khả năng nhận diện đối tượng trong video. Luận văn so sánh hiệu năng của thuật toán trên hai loại phần cứng: máy tính và Raspberry Pi 3.

4.1. Cách thức hoạt động của HOGs trong ứng dụng E Dogs

Mục tiêu chính của đề tài là xây dựng hệ thống mô phỏng thiết bị E-Dogs phát hiện khuôn mặt người, nhận diện đối tượng chuyển động trong thời gian thực. Từ tập ảnh mẫu được đề tài xây dựng thành cơ sở dữ liệu mẫu, hệ thống sẽ tiến hành phát hiện khuôn mặt trong ảnh tĩnh, video hoặc thời gian thực.

4.2. So sánh hiệu năng HOGs trên PC và Raspberry Pi 3

Kết quả của quá trình phát hiện khuôn mặt là khuôn mặt được bao quanh bởi khung hình chữ nhật. Nghiên cứu các đặc trưng Haar-like trên mặt người và kỹ thuật rút trích đặc trưng 2D phục vụ cho bài toán phát hiện mặt người. Tìm hiểu các kiến thức cơ sở, xây dựng dữ liệu ảnh mẫu nhằm thực nghiệm bài toán đã đề xuất trong luận văn.

V. Thực Nghiệm Đánh Giá Độ Chính Xác Nhận Diện E Dogs 59 ký tự

Luận văn đã tiến hành thực nghiệm trên cả hai loại phần cứng (máy tính và Raspberry Pi 3) với cơ sở dữ liệu tự xây dựng và OpenCV. Kết quả cho thấy thuật toán Adaboost và HOGs có thể đạt được độ chính xác nhận diện đối tượng chấp nhận được trong điều kiện ánh sáng tốt và đối tượng không bị che khuất quá nhiều. Tuy nhiên, tốc độ nhận diện trên Raspberry Pi 3 chậm hơn so với trên máy tính.

5.1. Đánh giá kết quả thực nghiệm phát hiện khuôn mặt

Đề tài đề xuất hướng tiếp cận hiệu quả nhằm áp dụng các ưu điểm của một số phương pháp tiếp cận đã được nghiên cứu trước đó vào ảnh tĩnh, góp phần nâng cao khả năng xử lý phát hiện khuôn mặt và nhận dạng đối tượng di chuyển. Với mục tiêu chính là tìm hiểu, nghiên cứu các đặc trưng trên mặt người và kỹ thuật rút trích đặc trưng 2D, đồng thời là tiền đề cho bài toán phát hiện mặt người trong ảnh tĩnh cũng như trong thời gian thực.

5.2. Ảnh hưởng của điều kiện ánh sáng đến hiệu quả

Việc xử lý ảnh và phát hiện khuôn mặt, nhận dạng đối tượng chuyển động chỉ hoạt động hiệu quả nếu thỏa mãn các điều kiện sau: Ảnh chất lượng tốt. Ánh sáng môi trường không quá sáng chói, không quá tối. Khuôn mặt không bị che khuất hơn % khuôn mặt. ~__ Góc quay khuôn mặt không quá 30 độ.

VI. Kết Luận Hướng Phát Triển Thuật Toán E Dogs 58 ký tự

Luận văn đã đề xuất thành công một hệ thống E-Dogs có khả năng nhận diện khuôn mặt và phát hiện chuyển động cơ bản. Tuy nhiên, vẫn còn nhiều hạn chế cần khắc phục, như cải thiện độ chính xác nhận diện trong điều kiện ánh sáng yếu và tăng tốc độ nhận diện trên thiết bị di động. Hướng phát triển trong tương lai bao gồm tích hợp thêm các cảm biến, sử dụng các thuật toán học sâu tiên tiến, và xây dựng một hệ thống nhà thông minh hoàn chỉnh.

6.1. Tích hợp thêm các loại cảm biến hỗ trợ nhận diện

Đề tài đã đề xuất thành công một hệ thống E-Dogs có khả năng nhận diện khuôn mặt và phát hiện chuyển động cơ bản. Tuy nhiên, vẫn còn nhiều hạn chế cần khắc phục, như cải thiện độ chính xác nhận diện trong điều kiện ánh sáng yếu và tăng tốc độ nhận diện trên thiết bị di động.

6.2. Ứng dụng Deep Learning cho nhận diện nâng cao

Hướng phát triển trong tương lai bao gồm tích hợp thêm các cảm biến, sử dụng các thuật toán học sâu tiên tiến, và xây dựng một hệ thống nhà thông minh hoàn chỉnh. Cần nghiên cứu và thử nghiệm các mô hình mô hình nhận diện đối tượng hiện đại như YOLO hoặc SSD.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin nghiên cứu đề xuất thuật toán nhận diện đối tượng trong ứng dụng e dogs

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh an ninh ngày càng được quan tâm, việc phát hiện và nhận diện đối tượng chuyển động trong thời gian thực trở thành một lĩnh vực nghiên cứu quan trọng trong ngành Công nghệ Thông tin. Theo ước tính, các hệ thống nhận dạng khuôn mặt đã được triển khai rộng rãi tại nhiều quốc gia phát triển, đặc biệt là Mỹ và châu Âu, nhằm nâng cao an ninh tại sân bay, ngân hàng, và các khu vực công cộng. Ở Việt Nam, nhu cầu về hệ thống giám sát an ninh thông minh cũng ngày càng tăng do tình trạng tội phạm phức tạp, đặc biệt tại các trạm ATM và khu dân cư.

Luận văn tập trung nghiên cứu và đề xuất thuật toán nhận diện đối tượng trong ứng dụng E-Dogs, một hệ thống giám sát thông minh tích hợp phát hiện khuôn mặt và nhận diện đối tượng chuyển động. Mục tiêu cụ thể là xây dựng và thử nghiệm thuật toán Adaboost kết hợp đặc trưng Haar-like để phát hiện khuôn mặt, cùng với phương pháp Histogram of Oriented Gradients (HOG) để nhận diện cơ thể người. Nghiên cứu thực hiện trên hai nền tảng phần cứng: máy tính cá nhân với bộ xử lý Intel Core i7 và thiết bị nhúng Raspberry Pi 3, nhằm đánh giá tốc độ xử lý và độ chính xác trong môi trường trong nhà và ngoài trời. Phạm vi nghiên cứu tập trung vào phát hiện khuôn mặt trong khoảng cách 2.5 mét và nhận diện đối tượng chuyển động trong phạm vi giám sát của thiết bị E-Dogs.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả phát hiện và nhận diện đối tượng trong hệ thống giám sát an ninh, góp phần giảm thiểu rủi ro tội phạm và hỗ trợ phát triển các ứng dụng nhà thông minh phù hợp với điều kiện kinh tế và địa lý tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Thuật toán Adaboost: Là phương pháp học máy kết hợp các phân loại yếu thành một phân loại mạnh, được sử dụng để phát hiện khuôn mặt dựa trên các đặc trưng Haar-like. Adaboost cập nhật trọng số mẫu trong quá trình huấn luyện để tập trung vào các mẫu khó phân loại, từ đó nâng cao độ chính xác.
Đặc trưng Haar-like: Bao gồm các mẫu hình vuông, cạnh, đường và xung quanh tâm, được tính toán nhanh chóng nhờ kỹ thuật Integral Image, giúp phát hiện các vùng đặc trưng trên khuôn mặt như mắt, mũi, miệng.
Phương pháp Histogram of Oriented Gradients (HOG): Dùng để mô tả đặc trưng hình học của cơ thể người thông qua việc tính toán vector gradient và phân chia thành các ô nhỏ, phục vụ cho việc nhận diện đối tượng chuyển động.
Mô hình tháp phân loại (Cascade of Classifiers): Giúp tăng tốc độ xử lý bằng cách loại bỏ nhanh các vùng không phải khuôn mặt qua nhiều cấp phân loại, giảm thiểu sai số và tăng hiệu quả phát hiện.
Thư viện OpenCV: Cung cấp hơn 3000 thuật toán xử lý ảnh và thị giác máy tính, hỗ trợ việc phát triển và thử nghiệm các thuật toán phát hiện và nhận diện đối tượng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm:

Bộ cơ sở dữ liệu ảnh khuôn mặt do đề tài tự xây dựng với 1776 ảnh khuôn mặt và 300 ảnh không chứa khuôn mặt, thu thập trong điều kiện ánh sáng đa dạng (trong nhà, ngoài trời dưới 1500 LUX).
Bộ dữ liệu chuẩn của OpenCV dùng để so sánh và đánh giá hiệu suất thuật toán.

Phương pháp phân tích:

Huấn luyện bộ phân loại Adaboost với đặc trưng Haar-like trên tập dữ liệu ảnh đã chuẩn bị, sử dụng kích thước ảnh 24x24 pixel.
Áp dụng mô hình tháp phân loại để tăng tốc độ phát hiện khuôn mặt.
Sử dụng phương pháp HOG kết hợp với SVM để nhận diện cơ thể người trong video và ảnh tĩnh.
Thực nghiệm trên hai nền tảng phần cứng: máy tính cá nhân (Intel Core i7, RAM 8GB) và thiết bị nhúng Raspberry Pi 3 (bộ xử lý Cortex-A53 bốn nhân 1.2 GHz).
Đánh giá tốc độ xử lý và độ chính xác phát hiện khuôn mặt, nhận diện đối tượng chuyển động trong các môi trường trong nhà và ngoài trời.

Timeline nghiên cứu kéo dài khoảng 6 tháng, bao gồm các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phát hiện khuôn mặt: Thuật toán Adaboost kết hợp Haar-like đạt tỷ lệ phát hiện khuôn mặt trên 90% trong điều kiện ánh sáng phù hợp và khoảng cách dưới 2.5 mét. So sánh với thư viện OpenCV, đề tài đạt tốc độ xử lý nhanh hơn khoảng 15-20% trên máy tính cá nhân.
Tốc độ xử lý trên thiết bị nhúng: Trên Raspberry Pi 3, thuật toán phát hiện khuôn mặt và nhận diện cơ thể người hoạt động ổn định với tốc độ xử lý trung bình khoảng 10-12 khung hình/giây, phù hợp cho ứng dụng giám sát thời gian thực.
Độ chính xác nhận diện cơ thể người: Phương pháp HOG kết hợp SVM đạt độ chính xác nhận diện người trên 85% trong môi trường trong nhà và khoảng 80% ngoài trời, với sai số tăng nhẹ khi ánh sáng yếu hoặc nền phức tạp.
So sánh môi trường trong nhà và ngoài trời: Tỷ lệ phát hiện khuôn mặt trong nhà cao hơn khoảng 10% so với ngoài trời do điều kiện ánh sáng ổn định và nền đơn giản hơn. Tốc độ xử lý cũng nhanh hơn do giảm nhiễu và biến động môi trường.

Thảo luận kết quả

Nguyên nhân của hiệu suất cao trong phát hiện khuôn mặt là nhờ việc sử dụng đặc trưng Haar-like kết hợp với thuật toán Adaboost và mô hình tháp phân loại, giúp giảm thiểu sai số và tăng tốc độ xử lý. Kết quả này phù hợp với các nghiên cứu trước đây, đồng thời cải tiến về tốc độ xử lý trên nền tảng phần cứng phổ biến.

Việc áp dụng HOG và SVM cho nhận diện cơ thể người cho thấy khả năng phân biệt đối tượng hiệu quả, tuy nhiên độ chính xác giảm khi môi trường có nhiều nhiễu hoặc ánh sáng không đồng đều. Điều này phù hợp với báo cáo của ngành về hạn chế của các thuật toán nhận diện trong điều kiện thực tế phức tạp.

Biểu đồ so sánh tỷ lệ phát hiện khuôn mặt và tốc độ xử lý giữa hai nền tảng phần cứng minh họa rõ sự khác biệt về hiệu năng, đồng thời bảng thống kê chi tiết cho thấy tỷ lệ phát hiện theo khoảng cách và điều kiện ánh sáng.

Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong việc phát triển hệ thống giám sát an ninh thông minh, đặc biệt phù hợp với điều kiện kinh tế và môi trường tại Việt Nam.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán trên thiết bị nhúng: Cải tiến thuật toán Adaboost và HOG để giảm thiểu tài nguyên sử dụng, nâng cao tốc độ xử lý trên Raspberry Pi 3, nhằm đạt ít nhất 15 khung hình/giây trong vòng 6 tháng tới, do nhóm phát triển phần mềm thực hiện.
Mở rộng cơ sở dữ liệu ảnh: Thu thập thêm khoảng 2000 ảnh khuôn mặt và cơ thể người trong các điều kiện ánh sáng và môi trường đa dạng để tăng độ chính xác nhận diện, hoàn thành trong 1 năm, phối hợp với các tình nguyện viên và đối tác nghiên cứu.
Tích hợp hệ thống cảnh báo thông minh: Phát triển module cảnh báo tự động khi phát hiện hành vi đáng ngờ, kết nối với hệ thống IoT và điện thoại thông minh, dự kiến triển khai thử nghiệm trong 9 tháng, do nhóm kỹ thuật phần cứng và phần mềm phối hợp thực hiện.
Nâng cao khả năng nhận diện trong môi trường phức tạp: Áp dụng các kỹ thuật tiền xử lý ảnh nâng cao như cân bằng sáng, lọc nhiễu để cải thiện độ chính xác nhận diện trong điều kiện ánh sáng yếu hoặc nền phức tạp, hoàn thành nghiên cứu trong 1 năm, do nhóm nghiên cứu hình ảnh đảm nhiệm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể áp dụng các thuật toán và phương pháp huấn luyện mô hình trong lĩnh vực xử lý ảnh và thị giác máy tính, phục vụ cho các đề tài nghiên cứu và phát triển sản phẩm.
Doanh nghiệp phát triển hệ thống an ninh và nhà thông minh: Tham khảo để tích hợp các giải pháp nhận diện khuôn mặt và đối tượng chuyển động vào sản phẩm giám sát, nâng cao tính tự động và hiệu quả.
Nhà phát triển phần mềm nhúng và IoT: Áp dụng các kỹ thuật tối ưu hóa thuật toán trên nền tảng phần cứng hạn chế tài nguyên như Raspberry Pi, phát triển các thiết bị giám sát thông minh nhỏ gọn, tiết kiệm năng lượng.
Cơ quan quản lý và an ninh công cộng: Sử dụng kết quả nghiên cứu để xây dựng các hệ thống giám sát an ninh hiệu quả, hỗ trợ công tác phòng chống tội phạm và đảm bảo an toàn xã hội.

Câu hỏi thường gặp

Thuật toán Adaboost hoạt động như thế nào trong phát hiện khuôn mặt?
Adaboost kết hợp nhiều phân loại yếu dựa trên đặc trưng Haar-like để tạo thành phân loại mạnh, tập trung học các mẫu khó phân loại bằng cách cập nhật trọng số. Ví dụ, trong quá trình huấn luyện, các mẫu bị phân loại sai sẽ được tăng trọng số để thuật toán chú ý hơn.
Tại sao chọn Haar-like làm đặc trưng cho phát hiện khuôn mặt?
Haar-like là các đặc trưng đơn giản nhưng hiệu quả, có thể tính toán nhanh nhờ Integral Image, giúp phát hiện các vùng đặc trưng như mắt, mũi, miệng. Điều này giúp tăng tốc độ xử lý mà vẫn giữ độ chính xác cao.
Phương pháp HOG có ưu điểm gì trong nhận diện cơ thể người?
HOG mô tả đặc trưng hình học bằng cách tính vector gradient và phân chia thành các ô nhỏ, giúp nhận diện các hình dạng cơ thể người hiệu quả, đặc biệt trong điều kiện ánh sáng và nền tương đối ổn định.
Hiệu suất thuật toán trên Raspberry Pi 3 như thế nào?
Thuật toán phát hiện khuôn mặt và nhận diện cơ thể người trên Raspberry Pi 3 đạt khoảng 10-12 khung hình/giây, đủ cho ứng dụng giám sát thời gian thực với độ chính xác chấp nhận được.
Làm thế nào để cải thiện độ chính xác trong điều kiện ánh sáng yếu?
Có thể áp dụng các kỹ thuật tiền xử lý ảnh như cân bằng sáng, lọc nhiễu, hoặc sử dụng cảm biến hồng ngoại để cải thiện chất lượng ảnh đầu vào, từ đó nâng cao độ chính xác nhận diện.

Kết luận

Đã xây dựng thành công hệ thống phát hiện khuôn mặt và nhận diện đối tượng chuyển động trong ứng dụng E-Dogs, sử dụng thuật toán Adaboost kết hợp đặc trưng Haar-like và phương pháp HOG.
Thuật toán đạt tỷ lệ phát hiện khuôn mặt trên 90% và nhận diện cơ thể người trên 85% trong điều kiện thử nghiệm, với tốc độ xử lý phù hợp trên cả máy tính cá nhân và thiết bị nhúng Raspberry Pi 3.
Nghiên cứu góp phần nâng cao hiệu quả giám sát an ninh thông minh, phù hợp với điều kiện kinh tế và môi trường tại Việt Nam.
Đề xuất các giải pháp tối ưu hóa thuật toán, mở rộng cơ sở dữ liệu và tích hợp hệ thống cảnh báo để phát triển ứng dụng thương mại trong tương lai.
Khuyến khích các nhà nghiên cứu và doanh nghiệp tiếp tục phát triển và ứng dụng công nghệ nhận diện đối tượng trong các hệ thống nhà thông minh và an ninh công cộng.

Hành động tiếp theo là triển khai thử nghiệm mở rộng trong môi trường thực tế và phát triển sản phẩm thương mại dựa trên nền tảng nghiên cứu này.

Trích đoạn nội dung tài liệu

CHƯƠNG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIEP CAN phòng, bật/tắt máy điều hòa, âm thanh khi người trong nhà có nhu cầu sử dụng, quan sát nhà từ xa qua camera, hệ thống an ninh bật còi hụ và phối hợp ánh sáng đèn trong nhà khi có người lạ xâm nhập và gửi tin nhắn báo cho chủ nha,.hé thông được thực hiện trên kịch bản đã soạn sẵn. Hệ thống an ninh nhìn chung chưa đưa được các bài toán về xử lý ảnh như phát hiện, nhận dạng, phân tích đối tượng vào các ứng dụng thông minh vào chức năng an ninh của nhà thông minh. Đây là động lực cho dé tài nghiên cứu và phát triển hệ thống dé ứng dụng trong thực tế, giúp cho những người Việt Nam có thể tiếp cận và sử dụng công nghệ phù hợp với kinh tế của mình.2 Các công trình nghiên cứu liên quan Trong Hước: Nhóm tác giả Châu Ngân Khánh và Đoàn Thanh Nghị đã kết hợp đặc trưng Haar-like và các đặc trưng cục bộ không, đổi (Scale — Invarant Feature Transform — SIFT) với mô hình phân tầng của Boost (Cascade of Boosted Classifiers - CBC) cho nhận dang mặt người. Để tăng tính chính xác nhóm tác giả đã dé xuất sử dung các thuật toán K láng giéng gan nhat (K Nearest Neighbor —kNN) với độ chính xác mà nhóm tác giả đạt được là 94.35%, kNN đảo ngược với 86.05% và Naïve Bayer Nearest Neighbor (NBNN) với 98.

Tác gia Dương Anh Hùng đã áp dụng thuật toán Local Binary Pattern (LBP) để rút trích đặc trưng khuôn mặt và giải thuật Principal Component Analysis (PCA) cho mục đích nhận dạng khuôn mặt, độ chính xác mà tác giả đạt được khi thực nghiệm trên bộ thư viện chuẩn Multiple Biometric Grand Challenge (MBGC) là trên 90% và đạt 70-80% trên cơ sở dữ liệu thu thập thực tế (7]. Tác giả Ta Thi Ai Nhi đã nghiên cứu các phương pháp AdaBoost kết hợp với Haar Like để phát hiện khuôn mặt, thuật toán MeanShift và CamShift cho mục đích theo vết, các thuật toán xác định chuyển động như Frame Difference, Running Gausian Average và Codebook. Kết quả mà tác giả thu được từ chương trình thực nghiệm trên 40 video mẫu từ bộ chuẩn video số Audio Video Interleave (AVI) với độ chính xác khoảng 80% [8]. 10 CHƯƠNG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIEP CAN Nhóm tác giả Trần Thanh Việt đã kết hợp phương pháp Optical Flow với phương pháp trích chon mẫu dé phát hiện và theo bám đối tượng di chuyền, nhưng độ chính xác thu được còn phụ thuộc vào môi trường như độ nhiễu, độ thay đổi ánh sáng, độ phản chiếu.

Tác giả Nguyễn Thành Trung đã đưa ra một phương pháp lai với mục đích xác định 20 điểm đặc trưng của khuôn mặt. Tác giả đã sử dụng các đặc trưng Haar like để xây dựng bộ luật xác định 6 điểm đặc trưng như hai mống mắt, hai điểm lỗ mũi và hai khée miệng. Đồng thời, tác giả cũng dùng bộ lọc Gabor kết hợp với phương pháp học máy Support Vector Machine (SVM) để xác định 14 điểm đặc trưng còn lại. Hệ thống thực nghiệm thu được trên bộ dữ liệu chuân Cohn Kanade với độ chính xác là 90% cho 6 điểm dựa trên hướng tiếp cận bằng luật, và 66.6% cho 14 điêm còn lại dựa trên đặc trưng Gabor và SVM [10].

Ngoài nước: Arundhati Das và cộng sự cải tiến các đặc trưng của Haar like kết hợp với giải thuật AdaBoost vào hệ thống thực nghiệm của nhóm tác giả. Hệ thống được thực hiện trên Camera của máy tính với độ phân giải 1366x768 trong thời gian thực. Từ video thu hình trực tiếp, một khuôn mặt người thì được phát hiện và được đánh dấu những vùng trên khuôn mặt như khuôn mặt, mắt. Sự cải tiến của nhóm tác giả góp phần làm cho hệ thống có thể phát hiện ra khuôn mặt người trong những điều kiện môi trường phức tạp như sự thay đổi độ sáng tối của khung nền, khuôn mặt bị che khuất, độ nghiên của khuôn mặt, đeo kính với độ chính xác trung bình thu được là 80% [11].Adbur Rahim cùng với nhóm cộng sự đã nghiên cứu phương pháp Local Binary Patterns cùng với lược đồ Histograms trên ảnh tĩnh xám đề nhận diện khuôn mặt, khai thác đặc trưng và phân tích đặc trưng.

Kết quả thực nghiệm của hệ thống dựa trên sự phân tích hình ảnh khuôn được kiểm tra với những tập ảnh trong cơ sở dữ liệu với độ chính xác là 100% [12]. Guanglei Sheng va Wenze Li đã nghiên cứu các giải thuật dựa trên các đặc trưng hình vuông của Haar like trong kỹ thuật phát hiện khuôn mặt. Nhóm tác giả đã chỉnh lại kích thước của tập ảnh huấn luyện của mỗi đặc trưng hình vuông để 1 CHƯƠNG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIEP CAN được phân lớp yếu; chọn những phân lớp yếu đó thực hiện những cải tiến để thu được những phân lớp mạnh bằng thuật toán AdaBoost. Kết quả thực nghiệm của nhóm tác giả cho thấy sự phát hiện có thể nhanh hơn và phát hiện khuôn mặt người một cách chính xác trên hình ảnh tĩnh xám với tỷ lệ chính xác thu được qua quá trình thực nghiệm là 92.

Sự phát hiện mắt người là một phần của khuôn mặt người mà khá nhạy cảm của sự khác nhau về ánh sáng và cử chỉ đưới điều kiện môi trường phức tạp. Để giải bài toán xác định vị trí mắt người trong điều kiện môi trường phức tạp: Ping Zhang và cộng sự đã dựa vào giải thuật Adaboost và thông tin trên tỉ lệ ảnh xám giải thuật phát hiện mắt của con người. Các tiến trình mà nhóm tác giả thực hiện bốn bước. Đầu tiên nhóm tác giả thu thập những mẫu ảnh chứa mắt khác nhau thực hiện căng bằng tỉ lệ xám.

Từ một cơ sở dữ liệu chọn một số lượng nhỏ đặc trưng Haar like sản xuất ra một phân lớp mạnh và hiệu quả. Thứ hai, nhóm tác giả dùng một phương pháp của tháp phân lớp tạo thành một tháp phân lớp phức tạp hơn nhiều. Và sau đó, dùng ngưỡng của tỉ lệ xám làm phương tiện thực hiện tiền xử lý. Cuối cùng là áp dụng một phân lớp thực hiện phát hiện mắt trong phạm vi khuôn mặt của con người.

Kết quả thu được từ thực nghiệm với tỉ lệ nhận dạng là 91% [1]. Nam 2010, Microsoft đã giới thiệu sản phâm Kinect, với Camera RGB — D với giá rẻ đầu tiên. Kèm theo đó, Microsoft cũng đã cung cấp một thư viện cho việc phát hiện người và xương người. Tuy nhiên, có thể do độ biến thiên của thước đo độ sâu khi đối tượng ở quá xa so với camera, thư viện này chỉ phát hiện người khi họ ở trong khoản cách từ 0.

Đó là lý do và động lực lớn cho nhóm tác giả Anh-Tuan Nghiem va Francois Bremond đã dé xuất một giải thuật trừ khung nền đặc biệt dành cho độ sâu của video từ camera RGB-D. Được nhúng trong một bộ thư viện phát hiện người, nó không phải là phân loại đối tượng và khung nên tại mức pixel mà cung cấp thông tin hữu ích cho thư viện để khử nhiễu. Độ nhiễu chỉ được khử khi thư viện có tất cả thông tin từ việc trừ khung nên, sự phân loại và theo vết đối tượng. Trong thực nhiệm của nhóm tác giả, giải thuật trừ khung nên vượt trội so với Gaussian Mixture Model (GMM), là một giải thuật trừ khung nên phô biến, trong việc phát hiện người và khử nhiễu.

Kết quả thực nghiệm 12 CHƯƠNG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIEP CAN của nhóm tác giả có thể vẫn phát hiện người với khoảng cách xa hơn 4.5m với một ít sai số [15].Rivlin và cộng sự đã mô tả một hệ thống phân tích sự di chuyền của đối tượng. Hệ thống được kiểm thử thên một cơ sở dữ liệu lớn hơn 100 chuỗi hình hiển thị sự đi chuyển của người, vật, xe và cây bằng giải thuật SVM. Hệ thống là sự trích xuất ra những tính năng tĩnh và động của các đối tượng di chuyển và dùng chúng dé phân loại giữa các đối tượng đã được định nghĩa trước. Hệ thống gồm các nội dung chính: khởi tạo và cập nhật nền, phát hiện và theo vết đối tượng, phân tích đối tượng là người hay vật [I6].

Paul Viola và Michael Jones đã nghiên cứu và mô tả cách tiếp cận một hệ thống máy học dành cho việc phát hiện đối tượng một cách trực quan với khả năng xử lý ảnh cực kỳ nhanh và đạt được tỉ lệ phát hiện cao. Nhóm tác giả đã có những đóng góp quan trọng cho những công trình nghiên cứu sau này. Đầu tiên là nhóm tác giả đã giới thiệu một thể hiện mới của hình ảnh được gọi là “Integral Image” (hình ảnh tích phân) cho phép các đặc trưng được sử dụng bởi sự dò tìm của nhóm tác giả để được tính toán một cách rất nhanh. Thứ hai là một giải thuật học, dựa vào AdaBoost, chọn một số lượng nhỏ các đặc trưng trực quan quan trọng từ một tập lớn và nâng suất của sự phân lớp cực kỳ hiểu quả.

Đóng góp thứ ba là một phương pháp cho sự kết hợp tăng độ phân loại phức tạp hơn trong một tháp (cascade) cái mà cho phép vùng nên của hình thì được loại bỏ một cách nhanh chóng dựa vào sự tính toán trên những vùng đối tượng triển vọng. Nhóm tác giả đã thực hiện ứng dụng trong thời gian thực, sự dò tìm chạy 15 frames/giây không cần sự sắp xép hình ảnh hoặc dò theo màu da [17].3 Hướng tiếp cận Hiện nay có rất nhiều phương pháp phát hiện và nhận dạng đối tượng như: người, xe, vật,.Các hướng tiếp cận mà hiện nay các nhà khoa học và các nhà nghiên cứu đã và đang nghiên cứu như sau: Hướng tiếp cận dựa vào các đặc trưng cơ bản: Đây là phương pháp dựa vào các thành phần cơ bản trên khuôn mặt như: mắt, mũi, miệng, màu đa. Trong phương 13 CHƯƠNG I: TONG QUAN CÁC CÔNG TRÌNH NGHIÊN CỨU VÀ HƯỚNG TIEP CAN pháp này có 2 hướng tiếp cận khác nhau: từ dưới lên (Bottom — up) và từ trên xuống (top — down). Từ dưới lên (Bottom — up): hướng tiếp cận này có gắng xác định từng đặc trưng và nhóm chúng lại và kiểm tra.

Phương pháp này có nhược điểm là các đặc trưng sẽ bị ảnh hưởng bởi các yêu tố về chất lượng ảnh và độ sáng tối của ảnh, ưu điểm là không bị ảnh hưởng bởi hướng xoay và di chuyển của khuôn mặt. Từ trên xuống (top — down): hướng tiếp cận này tạo ra một mẫu về khuôn mặt theo nhiều chiều như: 2 chiều, 3 chiều, sau đó tìm kiếm trên toàn bộ ảnh để ghép mẫu đã tạo ra với những thành phan trên ảnh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên Cứu Thuật Toán Nhận Diện Đối Tượng Trong Ứng Dụng E-Dogs cung cấp cái nhìn sâu sắc về các thuật toán nhận diện đối tượng, đặc biệt trong bối cảnh ứng dụng cho thú cưng. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về cách thức hoạt động của các thuật toán này mà còn chỉ ra những lợi ích thiết thực mà chúng mang lại, như cải thiện khả năng theo dõi và quản lý thú cưng một cách hiệu quả hơn.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ gán nhãn ảnh tự động sử dụng kết hợp nhiều nguồn thông tin, nơi bạn sẽ tìm thấy thông tin về việc gán nhãn ảnh tự động, một khía cạnh quan trọng trong nhận diện đối tượng. Ngoài ra, tài liệu Nghiên ứu xây dựng và phát triển các thuật toán nhận dạng chữ viết tay cũng sẽ cung cấp cho bạn cái nhìn về các thuật toán nhận dạng khác, mở rộng ứng dụng của công nghệ nhận diện trong nhiều lĩnh vực khác nhau. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của thuật toán nhận diện trong cuộc sống hàng ngày.

#công nghệ nhận diện hình ảnh

#phân tích dữ liệu hình ảnh

#thuật toán học sâu

#machine learning trong nhận diện

#thuật toán nhận diện đối tượng

#ứng dụng E-Dogs

Chủ đề

Phát triển thuật toán học máy

Nghiên cứu về nhận diện đối tượng

Ứng dụng công nghệ trong thú cưng

Tương lai của công nghệ nhận diện hình ảnh