Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

Chuyên khảo toán học phân tích Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng, đánh giá các khía cạnh quan trọng, đề xuất hướng

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Mạng máy tính và truyền thông dữ liệu

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

136

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Bối cảnh nghiên cứu

1.2. Những thách thức và mục tiêu nghiên cứu

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

1.5. Điểm mới của Luận án

1.6. Cấu trúc của Luận án

2. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU

2.1. Vai trò của ảnh nhiệt trong bài toán phát hiện và theo vết đối tượng

2.2. Khái quát về tín hiệu hồng ngoại

2.3. Khả năng mô tả đối tượng của các tín hiệu hồng ngoại

2.4. Kỹ thuật học sâu áp dụng trong bài toán phát hiện và theo vết đối tượng

2.4.1. Cơ bản về mạng nơ ron tích chập

2.4.2. Một số phương pháp phát hiện đối tượng sử dụng kỹ thuật học sâu

2.4.3. Một số phương pháp theo vết đối tượng sử dụng kỹ thuật học sâu

2.5. Bài toán phát hiện đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu và ảnh nhiệt

2.5.1. Phân tích bài toán

2.5.2. Bộ dữ liệu thử nghiệm

2.5.3. Các nghiên cứu có liên quan

2.6. Bài toán theo vết đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu và ảnh nhiệt

2.6.1. Phân tích bài toán

2.6.2. Bộ dữ liệu thử nghiệm

2.6.3. Các nghiên cứu có liên quan

2.7. Kết luận chương 1

3. XÁC ĐỊNH CÁC CHỈ SỐ ĐỂ XÂY DỰNG TRỌNG SỐ TRONG KẾT HỢP ẢNH MÀU VÀ ẢNH NHIỆT

3.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến hiệu năng phát hiện và theo vết đối tượng người

3.1.1. Khảo sát ảnh hưởng của độ chiếu sáng đến hiệu năng phát hiện và theo vết đối tượng người

3.1.2. Khảo sát ảnh hưởng cường độ nhiệt đến hiệu năng phát hiện và theo vết đối tượng người

3.2. Các phương pháp để xác định độ chiếu sáng

3.2.1. Các phương pháp để ước lượng độ chiếu sáng phổ biến

3.2.2. Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng

3.3. Đánh giá ảnh hưởng của cường độ nhiệt đến chất lượng phát hiện và theo vết đối tượng người trên ảnh nhiệt

3.4. Kết luận chương 2

4. PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG NGƯỜI VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT

4.1. Phương pháp xác định trọng số kết hợp ảnh màu và ảnh nhiệt trong bài toán phát hiện người

4.1.1. Hàm xác định trọng số từ độ nhiễu và cường độ nhiệt

4.1.2. Xác định tham số cho hàm tính trọng số từ độ nhiễu và cường độ nhiệt

4.1.3. Xây dựng tập dữ liệu để xác định tham số cho hàm tính trọng số

4.2. Các thuật toán YOLO

4.2.1. Thuật toán YOLO

4.2.2. Nâng cấp YOLOv2

4.2.3. Nâng cấp YOLOv3

4.2.4. Nâng cấp YOLOv4

4.2.5. Các nâng cấp tiếp theo của họ các thuật toán YOLO

4.3. Các mức kết hợp ảnh màu và ảnh nhiệt trong phát hiện đối tượng người

4.3.1. Thuật toán kết hợp ảnh màu và ảnh nhiệt ở mức điểm ảnh để phát hiện đối tượng người

4.3.1.1. Mô tả thuật toán

4.3.1.2. Đánh giá kết quả

4.3.2. Thuật toán phát hiện người kết hợp ảnh màu và ảnh nhiệt thời gian thực ở mức kết quả

4.3.2.1. Mô tả thuật toán

4.3.2.2. Đánh giá kết quả

4.3.3. Thuật toán phát hiện đối tượng người một giai đoạn sử dụng độ nhiễu và cường độ nhiệt

4.3.3.1. Mô tả thuật toán

4.3.3.2. Điều kiện thử nghiệm

4.3.3.3. Kết quả thử nghiệm so sánh với các phương pháp xác định trọng số khác

4.3.3.4. Kết quả thử nghiệm so sánh các mức kết hợp

4.3.3.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến

4.4. Kết luận chương 3

5. PHƯƠNG PHÁP THEO VẾT ĐỐI TƯỢNG NGƯỜI VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT

5.1. Phương pháp xác định trọng số kết hợp ảnh màu và ảnh nhiệt trong bài toán theo vết đối tượng người

5.2. Thuật toán SiamDW_ST

5.3. Thuật toán theo vết đối tượng người sử dụng độ nhiễu và cường độ nhiệt

5.3.1. Mô tả thuật toán

5.3.2. Điều kiện thử nghiệm

5.3.3. Kết quả thử nghiệm so sánh với các thuật toán phổ biến trên toàn bộ các chuỗi đối tượng người

5.3.4. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban ngày

5.3.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu ban đêm

5.3.6. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bị che khuất

5.3.7. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước thay đổi

5.3.8. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có nhiều khung hình camera chuyển động

5.3.9. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi dữ liệu có các đối tượng chuyển động liên tục

5.4. Kết luận chương 4

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Kết Hợp Ảnh Nhiệt và Ảnh Màu

Các hệ thống xử lý ảnh ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực, từ giao thông thông minh đến y tế và an ninh quốc phòng. Phát hiện đối tượng người và theo vết đối tượng người là kỹ thuật thị giác máy tính cơ bản, đóng vai trò quan trọng trong việc giám sát và phân tích các sự kiện. Khó khăn của bài toán bao gồm sự thay đổi về diện mạo, kích thước, hình dạng của đối tượng, cũng như khả năng bị che khuất hoặc lẫn vào bối cảnh phức tạp. Các hệ thống này cần hoạt động hiệu quả ngay cả trong môi trường thiếu sáng hoặc môi trường khắc nghiệt. Việc kết hợp ảnh nhiệt và ảnh màu mang lại tiềm năng lớn để vượt qua những thách thức này, đặc biệt trong điều kiện ánh sáng yếu hoặc khi đối tượng bị che khuất một phần. Các nghiên cứu gần đây đã chứng minh rằng việc sử dụng mạng nơ-ron tích chập (CNN) cho phép phát hiện và theo vết đối tượng với độ chính xác cao hơn so với các phương pháp truyền thống. Việc tích hợp thông tin từ cả ảnh màu và ảnh nhiệt có thể cải thiện đáng kể độ chính xác và thời gian thực của hệ thống.

1.1. Vai Trò Của Ảnh Nhiệt Trong Phát Hiện Đối Tượng

Ảnh nhiệt cung cấp thông tin quan trọng về nhiệt độ của các vật thể, không bị ảnh hưởng bởi điều kiện ánh sáng. Trong các ứng dụng giám sát an ninh và cứu hộ, ảnh nhiệt có thể giúp phát hiện người trong bóng tối, sương mù hoặc đám khói. Theo [31], “Dải tần số sóng điện từ tương ứng với các loại tín hiệu” trong đó tín hiệu hồng ngoại có thể được sử dụng để trích xuất thông tin hữu ích về đối tượng ngay cả trong điều kiện ánh sáng kém. Việc sử dụng xử lý ảnh nhiệt cho phép tạo ra các hệ thống phát hiện đối tượng người đáng tin cậy hơn trong nhiều điều kiện khác nhau.

1.2. Ứng Dụng Của Kết Hợp Ảnh Màu và Ảnh Nhiệt

Việc kết hợp ảnh màu và ảnh nhiệt mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như giám sát giao thông, robotics và xe tự hành. Ảnh màu cung cấp thông tin chi tiết về hình dạng và màu sắc của đối tượng, trong khi ảnh nhiệt cung cấp thông tin về nhiệt độ. Sự kết hợp này có thể cải thiện đáng kể khả năng theo vết đối tượng người, đặc biệt trong các tình huống phức tạp. Ví dụ, trong giám sát giao thông, việc sử dụng cả hai loại ảnh có thể giúp phát hiện người đi bộ vào ban đêm hoặc trong điều kiện thời tiết xấu.

II. Thách Thức Khi Phát Hiện Theo Vết Đối Tượng Người

Mặc dù có nhiều tiến bộ trong lĩnh vực phát hiện đối tượng người và theo vết đối tượng người, vẫn còn nhiều thách thức cần giải quyết. Một trong những thách thức lớn nhất là sự thay đổi về diện mạo và tư thế của đối tượng, cũng như sự thay đổi về điều kiện ánh sáng và môi trường xung quanh. Các thuật toán cần phải có khả năng xử lý các tình huống như đối tượng bị che khuất, lẫn vào bối cảnh phức tạp hoặc di chuyển nhanh chóng. Ngoài ra, việc đảm bảo thời gian thực là một yêu cầu quan trọng trong nhiều ứng dụng, đặc biệt là trong các hệ thống ứng dụng an ninh và ứng dụng giám sát. Điều này đòi hỏi các thuật toán phải được tối ưu hóa để đạt được hiệu suất cao trên các thiết bị phần cứng có giới hạn.

2.1. Ảnh Hưởng Của Điều Kiện Ánh Sáng Lên Ảnh Màu

Trong điều kiện ánh sáng yếu hoặc ban đêm, chất lượng của ảnh màu giảm đáng kể, gây khó khăn cho việc phát hiện đối tượng người. Các thuật toán dựa trên xử lý ảnh màu có thể gặp khó khăn trong việc phân biệt đối tượng với nền, dẫn đến giảm độ chính xác. Việc sử dụng ảnh nhiệt có thể giúp khắc phục vấn đề này, vì ảnh nhiệt không bị ảnh hưởng bởi điều kiện ánh sáng. Hình 1 trong tài liệu gốc minh họa rõ sự suy giảm chất lượng của ảnh màu trong điều kiện ánh sáng kém.

2.2. Vấn Đề Xử Lý Dữ Liệu Lớn Từ Ảnh Nhiệt và Màu

Việc kết hợp ảnh nhiệt và ảnh màu tạo ra một lượng lớn dữ liệu cần xử lý, gây ra thách thức về mặt tính toán. Các thuật toán cần phải được thiết kế để xử lý dữ liệu hiệu quả, đảm bảo thời gian thực và độ chính xác cao. Việc sử dụng mạng nơ-ron tích chập (CNN) có thể giúp giảm bớt gánh nặng tính toán, nhưng vẫn cần phải tối ưu hóa kiến trúc mạng và các tham số huấn luyện.

III. Cách Xác Định Trọng Số Kết Hợp Ảnh Nhiệt Ảnh Màu

Một trong những yếu tố quan trọng để đạt được hiệu quả cao trong việc kết hợp ảnh nhiệt và ảnh màu là xác định trọng số phù hợp cho từng loại ảnh. Trọng số này có thể được xác định dựa trên nhiều yếu tố, chẳng hạn như độ sáng của ảnh màu, cường độ nhiệt của ảnh nhiệt hoặc độ nhiễu của cả hai loại ảnh. Việc xác định trọng số tối ưu có thể cải thiện đáng kể độ chính xác và độ ổn định của hệ thống phát hiện đối tượng người và theo vết đối tượng người. Các phương pháp xác định trọng số có thể bao gồm sử dụng các hàm toán học, học sâu, hoặc kết hợp cả hai.

3.1. Phương Pháp Dựa Trên Độ Nhiễu và Cường Độ Nhiệt

Một phương pháp tiềm năng để xác định trọng số là dựa trên độ nhiễu của ảnh màu và cường độ nhiệt của ảnh nhiệt. Trong điều kiện ánh sáng yếu, ảnh màu thường có độ nhiễu cao, trong khi ảnh nhiệt vẫn cung cấp thông tin hữu ích. Trong trường hợp này, trọng số của ảnh nhiệt nên được tăng lên để cải thiện độ chính xác. Hàm xác định trọng số có thể được xây dựng dựa trên các thông số như độ nhiễu trung bình và cường độ nhiệt trung bình của từng ảnh.

3.2. Thuật Toán Tự Động Điều Chỉnh Trọng Số Sử Dụng CNN

Các thuật toán học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), có thể được sử dụng để tự động điều chỉnh trọng số kết hợp ảnh nhiệt và ảnh màu. Một mạng CNN có thể được huấn luyện để dự đoán trọng số tối ưu dựa trên các đặc trưng được trích xuất từ cả hai loại ảnh. Phương pháp này có thể đạt được hiệu quả cao hơn so với các phương pháp truyền thống, vì nó có thể học được các mối quan hệ phức tạp giữa các đặc trưng và trọng số.

IV. Thuật Toán Phát Hiện Đối Tượng Kết Hợp Ảnh Nhiệt Màu

Việc phát triển các thuật toán phát hiện đối tượng người hiệu quả là rất quan trọng để ứng dụng trong nhiều lĩnh vực. Các thuật toán này cần phải có khả năng xử lý các tình huống phức tạp, chẳng hạn như đối tượng bị che khuất, lẫn vào bối cảnh phức tạp hoặc di chuyển nhanh chóng. Việc kết hợp ảnh nhiệt và ảnh màu có thể cải thiện đáng kể hiệu suất của các thuật toán phát hiện đối tượng. Các thuật toán hiện đại thường sử dụng mạng nơ-ron tích chập (CNN) để trích xuất các đặc trưng từ ảnh và đưa ra dự đoán về vị trí và loại đối tượng.

4.1. Ứng Dụng YOLO Trong Phát Hiện Đối Tượng Người

YOLO (You Only Look Once) là một thuật toán phát hiện đối tượng phổ biến, được biết đến với tốc độ cao và độ chính xác tương đối. YOLO có thể được điều chỉnh để kết hợp ảnh nhiệt và ảnh màu, bằng cách sử dụng các lớp kết hợp đặc trưng hoặc bằng cách huấn luyện mạng trên một tập dữ liệu chứa cả hai loại ảnh. YOLOv4 và YOLOv8 là những phiên bản mới nhất của YOLO, mang lại hiệu suất cao hơn so với các phiên bản trước đó.

4.2. Kết Hợp Ảnh Ở Mức Điểm Ảnh và Mức Kết Quả

Có nhiều cách khác nhau để kết hợp ảnh nhiệt và ảnh màu trong thuật toán phát hiện đối tượng. Một phương pháp là kết hợp ở mức điểm ảnh, bằng cách trộn hai ảnh thành một ảnh duy nhất trước khi đưa vào mạng CNN. Một phương pháp khác là kết hợp ở mức kết quả, bằng cách sử dụng hai mạng CNN riêng biệt để xử lý từng loại ảnh và sau đó kết hợp các kết quả dự đoán.

V. Phương Pháp Theo Vết Đối Tượng Người Dựa Trên Ảnh Nhiệt

Sau khi phát hiện đối tượng người, bước tiếp theo là theo vết đối tượng người theo thời gian. Đây là một nhiệm vụ phức tạp, đòi hỏi thuật toán phải có khả năng xử lý các thay đổi về diện mạo, tư thế và vị trí của đối tượng. Việc kết hợp ảnh nhiệt và ảnh màu có thể cải thiện đáng kể độ chính xác và độ ổn định của các thuật toán theo vết đối tượng. Các thuật toán hiện đại thường sử dụng mạng nơ-ron tích chập (CNN) và các kỹ thuật học sâu khác để học các đặc trưng của đối tượng và dự đoán vị trí của đối tượng trong các khung hình tiếp theo.

5.1. Sử Dụng Thuật Toán SiamDW_ST Để Theo Vết

SiamDW_ST là một thuật toán theo vết đối tượng dựa trên mạng Siamese, được biết đến với hiệu suất cao và khả năng xử lý các thay đổi về diện mạo của đối tượng. SiamDW_ST có thể được điều chỉnh để kết hợp ảnh nhiệt và ảnh màu, bằng cách sử dụng hai mạng Siamese riêng biệt để xử lý từng loại ảnh và sau đó kết hợp các đặc trưng được trích xuất.

5.2. Tối Ưu Thuật Toán Theo Vết Cho Môi Trường Khắc Nghiệt

Để ứng dụng trong các môi trường khắc nghiệt, thuật toán theo vết đối tượng cần phải được tối ưu hóa để xử lý các tình huống như ánh sáng yếu, sương mù, khói hoặc đối tượng bị che khuất. Việc sử dụng ảnh nhiệt có thể giúp cải thiện độ ổn định của thuật toán trong các điều kiện này. Các kỹ thuật fusion ảnh cũng có thể được sử dụng để kết hợp thông tin từ cả hai loại ảnh một cách hiệu quả.

VI. Ứng Dụng Thực Tế và Hướng Phát Triển Nghiên Cứu

Việc nghiên cứu và phát triển các thuật toán phát hiện đối tượng người và theo vết đối tượng người dựa trên kết hợp ảnh nhiệt và ảnh màu có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực, từ an ninh và giám sát đến robotics và xe tự hành. Các hệ thống này có thể được sử dụng để phát hiện người trong bóng tối, sương mù, khói hoặc trong các tình huống khẩn cấp khác. Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện độ chính xác, thời gian thực và độ ổn định của các thuật toán, cũng như phát triển các phương pháp fusion ảnh hiệu quả hơn.

6.1. Ứng Dụng Trong Hệ Thống Giám Sát An Ninh

Trong các hệ thống giám sát an ninh, việc sử dụng ảnh nhiệt và ảnh màu có thể giúp phát hiện và theo vết người xâm nhập vào các khu vực cấm hoặc theo dõi các đối tượng khả nghi. Các hệ thống này có thể được triển khai tại các sân bay, nhà ga, trung tâm thương mại và các địa điểm công cộng khác.

6.2. Tiềm Năng Trong Lĩnh Vực Robotics và Xe Tự Hành

Trong lĩnh vực robotics và xe tự hành, việc phát hiện đối tượng người và theo vết đối tượng người là rất quan trọng để đảm bảo an toàn và hiệu quả. Các robot và xe tự hành cần phải có khả năng phát hiện và tránh người đi bộ, người đi xe đạp và các phương tiện khác. Việc sử dụng kết hợp ảnh nhiệt và ảnh màu có thể giúp cải thiện khả năng nhận biết môi trường của các hệ thống này, đặc biệt trong điều kiện ánh sáng yếu hoặc thời tiết xấu.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1. Bối cảnh nghiên cứu Ngày nay, các hệ thống xử lý ảnh được ứng dụng rộng rãi trong nhiều lĩnh vực như giao thông thông minh, y tế, do thám, thám hiểm, sản xuất công nghiệp và quốc phòng, an ninh. Phát hiện và theo vết đối tượng (object detection and tracking) là kỹ thuật thị giác máy tính cơ bản trong một hệ thống xử lý ảnh được sử dụng để phát hiện các sự kiện xảy ra trong tầm quan sát. Đối tượng người là đối tượng phổ biến, mang đầy đủ các khó khăn cơ bản của bài toán phát hiện và theo vết như diện mạo thay đổi, kích thước, hình dạng đối tượng thay đổi; dễ bị lẫn trong bối cảnh phức tạp (clutter background); đôi khi xuất hiện không đầy đủ trong khung hình (occlusion) và có thể xuất hiện trong môi trường có độ chiếu sáng thay đổi (illumination change).

Trong những năm gần đây, cùng với sự phát triển của thiết bị phần cứng và các kỹ thuật trong học sâu (DL - Deep learning), phát hiện và theo vết đối tượng sử dụng mạng nơ ron tích chập (CNN - Convolutional Neural Network) cho thấy hiệu quả vượt trội so với các thuật toán trước đây [1] [2]. Nhờ khả năng “học” với một lượng dữ liệu lớn, đa ngữ cảnh cũng như khả năng trích rút các đặc trưng một cách tự động, quá trình suy luận (inference) sẽ cho độ chính xác cao, có thể phát hiện và theo vết đối tượng có kích thước, hình dạng, diện mạo thay đổi; bối cảnh lộn xộn hoặc đối tượng chỉ xuất hiện một phần trong khung hình. Đối tượng người là một đối tượng phổ biến và về cơ bản các thuật toán phát hiện và theo vết đối tượng người đều được phát triển từ các thuật toán phát hiện và theo vết đối tượng nói chung và được huấn luyện chuyển giao (transfer learning) để phù hợp với các bộ dữ liệu chuyên biệt đối với đối tượng người. Khi áp dụng các thuật toán phát hiện và theo vết đối tượng trong các hệ thống giám sát theo mô hình tập trung sẽ gặp một số thách thức, cụ thể như sau: (i) Băng thông tăng cao khi phải truyền nhiều dòng video từ hàng trăm hoặc hàng nghìn camera trên hạ tầng mạng về hệ thống máy chủ tập trung, dẫn tới tăng chi phí truyền dẫn và nhiều khi không khả thi trong thực tế, (ii) Quá trình phân tích có độ trễ lớn không đáp ứng yêu cầu xử lý theo thời gian thực: Độ trễ gây ra bởi trễ trong quá trình truyền tin, quá trình lập lịch xử lý, quá trình suy luận của mạng học sâu; (iii) Vấn đề về tính riêng tư: Nhiều dòng video có thể chứa thông tin mật, nhạy cảm nên không thể truyền trực tiếp qua hạ tầng của bên thứ ba để xử lý.

Hiện nay, đã có một số công trình nghiên cứu đã chỉ ra tiềm năng của mô hình điện toán biên (Edge Computing) [3]. Trong đó, một phần khối lượng tính toán được thực hiện tại khu vực gần với các cảm 1 biến (như camera đối với hình ảnh và video), sau đó mới gửi thông tin dạng metadata về trung tâm để lưu trữ và xử lý nâng cao. Phương án này sẽ khắc phục được các vấn đề mà một hệ thống tập trung gặp phải, qua đó giảm băng thông qua mạng diện rộng về trung tâm, đáp ứng được yêu cầu về xử lý thời gian thực và tăng cường bảo mật thông tin. Mặc dù vậy, để áp dụng được các thuật toán học sâu ở khu vực biên, phải lựa chọn và phát triển các thuật toán có khối lượng tính toán không quá lớn nhưng phải có độ chính xác phù hợp.

Mặt khác, các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mô tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên, khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở nên kém đi. Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bước sóng dài (8÷14 µm), gọi tắt là ảnh nhiệt, không bị ảnh hưởng trong các trường hợp này [4].

Đối tượng người cũng tương tự như các loài sinh vật khác, có tỷ lệ nước trong cơ thể hơn 65%, tỷ lệ hấp thụ với các sóng điện từ ở bước sóng (9 ÷ 11) μm từ bên ngoài vào khoảng từ 0,9 đến 0,97 và bức xạ phát xạ cơ bản phụ thuộc vào nhiệt độ của đối tượng [5]. Nhiệt độ bề mặt cơ thể người vào khoảng 30 đến 40 độ C nên sẽ phát xạ mạnh nhất tín hiệu ở bước sóng từ 8 đến 14 μm, là tín hiệu để tạo ra ảnh nhiệt. Ngày nay, các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí không cao. Vì vậy, nghiên cứu kết hợp ảnh màu và ảnh nhiệt trong bài toán phát hiện và theo vết đối tượng người có thể minh chứng được hiệu quả cho bài toàn nhận dạng ảnh nói chung, là cơ sở cho một thuật toán có độ phức tạp tính toán phù hợp để triển khai tại khu vực biên.

Đối với các thuật toán phát hiện đối tượng nói chung và đối tượng người nói riêng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một giai đoạn hoặc kiến trúc hai giai đoạn. - Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển từ thuật toán R-CNN, trong đó sẽ có 02 giai đoạn riêng biệt là: (i) Đề xuất các vùng có khả năng là đối tượng; (ii) Thực hiện kép 02 việc là phân loại đối tượng và điều chỉnh khung phát hiện đối tượng cho chuẩn xác. Điển hình của là các thuật toán phát hiện đối tượng như: R-CNN [6], Fast R-CNN [7], Faster R-CNN [8] và Libra R-CNN [9]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như Cascade R-CNN [10]. 2 - Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập đầy đủ (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time).

Ngoài ra để giảm khối lượng tính toán mà không làm giảm nhiều độ chính xác, có một số kỹ thuật mới được áp dụng như vi kiến trúc - microarchitecture tại các mạng: SqueezeNet; MobileNet; ShuffleNet hoặc Darknet19/53; kỹ thuật Cross Stage Partial Network (CSPNet), kết nối chéo giữa các tầng hay DenselyNet, tổng hợp kết nối từ các tầng. Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến như các thuật toán họ YOLO [11], [12], [13], [14]; SSD [15] hay RetinaNet [16]. Về cơ bản thì các thuật toán theo kiến trúc hai giai đoạn sẽ cho độ chính xác cao hơn nhưng tốc độ chậm hơn kiến trúc một giai đoạn. Tuy nhiên, hiện nay cùng với sự phát triển của các phương pháp giảm khối lượng tính toán cũng như tăng độ chính xác, các thuật toán phát hiện đối tượng một giai đoạn cũng có kết quả rất tốt.

Do đó, sẽ phù hợp khi sử dụng trên các thiết bị di động, hệ thống giám sát diện rộng, rô bốt hay xe tự lái… Đối với các thuật toán theo vết đối tượng nói chung và đối tượng người nói riêng được phát triển theo hai hướng tiếp cận [17]: (i) Xác định vị trí đối tượng tại khung hình tiếp theo thông qua đối sánh khung hình với biểu diễn đối tượng (trực tiếp hoặc đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) Huấn luyện một tập các bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại khung hình tiếp theo. - Theo vết đối tượng thông qua đối sánh đầu tiên sử dụng trực tiếp tương quan của giá trị điểm ảnh thuộc vùng đối tượng với khung hình cần xác định vị trí đối tượng như trong [18], sau đó phát triển sử dụng đối sánh với biến đổi affine của đối tượng [19], hay sử dụng nhiều đặc trưng của đối tượng như trong [20]. Gần đây, bên cạnh những thành công trong bài toán phát hiện đối tượng, mạng nơ ron tích chập cũng được sử dụng để nâng cao độ chính xác đối sánh ảnh. Cụ thể, mạng nơ ron tích chập sau khi huấn luyện trên một bộ dữ liệu lớn sẽ thực hiện trích chọn đặc trưng từ đối tượng và khung hình hiện tại để đối sánh, xác định vị trí đối tượng.

Các mạng như vậy được gọi là mạng Siamese (Similarity Learning) [21]. - Theo vết đối tượng dựa trên huấn luyện bộ lọc DCF được công bố đầu tiên trong thuật toán MOSSE, trong đó ảnh sử dụng để huấn luyện được xây dựng bằng hàm Gauss hai chiều với đỉnh là vị trí của tâm đối tượng được xác định trong khung hình trước; trong các khung hình tiếp theo, trọng số của bộ lọc được cập nhật khi định vị được đối tượng [22]. Để cải tiến có các phương pháp như KCF [23], tăng số lượng 3 đối tượng bằng phép dịch vòng (Circulant) để phân biệt hay CSRDCF nâng cao hiệu năng nhờ kết hợp ước lượng nhiều lớp DCF bởi nhiều loại đặc trưng như ảnh đa mức xám (Grayscale), HoG (Histogram of Gradient), ColorNames [24]. Tương tự như các loại đặc trưng khác, đặc trưng tích chập cũng có thể được sử dụng để huấn luyện DCF và cho kết quả tốt.

Nhìn chung, các thuật toán dựa trên đối sánh đối tượng sử dụng mạng nơ ron tích chập có thể xác định chính xác vị trí của đối tượng, nhưng có điểm yếu trong việc phân biệt đối tượng với nền, làm giảm độ ổn định (chỉ số Robustness), trong khi các thuật toán dựa trên DCF do được huấn luyện trực tuyến có thể phân biệt đối tượng với nền tốt. Do đó, các thuật toán có hiệu năng cao kết hợp cả hai hướng tiếp cận này thành hai bước trong một thuật toán: (i) bước phân loại (classification) sử dụng DCF với đặc trưng tích chập để bóc tách đối tượng và phát hiện các vị trí có khả năng là đối tượng trong khung hình mới; (ii) bước ước lượng (estimation) để từ các vị trí có khả năng là đối tượng trong khung hình mới, ước đoán vị trí chính xác của đối tượng. Trong [17] đề xuất thuật toán theo hướng này là thuật toán ATOM (Accurate Tracking by Overlap Maximization), trong đó bước ước lượng vị trí xác định qua độ chồng lấn (overlap) thay vì ước lượng trực tiếp vị trí như các các thuật toán sử dụng mạng Siamese.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Kết Hợp Ảnh Nhiệt và Ảnh Màu trong Phát Hiện và Theo Vết Đối Tượng Người" trình bày một phương pháp mới trong việc phát hiện và theo dõi đối tượng người bằng cách kết hợp giữa ảnh nhiệt và ảnh màu. Phương pháp này không chỉ nâng cao độ chính xác trong việc nhận diện mà còn giúp cải thiện khả năng theo dõi trong các điều kiện ánh sáng khác nhau. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ nghiên cứu này, bao gồm việc ứng dụng trong các lĩnh vực như an ninh, giám sát và tự động hóa.

Để mở rộng thêm kiến thức về các phương pháp liên quan, bạn có thể tham khảo tài liệu Luận án tiến sĩ nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy, nơi khám phá các kỹ thuật nhận dạng đối tượng chuyển động. Ngoài ra, tài liệu Phân loại ảnh chụp xquang phổi trong hỗ trợ chẩn đoán bệnh sử dụng học máy cũng cung cấp cái nhìn sâu sắc về ứng dụng của học máy trong phân tích hình ảnh. Cuối cùng, bạn có thể tìm hiểu thêm về Nhận dạng các đối tượng hình học bằng học máy, tài liệu này sẽ giúp bạn hiểu rõ hơn về các phương pháp nhận dạng hình học trong lĩnh vực học máy. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá sâu hơn về các ứng dụng công nghệ trong nhận diện và theo dõi đối tượng.

#công nghệ hình ảnh