Nghiên Cứu Phương Pháp Nhận Diện Cơ Thể Người Trong Ảnh Số

Nghiên cứu phương pháp nhận diện cơ thể người trong ảnh số giúp cải thiện độ chính xác và ứng dụng trong nhiều lĩnh vực công nghệ.

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN HỆ THỐNG NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG

1.1. Giới thiệu chung

1.2. Khái quát hệ thống nhận diện người đi đường

1.2.1. Tổng quan hệ thống

1.2.2. Khó khăn và thách thức

1.2.3. Các kết quả nghiên cứu trên thế giới

1.2.4. Kết luận chương

1.3. Gradient của ảnh và đặc trưng biên độ gradient

1.3.1. Khái niệm gradient trong xử lý ảnh số

1.3.2. Ứng dụng của đặc trưng gradient trong xử lý ảnh số

1.4. Đặc trưng HOG

1.4.1. Chuẩn hóa gamma và màu

1.4.3. Chia hướng và gom đặc trưng tại mỗi cell

1.4.4. Tính đặc trưng cho khối và chuẩn hóa

1.4.5. Tính vector đặc trưng cho cửa sổ

1.4.6. Ứng dụng của đặc trưng HOG

1.5. Không gian màu CIELUV

1.6. Thuật toán AdaBoost

1.7. Kết luận chương

3. CHƯƠNG 3: THUẬT TOÁN NHẬN DIỆN NGƯỜI ĐI ĐƯỜNG SỬ DỤNG ACF

3.1. Ước lượng gradient ảnh theo tỷ lệ kích thước

3.1.1. Histogram của gradient trong ảnh lấy mẫu lên

3.1.2. Histogram của gradient trong ảnh lấy mẫu xuống

3.2. Ước lượng đặc trưng ảnh theo tỷ lệ lấy mẫu

3.2.1. Công thức lũy thừa tính đặc trưng ảnh theo tỷ lệ lấy mẫu

3.2.2. Ước lượng hệ số λ

3.3. Phương pháp xây dựng tháp đặc trưng nhanh

3.3.1. Tính toán kênh đặc trưng theo tỷ lệ lấy mẫu

3.3.2. Xây dựng tháp đặc trưng nhanh

3.3.3. Phân tích độ phức tạp thuật toán

3.4. Nhận diện người đi đường sử dụng ACF

3.5. Cài đặt thử nghiệm và đánh giá

3.5.1. Sử dụng bộ công cụ ACF trên MATLAB

3.5.2. Phương pháp đánh giá

3.5.3. Kết quả thực nghiệm

3.6. Kết luận chương

4. CHƯƠNG 4: ỨNG DỤNG BỘ LỌC KALMAN TRONG NHẬN DIỆN

4.1. Giới thiệu chung bộ lọc Kalman

4.2. Mô hình toán học bộ lọc Kalman

4.3. Ứng dụng bộ lọc Kalman trong hệ thống nhận diện người đi đường

4.3.1. Ý tưởng thuật toán

4.4. Cài đặt thử nghiệm và đánh giá

4.5. Kết luận chương

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Nhận Diện Cơ Thể Người Trong Ảnh Số

Trong lĩnh vực thị giác máy tính, bài toán nhận diện cơ thể người trong ảnh số và video đã trở thành một chủ đề nghiên cứu quan trọng. Lý do chính là tiềm năng ứng dụng rộng rãi, bao gồm xử lý và quản lý nội dung ảnh, video, giám sát an ninh, hỗ trợ lái xe tự động, v.v. Việc phát hiện người trong ảnh là một phần không thể thiếu trong hệ thống hỗ trợ lái xe tự động. Luận văn này tập trung nghiên cứu hệ thống nhận diện cơ thể người, đặc biệt là nhận diện người đi đường, nhằm tìm hiểu các phương pháp phổ biến và đề xuất cải tiến. Mục tiêu là nghiên cứu các phương pháp hiện có, đánh giá chất lượng và đề xuất cải tiến cho bài toán nhận diện người đi đường từ dữ liệu video.

1.1. Ứng dụng Thực Tiễn của Nhận Diện Cơ Thể Người

Ứng dụng của nhận diện cơ thể người rất đa dạng. Trong giám sát an ninh, nó giúp phát hiện và theo dõi người trong khu vực đông đúc. Trong hệ thống hỗ trợ lái xe, nó giúp phát hiện người đi đường và cảnh báo nguy hiểm. Trong quản lý nội dung, nó giúp đánh dấu và gán nhãn tự động. Như ví dụ trong tài liệu tham khảo, hệ thống TMPV760 của Toshiba sử dụng camera và vi xử lý tốc độ cao để cho ra đời các hệ thống hỗ trợ lái xe nâng cao, bao gồm cảnh báo va chạm với xe khác, cảnh báo va chạm người đi đường, cảnh báo va chạm chướng ngại vật. Hệ thống cảnh báo va chạm cho ô tô của Mobileye cũng dựa trên hình ảnh với chức năng phanh tự động, được ứng dụng trong dòng xe Volvo S60.

1.2. Khó khăn và Thách Thức trong Nhận Diện Người

Nhận diện người là một nhiệm vụ đầy thách thức do sự biến đổi lớn trong ảnh và video. Các yếu tố khó khăn bao gồm: kích cỡ ảnh (người có thể xuất hiện rất nhỏ), độ trễ trong xử lý ảnh (cần tốc độ nhanh), tính chất ngoại cảnh (đa dạng môi trường), biến đổi điều kiện sáng, tư thế và dáng điệu của đối tượng, và ảnh hưởng che khuất của ngoại cảnh. Sự khác biệt về đặc tính giữa các bộ dữ liệu chuẩn được sử dụng trong các nghiên cứu cũng làm tăng độ phức tạp. Vì vậy, một thuật toán nhận diện người hiệu quả cần giải quyết các vấn đề này.

II. Các Phương Pháp Nhận Diện Khuôn Mặt Trong Ảnh Số Hiện Nay

Hệ thống nhận diện cơ thể người thường bao gồm các bước: tiền xử lý ảnh, lựa chọn vùng candidate, trích xuất đặc trưng, phân loại và hậu xử lý. Tiền xử lý giúp chuẩn hóa ảnh đầu vào. Lựa chọn vùng candidate xác định các vùng có khả năng chứa người. Trích xuất đặc trưng tạo ra vector đặc tả cho đối tượng. Phân loại quyết định xem vùng candidate có phải là người hay không. Hậu xử lý gộp các vùng trùng lặp hoặc gần nhau. Theo [31], kỹ thuật loại trừ vùng nền được sử dụng để lựa chọn các vùng candidate. Cụ thể, các đối tượng di chuyển sẽ được tách khỏi nền bằng cách tính toán sự khác biệt của ảnh hiện tại với một ảnh tham chiếu. Tuy nhiên, kỹ thuật này đòi hỏi một camera đứng yên và một ảnh đã chứa sẵn đối tượng để làm ảnh tham chiếu.

2.1. Kỹ Thuật Tiền Xử Lý Ảnh trong Nhận Diện Người

Giai đoạn tiền xử lý ảnh là bước quan trọng để cải thiện chất lượng ảnh đầu vào. Các kỹ thuật thường được sử dụng bao gồm: khử nhiễu, chuẩn hóa màu và chuẩn hóa gamma. Mục tiêu là giảm nhiễu và đảm bảo ảnh có độ sáng và màu sắc đồng nhất. Việc chuẩn hóa ảnh giúp các bước xử lý tiếp theo, đặc biệt là trích xuất đặc trưng, đạt hiệu quả cao hơn. Các phương pháp khử nhiễu phổ biến bao gồm trung bình cộng, lọc Gaussian và lọc trung vị.

2.2. Lựa Chọn Vùng Candidate và Các Thuật Toán Liên Quan

Việc lựa chọn vùng candidate là bước quan trọng để giảm số lượng vùng cần xử lý. Một phương pháp phổ biến là sử dụng cửa sổ trượt (sliding window) để quét qua toàn bộ ảnh. Tuy nhiên, phương pháp này có thể tạo ra nhiều vùng candidate trùng lặp. Do đó, cần sử dụng các thuật toán như non-maximal suppression để loại bỏ các vùng trùng lặp. Theo [4], các vùng có thể cần thêm một bước xử lý để gộp các vùng có khả năng đều chứa cùng một đối tượng để cho kết quả cuối cùng là một vùng duy nhất bao quanh đối tượng được phát hiện.

III. Nghiên Cứu Thuật Toán Nhận Diện Người Đi Đường Sử Dụng ACF

Luận văn tập trung vào phương pháp ACF (Aggregated Channel Features), một phương pháp nhận diện người đi đường hiệu quả. ACF sử dụng các đặc trưng kênh tổng hợp và thuật toán phân loại AdaBoost để nhận diện đối tượng. Phương pháp này được đánh giá cao về độ chính xác và tốc độ. ACF dựa trên việc kết hợp các kênh đặc trưng khác nhau, chẳng hạn như gradient, màu sắc và kết cấu, để tạo ra một mô tả đầy đủ về đối tượng. Sau đó, AdaBoost được sử dụng để huấn luyện một bộ phân loại mạnh mẽ từ các đặc trưng này.

3.1. Đặc Trưng Kênh Tổng Hợp ACF và Ưu Điểm

ACF sử dụng nhiều kênh đặc trưng khác nhau để mô tả đối tượng. Các kênh đặc trưng có thể bao gồm: gradient (độ lớn và hướng), màu sắc (các kênh màu khác nhau) và kết cấu (các bộ lọc Gabor). Việc kết hợp nhiều kênh đặc trưng giúp tạo ra một mô tả đầy đủ và mạnh mẽ về đối tượng, giúp tăng độ chính xác của hệ thống. Theo [7], ACF tính xấp xỉ gradient histogram trên ảnh lấy mẫu lại với k = 2.

3.2. Thuật Toán Phân Loại AdaBoost trong ACF

AdaBoost là một thuật toán boosting mạnh mẽ, được sử dụng để huấn luyện một bộ phân loại từ nhiều bộ phân loại yếu. AdaBoost hoạt động bằng cách gán trọng số cho các mẫu huấn luyện, sao cho các mẫu bị phân loại sai có trọng số cao hơn. Điều này giúp bộ phân loại tập trung vào các mẫu khó, giúp cải thiện độ chính xác tổng thể. Theo [17], lược đồ cơ bản của AdaBoost bao gồm việc lặp lại quá trình chọn và kết hợp các bộ phân loại yếu để tạo ra một bộ phân loại mạnh.

3.3. Đánh giá chất lượng của phương pháp ACF

Chất lượng của phương pháp ACF thường được đánh giá dựa trên các tiêu chí như độ chính xác (precision), độ phủ (recall) và tỷ lệ lỗi (miss rate). Các bộ dữ liệu chuẩn như Caltech và ETH được sử dụng để so sánh hiệu năng của ACF với các phương pháp khác. Kết quả cho thấy ACF đạt được độ chính xác cao và tốc độ xử lý nhanh, chứng tỏ tính hiệu quả của phương pháp.

IV. Ứng Dụng Bộ Lọc Kalman Cải Thiện Nhận Diện Dáng Người Trong Ảnh

Luận văn đề xuất ứng dụng bộ lọc Kalman để cải thiện hệ thống nhận diện người đi đường. Bộ lọc Kalman là một thuật toán ước lượng trạng thái tối ưu, thường được sử dụng trong các hệ thống theo dõi đối tượng. Ý tưởng là sử dụng bộ lọc Kalman để dự đoán vị trí của người đi đường trong các khung hình tiếp theo, giúp giảm độ trễ và tăng độ chính xác. Bộ lọc Kalman có thể giúp hệ thống bám sát đối tượng ngay cả khi đối tượng bị che khuất tạm thời.

4.1. Nguyên Lý Hoạt Động của Bộ Lọc Kalman

Bộ lọc Kalman hoạt động dựa trên hai bước chính: dự đoán (prediction) và cập nhật (update). Trong bước dự đoán, bộ lọc Kalman sử dụng mô hình động học của đối tượng để dự đoán trạng thái của đối tượng trong khung hình tiếp theo. Trong bước cập nhật, bộ lọc Kalman kết hợp dự đoán với kết quả đo lường từ cảm biến (ví dụ: kết quả nhận diện người đi đường từ hệ thống thị giác máy tính) để cập nhật trạng thái của đối tượng. Theo [5], các frame liên tiếp trong video với đối tượng người di chuyển cần được xử lý để đưa ra dự đoán chính xác.

4.2. Ứng Dụng Bộ Lọc Kalman trong Bài Toán Bám Sát Người Đi Đường

Trong bài toán bám sát người đi đường, bộ lọc Kalman có thể được sử dụng để dự đoán vị trí và vận tốc của người đi đường. Kết quả dự đoán này có thể được sử dụng để điều chỉnh vị trí của camera hoặc để đưa ra cảnh báo cho người lái xe. Bộ lọc Kalman giúp hệ thống theo dõi đối tượng mượt mà hơn và giảm thiểu ảnh hưởng của nhiễu và sai sót trong kết quả nhận diện.

V. Kết Luận và Hướng Phát Triển Nghiên Cứu Nhận Diện Cơ Thể

Luận văn đã trình bày tổng quan về hệ thống nhận diện cơ thể người trong ảnh số, tập trung vào phương pháp ACF và đề xuất ứng dụng bộ lọc Kalman để cải thiện hiệu năng. Kết quả nghiên cứu cho thấy tiềm năng ứng dụng rộng rãi của các phương pháp này trong các lĩnh vực như giám sát an ninh, hỗ trợ lái xe tự động và quản lý nội dung. Hướng phát triển tiếp theo có thể tập trung vào việc cải thiện độ chính xác và tốc độ của các phương pháp nhận diện, cũng như nghiên cứu các phương pháp mới để giải quyết các thách thức như che khuất và biến đổi điều kiện sáng.

5.1. Tóm Tắt Kết Quả Đạt Được và Các Đóng Góp

Luận văn đã nghiên cứu và đánh giá phương pháp ACF cho nhận diện người đi đường. Đề xuất ứng dụng bộ lọc Kalman để cải thiện khả năng bám sát đối tượng. Kết quả cho thấy sự kết hợp giữa ACF và bộ lọc Kalman có thể mang lại hiệu quả cao hơn so với việc sử dụng riêng lẻ từng phương pháp. Các đóng góp của luận văn bao gồm việc phân tích chi tiết phương pháp ACF, đề xuất cải tiến dựa trên bộ lọc Kalman và đánh giá hiệu năng trên các bộ dữ liệu chuẩn.

5.2. Hướng Nghiên Cứu Tiếp Theo và Triển Vọng Phát Triển

Hướng nghiên cứu tiếp theo có thể tập trung vào việc phát triển các phương pháp nhận diện mạnh mẽ hơn, có khả năng xử lý tốt các trường hợp che khuất, biến đổi điều kiện sáng và tư thế phức tạp. Nghiên cứu về các phương pháp deep learning cho nhận diện người cũng là một hướng đi đầy tiềm năng. Ngoài ra, việc tích hợp các thông tin ngữ cảnh (contextual information) vào hệ thống nhận diện có thể giúp cải thiện độ chính xác và khả năng phân biệt đối tượng.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên ứu phương pháp nhận diện cơ thể người trong ảnh số

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ thị giác máy tính, việc nhận diện cơ thể người trong ảnh số và video đã trở thành một lĩnh vực nghiên cứu trọng điểm với nhiều ứng dụng thực tiễn như giám sát an ninh, hỗ trợ lái xe tự động và quản lý nội dung đa phương tiện. Theo ước tính, các hệ thống nhận diện người đi đường đóng vai trò quan trọng trong việc nâng cao an toàn giao thông và hiệu quả giám sát. Tuy nhiên, bài toán này vẫn còn nhiều thách thức do sự biến đổi đa dạng về kích thước, tư thế, điều kiện ánh sáng và môi trường ngoại cảnh. Mục tiêu nghiên cứu của luận văn là phân tích, đánh giá các phương pháp nhận diện người đi đường hiện đại, đặc biệt là phương pháp Aggregated Channel Features (ACF) kết hợp với thuật toán AdaBoost, đồng thời đề xuất cải tiến bằng việc ứng dụng bộ lọc Kalman để nâng cao hiệu quả nhận diện và theo dõi đối tượng trong video. Phạm vi nghiên cứu tập trung vào dữ liệu ảnh và video thu thập tại Việt Nam trong giai đoạn 2014-2017, sử dụng các bộ dữ liệu chuẩn như Caltech và ETH để đánh giá. Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống nhận diện người đi đường chính xác và nhanh chóng, góp phần cải thiện an toàn giao thông và ứng dụng trong các hệ thống giám sát hiện đại.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Gradient ảnh và đặc trưng biên độ gradient**: Gradient biểu thị sự thay đổi cường độ sáng theo hướng x, y trong ảnh, là cơ sở để phát hiện biên và trích xuất đặc trưng hình ảnh. Các toán tử phổ biến như Sobel, Prewitt và Robert được sử dụng để tính toán gradient.
- **Đặc trưng Histogram of Oriented Gradient (HOG)**: HOG là phương pháp trích xuất đặc trưng dựa trên phân phối hướng gradient trong các vùng cục bộ của ảnh, giúp mô tả hình dáng và cấu trúc đối tượng người một cách hiệu quả. HOG được chuẩn hóa qua các khối (block) để giảm ảnh hưởng của điều kiện ánh sáng.
- **Không gian màu CIELUV**: Không gian màu này được sử dụng để chuẩn hóa màu sắc, giảm thiểu ảnh hưởng của điều kiện ánh sáng thay đổi trong ảnh đầu vào.
- **Thuật toán AdaBoost**: Thuật toán học máy mạnh mẽ giúp kết hợp nhiều bộ phân loại yếu thành một bộ phân loại mạnh, tăng độ chính xác nhận diện thông qua trọng số điều chỉnh trên các mẫu huấn luyện.
- **Bộ lọc Kalman**: Mô hình toán học dùng để theo dõi và dự đoán vị trí đối tượng trong chuỗi video, giúp cải thiện khả năng bám sát người đi đường trong môi trường động.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng các bộ dữ liệu chuẩn quốc tế như Caltech Pedestrian Detection Benchmark và ETH Dataset, cùng với dữ liệu thực tế thu thập tại Việt Nam.
- **Phương pháp phân tích**: Triển khai thuật toán nhận diện người đi đường dựa trên đặc trưng ACF kết hợp AdaBoost, đánh giá hiệu năng qua các chỉ số như độ chính xác (Precision), độ nhạy (Recall), và tỷ lệ lỗi (Miss rate). Áp dụng bộ lọc Kalman để theo dõi đối tượng trong video, so sánh kết quả với phương pháp truyền thống.
- **Timeline nghiên cứu**: Nghiên cứu lý thuyết và thu thập dữ liệu (6 tháng), triển khai thuật toán và thử nghiệm (8 tháng), phân tích kết quả và đề xuất cải tiến (4 tháng).

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Phương pháp ACF kết hợp AdaBoost đạt độ chính xác nhận diện người đi đường trên bộ dữ liệu Caltech với tỷ lệ miss rate khoảng 15%, cải thiện đáng kể so với các phương pháp truyền thống có tỷ lệ từ 20-25%.
- Việc sử dụng tháp đặc trưng nhanh giúp giảm thời gian xử lý xuống còn khoảng 33% so với phương pháp tính toán truyền thống, đảm bảo khả năng ứng dụng trong thời gian thực.
- Ứng dụng bộ lọc Kalman trong theo dõi người đi đường giúp giảm tỷ lệ mất đối tượng (false negative) trong video xuống dưới 10%, đồng thời tăng độ ổn định của hệ thống theo dõi.
- Đặc trưng HOG với chuẩn hóa L1-sqrt cho hiệu quả nhận diện tốt hơn so với các chuẩn khác, đặc biệt trong điều kiện ánh sáng thay đổi.

### Thảo luận kết quả

Nguyên nhân của sự cải tiến về độ chính xác và tốc độ xử lý là do phương pháp ACF tận dụng hiệu quả các đặc trưng tổng hợp đa kênh, kết hợp với thuật toán AdaBoost giúp chọn lọc đặc trưng phù hợp nhất. Việc xây dựng tháp đặc trưng nhanh dựa trên quy luật lũy thừa của đặc trưng ảnh theo tỷ lệ lấy mẫu giúp giảm đáng kể khối lượng tính toán mà không làm giảm độ chính xác. So với các nghiên cứu trước đây, kết quả này thể hiện sự tiến bộ rõ rệt, đặc biệt trong việc cân bằng giữa tốc độ và độ chính xác. Bộ lọc Kalman đóng vai trò quan trọng trong việc duy trì theo dõi liên tục đối tượng trong môi trường video có nhiều nhiễu và biến động, điều mà các phương pháp nhận diện tĩnh không thể đảm bảo. Dữ liệu có thể được trình bày qua biểu đồ miss rate - FPPI và đường cong Precision-Recall để minh họa hiệu năng của các phương pháp.

## Đề xuất và khuyến nghị

- **Triển khai hệ thống nhận diện người đi đường dựa trên ACF và AdaBoost** nhằm nâng cao độ chính xác nhận diện, mục tiêu giảm miss rate xuống dưới 10% trong vòng 12 tháng, do các trung tâm nghiên cứu công nghệ thực hiện.
- **Tích hợp bộ lọc Kalman vào hệ thống theo dõi video** để cải thiện khả năng bám sát đối tượng, giảm false negative xuống dưới 5% trong 6 tháng tiếp theo, do các nhóm phát triển phần mềm giám sát đảm nhiệm.
- **Phát triển phần mềm xử lý ảnh tối ưu hóa tháp đặc trưng nhanh** nhằm giảm thời gian xử lý ảnh xuống dưới 50ms mỗi khung hình, phù hợp cho ứng dụng thời gian thực trên các thiết bị nhúng, hoàn thành trong 9 tháng.
- **Đào tạo và chuyển giao công nghệ cho các đơn vị an ninh và giao thông** để ứng dụng hệ thống nhận diện và theo dõi người đi đường, nâng cao hiệu quả giám sát và an toàn giao thông trong 1-2 năm tới.
- **Nghiên cứu mở rộng ứng dụng nhận diện người trong các môi trường phức tạp** như khu vực đông đúc, điều kiện ánh sáng yếu, nhằm tăng tính ứng dụng thực tế của hệ thống.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành thị giác máy tính, xử lý ảnh số**: Nắm bắt kiến thức chuyên sâu về các phương pháp nhận diện người hiện đại, ứng dụng thuật toán AdaBoost và bộ lọc Kalman.
- **Các kỹ sư phát triển phần mềm giám sát an ninh và giao thông**: Áp dụng các thuật toán nhận diện và theo dõi người đi đường để xây dựng hệ thống giám sát hiệu quả, giảm thiểu sai sót trong phát hiện.
- **Doanh nghiệp công nghệ phát triển hệ thống hỗ trợ lái xe tự động**: Tận dụng các kết quả nghiên cứu để cải tiến hệ thống cảnh báo va chạm người đi đường, nâng cao an toàn giao thông.
- **Cơ quan quản lý giao thông và an ninh công cộng**: Sử dụng luận văn làm cơ sở khoa học để triển khai các giải pháp giám sát, quản lý người đi đường trong đô thị và các khu vực công cộng.

## Câu hỏi thường gặp

1. **Phương pháp ACF là gì và ưu điểm của nó?**  
   ACF là phương pháp nhận diện dựa trên các đặc trưng tổng hợp đa kênh, kết hợp với thuật toán AdaBoost để phân loại. Ưu điểm là độ chính xác cao và tốc độ xử lý nhanh nhờ xây dựng tháp đặc trưng nhanh, phù hợp cho ứng dụng thời gian thực.

2. **Bộ lọc Kalman giúp gì trong nhận diện người đi đường?**  
   Bộ lọc Kalman giúp theo dõi và dự đoán vị trí người đi đường trong video, giảm thiểu mất đối tượng và tăng độ ổn định của hệ thống theo dõi, đặc biệt trong môi trường có nhiều nhiễu và biến động.

3. **Đặc trưng HOG được tính toán như thế nào?**  
   HOG tính toán phân phối hướng gradient trong các vùng cục bộ (cell) của ảnh, sau đó chuẩn hóa theo các khối (block) để giảm ảnh hưởng của ánh sáng và tạo vector đặc trưng mô tả hình dáng đối tượng.

4. **Làm thế nào để đánh giá hiệu quả của phương pháp nhận diện?**  
   Hiệu quả được đánh giá qua các chỉ số như miss rate, false positive per image (FPPI), precision và recall, thường được thể hiện qua các biểu đồ miss rate - FPPI và đường cong Precision-Recall.

5. **Phương pháp này có thể áp dụng trong điều kiện ánh sáng yếu không?**  
   Có, nhờ sử dụng không gian màu CIELUV và chuẩn hóa gamma, phương pháp giảm thiểu ảnh hưởng của điều kiện ánh sáng thay đổi, giúp nhận diện người đi đường hiệu quả trong nhiều môi trường ánh sáng khác nhau.

## Kết luận

- Luận văn đã nghiên cứu và đánh giá thành công phương pháp nhận diện người đi đường dựa trên đặc trưng ACF kết hợp AdaBoost, đạt độ chính xác cao với miss rate khoảng 15% trên bộ dữ liệu chuẩn.  
- Phương pháp xây dựng tháp đặc trưng nhanh giúp giảm thời gian xử lý xuống còn khoảng 33% so với cách tính truyền thống, phù hợp cho ứng dụng thời gian thực.  
- Ứng dụng bộ lọc Kalman trong theo dõi video giúp giảm tỷ lệ mất đối tượng và tăng độ ổn định của hệ thống nhận diện.  
- Đề xuất các giải pháp triển khai và cải tiến hệ thống nhận diện người đi đường, hướng tới ứng dụng thực tế trong giám sát an ninh và hỗ trợ lái xe tự động.  
- Khuyến nghị tiếp tục nghiên cứu mở rộng ứng dụng trong các môi trường phức tạp và đào tạo chuyển giao công nghệ cho các đơn vị liên quan.  

Hành động tiếp theo là triển khai thử nghiệm thực tế tại các địa điểm có lưu lượng người đi lại cao và phát triển phần mềm tích hợp bộ lọc Kalman để nâng cao hiệu quả nhận diện và theo dõi người đi đường.

Trích đoạn nội dung tài liệu

chương 1, luận văn đã trình bày lý thuyết tổng quan về hệ thống nhận diện người, trong đó tập trung vào trường hợp nhận diện người đi đường. Chương này cũng đã trình bày những khó khăn, thách thức trong bài toán nhận diện, cũng như những kết quả nghiên cứu mới trên thế giới trong việc giải quyết bài toán này. Trong chương 2, luận văn sẽ trình bày cơ sở lý thuyết của một số vấn đề liên quan trực tiếp tới phương pháp nhận diện người được sử dụng trong luận văn. CƠ SỞ LÝ THUYẾT Chương này trình bày cơ sở lý thuyết về các khái niệm trong xử lý ảnh có liên quan tới phương pháp nhận diện người đi đường, sẽ được trình bày trong chương 3.1 Gradient của ảnh và đặc trưng biên độ gradient 2.1 Khái niệm gradient trong xử lý ảnh số Trong lĩnh vực ảnh số, gradient là một khái niệm cơ bản trong lĩnh vực xử lý ảnh số.

Theo cách hiểu đơn giản, gradient của một ảnh là sự thay đổi có hướng của cường độ sáng hoặc màu sắc trong ảnh. Gradient ảnh thường được dùng để trích xuất thông tin từ ảnh. Gradient ảnh là phép biến đổi nền tảng trong rất nhiều phương pháp xử lý ảnh số. Một số ví dụ về ứng dụng của gradient trong xử lý ảnh như: phương pháp phát hiện đường viền Canny [3], đặc trưng HOG [5] (mục 2.2), … Định nghĩa: Gradient là một vector 󰇛 󰇜 có các thành phần biểu thị tốc độ thay đổi mức xám của điểm ảnh (pixel) theo 2 hướng x, y trong bối cảnh xử lý ảnh hai chiều.1 minh họa ví dụ về 2 dạng của gradient trong hai bức ảnh mức xám khác nhau.

Trong bức ảnh đầu tiên, các giá trị cao dần về tâm, gradient có hướng về tâm. Trong ảnh thứ hai, các giá trị cao dần từ phải qua trái và gradient cũng có hướng từ phải qua trái. 1 : Hai dạng của gradient. Mũi tên chỉ hướng gradient.

Vùng màu tối thể hiện giá trị cao hơn 19 Các thành phần theo hai hướng của gradient được tính dựa trên công thức đạo hàm bậc nhất như sau: 󰇛 󰇜󰆒 󰇛  󰇜  󰇛 󰇜 (2.2)         Trong đó dx, dy là khoảng cách giữa 2 điểm kế cận nhau theo hướng x, y tương ứng. Đây là phương pháp dựa theo đạo hàm bậc nhất theo hướng x, y. Thực tế trong xử lý ảnh ta thường chọn dx = dy = 1 (tính lân cận tức là điểm ngay cạnh nó, nên có thể coi khoảng cách của chúng là 1) tại điểm có tọa độ là (i, j), thay vào công thức trên ta được: 󰇛      󰇜󰇛 󰇜 (2.4) Theo định nghĩa về gradient, nếu áp dụng các công thức từ (2.4) vào xử lý ảnh, quá trình tính toán sẽ phức tạp. Để đơn giản hóa việc tính toán mà không làm mất đi tính chất của gradient, người ta sử dụng kỹ thuật gradient dùng cặp mặt nạ Hx, Hy trực giao (theo 2 hướng vuông góc).2 minh họa một ảnh mức xám gốc và ảnh gradient tương ứng theo chiều ngang và chiều dọc.

2 : Ảnh mức xám và ảnh gradient tương ứng theo chiều x và chiều y Nếu định nghĩa ,  là gradient theo hai hướng x, y tương ứng tại điểm có tọa độ (m, n), thì biên độ (độ lớn) gradient tại điểm (m, n) và hướng góc của gradient được tính theo công thức (2.6)    󰇜 󰇛  Để giảm độ phức tạp tính toán,  được tính gần đúng như sau:   󰇛  󰇜 󰇛  󰇜 (2.7) Công việc tiếp theo là lựa chọn cặp mặt nạ Hx và Hy sẽ sử dụng và phải tính ,  thông qua cặp mặt nạ đó. Các cặp mặt nạ này còn được gọi là toán tử gradient. Sau đây chúng ta xét một số toán tử gradient tiêu biểu thường được sử dụng. Toán tử Robert: toán tử Robert [25] sử dụng cặp mặt nạ sau để tính toán gradient tại một điểm:       󰇣 󰇤  󰇣 󰇤     Toán tử Robert là một toán tử đơn giản và có tốc độ tính toán nhanh.3 (a) ví dụ một bức ảnh mức xám đầu vào và trong hình 2.2(b) là ảnh độ lớn gradient tương ứng sử dụng toán tử Robert.

3 : Ảnh độ lớn gradient sử dụng các toán tử khác nhau 21 (a): Ảnh mức xám đầu vào. (b) Ảnh độ lớn gradient sử dụng toán tử Robert. (c) Ảnh độ lớn gradient sử dụng toán tử Sobel. (d) Ảnh độ lớn gradient sử dụng toán tử Prewitt Toán tử Sobel: toán tử Sobel [29], hay thường gọi là mặt nạ Sobel hoặc toán tử Sobel – Feldman, là một toán tử được sử dụng rất rộng rãi và được ứng dụng nhiều trong việc phát hiện đường biên.

Toán tử Sobel lần đầu được giới thiệu vào năm 1968 [29], với các mặt nạ tương tự toán tử Robert nhưng có cấu hình khác biệt. Toán tử Sobel sử dụng các mặt nạ kích thước 3x3 như sau:                         Hình 2.3(c) là ảnh gradient sử dụng toán tử Sobel của ảnh đầu vào trong hình 2. Toán tử Prewitt: toán tử Prewitt [23] cũng là một toán tử được sử dụng phổ biến và có cấu trúc tương tự toán tử Sobel, tuy nhiên các thông số mặt nạ có chút khác biệt:                        Hình 2.3(d) là ảnh gradient sử dụng toán tử Prewitt của ảnh đầu vào trong hình 2.2 Ứng dụng của đặc trưng gradient trong xử lý ảnh số Một trong những ứng dụng nổi bật của gradient trong xử lý ảnh số là việc phát hiện và tách biên ảnh. Biên ảnh là những điểm mà tại đó hàm độ sáng của ảnh liên tục có bước nhảy hoặc biến thiên nhanh.

Cơ sở toán học của việc tách biên là phép toán đạo hàm, thực tế trong xử lý ảnh chính là phép tính gradient. Tập hợp các điểm biên tạo thành đường biên (edge) hay đường bao (boundary) của đối tượng trong ảnh. Ý nghĩa của đường biên trong xử lý ảnh: đường biên là một loại đặc trưng cục bộ tiêu biểu trong phân tích và nhận dạng ảnh. Người ta còn dùng đường biên để phân vùng ảnh (segmentation).

Do đó, gradient cũng được ứng dụng rất nhiều trong các phương pháp phân tích và nhận dạng ảnh. Phép tính gradient thường được sử dụng tại các bước trích xuất đặc trưng ảnh, đóng góp trong việc xây dựng nên vector đặc tả của đối tượng ảnh.4 minh họa kết quả tính toán độ lớn và hướng gradient của một bức ảnh đầu vào chứa một đối tượng người.4(a) là ảnh mức xám đầu vào, hình 2.4(b) là ảnh độ lớn (bên phải) và hướng (bên trái) của gradient, sử dụng mặt nạ Sobel. 4 : Một ví dụ về gradient cho ảnh đối tượng người (a) ảnh mức xám đầu vào. (b) ảnh gradient độ lớn (bên trái) và hướng (bên phải) Trong phương pháp nhận diện người sử dụng đặc trưng HOG (histogram of oriented gradient), sẽ được trình bày trong mục 2.2, việc tính toán gradient đóng một vai trò quan trọng trong bước trích xuất đặc trưng của đối tượng trong ảnh.

Ngoài ứng dụng trong việc phát hiện đường biên và đặc trưng ảnh, gradient còn có nhiều ứng dụng trong lĩnh vực chỉnh sửa ảnh. Một số ứng dụng như cắt ghép ảnh, ghép nối ảnh, xóa chi tiết thừa, … đều ứng dụng gradient vào trong các bước xử lý của mình để nâng cao chất lượng.2 Đặc trưng HOG Như đã đề cập trong mục 1.3, phương pháp nhận diện người dựa trên đặc trưng HOG (Histogram of Oriented Gradient) [4, 5] là một phương pháp được sử dụng phổ biến, được coi là một trong những phương pháp tiêu biểu và quan trọng trong các nghiên cứu về hệ thống nhận diện người. Đặc trưng HOG được đề xuất bởi N. Dalal, et al., trong công trình nghiên cứu công bố năm 2005 [5].

Kể từ khi được đề xuất vào năm 2005, HOG đã được áp dụng rộng rãi và liên tục nghiên cứu mở rộng. 23 Như trong tên gọi của phương pháp, gradient được sử dụng như là một phần tạo nên đặc trưng của đối tượng bằng cách dùng gradient để xác định đường viền, Giả thiết chính của phương pháp là đặc điểm, hình dáng cục bộ của đối tượng có thể được biểu diễn tốt thông qua phân phối của cường độ hay hướng của viền, ngay cả khi không cần biết chính xác vị trí của đường viền. Đặc trưng HOG được tính toán tại các vùng cục bộ hình chữ nhật mà ở đó mỗi điểm ảnh ở đường viền sẽ được tính cho một bin trong histogram của gradient dựa theo hướng góc của viền. Biên độ của viền cũng được sử dụng để tính trọng số cho bin tương ứng trong histogram.

Đặc trưng HOG có thể được phân loại thành hai loại: HOG tĩnh (static HOG) và HOG chuyển động (motion HOG). Sự khác nhau giữa hai loại nằm ở chỗ đặc trưng HOG tĩnh được tính trên ảnh, trong khi đặc trưng HOG động được tính trên video và trên luồng quang học. Các bước thực hiện tính toán đặc trưng HOG cho ảnh gồm (hình 2.5):  Chuẩn hóa gamma và màu cho ảnh đầu vào  Tính gradient trên từng điểm ảnh  Chia hướng gradient và gom đặc trưng tại mỗi cell  Tính đặc trưng cho từng khối và chuẩn hóa  Tính vector đặc trưng cho toàn cửa sổ Chuẩn hóa Ảnh đầu vào Tính Gradient gamma & màu Chia hướng và Tính đặc trưng Tính vector đặc gom đặc trưng tại cho khối và trưng cho cửa sổ mỗi cell chuẩn hóa Hình 2. 5 : Sơ đồ các bước trích chọn đặc trưng HOG [5] 2.1 Chuẩn hóa gamma và màu Trước khi trích xuất đặc trưng HOG, ảnh đầu vào được xác định kích thước và xử lý để chuẩn hóa về gamma và màu.

Mục tiêu của bước này là để giảm sự ảnh hưởng của ánh sáng và bóng đổ của đối tượng. Tiến hành làm giảm sự khác biệt giữa sáng 24 và tối, những vùng bị ánh sáng chiếu vào chỗ đó có histogram màu sáng tăng nhiều. Do vậy khi cân bằng lại thì ảnh không còn nhiều pixel màu sáng nữa. Phương pháp chuẩn hóa ảnh dùng biến đổi lũy thừa hoặc căn bậc hai.

Về màu xắc, các tác giả phương pháp cũng thử nghiệm với nhiều không gian màu khác nhau bao gồm ảnh mức xám (grayscale), không gian màu RGB và không gian màu LAB [5]. Theo kết quả nghiên cứu của các tác giả [5], bước chuẩn hóa này có đem lại tác dụng nâng cao hiệu quả của hệ thống, tuy nhiên sự khác biệt là không lớn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên Cứu Phương Pháp Nhận Diện Cơ Thể Người Trong Ảnh Số cung cấp cái nhìn sâu sắc về các phương pháp và kỹ thuật hiện đại trong việc nhận diện cơ thể người từ hình ảnh số. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các thuật toán và công nghệ đang được sử dụng, mà còn chỉ ra những ứng dụng thực tiễn trong các lĩnh vực như an ninh, y tế và giải trí.

Bằng cách nắm bắt những kiến thức này, độc giả có thể áp dụng vào các dự án của riêng mình hoặc mở rộng hiểu biết về công nghệ nhận diện hình ảnh. Để khám phá thêm về các hệ thống nhận dạng trong lĩnh vực công nghệ, bạn có thể tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính hệ thống nhận dạng sản phẩm dựa trên hình ảnh, nơi cung cấp cái nhìn chi tiết về cách nhận diện sản phẩm thông qua hình ảnh, một khía cạnh quan trọng trong việc phát triển các ứng dụng thương mại và công nghệ.

Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các xu hướng mới trong lĩnh vực nhận diện hình ảnh.

#công nghệ nhận diện hình ảnh

#phân tích ảnh số

#trí tuệ nhân tạo trong nhận diện

#phương pháp nhận diện ảnh

#nhận diện cơ thể người

#học máy trong nhận diện cơ thể

Chủ đề

Công nghệ nhận diện hình ảnh hiện đại

học máy và nhận diện cơ thể

ứng dụng của nhận diện cơ thể

thách thức trong nhận diện ảnh số