Luận Văn Thạc Sĩ: Phương Pháp Phát Hiện Mặt Người Sử Dụng Đặc Trưng HOG

Luận văn thạc sĩ nghiên cứu hay phương pháp phát hiện mặt người sử dụng đặc trưng hog, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG I: TỔNG QUAN VỀ PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH VÀ VIDEO

1.1. Phát hiện điểm

1.2. Phép trừ nền

1.3. Mean-Shift Clustering

1.4. Phân đoạn Hình ảnh Sử dụng Đồ thị-Cuts

1.5. Đường nét hoạt động

1.6. Thuật toán Viola–Johns và các vấn đề liên quan

1.7. Đặc trưng Haar wavelet

1.8. ĐẶC TRƯNG HOG VÀ CÁCH SỬ DỤNG HOG KẾT HỢP VỚI SVM TRONG PHÁT HIỆN MẶT NGƯỜI

1.8.1. Phương pháp phát hiện mặt người sử dụng HOG

1.8.2. Rút trích đặc trưng HOG trong ảnh

1.8.3. Chuẩn hóa vector đặc trưng cho từng block

1.8.4. Integral Image, công thức đệ quy tính Integral Image

1.8.5. Chuẩn hóa ánh sáng với bộ lọc Retinal filter

1.8.6. Phương pháp phân lớp SVM

1.9. XÂY DỰNG CHƯƠNG TRÌNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

1.9.1. Môi trường thử nghiệm

1.9.2. Dữ liệu thử nghiệm

1.9.2.1. Cơ sở dữ liệu UOF

1.9.2.2. Cơ sở dữ liệu FEI

1.9.2.3. Cơ sở dữ liệu JAFFE

1.9.2.4. Cơ sở dữ liệu LFW

1.9.3. Kết quả thử nghiệm

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phương Pháp Phát Hiện Mặt Người Bằng Đặc Trưng HOG

Phát hiện mặt người là một lĩnh vực quan trọng trong thị giác máy tính. Phương pháp sử dụng đặc trưng HOG (Histogram of Oriented Gradients) đã trở thành một trong những kỹ thuật phổ biến nhất. Đặc trưng HOG giúp nhận diện khuôn mặt bằng cách phân tích các gradient hướng trong ảnh. Kỹ thuật này không chỉ hiệu quả mà còn có khả năng xử lý tốt trong nhiều điều kiện ánh sáng khác nhau. Nghiên cứu này sẽ đi sâu vào cách thức hoạt động của phương pháp này và ứng dụng của nó trong thực tiễn.

1.1. Khái Niệm Cơ Bản Về Đặc Trưng HOG

Đặc trưng HOG là một phương pháp rút trích đặc trưng hình ảnh, tập trung vào việc phân tích hướng và cường độ của gradient. Kỹ thuật này giúp phát hiện các đặc điểm quan trọng trong khuôn mặt, từ đó hỗ trợ cho việc nhận diện chính xác hơn.

1.2. Lịch Sử Phát Triển Phương Pháp Phát Hiện Mặt Người

Phương pháp phát hiện mặt người đã trải qua nhiều giai đoạn phát triển. Từ những năm 90, các nghiên cứu đã bắt đầu áp dụng các thuật toán đơn giản cho đến những cải tiến hiện đại như HOG và SVM. Sự phát triển này đã mở ra nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau.

II. Vấn Đề Và Thách Thức Trong Phát Hiện Mặt Người

Mặc dù có nhiều tiến bộ trong công nghệ phát hiện mặt người, vẫn tồn tại nhiều thách thức. Các vấn đề như ánh sáng không đồng đều, góc nhìn khác nhau và sự che khuất khuôn mặt gây khó khăn cho việc nhận diện chính xác. Những yếu tố này có thể dẫn đến tỷ lệ phát hiện sai cao, ảnh hưởng đến hiệu quả của hệ thống.

2.1. Ảnh Hưởng Của Ánh Sáng Đến Phát Hiện Mặt

Ánh sáng không đồng đều có thể làm giảm chất lượng hình ảnh, dẫn đến việc khó khăn trong việc phát hiện khuôn mặt. Các nghiên cứu đã chỉ ra rằng việc chuẩn hóa ánh sáng là cần thiết để cải thiện độ chính xác.

2.2. Vấn Đề Che Khuất Khuôn Mặt

Sự che khuất khuôn mặt bởi các vật thể khác hoặc góc nhìn không thuận lợi có thể làm giảm khả năng phát hiện. Các phương pháp hiện tại cần cải tiến để xử lý tốt hơn các tình huống này.

III. Phương Pháp Sử Dụng Đặc Trưng HOG Trong Phát Hiện Mặt

Phương pháp phát hiện mặt người sử dụng đặc trưng HOG kết hợp với SVM (Support Vector Machines) đã cho thấy hiệu quả cao. HOG giúp rút trích các đặc trưng quan trọng từ hình ảnh, trong khi SVM thực hiện phân loại dựa trên các đặc trưng này. Sự kết hợp này tạo ra một hệ thống phát hiện mạnh mẽ và chính xác.

3.1. Quy Trình Rút Trích Đặc Trưng HOG

Quy trình rút trích đặc trưng HOG bao gồm việc chia ảnh thành các khối nhỏ và tính toán gradient hướng trong mỗi khối. Các đặc trưng này sau đó được sử dụng để xây dựng mô hình phân loại.

3.2. Ứng Dụng SVM Trong Phân Loại Khuôn Mặt

SVM là một thuật toán mạnh mẽ cho việc phân loại. Khi kết hợp với HOG, SVM có khả năng phân loại chính xác các khuôn mặt trong ảnh, ngay cả khi có sự biến đổi về ánh sáng và góc nhìn.

IV. Kết Quả Nghiên Cứu Và Ứng Dụng Thực Tiễn

Nghiên cứu đã chỉ ra rằng phương pháp phát hiện mặt người sử dụng đặc trưng HOG có độ chính xác cao trong nhiều điều kiện khác nhau. Các thử nghiệm trên các bộ dữ liệu khác nhau cho thấy tỷ lệ phát hiện thành công lên đến 95%. Điều này mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như an ninh, giám sát và tương tác người-máy.

4.1. Thử Nghiệm Trên Các Bộ Dữ Liệu Khác Nhau

Các thử nghiệm được thực hiện trên nhiều bộ dữ liệu như UOF, FEI và JAFFE. Kết quả cho thấy phương pháp này có khả năng phát hiện khuôn mặt trong các điều kiện khác nhau một cách hiệu quả.

4.2. Ứng Dụng Trong Hệ Thống Giám Sát

Hệ thống phát hiện mặt người có thể được ứng dụng trong các hệ thống giám sát an ninh, giúp nhận diện và theo dõi đối tượng trong thời gian thực.

V. Kết Luận Và Tương Lai Của Phương Pháp Phát Hiện Mặt Người

Phương pháp phát hiện mặt người sử dụng đặc trưng HOG đã chứng minh được tính hiệu quả và khả năng ứng dụng cao. Tuy nhiên, vẫn cần tiếp tục nghiên cứu để cải thiện độ chính xác và khả năng xử lý trong các tình huống phức tạp. Tương lai của phương pháp này hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới.

5.1. Hướng Nghiên Cứu Tương Lai

Nghiên cứu có thể tập trung vào việc cải thiện khả năng phát hiện trong các điều kiện ánh sáng yếu và góc nhìn khác nhau. Việc áp dụng các công nghệ mới như Deep Learning cũng có thể mang lại những bước tiến mới.

5.2. Ứng Dụng Mở Rộng Trong Cuộc Sống

Phương pháp này có thể được mở rộng ứng dụng trong nhiều lĩnh vực khác nhau như y tế, giáo dục và giải trí, tạo ra những trải nghiệm mới cho người dùng.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay phương pháp phát hiện mặt người sử dụng đặc trưng hog

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phát hiện mặt người trong ảnh và video là một bài toán trọng yếu trong lĩnh vực thị giác máy tính, với nhiều ứng dụng thực tiễn như hệ thống giám sát, quản lý ra vào, nhận diện người và phân tích cảm xúc. Theo ước tính, các hệ thống phát hiện khuôn mặt hiện nay phải xử lý hàng nghìn khung hình mỗi giây trong môi trường có điều kiện ánh sáng và phức tạp về nền ảnh. Mục tiêu nghiên cứu của luận văn là phát triển phương pháp phát hiện mặt người sử dụng đặc trưng Histogram of Oriented Gradient (HOG) kết hợp với máy phân lớp Support Vector Machines (SVM), nhằm nâng cao độ chính xác và tốc độ phát hiện trong các ảnh thu từ camera giám sát lớp học tại tỉnh Thái Nguyên. Phạm vi nghiên cứu tập trung vào dữ liệu ảnh kích thước 64x128 pixel, với các bộ dữ liệu chuẩn như UOF, FEI, JAFFE và LFW được sử dụng để huấn luyện và đánh giá. Ý nghĩa của nghiên cứu thể hiện qua việc xây dựng hệ thống hỗ trợ điểm danh tự động học sinh, góp phần nâng cao hiệu quả quản lý giáo dục và ứng dụng rộng rãi trong các hệ thống giám sát an ninh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: đặc trưng HOG và phương pháp phân lớp SVM. Đặc trưng HOG mô tả hình dạng và cấu trúc bề mặt của đối tượng bằng cách thống kê phân bố các hướng gradient cục bộ trong ảnh, giúp mô tả bất biến với các biến đổi về ánh sáng và vị trí. Mô hình HOG chia ảnh thành các ô (cells) 8x8 pixel, sau đó nhóm các ô thành khối (blocks) 2x2 với sự chồng lấp 50%, tạo ra vector đặc trưng có chiều dài 3780 thành phần cho mỗi cửa sổ 64x128 pixel. Phương pháp phân lớp SVM được sử dụng để phân biệt giữa mặt người và nền, với mục tiêu tối đa hóa khoảng cách lề giữa hai lớp trong không gian đặc trưng, đảm bảo khả năng tổng quát hóa tốt. Ngoài ra, bộ lọc Retina filter được áp dụng để chuẩn hóa ánh sáng, tăng cường các đặc điểm quan trọng trên khuôn mặt như mắt, mũi, miệng, giúp cải thiện hiệu quả phát hiện.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm các bộ dữ liệu chuẩn UOF, FEI, JAFFE và LFW, với tổng số khoảng vài trăm ảnh khuôn mặt đa dạng về biểu cảm, góc nhìn và điều kiện ánh sáng. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát từ các bộ dữ liệu này để đảm bảo tính đại diện. Quá trình nghiên cứu được thực hiện theo timeline gồm: tiền xử lý ảnh (chuyển sang grayscale, cân bằng histogram), rút trích đặc trưng HOG, chuẩn hóa vector đặc trưng từng block, huấn luyện mô hình SVM tuyến tính, và đánh giá kết quả trên tập kiểm tra độc lập. Phân tích kết quả sử dụng các chỉ số như độ chính xác, tỷ lệ phát hiện đúng (correct face), tỷ lệ bỏ sót (miss face) và tỷ lệ phát hiện sai (false face). Việc so sánh kết quả với thuật toán Viola-Jones được thực hiện để đánh giá ưu nhược điểm của phương pháp đề xuất.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác phát hiện mặt người: Phương pháp HOG kết hợp SVM đạt độ chính xác trung bình khoảng 87% trên bộ dữ liệu FEI và UOF, cao hơn so với thuật toán Viola-Jones đạt khoảng 86-87% trên cùng bộ dữ liệu. Trên bộ dữ liệu JAFFE, phương pháp đạt 100% phát hiện đúng, thể hiện khả năng xử lý tốt các ảnh khuôn mặt chính diện với biểu cảm đa dạng.
Khả năng phát hiện trong điều kiện phức tạp: Phương pháp HOG cho thấy hiệu quả vượt trội trong việc phát hiện khuôn mặt bị nghiêng, có che khuất một phần hoặc đeo kính, với tỷ lệ bỏ sót giảm khoảng 10% so với Viola-Jones, vốn bị ảnh hưởng bởi số lượng mẫu huấn luyện hạn chế và đặc trưng Haar không đủ linh hoạt.
Tốc độ xử lý: Nhờ sử dụng kỹ thuật integral image và chuẩn hóa vector đặc trưng từng block, thời gian tính toán đặc trưng HOG được rút ngắn đáng kể, phù hợp với yêu cầu xử lý thời gian thực trong các hệ thống giám sát.
Ảnh hưởng của chuẩn hóa ánh sáng: Việc áp dụng bộ lọc Retina filter giúp giảm thiểu ảnh hưởng của biến đổi ánh sáng, tăng độ ổn định của vector đặc trưng HOG, từ đó cải thiện độ chính xác phát hiện lên khoảng 5% trong các điều kiện ánh sáng không đồng đều.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy đặc trưng HOG kết hợp SVM là một giải pháp hiệu quả cho bài toán phát hiện mặt người trong ảnh giám sát, đặc biệt trong môi trường có nhiều biến đổi về tư thế và ánh sáng. So với phương pháp Viola-Jones dựa trên đặc trưng Haar và AdaBoost, HOG cung cấp mô tả chi tiết hơn về cấu trúc hình dạng, giúp giảm tỷ lệ phát hiện sai và bỏ sót. Các biểu đồ so sánh độ chính xác và tỷ lệ lỗi trên các bộ dữ liệu chuẩn minh họa rõ ràng sự vượt trội của phương pháp đề xuất. Tuy nhiên, phương pháp vẫn còn hạn chế khi đối mặt với các ảnh có nền phức tạp hoặc khuôn mặt bị che khuất nặng, đòi hỏi nghiên cứu thêm về kết hợp các đặc trưng cục bộ hoặc học sâu. Ngoài ra, việc huấn luyện SVM đòi hỏi tập dữ liệu lớn và cân bằng để tránh hiện tượng quá khớp.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm các ảnh khuôn mặt với đa dạng tư thế, biểu cảm và điều kiện ánh sáng nhằm tăng cường khả năng tổng quát hóa của mô hình, giảm tỷ lệ bỏ sót và phát hiện sai.
Tối ưu hóa thuật toán phát hiện: Áp dụng kỹ thuật giảm chiều dữ liệu hoặc sử dụng các biến thể HOG như R-HOG, C-HOG để giảm kích thước vector đặc trưng, từ đó tăng tốc độ xử lý mà vẫn giữ được độ chính xác.
Kết hợp đa đặc trưng: Nghiên cứu tích hợp đặc trưng HOG với các đặc trưng cục bộ hoặc học sâu (deep learning) để cải thiện khả năng phát hiện trong các trường hợp khuôn mặt bị che khuất hoặc nền phức tạp.
Triển khai thực tế hệ thống điểm danh tự động: Phát triển phần mềm ứng dụng trên nền tảng camera giám sát lớp học, với thời gian thực hiện trong vòng 6 tháng, phối hợp cùng Sở Giáo dục và Đào tạo tỉnh Thái Nguyên để thử nghiệm và đánh giá hiệu quả.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu thị giác máy tính: Tìm hiểu sâu về phương pháp phát hiện mặt người sử dụng đặc trưng HOG và ứng dụng SVM, phục vụ phát triển các thuật toán nhận dạng đối tượng.
Kỹ sư phát triển hệ thống giám sát an ninh: Áp dụng các kỹ thuật phát hiện khuôn mặt chính xác và nhanh chóng trong các hệ thống camera giám sát công cộng, doanh nghiệp.
Chuyên gia giáo dục và quản lý trường học: Ứng dụng hệ thống điểm danh tự động dựa trên phát hiện khuôn mặt để nâng cao hiệu quả quản lý học sinh, giảm thiểu sai sót và gian lận.
Sinh viên và học viên cao học ngành Khoa học máy tính: Tham khảo phương pháp nghiên cứu, quy trình xây dựng mô hình và đánh giá kết quả trong lĩnh vực thị giác máy tính và học máy.

Câu hỏi thường gặp

Phương pháp HOG có ưu điểm gì so với Haar-Like trong phát hiện mặt người?
HOG mô tả chi tiết phân bố hướng gradient, giúp phát hiện chính xác hơn trong các điều kiện ánh sáng và tư thế đa dạng, trong khi Haar-Like phụ thuộc nhiều vào mẫu huấn luyện và dễ bị ảnh hưởng bởi biến đổi ánh sáng.
SVM được sử dụng như thế nào trong bài toán này?
SVM phân loại vector đặc trưng HOG thành hai lớp: mặt người và không phải mặt người, bằng cách tìm siêu phẳng phân cách tối ưu với khoảng cách lề lớn nhất, giúp tăng độ chính xác và khả năng tổng quát hóa.
Bộ lọc Retina filter có tác dụng gì trong quá trình tiền xử lý?
Bộ lọc này chuẩn hóa ánh sáng và tăng cường các đặc điểm quan trọng trên khuôn mặt, giúp giảm ảnh hưởng của điều kiện ánh sáng không đồng đều và cải thiện hiệu quả phát hiện.
Phương pháp này có thể áp dụng cho video trực tiếp không?
Có, nhờ kỹ thuật integral image và chuẩn hóa vector đặc trưng, phương pháp có thể xử lý nhanh, phù hợp với yêu cầu thời gian thực trong các hệ thống giám sát video.
Làm thế nào để giảm tỷ lệ phát hiện sai và bỏ sót?
Cần mở rộng bộ dữ liệu huấn luyện đa dạng, kết hợp thêm các đặc trưng khác hoặc áp dụng các kỹ thuật học sâu để tăng khả năng nhận diện trong các trường hợp phức tạp.

Kết luận

Phương pháp phát hiện mặt người sử dụng đặc trưng HOG kết hợp SVM đạt độ chính xác cao, vượt trội so với các phương pháp truyền thống như Viola-Jones.
Kỹ thuật chuẩn hóa ánh sáng bằng bộ lọc Retina filter giúp cải thiện đáng kể hiệu quả phát hiện trong điều kiện ánh sáng thay đổi.
Việc sử dụng integral image và chuẩn hóa vector đặc trưng giúp tăng tốc độ xử lý, phù hợp với ứng dụng thời gian thực.
Kết quả nghiên cứu hỗ trợ xây dựng hệ thống điểm danh tự động học sinh, góp phần nâng cao hiệu quả quản lý giáo dục tại Thái Nguyên.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu thuật toán và triển khai thử nghiệm thực tế trong vòng 6 tháng tới.

Mời quý độc giả và các nhà nghiên cứu quan tâm liên hệ để trao đổi và hợp tác phát triển các ứng dụng thị giác máy tính trong tương lai.

Trích đoạn nội dung tài liệu

CHƯƠNG I. TỔNG QUAN VỀ PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH VÀ VIDEO Mọi phương pháp nhận dạng đều yêu cầu cơ chế phát hiện đối tượng trong mỗi hình ảnh hoặc khi đối tượng xuất hiện trong video. Cách tiếp cận phổ biến để phát hiện đối tượng là sử dụng thông tin trong một hình ảnh đơn. Tuy nhiên, một số phương pháp phát hiện đối tượng sử dụng thông tin thời gian được tính từ một chuỗi các hình ảnh để giảm số lần phát hiện sai.

Thông tin thời gian này thường ở sự khác biệt hình ảnh, làm nổi bật các vùng thay đổi trong các hình ảnh liên tiếp. Phát hiện điểm Phát hiện điểm [1] được sử dụng để tìm các điểm quan tâm trong các hình ảnh có kết cấu biểu cảm ở các vùng tương ứng. Điểm quan tâm được sử dụng nhiều trong các ngữ cảnh chuyển động, âm thanh stereo, và các vấn đề theo dõi. Chất lượng mong muốn của điểm quan tâm là sự bất biến của nó đối với những thay đổi về độ chiếu sáng và quan điểm của máy ảnh.

Trong các tài liệu, các phát hiện điểm thường được sử dụng bao gồm: phát hiện điểm Moravec, phát hiện điểm Harris, máy dò KLT, và phát hiện SIFT. Để đánh giá, so sánh các điểm quan tâm, chúng ta tham khảo nghiên cứu của Mikolajczyk và Schmid. Để tìm các điểm quan tâm, thuật toán của Moravec tính toán sự thay đổi của các điểm ảnh hình ảnh trong một bảng kích thước 4x4 theo hướng ngang, dọc, đường chéo và chọn tối thiểu bốn biến thể như các giá trị đại diện cho cửa sổ. Một điểm được xác nhận là quan tâm nếu sự thay đổi cường độ cục bộ tối đa kích thước 12x12.1: Các điểm quan tâm được phát hiện bằng cách áp dụng (a) Harris, (b) các toán tử KLT, và (c) SIFT.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 Máy dò Harris tính toán các dẫn xuất hình ảnh bậc nhất, (𝐼𝑥, 𝐼𝑦, ) theo các hướng x và y để làm nổi bật các biến thể cường độ hướng, sau đó một ma trận thời gian thứ hai mã hóa biến thể này, được đánh giá cho mỗi điểm ảnh trong một khu vực lân cận nhỏ: ∑ 𝐼𝑥2 ∑ 𝐼𝑥 𝐼𝑦 𝑀=( ) (1) ∑ 𝐼𝑥 𝐼𝑦 ∑ 𝐼𝑦2 Một điểm quan tâm được xác định bằng cách sử dụng phương thức và dấu vết của M đo lường sự biến thiên trong một khu vực lân cận 𝑅 = 𝑑𝑒𝑡(𝑀) − 𝑘. 𝑡𝑟(𝑀)2 , trong đó k là hằng số. Các điểm quan tâm được đánh dấu bằng ngưỡng R sau khi áp dụng sự khử không tối đa (kết quả hình 1. Ma trận thời gian tương tự M được đưa ra trong phương trình (1) được sử dụng trong bước phát hiện điểm quan tâm của phương pháp theo dõi KLT.

Xác định điểm quan tâm R được tính bằng cách sử dụng giá trị riêng tối thiểu của 𝑀, 𝜆𝑚𝑖𝑛. Các điểm quan tâm được lựa chọn bởi ngưỡng R. Trong số các điểm quan tâm, KLT loại bỏ các điểm quan tâm mà không gian gần nhau (Hình 1.Về mặt định lượng cả Harris và KLT đều nhấn mạnh các biến thể cường độ bằng các biện pháp tương tự nhau. Ví dụ, R ở Harris có liên quan đến đa thức đặc trưng được sử dụng để tìm các giá trị riêng của 𝑀: 𝜆2 + 𝑑𝑒𝑡(𝑀) − 𝜆.

𝑡𝑟(𝑀) = 0, trong khi KLT tính trực tiếp các giá trị riêng. Trong thực tế, cả hai phương pháp này đều tìm thấy gần như cùng một điểm quan tâm. Sự khác biệt duy nhất là tiêu chí KLT bổ sung thực thi một khoảng cách không gian được xác định trước giữa các điểm quan tâm đã phát hiện. Về lý thuyết, ma trận M là bất biến đối với phép quay và dịch.

Tuy nhiên, không phải bất biến đối với các biến đổi affine hoặc projective. Để giới thiệu sự phát hiện mạnh mẽ các điểm quan tâm dưới các biến đổi khác nhau, Lowe đã giới thiệu phương pháp SIFT (Quy mô biến đổi không đổi) bao gồm bốn bước. Thứ nhất, một không gian được xây dựng bằng cách hợp nhất hình ảnh với các bộ lọc Gaussian ở các quy mô khác nhau. Hình ảnh đã hợp nhất được sử dụng để LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 tạo ra các hình ảnh khác nhau của Gaussians (DoG).

Các điểm quan tâm đề xuất sau đó được chọn từ các cực tiểu và cực đại của các hình ảnh DoG trên tỷ lệ. Bước tiếp theo cập nhật vị trí của mỗi đề xuất bằng cách nội suy các giá trị màu sắc và sử dụng các điểm ảnh lân cận. Trong bước thứ ba, loại bỏ các đề xuất tương phản thấp, dọc theo các cạnh. Cuối cùng, các điểm quan tâm còn lại được định hướng dựa trên các đỉnh trong biểu đồ của các đường định hướng gradient trong một khu vực nhỏ xung quanh điểm đề xuất.

Máy dò SIFT tạo ra một số điểm quan tâm lớn hơn so với các máy dò điểm quan tâm khác. Điều này là do thực tế các điểm quan tâm ở các quy mô khác nhau và độ phân giải khác nhau (hình chóp) được tích trữ. Theo kinh nghiệm SIFT tốt hơn hầu hết các điểm dò và linh hoạt hơn cho các biến dạng hình ảnh. Phép trừ nền Phát hiện đối tượng có thể đạt được bằng cách xây dựng một biểu diễn của cảnh được gọi là mô hình nền, sau đó tìm ra độ lệch từ mô hình cho mỗi khung.

Bất kỳ thay đổi nhỏ nào trong vùng hình ảnh từ hình nền cho thấy một đối tượng chuyển động. Các điểm ảnh tạo thành các vùng thay đổi được đánh dấu để xử lý tiếp. Thông thường, thuật toán thành phần kết nối được áp dụng để có được các vùng kết nối tương ứng với các đối tượng. Quá trình này được gọi là phép trừ nền [1].

Sự khác biệt khung của các khung liền kề đã được nghiên cứu kỹ lưỡng từ cuối những năm 70. Tuy nhiên, phép trừ nền đã trở nên phổ biến theo sau công trình của Wren et al. Để tìm hiểu sự thay đổi dần dần về thời gian, Wren et al. đề xuất mô hình hoá màu sắc của mỗi điểm ảnh, 𝐼 (𝑥, 𝑦) của một nền tĩnh cố định với một không gian màu 3D (Y, U, và V) Gaussian, 𝐼(𝑥, 𝑦) ~ 𝑁(𝜇 (𝑥, 𝑦) , ∑( 𝑥, 𝑦)).

Các thông số mô hình, trung bình (x, y) và hiệp phương sai £(x, y), được học từ các quan sát màu sắc trong một số khung liên tiếp. Khi mô hình nền được tạo ra, đối với mỗi điểm ảnh (𝑥, 𝑦) trong khung đầu vào, tính khả năng màu của nó đến từ 𝑁(𝜇(𝑥, 𝑦), ∑(𝑥, 𝑦)) được tính toán, và các điểm ảnh đi chệch hướng mô hình nền LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 được dán nhãn là các điểm ảnh nổi. Tuy nhiên, một Gaussian không phải là một mô hình tốt cho những cảnh ngoài trời vì nhiều màu sắc có thể được quan sát ở một vị trí nhất định do chuyển động đối tượng lặp đi lặp lại, bóng hoặc phản xạ. Một cải tiến đáng kể trong mô hình nền đã đạt được bằng cách sử dụng mô hình thống kê đa phương thức để mô tả màu nền cho mỗi điểm ảnh.

Ví dụ, Stauffer và Grimson sử dụng một hỗn hợp của Gaussians để mô hình màu điểm ảnh. Trong phương pháp này, một điểm ảnh trong khung hiện tại được kiểm tra đối với mô hình nền bằng cách so sánh nó với mọi Gaussian trong mô hình cho đến khi tìm thấy một Gaussian phù hợp. Nếu so khớp được tìm thấy, giá trị trung bình và phương sai của Gaussian phù hợp được cập nhật, nếu không Gaussian mới có nghĩa là bằng với màu điểm ảnh hiện tại và một số phương sai ban đầu được đưa vào hỗn hợp. Mỗi điểm ảnh được phân loại dựa trên việc phân phối phù hợp có phải là quá trình nền hay không.

Di chuyển các khu vực, được phát hiện bằng cách sử dụng phương pháp này, cùng với các mô hình nền được thể hiện trong hình 1. (a) Hình ảnh từ một dãy trong đó một người đang đi ngang qua hiện trường. (b) Giá trị trung bình của các Gaussian có trọng số cao nhất ở mỗi vị trí điểm ảnh. Các phương tiện này đại diện cho màu sắc cho mỗi điểm ảnh tạm thời nhất và do đó phải đại diện cho nền tĩnh.

(c) Các phương tiện của Gauss với trọng lượng cao thứ hai; những phương tiện này đại diện cho màu sắc được quan sát ít thường xuyên hơn. (d) Kết quả trừ nền. Các tiền cảnh bao gồm các điểm ảnh trong khung hiện tại mà phù hợp với một trọng số thấp Gaussian.2: Hỗn hợp mô hình Gaussian cho phép trừ nền. Cách tiếp cận khác là kết hợp thông tin cảnh dựa trên vùng (không gian) thay vì chỉ sử dụng thông tin dựa trên màu.

Elgammal và Davis sử dụng ước lượng mật độ hạt nhân không tham số để mô hình nền cho mỗi điểm ảnh. Trong quá trình trừ, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16 điểm ảnh hiện tại không chỉ khớp với điểm ảnh tương ứng trong mô hình nền, mà còn đến vị trí điểm ảnh gần đó. Do đó, phương pháp này có thể xử lý sự chập chờn của ảnh hoặc các chuyển động nhỏ trong nền. Li và Leung kết hợp các tính năng kết cấu và màu để thực hiện phép trừ nền trên khối 5 x 5 điểm ảnh.

Do cấu trúc không thay đổi nhiều với sự thay đổi độ chiếu sáng, nên phương pháp này ít bị ảnh hưởng bởi ánh sáng. Toyama và cộng sự đề xuất một thuật toán ba cấp để giải quyết vấn đề trừ nền. Ngoài phép trừ cấp điểm ảnh, họ sử dụng miền và thông tin mức khung. Ở cấp điểm ảnh, họ đề xuất sử dụng bộ lọc Wiener để dự đoán có tính xác suất về màu nền dự kiến.

Ở cấp vùng, các vùng tiền cảnh bao gồm màu đồng nhất được điền vào. Ở cấp khung, nếu hầu hết các điểm ảnh trong khung hiển thị đột ngột thay đổi, giả sử rằng các mô hình nền màu điểm ảnh dựa trên không còn hợp lệ. Vào thời điểm này, mô hình nền dựa trên điểm ảnh được lưu trữ trước đó được hoán đổi, hoặc mô hình được khởi tạo lại. Cách tiếp cận thay thế cho phép trừ nền là đại diện cho các biến thể cường độ của một điểm ảnh trong một chuỗi ảnh như các trạng thái rời rạc tương ứng với các sự kiện trong môi trường.

Rittscher et al sử dụng mô hình Markov ẩn (HMM) để phân loại các khối nhỏ của một hình ảnh giống như một trong ba trạng thái này. Trong bối cảnh phát hiện ánh sáng trong và ngoài sự kiện trong một căn phòng, Stenger et al sử dụng HMM cho phép trừ nền.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phương pháp phát hiện mặt người

Ứng dụng của đặc trưng HOG

Nghiên cứu về thuật toán nhận diện

Ý nghĩa thực tiễn của phát hiện mặt