Phát Hiện Đối Tượng Dựa Trên Các Đặc Tính Cục Bộ

Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa nghiên cứu phát hiện đối tượng dựa trên các đặc tính cục bộ, ứng dụng trong công nghệ hiện đại.

Trường đại học

Đại học Bách Khoa - ĐHQG TP. HCM

Chuyên ngành

Kỹ thuật điều khiển và tự động hóa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI

1.1. Bài toán phát hiện đối tượng

1.2. Các công trình nghiên cứu liên quan

1.3. Đặc tính toàn cục và Đặc tính cục bộ

1.4. Cách tiếp cận vấn đề

1.5. Ý nghĩa khoa học

1.6. XÂY DỰNG MÔ HÌNH ĐỐI TƯỢNG DỰA VÀO CÁC ĐẶC TÍNH CỤC BỘ

1.6.1. Mô hình toàn cục

1.6.2. Mô hình từng phần

1.6.3. Sử dụng mô hình từng phần để phát hiện đối tượng

1.6.4. Mô hình hỗn hợp

1.7. HUẤN LUYỆN MÔ HÌNH CỦA CÁC ĐỐI TƯỢNG

1.7.1. Huấn luyện mô hình

1.7.2. Khởi tạo các tham số của bài toán huấn luyện mô hình

1.8. TRÍCH XUẤT ĐẶC TRƯNG CỦA ĐỐI TƯỢNG

1.8.1. Trích xuất đặc trưng HOG của đối tượng

1.8.2. PCA và phân tích giảm số chiều của vector đặc trưng

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN

5.1. Tiêu chuẩn đánh giá

5.2. Kết quả thực nghiệm

CÁC BÀI BÁO LIÊN QUAN ĐẾN ĐỀ TÀI CỦA HỌC VIÊN

Danh sách hình vẽ

Danh sách bảng

Danh mục chữ viết tắt

Tóm tắt

I. Tổng Quan Về Phát Hiện Đối Tượng Dựa Trên Đặc Tính Cục Bộ

Những năm gần đây, các ngành công nghiệp đầu tư mạnh vào dịch vụ trực tuyến, thương mại điện tử, sử dụng hình ảnh và video để cung cấp thông tin. Việc khai thác thông tin từ ảnh trở nên quan trọng. Để máy tính "hiểu" ảnh, bước đầu tiên là phát hiện đối tượng ở đâu trong hình. Bài toán Phát hiện đối tượng trong lĩnh vực thị giác máy tính luôn là mối quan tâm. Sự khó khăn của bài toán do đối tượng có thể khác nhau về hình dáng, kích thước, chiếu sáng, hướng quan sát, và sự che khuất. Quá trình xử lý ảnh đòi hỏi nhiều thời gian. Theo quan sát, đối tượng thường cấu thành từ nhiều thành phần nhỏ. Ví dụ: khuôn mặt có mắt, miệng, mũi; con người có đầu, tay, chân; xe hơi có bánh, đèn, gương. Yêu cầu là độ chính xác cao, cần các đặc trưng tốt. Đặc trưng cục bộ là đặc trưng của các thành phần nhỏ này. Luận văn trình bày phương pháp Phát hiện đối tượng dựa trên các đặc tính cục bộ. Luận văn mô tả các bước mô hình hóa đối tượng, trích xuất đặc trưng, sự tương quan các thành phần, huấn luyện hệ thống, và áp dụng vào các tập mẫu.

1.1. Bài toán Phát Hiện Đối Tượng Giới Thiệu và Thách Thức

Phát hiện đối tượng là thách thức cơ bản của thị giác máy tính. Nó trả lời câu hỏi "Đó là những đối tượng nào?" và "Đối tượng ở đâu trong hình?". Đầu vào là ảnh tĩnh, đầu ra là vị trí và nhóm đối tượng. Mục đích là trả về danh sách chính xác nhóm đối tượng quan tâm và vị trí của chúng với bounding box. Việc này không đơn giản vì thông tin bị mất mát và ảnh hưởng bởi nhiễu khi chuyển từ không gian ba chiều sang hai chiều. Ngay cả định nghĩa về đối tượng cũng gây nhầm lẫn. (Theo Tóm tắt luận văn)

1.2. Ứng dụng của Phát Hiện Đối Tượng Thực Tiễn và Tương Lai

Phát hiện đối tượng có nhiều ứng dụng trong nghiên cứu khoa học và đời sống. Nó là bước đầu để máy tính "nhìn" thấy thế giới. Ứng dụng rộng rãi trong phát hiện khuôn mặt, người, xe, biển báo giao thông, hệ thống tìm kiếm thông tin dựa trên nội dung ảnh, robot thông minh, và hệ thống tự động. Các hệ thống này giúp tăng cường an ninh, cải thiện hiệu quả công việc, và nâng cao trải nghiệm người dùng. Trong tương lai, ứng dụng phát hiện đối tượng sẽ còn phát triển mạnh mẽ hơn nữa với sự tiến bộ của Deep Learning và Computer Vision.

II. Cách Xây Dựng Mô Hình Đối Tượng Dựa Trên Đặc Tính Cục Bộ

Luận văn đề xuất cách xây dựng mô hình đối tượng dựa vào các thành phần nhỏ, hay đặc tính cục bộ. Các phương pháp tiếp cận bao gồm mô hình toàn cục, mô hình từng phần, và mô hình hỗn hợp. Mô hình toàn cục xem đối tượng là một khối duy nhất. Mô hình từng phần chia đối tượng thành nhiều phần, mỗi phần có đặc trưng riêng. Mô hình hỗn hợp kết hợp cả hai cách tiếp cận. Việc lựa chọn mô hình phụ thuộc vào độ phức tạp của đối tượng và yêu cầu độ chính xác. Mô hình từng phần thích hợp với các đối tượng có cấu trúc phức tạp, cho phép xử lý sự biến dạng và che khuất tốt hơn. Mô hình toàn cục đơn giản hơn, phù hợp với các đối tượng đơn giản và ít biến dạng.

2.1. Mô Hình Toàn Cục Ưu và Nhược Điểm Trong Phát Hiện Đối Tượng

Mô hình toàn cục xem đối tượng như một khối thống nhất. Ưu điểm là đơn giản, dễ triển khai. Nhược điểm là kém linh hoạt, khó xử lý sự biến dạng và che khuất. Mô hình này phù hợp với các đối tượng có hình dạng cố định, ít thay đổi. Ví dụ: biển báo giao thông. Để nhận diện, cần trích xuất các đặc trưng như HOG hoặc LBP trên toàn bộ ảnh đối tượng.

2.2. Mô Hình Từng Phần Giải Pháp cho Đối Tượng Biến Dạng

Mô hình từng phần chia đối tượng thành các thành phần nhỏ hơn, độc lập. Ví dụ, khuôn mặt được chia thành mắt, mũi, miệng. Ưu điểm là linh hoạt, xử lý tốt sự biến dạng và che khuất. Nhược điểm là phức tạp hơn, cần nhiều tính toán hơn. Mỗi thành phần được mô hình hóa riêng biệt. Sự kết hợp giữa các thành phần tạo nên mô hình tổng thể của đối tượng. Mô hình này thường được sử dụng trong phát hiện khuôn mặt và nhận dạng người.

2.3. Mô Hình Hỗn Hợp Kết Hợp Ưu Điểm để Tăng Độ Chính Xác

Mô hình hỗn hợp kết hợp cả mô hình toàn cục và mô hình từng phần. Nó tận dụng ưu điểm của cả hai phương pháp. Ví dụ, sử dụng mô hình toàn cục để phát hiện vùng chứa đối tượng, sau đó dùng mô hình từng phần để xác định chính xác vị trí và cấu trúc của đối tượng. Điều này giúp tăng độ chính xác và độ tin cậy của hệ thống phát hiện đối tượng.

III. Phương Pháp Huấn Luyện Mô Hình Phát Hiện Đối Tượng Hiệu Quả

Để phát hiện đối tượng hiệu quả, cần huấn luyện mô hình đối tượng. Quá trình này bao gồm khởi tạo tham số, trích xuất đặc trưng, và sử dụng thuật toán học máy để tối ưu hóa mô hình. Các thuật toán phổ biến là SVM (Support Vector Machine), Deep Learning, và Adaboost. Việc lựa chọn thuật toán phụ thuộc vào loại mô hình, kích thước tập dữ liệu, và yêu cầu về độ chính xác. Quá trình huấn luyện cần có tập dữ liệu lớn và đa dạng để đảm bảo mô hình có khả năng tổng quát hóa tốt. Đánh giá độ chính xác của mô hình trên tập dữ liệu kiểm tra là bước quan trọng để đảm bảo hiệu quả của hệ thống.

3.1. Khởi Tạo Tham Số Bước Quan Trọng Trong Huấn Luyện Mô Hình

Khởi tạo tham số ban đầu ảnh hưởng lớn đến quá trình huấn luyện mô hình. Việc lựa chọn giá trị khởi tạo phù hợp giúp tăng tốc độ hội tụ và tránh các cực trị cục bộ. Các phương pháp khởi tạo phổ biến bao gồm khởi tạo ngẫu nhiên, khởi tạo dựa trên kiến thức miền, và khởi tạo bằng các mô hình đã được huấn luyện trước (transfer learning). Việc lựa chọn phương pháp khởi tạo phụ thuộc vào loại mô hình và tập dữ liệu.

3.2. Tối Ưu Hóa Mô Hình SVM và Deep Learning trong Phát Hiện Đối Tượng

Quá trình tối ưu hóa mô hình là tìm ra các tham số sao cho mô hình dự đoán chính xác nhất trên tập dữ liệu huấn luyện. Các thuật toán tối ưu hóa phổ biến bao gồm gradient descent, stochastic gradient descent, và các biến thể của chúng. SVM và Deep Learning là hai phương pháp mạnh mẽ trong phát hiện đối tượng. SVM hiệu quả với dữ liệu có cấu trúc tốt, trong khi Deep Learning có khả năng học các đặc trưng phức tạp từ dữ liệu thô.

3.3. Đánh Giá Độ Chính Xác Tiêu Chí và Phương Pháp

Đánh giá độ chính xác là bước quan trọng để đảm bảo hiệu quả của hệ thống. Các tiêu chí đánh giá phổ biến bao gồm độ chính xác (precision), độ phủ (recall), và F1-score. Ngoài ra, Average Precision (AP) là một thước đo phổ biến để đánh giá hiệu quả của thuật toán phát hiện đối tượng trên các tập dữ liệu chuẩn như PASCAL VOC. Việc đánh giá cần được thực hiện trên tập dữ liệu kiểm tra độc lập để đảm bảo tính khách quan.

IV. Trích Xuất Đặc Trưng Hiệu Quả Cho Bài Toán Phát Hiện Đối Tượng

Việc trích xuất đặc trưng là bước quan trọng trong phát hiện đối tượng. Các đặc trưng tốt giúp phân biệt giữa đối tượng và nền, cũng như giữa các loại đối tượng khác nhau. Các đặc trưng phổ biến bao gồm HOG, SIFT, SURF, Haar-like, và LBP. HOG (Histogram of Oriented Gradients) mô tả sự phân bố gradient của hình ảnh. SIFT (Scale-Invariant Feature Transform) và SURF (Speeded-Up Robust Features) là các đặc trưng bất biến với tỉ lệ và góc xoay. Haar-like là các đặc trưng dựa trên sự khác biệt về cường độ sáng. LBP (Local Binary Pattern) mô tả cấu trúc cục bộ của hình ảnh. Việc lựa chọn đặc trưng phụ thuộc vào loại đối tượng và yêu cầu về tốc độ và độ chính xác.

4.1. Đặc Trưng HOG Ưu Điểm và Cách Sử Dụng

Đặc trưng HOG (Histogram of Oriented Gradients) mô tả sự phân bố gradient của hình ảnh. Ưu điểm là đơn giản, hiệu quả, và ít nhạy cảm với sự thay đổi về ánh sáng. HOG được tính bằng cách chia ảnh thành các ô nhỏ, tính histogram của hướng gradient trong mỗi ô, và chuẩn hóa histogram. HOG thường được sử dụng trong phát hiện người và phát hiện xe.

4.2. Giảm Chiều Dữ Liệu PCA và Ứng Dụng trong Xử Lý Ảnh

PCA (Principal Component Analysis) là kỹ thuật giảm chiều dữ liệu bằng cách tìm ra các thành phần chính của dữ liệu. PCA giúp giảm kích thước của vector đặc trưng, giảm thời gian tính toán, và loại bỏ nhiễu. Trong xử lý ảnh, PCA được sử dụng để giảm chiều vector đặc trưng HOG, giúp tăng tốc độ phát hiện đối tượng.

V. Kết Quả Thực Nghiệm và Đánh Giá Hiệu Quả Phát Hiện Đối Tượng

Luận văn thực hiện thực nghiệm trên các tập dữ liệu chuẩn như PASCAL VOC để đánh giá hiệu quả của phương pháp đề xuất. Kết quả cho thấy phương pháp dựa trên đặc tính cục bộ đạt được độ chính xác cao trong phát hiện đối tượng. So sánh với các phương pháp khác, phương pháp đề xuất có ưu điểm trong việc xử lý sự biến dạng và che khuất. Tuy nhiên, vẫn còn một số hạn chế trong việc phát hiện các đối tượng nhỏ và bị che khuất nhiều. Nghiên cứu tiếp theo sẽ tập trung vào việc cải thiện hiệu quả của phương pháp trong các trường hợp khó khăn này.

5.1. Tiêu Chuẩn Đánh Giá AP và mAP trong Phát Hiện Đối Tượng

Average Precision (AP) và mean Average Precision (mAP) là các tiêu chuẩn đánh giá phổ biến trong phát hiện đối tượng. AP đo lường độ chính xác và độ phủ của thuật toán cho một loại đối tượng cụ thể. mAP là trung bình của AP trên tất cả các loại đối tượng. Các giá trị này càng cao, thuật toán càng hiệu quả.

5.2. Kết Quả Thực Nghiệm So Sánh và Đánh Giá Phương Pháp

Kết quả thực nghiệm cho thấy phương pháp dựa trên đặc tính cục bộ đạt được độ chính xác cao trên các tập dữ liệu chuẩn. So sánh với các phương pháp khác, phương pháp đề xuất có ưu điểm trong việc xử lý sự biến dạng và che khuất. Tuy nhiên, vẫn còn một số hạn chế trong việc phát hiện các đối tượng nhỏ và bị che khuất nhiều. Cần có thêm nghiên cứu để cải thiện độ tin cậy và độ chính xác trong các tình huống khó khăn.

VI. Kết Luận Hướng Phát Triển Phát Hiện Đối Tượng Tương Lai

Luận văn đã trình bày phương pháp phát hiện đối tượng dựa trên đặc tính cục bộ. Phương pháp này có nhiều ưu điểm, đặc biệt trong việc xử lý sự biến dạng và che khuất. Tuy nhiên, vẫn còn nhiều hướng phát triển trong tương lai. Cần nghiên cứu các đặc trưng mới mạnh mẽ hơn, các thuật toán học máy hiệu quả hơn, và các phương pháp xử lý dữ liệu lớn. Việc kết hợp với các kỹ thuật Deep Learning hứa hẹn mang lại những kết quả đột phá trong lĩnh vực phát hiện đối tượng.

6.1. Tóm Tắt Kết Quả và Đóng Góp của Luận Văn

Luận văn đã đề xuất và đánh giá một phương pháp phát hiện đối tượng hiệu quả dựa trên đặc tính cục bộ. Phương pháp này đã được chứng minh là có hiệu quả trên các tập dữ liệu chuẩn. Đóng góp của luận văn là cung cấp một hướng tiếp cận mới trong phát hiện đối tượng, đặc biệt là trong các tình huống có sự biến dạng và che khuất.

6.2. Hướng Phát Triển Tương Lai Deep Learning và Các Thuật Toán Mới

Trong tương lai, việc kết hợp với các kỹ thuật Deep Learning hứa hẹn mang lại những kết quả đột phá trong lĩnh vực phát hiện đối tượng. Cần nghiên cứu các kiến trúc mạng mới, các hàm mất mát phù hợp, và các phương pháp huấn luyện hiệu quả. Ngoài ra, việc nghiên cứu các thuật toán mới có khả năng xử lý dữ liệu lớn và thời gian thực là rất quan trọng cho các ứng dụng thực tế.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa phát hiện đối tượng dựa trên các đặc tính cục bộ

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của các ngành công nghiệp trực tuyến, thương mại điện tử và truyền thông đa phương tiện, việc khai thác thông tin từ hình ảnh và video ngày càng trở nên quan trọng. Theo ước tính, số lượng hình ảnh kỹ thuật số tăng lên hàng tỷ mỗi ngày, tạo ra nhu cầu cấp thiết về các công nghệ xử lý và phân tích hình ảnh hiệu quả. Một trong những thách thức cơ bản của thị giác máy tính là bài toán phát hiện đối tượng, nhằm xác định chính xác vị trí và loại đối tượng xuất hiện trong ảnh. Mục tiêu của luận văn là phát triển một phương pháp phát hiện đối tượng dựa trên các đặc tính cục bộ, ứng dụng mô hình biến dạng từng phần (Deformable Part Model - DPM) để nâng cao độ chính xác và khả năng nhận diện trong các môi trường phức tạp.

Phạm vi nghiên cứu tập trung vào việc xây dựng và huấn luyện mô hình phát hiện đối tượng cho ba nhóm đối tượng chính: con người, khuôn mặt và xe hơi, sử dụng các tập dữ liệu chuẩn như PASCAL VOC 2012, INRIA Person và SUN Database. Nghiên cứu được thực hiện trong giai đoạn từ tháng 2/2017 đến tháng 12/2017 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác phát hiện đối tượng, hỗ trợ các ứng dụng trong an ninh, giao thông thông minh, và hệ thống tìm kiếm thông tin dựa trên hình ảnh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Mô hình biến dạng từng phần (Deformable Part Model - DPM): Mô hình này biểu diễn một đối tượng như tập hợp các bộ phận cấu thành có thể biến dạng tương đối với nhau. Mỗi bộ phận được mô hình hóa bằng bộ lọc đặc trưng, và sự biến dạng được tính bằng hàm chi phí bậc hai. Mô hình hỗn hợp được sử dụng để biểu diễn đa dạng hình dáng của đối tượng.
Đặc trưng Histogram of Oriented Gradients (HOG): Thuật toán trích xuất đặc trưng HOG mô tả hình dạng và trạng thái của đối tượng thông qua phân bố cường độ và hướng gradient trong các vùng cục bộ của ảnh. HOG có tính bất biến với các biến đổi về ánh sáng, xoay và biến dạng nhỏ.

Các khái niệm chính bao gồm: đặc trưng cục bộ (local features), mô hình hỗn hợp (mixture model), latent SVM (hỗ trợ vector máy với biến ẩn), kim tự tháp đặc trưng (feature pyramid), và phân tích thành phần chính (PCA) để giảm chiều vector đặc trưng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các tập ảnh chuẩn quốc tế: PASCAL VOC 2012, INRIA Person Dataset và SUN Database, mỗi tập chứa hàng ngàn ảnh với nhãn bounding-box xác định vị trí đối tượng. Phương pháp nghiên cứu bao gồm:

Trích xuất đặc trưng: Sử dụng thuật toán HOG để trích xuất đặc trưng cục bộ từ các bộ phận của đối tượng, sau đó áp dụng PCA để giảm số chiều vector đặc trưng nhằm giảm chi phí tính toán.
Huấn luyện mô hình: Áp dụng thuật toán latent SVM để huấn luyện mô hình DPM dựa trên dữ liệu đã gán nhãn. Quá trình huấn luyện gồm ba giai đoạn: khởi tạo bộ lọc gốc, xây dựng mô hình hỗn hợp, và khởi tạo bộ lọc bộ phận.
Phân tích và đánh giá: Sử dụng các chỉ số như độ chính xác trung bình (Average Precision - AP), recall và precision để đánh giá hiệu quả mô hình trên tập kiểm thử.

Thời gian nghiên cứu kéo dài từ tháng 02/2017 đến tháng 12/2017, với phần mềm Matlab 2015b và thư viện SVM-Light hỗ trợ huấn luyện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình DPM kết hợp HOG: Mô hình phát hiện đối tượng dựa trên đặc trưng cục bộ HOG và cấu trúc DPM cho kết quả phát hiện chính xác cao trên các tập dữ liệu chuẩn. Ví dụ, trên tập PASCAL VOC 2012, chỉ số AP đạt khoảng 0.35 cho nhóm đối tượng con người, thể hiện khả năng nhận diện tốt trong môi trường đa dạng.
Giảm chiều vector đặc trưng bằng PCA: Việc áp dụng PCA giảm số chiều vector đặc trưng từ 108 xuống còn 31 giúp giảm đáng kể chi phí tính toán mà không làm giảm đáng kể độ chính xác phát hiện. Thời gian phát hiện một đối tượng trong ảnh kích thước 800×600 giảm xuống còn khoảng 2 giây.
Khả năng phát hiện trong điều kiện phức tạp: Mô hình có thể phát hiện đối tượng ngay cả khi một số bộ phận bị che khuất hoặc biến dạng, nhờ vào cấu trúc mô hình từng phần và hàm chi phí biến dạng. Tỷ lệ phát hiện chính xác trong các trường hợp che khuất đạt khoảng 70% so với các trường hợp đối tượng rõ ràng.
Thời gian huấn luyện: Thời gian huấn luyện một mô hình đối tượng trên tập dữ liệu chuẩn khoảng 4 giờ, phù hợp với các ứng dụng nghiên cứu và phát triển.

Thảo luận kết quả

Kết quả cho thấy mô hình DPM kết hợp đặc trưng HOG là một giải pháp hiệu quả cho bài toán phát hiện đối tượng trong thị giác máy tính. Việc sử dụng mô hình hỗn hợp giúp thích ứng với sự đa dạng về hình dáng và tư thế của đối tượng, đồng thời hàm chi phí biến dạng cho phép mô hình linh hoạt trong việc xử lý các biến đổi vị trí của các bộ phận.

So sánh với các nghiên cứu trước đây, kết quả đạt được tương đương hoặc vượt trội so với các phương pháp truyền thống như SVM thuần túy hoặc PCA kết hợp Eigenface. Mặc dù các phương pháp deep learning như CNNs hiện nay có thể đạt độ chính xác cao hơn, nhưng mô hình DPM vẫn giữ ưu thế về tính giải thích và khả năng xử lý các trường hợp che khuất một phần.

Dữ liệu có thể được trình bày qua biểu đồ đường cong precision-recall minh họa hiệu suất phát hiện trên từng lớp đối tượng, cũng như bảng so sánh chỉ số AP giữa các mô hình và tập dữ liệu khác nhau.

Đề xuất và khuyến nghị

Tối ưu hóa tham số huấn luyện: Đề xuất sử dụng các thuật toán tối ưu hóa nâng cao để rút ngắn thời gian huấn luyện mô hình, đồng thời cải thiện độ chính xác phát hiện. Chủ thể thực hiện: nhóm nghiên cứu phát triển phần mềm, thời gian: 6 tháng.
Mở rộng mô hình cho nhiều lớp đối tượng: Phát triển mô hình hỗn hợp đa lớp để phát hiện đồng thời nhiều loại đối tượng trong cùng một ảnh, nhằm tăng tính ứng dụng trong các hệ thống giám sát và phân tích video. Chủ thể thực hiện: phòng nghiên cứu thị giác máy tính, thời gian: 1 năm.
Kết hợp với phương pháp học sâu: Nghiên cứu tích hợp mô hình DPM với các mạng nơ-ron tích chập (CNNs) để tận dụng ưu điểm của cả hai phương pháp, nâng cao độ chính xác và khả năng xử lý dữ liệu lớn. Chủ thể thực hiện: nhóm nghiên cứu AI, thời gian: 1 năm.
Ứng dụng thực tế trong giao thông thông minh: Triển khai mô hình phát hiện xe hơi và người đi bộ trong hệ thống giám sát giao thông để hỗ trợ cảnh báo và quản lý lưu lượng. Chủ thể thực hiện: các cơ quan quản lý giao thông, thời gian: 1-2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu thị giác máy tính: Luận văn cung cấp phương pháp chi tiết về phát hiện đối tượng dựa trên đặc trưng cục bộ và mô hình DPM, hữu ích cho việc phát triển các thuật toán mới.
Kỹ sư phát triển hệ thống giám sát: Các kỹ sư có thể áp dụng mô hình và thuật toán huấn luyện để xây dựng hệ thống nhận diện đối tượng trong video giám sát an ninh.
Chuyên gia trong lĩnh vực giao thông thông minh: Nghiên cứu giúp phát triển các giải pháp phát hiện phương tiện và người đi bộ, hỗ trợ quản lý và cảnh báo giao thông hiệu quả.
Sinh viên và học viên cao học ngành kỹ thuật điều khiển và tự động hóa: Luận văn là tài liệu tham khảo quý giá về ứng dụng các thuật toán học máy và xử lý ảnh trong lĩnh vực tự động hóa.

Câu hỏi thường gặp

Phương pháp DPM có ưu điểm gì so với các mô hình phát hiện đối tượng khác?
DPM cho phép mô hình hóa đối tượng dưới dạng các bộ phận có thể biến dạng, giúp phát hiện chính xác ngay cả khi đối tượng bị che khuất hoặc biến dạng, điều mà các mô hình toàn cục khó xử lý hiệu quả.
Tại sao lại sử dụng đặc trưng HOG trong nghiên cứu này?
HOG có tính bất biến cao với các biến đổi về ánh sáng và hình học nhỏ, đồng thời dễ dàng trích xuất và hiệu quả trong việc mô tả hình dạng đối tượng, phù hợp với yêu cầu phát hiện đối tượng đa dạng.
Việc giảm chiều vector đặc trưng bằng PCA có ảnh hưởng đến độ chính xác không?
Kết quả thực nghiệm cho thấy giảm chiều vector từ 108 xuống 31 không làm giảm đáng kể độ chính xác, đồng thời giúp giảm chi phí tính toán và tăng tốc độ phát hiện.
Mô hình có thể phát hiện đối tượng trong điều kiện ánh sáng yếu hoặc che khuất một phần không?
Có, nhờ cấu trúc mô hình từng phần và hàm chi phí biến dạng, mô hình có khả năng dự đoán vị trí đối tượng ngay cả khi một số bộ phận bị che khuất hoặc ảnh hưởng bởi điều kiện ánh sáng không thuận lợi.
Thời gian huấn luyện và phát hiện đối tượng như thế nào?
Thời gian huấn luyện một mô hình khoảng 4 giờ trên phần cứng tiêu chuẩn, thời gian phát hiện một đối tượng trong ảnh kích thước 800×600 khoảng 2 giây, phù hợp với các ứng dụng nghiên cứu và thực tế.

Kết luận

Luận văn đã xây dựng thành công mô hình phát hiện đối tượng dựa trên đặc trưng cục bộ kết hợp mô hình biến dạng từng phần, nâng cao độ chính xác phát hiện trong các môi trường phức tạp.
Phương pháp trích xuất đặc trưng HOG và giảm chiều bằng PCA giúp cân bằng hiệu quả và chi phí tính toán.
Thuật toán huấn luyện latent SVM được áp dụng hiệu quả cho việc xây dựng mô hình hỗn hợp đa thành phần.
Kết quả thực nghiệm trên các tập dữ liệu chuẩn như PASCAL VOC 2012, INRIA Person và SUN Database chứng minh tính khả thi và ứng dụng rộng rãi của phương pháp.
Đề xuất các hướng phát triển tiếp theo bao gồm tối ưu hóa thuật toán, mở rộng mô hình đa lớp và tích hợp với học sâu để nâng cao hiệu suất.

Để tiếp tục phát triển, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng và mở rộng mô hình trong các ứng dụng thực tế, đồng thời nghiên cứu tích hợp các phương pháp mới nhằm nâng cao hiệu quả phát hiện đối tượng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI 1. Bài toán phát hiện đối tượng Một camera quay lại hình ảnh của tuyến phố, câu hỏi đặt ra là đặt ra là có bao nhiêu chiếc xe đi qua tuyến phố đó trong một khoảng thời gian. Một chiếc xe ô tô thông minh phải xác định được đâu là các chiếc xe khác hay đâu là con người. Một Robot tự hành cần phân biệt được các đối tượng mà nó gặp phải.

Các ví dụ trên là các yêu cầu cơ bản của nhiệm vụ phát hiện đối tượng (Object detection). Phát hiện đối tượng là một trong những thách thức cơ bản của thị giác máy tính. Nó trả lời cho câu hỏi “Đó là những đối tượng nào?”, “Đối tượng ở đâu trong hình?”. Từ “đối tượng” ở đây được hiểu như một lớp đối tượng chắc chắn nào đó như con người, tòa nhà, xe cộ, khuôn mặt v., mà chúng ta muốn máy tính "nhìn thấy" ở trong hình.

Đầu vào của nhiệm vụ phát hiện đối tượng thông thường là một ảnh tĩnh và kết quả đầu ra thường là một cặp thông tin vị trí và nhóm đối tượng. Cho một tập hợp các nhóm đối tượng được định nghĩa trước, mục đích là trả về danh sách chính xác nhóm đối tượng quan tâm có ở trong hình và vị trí của mỗi đối tượng với một bounding box bó sát bao quanh phạm vi của đối tượng. Để trả lời cho câu hỏi “Đối tượng ở đâu trong hình?” của các ví dụ trên là một vấn đề không hề đơn giản. Quá trình thu nhận từ môi trường thực tế chiếu một ảnh từ một không gian ba chiều vào một không gian hai chiều.

Thông tin thu thập được bị mất mát và bị ảnh hưởng bởi nhiễu là điều không thể tránh khỏi. Từ đầu vào này hệ thống phát hiện đối tượng phải chỉ ra được có những đối tượng nào trong hình và nó ở đâu. Ngay cả định nghĩa về đối tượng nhiều khi cũng còn gây nhầm lẫn, ví dụ chúng ta định nghĩa đối tượng xe hơi (Car) như thế nào? Nếu suy nghĩ về cách định nghĩa đó nhiều khi nó cũng gây nhầm lẫn với các đối tượng tương tự khác như xe tải, hay một đối tượng khác mà cũng có bốn bánh. Nhưng LUẬN VĂN CAO HỌC GVHD: TS.

TRỊNH HOÀNG HƠN Hình 1.1: Kết quả của một thuật toán phát hiện đối tượng trong tập mẫu PASCAL VOC 2010 [1] kể cả với các đối tượng trong các lớp nhỏ hơn chúng cũng có sự khác biệt lớn vì ảnh hưởng bởi các yếu tố như: sự tương phản của ánh sáng, hình dáng đa dạng của đối tượng, sự che khuất một phần của đối tượng, sự xuất hiện của cùng lúc nhiều đối tượng khác nhau trong một khung cảnh phức tạp v.1 minh họa kết quả của một thuật toán phát hiện đối tượng. Trong hình có ba nhóm đối tượng "Dog", "Bicycle" và "Car" với các thách thức đặc trưng của bài toán phát hiện đối tượng. Các đối tượng nằm chen lẫn với các đối tượng khác, một số bộ phận của đối tượng bị che khuất, độ chiếu sáng là khác nhau đối với các đối tượng khác nhau, các đối tượng cũng có sự biến dạng nhất định. Kết quả của bài toán là các hình chữ nhật bao quanh đối tượng và các nhãn thể hiện nhóm đối tượng.

Việc phát hiện đối tượng có rất nhiều ứng dụng khác nhau trong nghiên cứu khoa học cũng như trong đời sống, nó là bước đầu để máy tính có thể “nhìn” thấy thế giới. Phát hiện HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 2 LUẬN VĂN CAO HỌC GVHD: TS. TRỊNH HOÀNG HƠN đối tượng có nhiều ứng dụng rộng rãi trong mọi mặt của đời sống như phát hiện khuôn mặt, phát hiện người, phát hiện xe, biển báo giao thông, các hệ thống tìm kiếm thông tin dựa trên nội dung ảnh, các robot thông minh v. Các công trình nghiên cứu liên quan Phát hiện đối tượng là một đề tài nhận được nhiều quan tâm của các nhà khoa học trên thế giới.

Có rất nhiều phương pháp đã được đề xuất và được thực nghiệm, mỗi phương pháp đều có ưu và nhược điểm riêng. Trong phần này, các phương pháp chính và nổi trội trong thời gian gần đây được trình bày tổng quan nhằm tạo ra một cái nhìn tổng quát về bức tranh “phát hiện đối tượng” hiện nay. De Carrera và các cộng sự [3] đã áp dụng phương pháp phân tích thành phần chính Principal component analysis (PCA) và thuật toán Eigenface để nhận dạng khuôn mặt. Viola và Jones [4] đã giới thiệu khái niệm ảnh tích phân (Integral image) nhằm tính nhanh các đặc trưng Haar-like và áp dụng phương pháp máy học Adaboost để xây dựng một bộ phân loại mạnh được áp dụng vào việc phát hiện khuôn mặt với độ chính xác cao.

Một hướng tiếp cận khác là sử dụng các đặc trưng bất biến cục bộ Scale Invariant Feature Transform (SIFT) được Lowe [5] giới thiệu như là các đặc trưng bất biến trước những biến đổi của tỉ lệ ảnh, tịnh tiến, phép quay, không bị thay đổi một phần đối với phép biến đổi hình học affine và thích nghi với những thay đổi về độ sáng, sự nhiễu và che khuất. Chennamma và các cộng sự [6] đã sử dụng đặc trưng cục bộ SIFT để nhận dạng khuôn mặt trên tập ảnh chọn lọc được cho trước và so sánh kết quả nhận dạng với thuật toán phân tích thành phần chính cho thấy kết quả có độ chính xác cao hơn. Được đề xuất bởi Dalal và các cộng sự [7], đặc trưng Histogram of Oriented Gradients (HOG) mô tả trạng thái của đối tượng bằng sự phân bố về cường độ và hướng của cạnh. Các đặc trưng của đối tượng được đưa vào thuật toán huấn luyện phân lớp Support Vector Machine (SVM) để tạo ra một “siêu phẳng” nhằm phân biệt giữa hai nhóm “đối tượng” hoặc “không phải đối tượng”.

Bài báo đã áp dụng thành công vào việc phát hiện người đi bộ với độ chính xác cao trên tập ảnh INRIA Person do chính nhóm tác giả đề xuất. Tiếp nối thành công của Dalal, P.Felzenszwalb và các đồng sự [8, 2] đã sử dụng thành HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 3 LUẬN VĂN CAO HỌC GVHD: TS. TRỊNH HOÀNG HƠN công đặc trưng HOG kết hợp với mô hình Deformable Part Model (DPM) để biểu diễn một đối tượng như là một tập của các thành phần khác nhau. Nhóm tác giả đã giới thiệu một phương pháp huấn luyện mới được gọi với cái tên Latent SVM , trong đó vị trí của mỗi phần của đối tượng được xem như latent.

Nhóm tác giả đã xây dựng mô hình của nhiều nhóm đối tượng khác nhau và sử dụng để phát hiện đối tượng. Hiện nay trên tập mẫu PASCAL VOC, thuật toán của nhóm tác giả đề xuất đang chiếm giữ vị trí là thuật toán phát hiện đối tượng có độ chính xác cao nhất. Một phương pháp tiếp cận mới gần đây là sử dụng một mô hình Deep Learning có tên CNNs (Convolutional Neural Nets) được nhóm của Sermanet và các cộng sự [9] đề xuất. Kết quả thực nghiệm trên tập mẫu INRIA Person giảm sai số phát hiện xuống còn 10% đạt kết quả cao hơn nhiều so với thuật toán HOG + SVM mà Dalal [7] đã đề xuất.

Hiện nay CNNs đang được ứng dụng để hỗ trợ tìm kiếm ảnh trong Google Plus. Ross Girshick là một trong những tác giả của hai bài báo [8, 2] đã đề xuất thuật toán Fast Region-based Convolutional Network (Fast R-CNN) [10] nhằm cải tiến tốc độ so với R-CNN truyền thống. Kết quả thực nghiệm trên tập PASCAL VOC 2012 cho kết quả phát hiện đối tượng cao hơn và thời gian huấn luyện mô hình đối tượng và thời gian detect nhanh hơn nhiều so với CNN truyền thống. Đề tài phát hiện đối tượng dựa vào các đặc tính cục bộ ứng dụng lý thuyết về mô hình DPM [2] vào việc phát hiện các đối tượng.

Chương trình xây dựng dựa trên mô hình này có thể phát hiện được đối tượng ở trong các môi trường khác nhau, đối tượng có thể xuất hiện với hình dáng bất kỳ và đặc biệt một số bộ phận của đối tượng có thể bị che khuất nhưng mô hình vẫn đưa ra được dự đoán vị trí của đối tượng. Các tập mẫu chuẩn như PASCAL VOC [1], SUN database [11], ImageNet [12] đưa ra rất nhiều “thử thách” đối với các thuật toán phát hiện đối tượng. Đặc tính toàn cục và Đặc tính cục bộ Một bộ mô tả (descriptor) dùng một thuật toán nào đó để mã hóa ảnh đầu vào tạo ra một đặc trưng nhằm cho phép so khớp hai ảnh với nhau. Có nhiều cách để miêu tả các đặc trưng khác nhau, dựa vào phạm vi của vùng được lấy đặc trưng mà các đặc trưng được chia làm HVTH: ĐINH VĂN TUYẾN - 1570373 Trang 4 LUẬN VĂN CAO HỌC GVHD: TS.

TRỊNH HOÀNG HƠN hai nhóm: Đặc trưng cục bộ mô tả tổng quát toàn bộ bức ảnh. Các đặc trưng cục bộ bao gồm các biểu diễn về đường viền (contour), các mô tả hình dáng (Shape) và các đặc trưng bề mặt(texture features). Các thuật toán mô tả đặc trưng toàn cục tiêu biểu như Shape Matrices [13], Invariant Moments [14], HOG [7]. Các đặc trưng toàn cục thường không bền vững với các thay đổi trong các thành phần của đối tượng.

Dẫn đến kết quả sai trong các bài toán nhận dạng, ảnh hưởng đến bộ mô tả kết quả. Các đặc trưng này cũng được trích xuất và áp dụng vào các bài toán phát hiện đối tượng [15, 16, 17], và là một phần trong đặc trưng của các đối tượng được mô tả trong luận văn này. Đặc trưng cục bộ mô tả một phần của ảnh, thường là các điểm đặc biệt (Keypoint) của một đối tượng. Một vài thuật toán trích xuất đặc trưng cục bộ gồm có SIFT [5], Speeded up robust features (SURF) [18] , Local Binary Pattern (LBP) [19] , and Maximally Stable Extremal Region (MSER) [20].

Các đặc trưng cục bộ mô tả bền vững hơn đối với sự thay đổi của các bộ phận của đối tượng. Đặc trưng SIFT được sử dụng trong bài báo [21], nhằm trích xuất các điểm của các đối tượng trong 2 frame hình khác nhau. Sau đó việc phân tích sự kết nối của các đặc tính này nhằm tạo ra một vùng quan tâm trong ảnh. Một các tổng quát, đối với các bài toán phát hiện, phân lớp đối tượng, các đặc trưng cục bộ thường được sử dụng.

Đối với các bài toán nhận dạng đối tượng, so khớp ảnh các đặc trưng cục bộ được áp dụng hiệu quả hơn. Trong luận văn này khái niệm đặc trưng cục bộ được sử dụng chỉ đặc trưng được trích xuất các bộ phận của đối tượng, kết hợp các đặc trưng cục bộ của các bộ phận của đối tượng cho ta một cái nhìn tổng quát về một đối tượng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phát Hiện Đối Tượng Dựa Trên Các Đặc Tính Cục Bộ Trong Kỹ Thuật Điều Khiển" cung cấp cái nhìn sâu sắc về các phương pháp phát hiện đối tượng dựa trên các đặc tính cục bộ, một lĩnh vực quan trọng trong công nghệ nhận diện và điều khiển. Tài liệu này không chỉ giải thích các khái niệm cơ bản mà còn trình bày các ứng dụng thực tiễn, giúp người đọc hiểu rõ hơn về cách mà các đặc tính cục bộ có thể được sử dụng để cải thiện độ chính xác trong việc nhận diện đối tượng.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính phân loại đối tượng chuyển động trong video, nơi bạn sẽ tìm thấy các phương pháp phân loại đối tượng trong video, một ứng dụng thực tiễn của kỹ thuật phát hiện đối tượng. Ngoài ra, tài liệu Đồ án tốt nghiệp công nghệ kỹ thuật máy tính optimize defog processing for object recognition applications sẽ giúp bạn hiểu rõ hơn về cách tối ưu hóa quy trình nhận diện đối tượng trong các điều kiện khó khăn. Cuối cùng, tài liệu Nghiên cứu một số thuật toán học máy để phân lớp dữ liệu và thử nghiệm sẽ cung cấp cho bạn cái nhìn tổng quan về các thuật toán học máy, một phần không thể thiếu trong việc phát triển các hệ thống nhận diện đối tượng hiệu quả.

Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá sâu hơn về các khía cạnh khác nhau của phát hiện đối tượng và công nghệ liên quan.

#Phân tích dữ liệu

#kỹ thuật điều khiển

#nhận diện hình ảnh

#thuật toán học máy

#phát hiện đối tượng

#học sâu trong AI

Chủ đề

Công nghệ nhận diện đối tượng

Ứng dụng của học máy

phân tích đặc tính hình ảnh

kỹ thuật điều khiển trong AI