Luận văn ThS: Theo dõi đối tượng bằng Giải thuật di truyền và Tối ưu bầy đàn

Luận văn thạc sĩ phân tích vnu uet heo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hóa bầy đàn luận văn ths máy tính, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải

Trường đại học

Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC HÌNH VẼ

DANH MỤC THUẬT NGỮ

1. CHƯƠNG 1: ĐẶT VẤN ĐỀ

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Phân hoạch mờ

2.2. Giải thuật di truyền

3. CHƯƠNG 3: ÁP DỤNG GIẢI THUẬT DI TRUYỀN VÀ TỐI ƯU BẦY ĐÀN TRONG BÀI TOÁN THEO DÕI ĐỐI TƯỢNG

4. CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET theo dõi đối tượng

Luận văn thạc sĩ VNU UET nghiên cứu về việc theo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hóa bầy đàn. Đây là một lĩnh vực đang phát triển mạnh mẽ trong công nghệ thông tin, đặc biệt trong các ứng dụng như giám sát giao thông và an ninh. Nghiên cứu này không chỉ giúp nâng cao hiệu quả theo dõi mà còn giảm thiểu chi phí nhân lực.

1.1. Giới thiệu về giải thuật di truyền và tối ưu hóa bầy đàn

Giải thuật di truyền (GA) và tối ưu hóa bầy đàn (PSO) là hai phương pháp mạnh mẽ trong lĩnh vực học máy. GA mô phỏng quá trình tiến hóa tự nhiên, trong khi PSO dựa trên hành vi của các bầy đàn. Cả hai đều có ứng dụng rộng rãi trong việc tối ưu hóa các bài toán phức tạp.

1.2. Mục tiêu nghiên cứu của luận văn

Mục tiêu chính của luận văn là phát triển một hệ thống theo dõi đối tượng hiệu quả, sử dụng các giải thuật di truyền và tối ưu hóa bầy đàn để cải thiện độ chính xác và giảm thiểu chi phí tính toán.

II. Thách thức trong việc theo dõi đối tượng bằng công nghệ hiện đại

Việc theo dõi đối tượng trong video gặp nhiều thách thức như điều kiện ánh sáng, tốc độ chuyển động và sự phức tạp của môi trường. Những yếu tố này ảnh hưởng lớn đến độ chính xác của hệ thống. Nghiên cứu cần tìm ra giải pháp để khắc phục những vấn đề này.

2.1. Các yếu tố ảnh hưởng đến độ chính xác

Độ chính xác của hệ thống theo dõi phụ thuộc vào nhiều yếu tố như độ phân giải video, tốc độ chuyển động của đối tượng và điều kiện môi trường. Những yếu tố này cần được xem xét kỹ lưỡng trong quá trình phát triển hệ thống.

2.2. Giải pháp cho các thách thức hiện tại

Các giải pháp như cải thiện thuật toán phát hiện đối tượng và tối ưu hóa quy trình xử lý video có thể giúp nâng cao hiệu quả theo dõi. Việc áp dụng giải thuật di truyền và tối ưu hóa bầy đàn là một trong những hướng đi tiềm năng.

III. Phương pháp nghiên cứu trong luận văn thạc sĩ

Luận văn áp dụng các phương pháp nghiên cứu hiện đại để phát triển hệ thống theo dõi đối tượng. Các phương pháp này bao gồm giải thuật di truyền và tối ưu hóa bầy đàn, giúp tối ưu hóa quy trình phát hiện và theo dõi đối tượng.

3.1. Cách tiếp cận giải thuật di truyền

Giải thuật di truyền được sử dụng để tối ưu hóa các tham số trong quá trình theo dõi. Bằng cách mô phỏng quá trình tiến hóa, hệ thống có thể tìm ra giải pháp tối ưu cho bài toán theo dõi đối tượng.

3.2. Tối ưu hóa bầy đàn trong theo dõi đối tượng

Tối ưu hóa bầy đàn giúp cải thiện khả năng phát hiện và theo dõi đối tượng trong môi trường phức tạp. Phương pháp này dựa trên hành vi của các bầy đàn để tìm kiếm giải pháp tối ưu cho bài toán.

IV. Ứng dụng thực tiễn của nghiên cứu trong luận văn

Nghiên cứu trong luận văn có nhiều ứng dụng thực tiễn, đặc biệt trong lĩnh vực giám sát giao thông và an ninh. Hệ thống theo dõi đối tượng có thể giúp cải thiện hiệu quả giám sát và giảm thiểu chi phí nhân lực.

4.1. Ứng dụng trong giám sát giao thông

Hệ thống theo dõi đối tượng có thể được áp dụng để giám sát lưu lượng giao thông, phát hiện vi phạm và cải thiện an toàn giao thông. Việc sử dụng giải thuật di truyền và tối ưu hóa bầy đàn giúp nâng cao độ chính xác trong việc phát hiện phương tiện.

4.2. Ứng dụng trong an ninh

Trong lĩnh vực an ninh, hệ thống theo dõi đối tượng có thể giúp phát hiện và theo dõi các hành vi đáng ngờ. Việc áp dụng các công nghệ hiện đại giúp nâng cao hiệu quả giám sát và bảo vệ an toàn cho cộng đồng.

V. Kết luận và định hướng tương lai cho nghiên cứu

Luận văn thạc sĩ VNU UET đã chỉ ra rằng việc áp dụng giải thuật di truyền và tối ưu hóa bầy đàn trong theo dõi đối tượng mang lại nhiều lợi ích. Nghiên cứu mở ra hướng đi mới cho các ứng dụng trong công nghệ thông tin.

5.1. Kết luận về nghiên cứu

Nghiên cứu đã chứng minh rằng việc áp dụng các giải thuật tối ưu có thể nâng cao hiệu quả theo dõi đối tượng. Điều này mở ra nhiều cơ hội cho các ứng dụng thực tiễn trong tương lai.

5.2. Định hướng nghiên cứu trong tương lai

Trong tương lai, cần tiếp tục nghiên cứu và phát triển các giải pháp mới để cải thiện độ chính xác và hiệu quả của hệ thống theo dõi. Việc kết hợp các công nghệ mới sẽ là hướng đi tiềm năng cho nghiên cứu tiếp theo.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet heo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hóa bầy đàn luận văn ths máy tính 60 48 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong thập niên đầu thế kỷ 21, học máy và trí tuệ nhân tạo (AI) đã có bước phát triển vượt bậc, mở ra nhiều ứng dụng thực tiễn trong các lĩnh vực như thị giác máy tính, xử lý ngôn ngữ tự nhiên, và robotics. Thị giác máy tính, với mục tiêu giúp máy móc có khả năng "nhìn" và "hiểu" như con người, đã trở thành một lĩnh vực nghiên cứu liên ngành quan trọng. Tại Việt Nam, các hệ thống giám sát và theo dõi đối tượng hiện nay chủ yếu dựa vào con người, chưa có nhiều ứng dụng tự động hóa do hạn chế về công nghệ và thiết bị hỗ trợ.

Luận văn tập trung nghiên cứu bài toán theo dõi đối tượng trong video, đặc biệt là các phương tiện giao thông từ ảnh thu được bằng thiết bị bay không người lái (UAV). Mục tiêu chính là xây dựng giải thuật theo dõi tự động có độ chính xác cao và chi phí tính toán thấp, phù hợp với ứng dụng thời gian thực. Phạm vi nghiên cứu bao gồm dữ liệu video quay từ UAV tại một đoạn đường cao tốc ở Việt Nam, với thời gian thử nghiệm khoảng 13 phút và tốc độ khung hình 30fps.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả giám sát giao thông, giảm chi phí nhân lực, đồng thời góp phần phát triển công nghệ AI trong lĩnh vực an ninh quốc phòng và quản lý đô thị. Độ chính xác theo dõi đa đối tượng (MOTA) đạt khoảng 86%, cho thấy tiềm năng ứng dụng thực tế của giải thuật đề xuất.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình chính:

Phân hoạch mờ (Fuzzy Clustering): Lý thuyết tập mờ do Lotfi Zadeh phát triển, cho phép phân cụm dữ liệu với mức độ thành viên không tuyệt đối, giúp xử lý dữ liệu chồng chéo và không rõ ràng. Phân hoạch mờ được thực hiện qua ma trận phân hoạch mờ, trong đó mỗi điểm dữ liệu có thể thuộc nhiều cụm với các mức độ khác nhau.
Giải thuật di truyền (Genetic Algorithm - GA): Dựa trên cơ chế chọn lọc tự nhiên và tiến hóa sinh học, GA sử dụng các phép toán lai ghép, đột biến và chọn lọc để tìm lời giải tối ưu trong không gian tìm kiếm lớn. GA làm việc với quần thể các cá thể (lời giải) và tiến hóa qua nhiều thế hệ để cải thiện chất lượng lời giải.
Giải thuật tối ưu bầy đàn (Particle Swarm Optimization - PSO): Mô phỏng hành vi tìm kiếm thức ăn của bầy chim hoặc đàn cá, PSO cập nhật vị trí và vận tốc của các phần tử trong không gian tìm kiếm dựa trên vị trí tốt nhất cá nhân và toàn bầy, nhằm tìm lời giải tối ưu.

Các khái niệm chuyên ngành quan trọng bao gồm histogram màu (đặc trưng ảnh), bộ lọc Kalman (ước lượng và theo dõi vị trí đối tượng), và các phép toán hình thái học (lọc nhiễu ảnh nhị phân).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là video quay từ UAV tại một đoạn đường cao tốc, với kích thước khung hình 560×320 pixel, thời lượng 13 phút 07 giây, tốc độ 30fps. Dữ liệu được xử lý trong môi trường Matlab 2013a trên máy tính cấu hình Intel Core i7, RAM 16GB.

Phương pháp nghiên cứu gồm các bước:

Trích xuất đặc trưng: Sử dụng histogram màu để biểu diễn phân bố màu sắc trong từng khung hình video, giúp nhận dạng đối tượng nhanh và hiệu quả.
Phát hiện đối tượng: Áp dụng phân đoạn mờ dựa trên histogram màu, tối ưu phân đoạn bằng giải thuật di truyền hoặc tối ưu bầy đàn để tìm ma trận phân hoạch mờ tối ưu.
Theo dõi đối tượng: Sử dụng bộ lọc Kalman để dự đoán vị trí và vận tốc đối tượng qua các khung hình liên tiếp, xử lý các trường hợp nhập nhằng khi đối tượng giao nhau hoặc tách rời.

Phương pháp phân tích bao gồm đánh giá độ chính xác theo dõi đa đối tượng (MOTA), tỉ lệ trượt, tỉ lệ sai tích cực và tỉ lệ so khớp sai. Timeline nghiên cứu kéo dài từ tháng 11/2016 với các giai đoạn khảo sát lý thuyết, cài đặt thử nghiệm, thu thập và xử lý dữ liệu, đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân đoạn mờ tối ưu: Việc sử dụng giải thuật di truyền để tối ưu phân đoạn mờ cho phép tìm ra ma trận phân hoạch tốt nhất, giúp phân tách chính xác các đối tượng trong ảnh. Tham số tối ưu gồm số cụm = 4, xác suất lai ghép và đột biến lần lượt 20%, số vòng lặp tối đa 50.
Độ chính xác theo dõi cao: Kết quả đánh giá theo độ đo MOTA đạt 85.96%, với tỉ lệ trượt 5.96%, tỉ lệ sai tích cực 7.51% và tỉ lệ so khớp sai chỉ 2.53%. Điều này chứng tỏ giải thuật xử lý tốt các trường hợp nhập nhằng và duy trì theo dõi ổn định.
Chi phí tính toán hợp lý: Việc sử dụng histogram màu và bộ lọc Kalman giúp giảm thiểu chi phí tính toán, phù hợp với yêu cầu thời gian thực. Ví dụ, vùng ảnh được giảm kích thước khi vượt quá ngưỡng 25 điểm ảnh để kiểm soát chi phí so khớp.
Khả năng ứng dụng thực tế: Thử nghiệm trên dữ liệu UAV cho thấy giải thuật có thể phát hiện và theo dõi chính xác các phương tiện giao thông trong điều kiện thực tế, mở rộng tiềm năng ứng dụng trong giám sát giao thông và an ninh.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao là sự kết hợp giữa phân đoạn mờ linh hoạt và tối ưu hóa bằng giải thuật di truyền, giúp tìm ra phân vùng đối tượng chính xác hơn so với các phương pháp phân cụm truyền thống như k-means. Bộ lọc Kalman hỗ trợ dự đoán vị trí đối tượng, giảm thiểu sai số do chuyển động và nhiễu.

So sánh với các nghiên cứu khác trong lĩnh vực thị giác máy tính, kết quả MOTA trên 85% là mức độ khá cao, đặc biệt trong điều kiện dữ liệu thực tế từ UAV có nhiều biến động về ánh sáng và góc nhìn. Việc áp dụng giải thuật tối ưu bầy đàn (PSO) tuy chưa được cài đặt hoàn chỉnh nhưng được kỳ vọng sẽ cải thiện thêm hiệu quả và tốc độ xử lý.

Dữ liệu có thể được trình bày qua biểu đồ so sánh tỉ lệ lỗi (trượt, sai tích cực, so khớp sai) giữa các phương pháp, hoặc bảng tổng hợp kết quả MOTA để minh họa sự vượt trội của giải thuật đề xuất.

Đề xuất và khuyến nghị

Mở rộng cài đặt giải thuật tối ưu bầy đàn: Tiếp tục nghiên cứu và hoàn thiện cài đặt PSO để so sánh và kết hợp với giải thuật di truyền, nhằm nâng cao hiệu quả phân đoạn và theo dõi đối tượng.
Tối ưu tham số giải thuật: Thực hiện các thử nghiệm điều chỉnh tham số lai ghép, đột biến trong GA và các hệ số học trong PSO để đạt hiệu suất tối ưu, giảm thiểu sai số và tăng tốc độ xử lý.
Phát triển ứng dụng thực tế: Áp dụng giải thuật vào các hệ thống giám sát giao thông tự động tại các đô thị lớn, tích hợp với hệ thống cảnh báo và phân tích dữ liệu thời gian thực.
Mở rộng đối tượng theo dõi: Nghiên cứu áp dụng giải thuật cho các loại đối tượng khác như người, vật thể di động trong các môi trường phức tạp, tăng tính đa dạng và ứng dụng của hệ thống.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, phối hợp giữa các nhóm nghiên cứu công nghệ thông tin, kỹ thuật điện tử và các đơn vị quản lý giao thông, an ninh.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Thị giác Máy tính: Luận văn cung cấp kiến thức nền tảng về phân đoạn mờ, giải thuật di truyền và tối ưu bầy đàn, cùng ứng dụng thực tiễn trong theo dõi đối tượng.
Chuyên gia phát triển hệ thống giám sát và an ninh: Các kỹ thuật và công cụ được trình bày giúp cải thiện hiệu quả giám sát tự động, giảm chi phí nhân lực và nâng cao độ chính xác.
Cơ quan quản lý giao thông và an ninh quốc phòng: Nghiên cứu cung cấp giải pháp công nghệ mới để giám sát phương tiện giao thông, hỗ trợ quản lý và đảm bảo an ninh trật tự.
Doanh nghiệp phát triển phần mềm AI và UAV: Thông tin về cài đặt, thử nghiệm và đánh giá giúp phát triển các sản phẩm ứng dụng trí tuệ nhân tạo trong lĩnh vực UAV và giám sát thông minh.

Mỗi nhóm đối tượng có thể áp dụng các phần lý thuyết, phương pháp và kết quả thử nghiệm để phát triển hoặc cải tiến các hệ thống phù hợp với nhu cầu chuyên môn và thực tiễn.

Câu hỏi thường gặp

Giải thuật di truyền và tối ưu bầy đàn khác nhau như thế nào?
Giải thuật di truyền dựa trên cơ chế tiến hóa sinh học với các phép lai ghép và đột biến, trong khi tối ưu bầy đàn mô phỏng hành vi bầy đàn tự nhiên, cập nhật vị trí dựa trên kinh nghiệm cá nhân và tập thể. Cả hai đều là kỹ thuật tối ưu nhưng có cách tiếp cận khác nhau.
Tại sao chọn histogram màu làm đặc trưng?
Histogram màu đơn giản, hiệu quả và có chi phí tính toán thấp, phù hợp với xử lý thời gian thực. Nó biểu diễn phân bố màu sắc trong ảnh, giúp phân biệt các đối tượng dựa trên màu sắc đặc trưng.
Bộ lọc Kalman giúp gì trong theo dõi đối tượng?
Bộ lọc Kalman dự đoán vị trí và vận tốc đối tượng trong khung hình tiếp theo dựa trên trạng thái hiện tại, giúp giảm sai số do chuyển động và nhiễu, nâng cao độ chính xác theo dõi.
Độ đo MOTA phản ánh điều gì?
MOTA tổng hợp các lỗi theo dõi như trượt, sai tích cực và so khớp sai, đánh giá tổng thể hiệu quả của hệ thống theo dõi đa đối tượng. Giá trị MOTA cao thể hiện độ chính xác và ổn định của giải thuật.
Giải thuật có thể áp dụng cho các đối tượng khác ngoài phương tiện giao thông không?
Có thể. Phương pháp trích xuất đặc trưng và theo dõi dựa trên bộ lọc Kalman có thể điều chỉnh để theo dõi người, vật thể di động trong nhiều môi trường khác nhau, tùy thuộc vào đặc điểm dữ liệu và yêu cầu ứng dụng.

Kết luận

Luận văn đã phát triển thành công giải thuật theo dõi đối tượng dựa trên giải thuật di truyền và tối ưu bầy đàn, với ba bước chính: trích xuất đặc trưng, phát hiện và theo dõi đối tượng.
Histogram màu và phân đoạn mờ được sử dụng hiệu quả để phát hiện đối tượng trong video UAV, giảm chi phí tính toán và tăng độ chính xác.
Bộ lọc Kalman hỗ trợ theo dõi chính xác vị trí và vận tốc đối tượng qua các khung hình liên tiếp.
Kết quả thử nghiệm đạt độ chính xác MOTA 85.96%, tỉ lệ lỗi thấp, chứng minh tính khả thi và hiệu quả của giải thuật.
Hướng nghiên cứu tiếp theo là hoàn thiện cài đặt tối ưu bầy đàn, tối ưu tham số giải thuật và mở rộng ứng dụng trong các lĩnh vực giám sát và an ninh.

Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia được khuyến khích áp dụng và mở rộng giải thuật trong các hệ thống giám sát thực tế, góp phần nâng cao năng lực công nghệ AI tại Việt Nam.

Trích đoạn nội dung tài liệu

ĐẶT VẤN ĐỀ Trong thập niên đầu của thế kỷ 21, học máy được nghiên cứu và phát triển mạnh mẽ, đánh dấu bước ngoặt quan trọng thay đổi nền tảng nghiên cứu của Trí tuệ nhân tạo. Học máy liên quan đến việc xây dựng các chương trình máy tính có thể tự động thu thập tri thức, cải thiện khả năng của mình thông qua các kinh nghiệm, và việc nghiên cứu các nguyên lý của quá trình học [1]. Các kết quả và công nghệ của học máy được thể hiện qua các ứng dụng đa dạng trong thực tế trong các lĩnh vực như: xử lý ngôn ngữ tự nhiên, thị giác máy tính, tìm kiếm và nhận dạng, robotics, khai phá dữ liệu, v. Thị giác máy tính, một lĩnh vực nghiên cứu liên ngành, liên quan đến việc nghiên cứu các lĩnh vực khoa học và công nghệ về các hệ thống máy móc có khả năng nhìn và hiểu như hệ thống thị giác con người [2].

Đây là một lĩnh vực được quan tâm nghiên cứu rộng rãi trong một vài thập niên gần đây bởi những ứng dụng thực tế đa dạng của nó. Một số ứng dụng có thể kể đến là: tự động hóa trong dây chuyền sản xuất công nghiệp, viễn thám, giám sát giao thông, bảo mật bằng sinh trắc học, y học, an ninh, web 3D, giải trí, v. Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh/video đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua [2]. Các nghiên cứu được nhanh chóng phát triển nhờ những tiến bộ trong một số lĩnh vực liên quan như: việc phát triển các mô hình toán học phức tạp, các nghiên cứu chuyên sâu về nhận thức tri giác (cognitive vision), năng lực của các hệ thống tính toán, các giải thuật thông minh, cũng như đòi hỏi của kiểm thử trên các bộ dữ liệu lớn.

Tuy nhiên vấn đề này vẫn còn khá mới mẻ ở Việt Nam bởi thiếu các thiết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 bị hỗ trợ và nghiên cứu làm chủ công nghệ. Và đây cũng là một hướng phát triển mở nhiều hứa hẹn và đồng thời cũng nhiều thách thức. Hiện nay ở Việt Nam các hệ thống theo dõi – giám sát hầu hết là không tự động, chủ yếu vẫn dựa vào con người. Tuy nhiên trong tương lai không xa, khi kinh tế và khoa học kỹ thuật phát triển thì các hệ thống giám sát này cũng sẽ phát triển theo.

Với mong muốn tham gia vào hướng nghiên cứu còn mới này và giúp các hệ thống giám sát đạt hiệu quả cao hơn và giảm được chi phí con người chúng tôi thực hiện đề tài “Theo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hoá bầy đàn”. Vấn đề phát hiện đối tượng đang được nghiên cứu và có nhiều ứng dụng trong cuộc sống. Các đối tượng được phát hiện nhờ những thông tin trong một khung hình ảnh. Có rất nhiều hướng tiếp cận để giải quyết vấn đề trên.

Các tác giả Alper Yilmaz, Omar Javed và Mubarak Shah đã phân loại các hướng tiếp cận này được trình bày trong [3]. Có thể phân loại các giải thuật phát hiện đối tượng thành các hướng tiếp cận như: phát hiện điểm quan trọng (interest point detector) [4] [5], phân đoạn ảnh (segmentation) [6] [7] [8], mô hình nền (background modeling) [9] [10] [11] và phân loại có giám sát (supervised classifier) [12] [13]. Việc lựa chọn phương pháp áp dụng phải dựa vào tình huống cụ thể, đối với trường hợp có ảnh nền không thay đổi việc phát hiện đối tượng chuyển động có thể bằng các phương pháp trừ nền. Các giải thuật này sẽ được trình bày sau đây.

Hướng giải quyết là xây dựng mô hình nền, sau đó sử dụng mô hình này cùng với khung hình hiện tại để rút ra được các vật thể chuyển động. Để có thể tiếp cận cần phải xây dựng được mô hình nền. Có nhiều phương pháp được xây dựng dựa trên mô hình nền bởi các tác giả. Anurag Mittal [12] dùng mô hình ước lượng mật độ nhân thích ứng (Adaptive Kernel Density Estimation) cho kết quả tốt tuy nhiên khó khăn về không gian lưu trữ, tính toán phức tạp, tốc độ không đáp ứng thời gian thực.

Stauffer sử dụng mô hình trộn Gaussian (Mixture of Gaussian) [14] LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 để xây dựng mô hình nền, nhằm phát hiện được các đối tượng chuyển động, xác định xem những đối tượng này có đúng là những đối tượng ta cần phát hiện hay không. Đây là các khó khăn cần khắc phục. Trong các lĩnh vực về phát hiện phần đầu của người thì Wei Qu, Nidhal Bouaynaya và Dan Schonfeld [15] đề ra hướng tiếp cận bằng cách kết hợp mô hình màu da cùng với mô hình màu tóc (skin and hair color model). Những màu này được phát hiện dựa vào mô hình Gauss.

Sau đó bằng cách áp dụng phương pháp so khớp mẫu (template matching) để đạt được mục đích phát hiện phần đầu người đáp ứng thời gian thực. Khó khăn trong hướng tiếp cận này thường gặp ở việc thu thập dữ liệu huấn luyện màu da và màu tóc, độ chính xác dể bị ảnh hưởng bởi độ sáng của môi trường. Việc phát hiện đối tượng có thể được thực hiện bằng các phương pháp học máy. Các phương pháp này có thể kể đến như: mạng nơ-ron (Neural Network), cây quyết định (Decision Tree), máy hỗ trợ vectơ (Support Vector Machine - SVM).

Điểm chung của các phương pháp này đều phải trải qua giai đoạn huấn luyện trên một tập dữ liệu. Tập dữ liệu này phải đủ lớn, bao quát hết được các trạng thái của đối tượng. Sau đó các đặc trưng sẽ được rút trích ra trên bộ dữ liệu huấn luyện này. Việc lựa chọn đặc trưng sử dụng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các phương pháp học máy.

Một số đặc trưng thường được sử dụng như: đặc trưng về màu sắc, đặc trưng về góc cạnh, đặc trưng histogram, v. Sau khi đã có được đặc trưng, ta sẽ đánh nhãn lớp cụ thể cho các đặc trưng đó để sử dụng trong việc huấn luyện. Trong quá trình huấn luyện, các phương pháp học máy sẽ sinh ra một hàm để ánh xạ những đặc trưng đầu vào tương ứng với nhãn lớp cụ thể. Sau khi đã huấn luyện xong thì các phương pháp học máy trên sẽ được dùng để phân lớp cho những đặc trưng mới.

Đặc điểm của phương pháp này là độ chính xác cao. Tuy nhiên nó gặp phải khó khăn trong việc thu thập dữ liệu huấn luyện ban LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 đầu, tốn thời gian và chi phí cho quá trình học máy. Luận văn này nhằm mục đích nghiên cứu, xây dựng giải thuật theo dõi tự động các đối tượng có trong video. Giải thuật theo dõi cần có độ chính xác tốt, đồng thời chi phí tính toán thấp phục vụ các ứng dụng thời gian thực.

Do đó, luận văn tập trung đi sâu vào việc khảo sát các đặc trưng của video, đặc trưng ảnh, đặc trưng của đối tượng chuyển động, đặc trưng nền, v. từ đó áp dụng các thuật toán phù hợp, kết hợp với các thuật toán học máy phù hợp để đưa ra kết quả tối ưu, rút ngắn thời gian tính toán và chi phí bộ nhớ, để từ đó hệ thống phù hợp với thời gian thực hơn. Đầu vào của bài toán theo dõi đối tượng là các khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động (Object Detection ) sẽ đưa ra các đối tượng trong khung hình.

Khối phát hiện đối tượng chuyển động có thể coi là quyết định độ chính xác của hệ thống giám sát thông minh bằng hình ảnh, vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của khối xử lý tiếp theo. Luận văn này sẽ đưa và các kỹ thuật tối ưu hiệu quả như giải thuật di truyền và tối ưu bày đàn để tăng độ chính xác và hiệu quả của bước phát hiện đối tượng. Và cuối cùng là quá trình xử lý để theo dõi đối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng, dự đoán chuyển động, xử lý nhập nhằng trong chuyển động. Hiện nay, trên thế giới các hệ thống theo dõi - giám sát thông minh bằng hình ảnh đã được phát triển và đã chứng minh được hiệu quả nhất định trên một số lĩnh vực như giám sát hoạt động con người, giám sát giao thông, v.

Từ các hình ảnh thu được từ những nơi được quan sát, ta có thể phát hiện được chuyển động của các đối tượng trong các khung hình, xác định được đối tượng đó là người, phương tiện hay vật thể gì. Nhiều hệ thống đã được nghiên cứu và phát triển. Chẳng hạn, với bài toán giám sát giao thông có thể cho chúng ta biết được số lượng phương tiện lưu thông qua đoạn đường được theo dõi, đưa ra thông tin về tốc độ chuyển động, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 đường đi của đối tượng được theo dõi v. Tuy nhiên, các hệ thống vẫn gặp phải một số tồn tại như hiệu quả của việc quan sát luôn phụ thuộc vào điệu kiện môi trường quan sát, kiểu chuyển động của đối tượng hay các lý do khách quan khác.

Vì vậy, với khả năng cá nhân, tôi mong muốn làm chủ các công nghệ theo dõi đối tượng, từ đó xây dựng các ứng dụng phù hợp với môi trường Việt Nam, phục vụ an ninh - quốc phòng, đem lại các lợi ích về kinh tế cho đất nước. Luận văn này được cấu trúc các phần như sau. Chương 2 tiếp theo là một định nghĩa cơ bản được sử dụng trong luận văn, bao gồm: lý thuyết trích xuất đặc trưng, giải thuật phân hoạch mờ, giải thuật di truyền và giải thuật tối ưu bầy đàn. Chương 3 trình bày cách tiếp cận giải quyết bài toán theo dõi đối tượng của luận văn.

Cách tiếp cận này được ứng dụng giải quyết với đối tượng cụ thể là phương tiện giao thông chụp từ ảnh UAV, các kết quả thử nghiệm chỉ ra ở chương 4. Cuối cùng là các kết luận, định hướng mở rộng được đưa ra ở chương 5 và danh sách các tài liệu tham khảo. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2. Phân hoạch mờ Ngày nay, xã hội đã phát triển đồng thời sự tiến bộ của khoa học công nghệ, các suy luận lôgic nguyên thuỷ (hay lôgic rõ) với hai giá trị đúng sai hay 1, 0 riêng biệt đã không giải quyết được hết các bài toán phức tạp nảy sinh trong thực tế.

Ví dụ, một bộ phim thế nào được gọi là hay hay không hay, một bức ảnh đẹp hay không đẹp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng học máy trong xử lý ảnh

Theo dõi đối tượng trong thị giác máy tính

Giải thuật di truyền và Tối ưu hóa bầy đàn

Luận văn thạc sĩ ngành Công nghệ thông tin