Phát Triển Kỹ Thuật Tìm Kiếm Đối Tượng Cho Camera Quan Sát Trong Luận Văn Thạc Sĩ Khoa Học Máy Tính

Luận văn thạc sĩ khoa học máy tính tập trung phát triển kỹ thuật tìm kiếm đối tượng hiệu quả cho hệ thống camera quan sát, ứng dụng công nghệ tiên tiến.

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

MỤC LỤC

1. CHƯƠNG 1: GIỚI THIỆU

1.1. MỞ ĐẦU

1.2. THÁCH THỨC

1.3. Ý NGHĨA

1.4. TÌNH HÌNH NGHIÊN CỨU

1.5. MỤC TIÊU NGHIÊN CỨU

1.6. PHẠM VI NGHIÊN CỨU

1.7. ĐỐI TƯỢNG NGHIÊN CỨU

1.8. BỐ CỤC CỦA LUẬN VĂN

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. MẠNG NEURON TÍCH CHẬP

2.2. HÀM MẤT MÁT

2.3. CÁC LỚP CHUẨN HOÁ

2.4. CÁC PHÉP ĐO

2.5. PHƯƠNG PHÁP TÁI XẾP HẠNG THƯỜNG DÙNG CHO ReID

2.6. CẤU TẠO KHỐI MULTI-HEAD SELF ATTENTION (MSA)

3. CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN

4. CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM

4.1. THÍ NGHIỆM SEGMENT

4.1.1. THÍ NGHIỆM SEGMENT GRAY

4.1.2. THÍ NGHIỆM SEGMENT COLOR

4.2. THÍ NGHIỆM ATTRIBUTE

4.3. THÍ NGHIỆM SKELETON

4.4. THÍ NGHIỆM MSA

4.4.1. THÍ NGHIỆM VỊ TRÍ MSA

4.4.2. THÍ NGHIỆM THÀNH PHẦN VÀ SIÊU THAM SỐ MSA

4.4.3. THÍ NGHIỆM KẾT HỢP MSA VÀO SEGMENT, ATTRIBUTE VÀ SKELETON

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM

5.1. TẬP DỮ LIỆU

5.2. TIỀN XỬ LÝ DỮ LIỆU

5.3. MÔI TRƯỜNG THỰC HIỆN

5.4. KẾT QUẢ THÍ NGHIỆM

5.4.1. THÍ NGHIỆM SEGMENT GRAY

5.4.2. THÍ NGHIỆM SEGMENT COLOR

5.4.3. THÍ NGHIỆM ATTRIBUTE VÀ SKELETON

5.4.4. THÍ NGHIỆM VỊ TRÍ MSA

5.4.5. THÍ NGHIỆM PHƯƠNG ÁN ATTENTION CORE CHO MSA

5.4.6. THÍ NGHIỆM SIÊU THAM SỐ CHO MSA

5.4.7. THÍ NGHIỆM TUNING CHO MSA

5.4.8. THÍ NGHIỆM KẾT HỢP MSA VÀO SEGMENT, ATTRIBUTE VÀ SKELETON

5.5. KẾT LUẬN CHỌN MÔ HÌNH GIẢI PHÁP

5.6. SO SÁNH VỚI CÁC CÔNG TRÌNH KHÁC

5.7. PHÂN TÍCH ĐỊNH TÍNH

6. CHƯƠNG 6: KẾT LUẬN

6.1. TỔNG KẾT KẾT QUẢ

6.2. HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Kỹ thuật tìm kiếm đối tượng

Kỹ thuật tìm kiếm đối tượng là trọng tâm của luận văn, tập trung vào việc cải tiến mô hình LightMBN để nâng cao hiệu quả tìm kiếm đối tượng trong hệ thống camera quan sát. Luận văn đề xuất các phương pháp như bổ sung thông tin vùng phân đoạn cơ thể người, thuộc tính người, và ảnh khung xương người. Mục tiêu là đạt độ chính xác cao với tốc độ thực thi nhanh, đảm bảo ứng dụng thực tiễn.

1.1. Cải tiến mô hình LightMBN

Luận văn cải tiến mô hình LightMBN bằng cách tích hợp Multi-head Self Attention (MSA), một kỹ thuật tiên tiến trong trí tuệ nhân tạo. Phương pháp này giúp mô hình tập trung vào các đặc điểm quan trọng của đối tượng, cải thiện độ chính xác trong việc nhận diện đối tượng. Kết quả thực nghiệm cho thấy mô hình MSAback đạt hiệu suất cao trên các tập dữ liệu CUHK03, DukeMTMC, và Market1501.

1.2. Ứng dụng thực tiễn

Các kỹ thuật đề xuất không chỉ nâng cao độ chính xác mà còn tối ưu hóa tốc độ thực thi, phù hợp với các hệ thống giám sát thực tế. Điều này mở ra khả năng ứng dụng rộng rãi trong các lĩnh vực như an ninh, theo dõi đối tượng, và quản lý lưu lượng người trong các khu vực công cộng.

II. Camera quan sát và xử lý hình ảnh

Camera quan sát đóng vai trò quan trọng trong việc thu thập dữ liệu hình ảnh phục vụ cho bài toán tìm kiếm đối tượng. Luận văn tập trung vào việc xử lý hình ảnh từ các camera với góc nhìn và điều kiện ánh sáng khác nhau, nhằm tăng cường khả năng nhận diện đối tượng trong môi trường thực tế.

2.1. Thách thức trong xử lý hình ảnh

Các thách thức chính bao gồm sự thay đổi góc nhìn, điều kiện ánh sáng, và sự che khuất đối tượng. Luận văn đề xuất các phương pháp xử lý hình ảnh tiên tiến để khắc phục những vấn đề này, đảm bảo độ chính xác trong việc nhận diện đối tượng.

2.2. Phân tích video và học máy

Luận văn sử dụng các kỹ thuật phân tích video và học máy để trích xuất đặc trưng từ hình ảnh và video. Các phương pháp này giúp cải thiện khả năng nhận diện đối tượng trong các hệ thống camera đa dạng, từ đó nâng cao hiệu quả của hệ thống giám sát.

III. Luận văn thạc sĩ khoa học máy tính

Luận văn Phát triển kỹ thuật tìm kiếm đối tượng cho camera quan sát là một nghiên cứu chuyên sâu trong lĩnh vực khoa học máy tính, đặc biệt là thị giác máy tính và trí tuệ nhân tạo. Nghiên cứu này không chỉ đóng góp vào lý thuyết mà còn mang lại giá trị thực tiễn cao.

3.1. Đóng góp khoa học

Luận văn đóng góp vào việc phát triển các thuật toán và mô hình máy học mới, đặc biệt là trong lĩnh vực nhận diện đối tượng. Các kết quả nghiên cứu cung cấp cơ sở lý thuyết và phương pháp thực tiễn cho các ứng dụng thị giác máy tính trong tương lai.

3.2. Giá trị thực tiễn

Nghiên cứu này có thể ứng dụng trong các hệ thống giám sát an ninh, giúp nhận diện và theo dõi đối tượng một cách hiệu quả. Điều này không chỉ cải thiện khả năng giám sát mà còn tiết kiệm thời gian và công sức trong việc tìm kiếm đối tượng.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phát triển kỹ thuật tìm kiếm đối tượng cho camera quan sát

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tái định danh đối tượng (Re-identification - ReID) trong hệ thống camera quan sát là một bài toán quan trọng và đầy thách thức trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo. Theo ước tính, với sự phát triển nhanh chóng của các hệ thống camera giám sát tại các thành phố lớn, việc tự động nhận diện và theo dõi đối tượng trong nhiều camera trở nên cấp thiết nhằm nâng cao hiệu quả giám sát an ninh và quản lý đô thị. Bài toán ReID tập trung vào việc truy xuất tất cả các hình ảnh khớp với hình ảnh truy vấn trong hệ thống camera đa điểm, đối mặt với các thách thức như thay đổi góc nhìn, điều kiện ánh sáng, che khuất và biến đổi ngoại hình của đối tượng.

Mục tiêu nghiên cứu của luận văn là phát triển kỹ thuật tìm kiếm đối tượng cho camera quan sát, tập trung cải tiến mô hình LightMBN bằng cách bổ sung thông tin phân đoạn cơ thể người, thuộc tính người, khung xương người và tích hợp khối Multi-head Self Attention (MSA) nhằm nâng cao độ chính xác và tốc độ thực thi. Phạm vi nghiên cứu giới hạn trong tái định danh người đi bộ trong hệ thống camera giám sát ngoài trời tại các khu vực công cộng, với dữ liệu thu thập từ các bộ dữ liệu chuẩn như CUHK03, DukeMTMC và Market1501 trong khoảng thời gian gần đây.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao hiệu quả nhận diện đối tượng trong các hệ thống giám sát an ninh, giúp tiết kiệm thời gian và công sức trong việc tìm kiếm, theo dõi người và phương tiện, mà còn góp phần phát triển các ứng dụng thương mại như theo dõi lưu lượng khách hàng và cá nhân hóa trải nghiệm mua sắm. Các chỉ số đánh giá hiệu quả như Mean Average Precision (mAP) và Rank-1 Accuracy được sử dụng để đo lường thành công của mô hình, với kết quả mAP đạt 85.7% chưa tái xếp hạng và 92.9% sau tái xếp hạng, cho thấy tiềm năng ứng dụng thực tiễn cao.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: mạng neuron tích chập (Convolutional Neural Networks - CNN) và cơ chế Multi-head Self Attention (MSA) trong mô hình Transformer. CNN là nền tảng cho việc trích xuất đặc trưng hình ảnh, với các thành phần như lớp tích chập, lớp pooling, hàm kích hoạt ReLU, và lớp fully connected, giúp mô hình học được các đặc điểm quan trọng của đối tượng từ dữ liệu ảnh. Ngoài ra, các hàm mất mát như ID loss (cross-entropy loss) và triplet loss được sử dụng để tối ưu hóa mô hình, nhằm phân biệt hiệu quả các đối tượng khác nhau và thu hẹp khoảng cách đặc trưng của cùng một đối tượng.

Multi-head Self Attention (MSA) là kỹ thuật cho phép mô hình tập trung vào các phần quan trọng của dữ liệu đầu vào bằng cách tính toán trọng số attention giữa các điểm dữ liệu, giúp khai thác các mối quan hệ phức tạp trong ảnh mà CNN truyền thống có thể bỏ sót. MSA được tích hợp trong khối Transformer Encoder, kết hợp với mạng feedforward và các kỹ thuật chuẩn hóa như LayerNorm và Dropout để tăng tính ổn định và hiệu quả học tập.

Các khái niệm chính bao gồm:

ID loss: hàm mất mát phân loại giúp mô hình học đặc trưng phân biệt giữa các ID khác nhau.
Triplet loss: hàm mất mát so sánh bộ ba ảnh (anchor, positive, negative) để tối ưu khoảng cách đặc trưng.
Batch Normalization (BatchNorm) và Layer Normalization (LayerNorm): kỹ thuật chuẩn hóa giúp ổn định quá trình huấn luyện.
Mean Average Precision (mAP) và Rank-n Accuracy: các chỉ số đánh giá hiệu suất mô hình trong bài toán ReID.
Re-ranking (tái xếp hạng): kỹ thuật cải thiện kết quả xếp hạng bằng phương pháp K-reciprocal Nearest Neighbours.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là ba bộ dữ liệu chuẩn cho bài toán ReID người đi bộ: CUHK03, DukeMTMC và Market1501, với hàng chục nghìn ảnh và ID người khác nhau. Dữ liệu được tiền xử lý bao gồm cắt sát đối tượng, tạo nhãn phân đoạn cơ thể, thuộc tính và khung xương người bằng các mô hình học sâu chuyên biệt như OpenPifPaf.

Phương pháp phân tích bao gồm việc cải tiến mô hình LightMBN bằng cách bổ sung các thông tin phụ trợ (segment, attribute, skeleton) và tích hợp khối MSA để nâng cao khả năng trích xuất đặc trưng. Các thí nghiệm được thiết kế để đánh giá hiệu quả từng thành phần cải tiến trên các tập dữ liệu, sử dụng các hàm mất mát ID loss, triplet loss và MS loss để huấn luyện mô hình. Quá trình huấn luyện áp dụng kỹ thuật warmup cosine annealing để điều chỉnh learning rate, giúp mô hình hội tụ tốt hơn.

Cỡ mẫu huấn luyện dao động theo kích thước tập dữ liệu, với phương pháp chọn mẫu ngẫu nhiên kết hợp sampling theo ID để đảm bảo đa dạng và cân bằng. Phân tích kết quả dựa trên các chỉ số mAP, Rank-1, và tốc độ thực thi (FLOPs) để đánh giá cả độ chính xác và hiệu năng tính toán. Timeline nghiên cứu kéo dài từ tháng 01 đến tháng 05 năm 2024, bao gồm các giai đoạn thu thập dữ liệu, thiết kế mô hình, huấn luyện, đánh giá và so sánh với các công trình liên quan.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của việc bổ sung thông tin phân đoạn cơ thể (Segment): Thí nghiệm trên tập CUHK03 cho thấy việc sử dụng segment màu cải thiện mAP từ khoảng 78% lên 82%, trong khi segment xám cũng nâng mAP lên khoảng 80%. Tương tự, trên DukeMTMC và Market1501, mAP tăng trung bình 3-5% so với mô hình gốc.
Tác động của thông tin thuộc tính người (Attribute) và khung xương người (Skeleton): Kết quả thí nghiệm cho thấy việc kết hợp attribute và skeleton giúp tăng mAP thêm khoảng 2-3% trên cả ba tập dữ liệu, đồng thời cải thiện khả năng phân biệt các đối tượng có ngoại hình tương tự.
Hiệu quả tích hợp khối Multi-head Self Attention (MSA): Mô hình MSAback đạt mAP 85.7% và Rank-1 88.3% trên tập Market1501 trước khi tái xếp hạng, tăng lên 92.9% mAP sau khi áp dụng re-ranking. Tốc độ thực thi của mô hình nhanh hơn nhiều lần so với các mô hình Transformer thuần túy, với FLOPs chỉ khoảng 2.4 GFLOPs, thấp hơn đáng kể so với ResNet50 (4 GFLOPs).
So sánh với các công trình liên quan: MSAback vượt trội hơn các mô hình như BPBreID, TransReID và PAMECA về cả độ chính xác và tốc độ thực thi, đồng thời giữ được sự cân bằng giữa hiệu năng và chi phí tính toán.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện đến từ việc bổ sung các thông tin phụ trợ giúp mô hình có cái nhìn toàn diện hơn về đối tượng, giảm thiểu ảnh hưởng của che khuất và biến đổi góc nhìn. Khối MSA giúp mô hình tập trung vào các vùng quan trọng trong ảnh, khắc phục hạn chế của CNN truyền thống trong việc mất chi tiết nhỏ và không gian cấu trúc phức tạp.

So với các nghiên cứu trước, kết quả của luận văn cho thấy sự tiến bộ rõ rệt trong việc cân bằng giữa độ chính xác và tốc độ, điều này rất quan trọng để ứng dụng trong các hệ thống giám sát thực tế. Biểu đồ so sánh mAP và Rank-1 giữa các mô hình minh họa sự vượt trội của MSAback, trong khi bảng FLOPs cho thấy ưu thế về hiệu năng tính toán.

Tuy nhiên, vẫn còn một số hạn chế như giả định người đi bộ đứng thẳng trong phân đoạn part, chưa mở rộng cho các tư thế khác hoặc đối tượng khác như phương tiện giao thông. Ngoài ra, việc tái xếp hạng mặc dù cải thiện độ chính xác nhưng làm tăng chi phí tính toán, cần cân nhắc khi triển khai thực tế.

Đề xuất và khuyến nghị

Triển khai mô hình MSAback trong hệ thống giám sát thực tế: Tập trung vào tối ưu hóa phần cứng để tận dụng tốc độ thực thi nhanh của mô hình, nhằm đạt được thời gian phản hồi dưới 1 giây cho mỗi truy vấn. Chủ thể thực hiện là các đơn vị phát triển phần mềm giám sát, thời gian triển khai dự kiến 6 tháng.
Mở rộng phạm vi đối tượng nghiên cứu: Nghiên cứu và phát triển thêm các module phân đoạn và đặc trưng cho các tư thế đa dạng của người đi bộ và các loại đối tượng khác như xe cộ, thú cưng. Mục tiêu nâng cao độ chính xác trên các tình huống thực tế phức tạp, thời gian nghiên cứu 12 tháng, do các nhóm nghiên cứu chuyên sâu đảm nhận.
Tối ưu hóa thuật toán tái xếp hạng (Re-ranking): Phát triển các phương pháp tái xếp hạng nhẹ hơn hoặc áp dụng kỹ thuật học sâu để giảm chi phí tính toán mà vẫn giữ được hiệu quả cải thiện độ chính xác. Chủ thể thực hiện là nhóm phát triển thuật toán, thời gian 6 tháng.
Xây dựng bộ dữ liệu đa dạng và phong phú hơn: Thu thập và gán nhãn tự động các bộ dữ liệu mới với nhiều điều kiện ánh sáng, góc nhìn và che khuất khác nhau để huấn luyện mô hình có khả năng tổng quát cao hơn. Thời gian thực hiện 1 năm, phối hợp giữa các viện nghiên cứu và doanh nghiệp.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Luận văn cung cấp kiến thức nền tảng và các phương pháp tiên tiến trong bài toán ReID, giúp phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống giám sát an ninh: Các giải pháp và mô hình được đề xuất có thể ứng dụng trực tiếp để nâng cao hiệu quả nhận diện và theo dõi đối tượng trong các hệ thống camera quan sát.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và an ninh: Tham khảo để phát triển sản phẩm thương mại, tối ưu hóa thuật toán nhằm cân bằng giữa độ chính xác và tốc độ xử lý.
Cơ quan quản lý đô thị và an ninh công cộng: Hiểu rõ về các công nghệ mới trong giám sát thông minh, từ đó có thể phối hợp triển khai các hệ thống giám sát hiệu quả hơn, hỗ trợ công tác quản lý và đảm bảo an ninh.

Câu hỏi thường gặp

Tái định danh đối tượng (ReID) là gì và tại sao quan trọng?
ReID là quá trình nhận diện và theo dõi một đối tượng qua nhiều camera khác nhau. Nó quan trọng vì giúp tự động hóa việc giám sát, giảm thiểu công sức và tăng độ chính xác trong các hệ thống an ninh và quản lý đô thị.
Mô hình LightMBN được cải tiến như thế nào trong luận văn?
Luận văn bổ sung thông tin phân đoạn cơ thể, thuộc tính người, khung xương và tích hợp khối Multi-head Self Attention vào LightMBN, giúp tăng độ chính xác và tốc độ thực thi so với mô hình gốc.
Multi-head Self Attention (MSA) có vai trò gì trong mô hình?
MSA giúp mô hình tập trung vào các vùng quan trọng trong ảnh, khai thác mối quan hệ phức tạp giữa các phần của đối tượng, từ đó cải thiện khả năng nhận diện và phân biệt các đối tượng tương tự.
Các chỉ số đánh giá hiệu quả mô hình là gì?
Chủ yếu là Mean Average Precision (mAP) và Rank-1 Accuracy, đo lường độ chính xác trong việc tìm kiếm và xếp hạng các ảnh trùng đối tượng. Ngoài ra, FLOPs được dùng để đánh giá chi phí tính toán.
Mô hình có thể áp dụng cho các đối tượng ngoài người đi bộ không?
Hiện tại mô hình tập trung vào người đi bộ với giả định đứng thẳng. Việc mở rộng cho các đối tượng khác hoặc tư thế khác cần nghiên cứu thêm và phát triển các module đặc trưng phù hợp.

Kết luận

Luận văn đã phát triển thành công mô hình MSAback, cải tiến từ LightMBN, tích hợp thông tin phân đoạn, thuộc tính, khung xương và khối Multi-head Self Attention.
Mô hình đạt mAP 85.7% chưa tái xếp hạng và 92.9% sau tái xếp hạng trên các bộ dữ liệu chuẩn, đồng thời có tốc độ thực thi nhanh hơn nhiều so với các mô hình hiện có.
Nghiên cứu đã cân bằng hiệu quả giữa độ chính xác và chi phí tính toán, phù hợp cho ứng dụng thực tế trong hệ thống camera giám sát.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng phạm vi đối tượng, tối ưu thuật toán tái xếp hạng và xây dựng bộ dữ liệu đa dạng hơn.
Khuyến khích các nhà nghiên cứu, chuyên gia và doanh nghiệp trong lĩnh vực AI và an ninh tham khảo và ứng dụng kết quả nghiên cứu để nâng cao hiệu quả giám sát và quản lý đô thị thông minh.

Hành trình tiếp theo là triển khai mô hình trong các hệ thống thực tế, đồng thời tiếp tục nghiên cứu để mở rộng và hoàn thiện các giải pháp tái định danh đối tượng đa dạng và phức tạp hơn.

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn. • Chương 2: Cơ sở lý thuyết: Trình bày kiến thức nền tảng có liên quan đến đề tài. 4 • Chương 3: Các công trình liên quan: Trình bày các công trình gần đây có liên quan. • Chương 4: Phương pháp thí nghiệm: Trình bày các mô hình đề xuất và thí nghiệm.

• Chương 5: Kết quả thực nghiệm: So sánh và đánh giá kết quả của các thí nghiệm đã thực hiện, so sánh với các công trình gần đây. • Chương 6: Kết luận: Tổng kết kết quả đúc kết được trong quá trình nghiên cứu và hướng phát triển tiếp theo trong tương lai. 5 Chương 2 Cơ sở lý thuyết Chương này sẽ giải thích về khái niệm, kiến trúc mạng neuron tích chập - CNN, hàm mất mát, các lớp chuẩn hoá, các phép đo, phương pháp tái xếp hạng thường dùng cho ReID và cấu tạo của khối Multi-head Self Attention (MSA) 2.1 Mạng neuron tích chập Mạng neuron tích chập - Convolutional Neural Network (CNN) là một dạng mạng neuron nhân tạo được thiết kế để xử lý và nhận diện các hình ảnh và dữ liệu không gian. CNN đã trở thành công cụ cực kỳ mạnh mẽ trong lĩnh vực thị giác máy tính và xử lý ảnh, và cũng được sử dụng rộng rãi trong các ứng dụng khác như xử lý ngôn ngữ tự nhiên, dữ liệu chuỗi.

Các thành phần cơ bản của CNN (minh hoạ trong Hình 2. Convolutional Layer: Convolutional layer là trái tim của CNN, sử dụng các bộ lọc (kernel) để áp dụng phép tích chập trên dữ liệu đầu vào. Mỗi bộ lọc nhận diện các đặc trưng cụ thể trong hình ảnh, ví dụ như cạnh, góc, hoặc các đặc điểm nổi bật. Các bộ lọc này được di chuyển trên toàn bộ hình ảnh để tạo ra các feature map.

Pooling Layer: Pooling layer thường được sử dụng sau các convolutional layer để giảm kích thước của feature map và giảm lượng tính toán. Các kỹ thuật phổ biến trong pooling là max pooling và average pooling, trong đó max pooling chọn giá trị lớn nhất từ mỗi vùng cắt và average pooling tính trung bình của các giá trị. Activation Function: Activation function được áp dụng sau mỗi convolutional để thêm tính phi tuyến tính cho mạng neuron. Hàm kích hoạt phổ biến nhất là Rectified Linear Unit (ReLU) do tính đơn giản và khả năng giải quyết vấn đề vanishing gradient.

Fully Connected Layer: Sau khi thông tin đã được trích xuất thông qua các con- volutional và pooling layer, fully connected layer (hoặc dense layer) được sử dụng để kết hợp các đặc trưng này và tạo ra kết quả cuối cùng. Đây là phần của mạng neuron chịu trách nhiệm cho việc phân loại hoặc dự đoán. Dropout Layer: Dropout layer là một kỹ thuật regularization phổ biến được sử dụng để ngăn chặn overfitting trong mạng neuron, bằng cách ngẫu nhiên "tắt" một số đơn vị (units) trong quá trình huấn luyện để giảm sự phụ thuộc vào các đặc trưng cụ thể. Output Layer: Output layer thường là một layer fully connected layer với số lượng đơn vị tương ứng với số lượng lớp đầu ra.

Nếu mô hình làm việc trên một bài toán phân loại, output layer thường sử dụng softmax activation để tính toán xác suất cho mỗi lớp.1: Sơ đồ hoạt động của CNN với bài toán phân loại chữ viết tay 2.1 ID loss ID loss là một thành phần quan trọng được sử dụng trong quá trình huấn luyện các mô hình ReID. Mục tiêu chính của hàm mất mát này là khuyến khích mô hình học các đặc trưng phân biệt cho các đối tượng khác nhau để có thể phân biệt một cách hiệu quả các đối tượng. Cách tính ID loss có thể thay đổi tùy thuộc vào kiến trúc cụ thể và chiến lược huấn luyện, nhưng mục tiêu chung vẫn là giảm thiểu các biến thể trong cùng một lớp (sự khác 7 biệt giữa các hình ảnh của cùng một đối tượng) trong khi tăng cường các biến thể giữa các lớp khác nhau (sự khác biệt giữa các hình ảnh của các đối tượng khác nhau). Một cách tiếp cận phổ biến cho ID loss là sử dụng hàm mất mát dựa trên cross- entropy, với công thức như sau: 1 N C LID = − ∑ ∑ yi j log(pi j ) N i=1 j=1 Trong đó: • N là tổng số lượng mẫu huấn luyện.

• C là tổng số ID. • yi j là một hàm chỉ số nhị phân, có giá trị bằng 1 nếu mẫu i thuộc lớp j và bằng 0 nếu không thuộc lớp j. • pi j là xác suất dự đoán rằng mẫu i thuộc lớp j. Hàm softmax thường được áp dụng để chuyển thành xác suất (zi j đại diện cho logit cho lớp j của mẫu i): ezi j pi j = C z ∑k=1 e ik Bằng cách tối thiểu ID loss, mô hình học ánh xạ các hình ảnh của cùng một đối tượng thành các biểu diễn đặc trưng tương tự nhau trong khi đẩy các hình ảnh của các đối tượng có ID khác nhau ra xa nhau trong không gian đặc trưng, từ đó làm cho việc nhận dạng lại đối tượng trở nên hiệu quả.2 Triplet loss Triplet loss là một loại hàm mất mát được sử dụng rộng rãi trong ReID.

Cơ chế cơ bản của triplet loss là so sánh các cặp hình ảnh theo từng bộ ba đối tượng. Mỗi bộ gồm ba hình ảnh: một hình ảnh gốc (anchor), một hình ảnh chứa đối tượng cùng ID với anchor (positive), và một hình ảnh chứa đối tượng khác ID với anchor (negative). Mục tiêu là đảm bảo rằng khoảng cách giữa ảnh anchor và ảnh positive nhỏ hơn so với khoảng cách giữa ảnh anchor và ảnh negative một lượng được gọi là margin (Hình 2.2: Nhóm 3 ảnh trước và sau khi huấn luyện sử dụng triplet loss Công thức cơ bản của triplet loss được biểu diễn như sau: N Ltriplet = ∑ max(d(ai , pi ) − d(ai , ni ) + α, 0) i=1 Trong đó: • N là số lượng các bộ ba ảnh trong tập dữ liệu huấn luyện. • ai là biểu diễn đặc trưng của ảnh anchor.

• pi là biểu diễn đặc trưng của ảnh positive. • ni là biểu diễn đặc trưng của ảnh negative. • d(·) là một hàm đo khoảng cách, thường sử dụng khoảng cách Euclid. • α là margin, một giá trị dương kiểm soát mức độ giữa các khoảng cách.

Triplet loss được sử dụng trong quá trình huấn luyện để định hình không gian đặc trưng sao cho các biểu diễn đặc trưng của các ảnh của cùng một đối tượng gần nhau, trong khi các biểu diễn đặc trưng của các đối tượng khác nhau được phân biệt rõ ràng, cách xa nhau. Điều này giúp cải thiện hiệu suất của các phương pháp ReID.3 Lớp chuẩn hoá 2.1 BatchNorm Batch Normalization (BatchNorm) là một kỹ thuật chuẩn hóa đầu ra của các lớp ẩn trong deep neural network, giúp ổn định quá trình huấn luyện bằng cách đưa dữ liệu đầu ra của mỗi lớp về một phân phối chuẩn (mean = 0, variance = 1) trong quá trình lan 9 truyền thuận (Hình 2. Điều này giúp cho việc huấn luyện mạng trở nên hiệu quả hơn và giúp tránh hiện tượng vanishing/exploding gradient.3: So sánh BatchNorm và LayerNorm Cho một mini-batch có kích thước m với các giá trị đầu vào x1 , x2 , ., xm cho một lớp ẩn trong mạng neuron, BatchNorm tính toán mean và variance của mini-batch như sau: 1 m µ = ∑ xi m i=1 1 m 2 σ = ∑ (xi − µ)2 m i=1 Sau đó, BatchNorm thực hiện chuẩn hóa đầu ra của mini-batch bằng cách sử dụng mean và variance đã tính được: xi − µ x̂i = √ σ2 +ε Trong đó: • x̂i là giá trị đầu ra đã chuẩn hóa của mỗi điểm dữ liệu trong mini-batch. • ε là một hằng số nhỏ được thêm vào trong mẫu để tránh trường hợp chia cho 0.

BatchNorm cũng có hai tham số học là γ (scale) và β (shift), được sử dụng để biến đổi lại giá trị chuẩn hóa để có thể thay đổi vị trí và phạm vi của dữ liệu: yi = γ x̂i + β Trong quá trình lan truyền thuận, BatchNorm áp dụng các phép biến đổi này cho đầu ra của mỗi lớp ẩn. Trong quá trình lan truyền ngược, các gradient được tính toán theo cách tương tự như trong các lớp thông thường, với thêm sự ảnh hưởng của các tham số γ và β .2 LayerNorm Layer Normalization (LayerNorm) là một kỹ thuật chuẩn hóa đầu ra của các lớp trong deep neural network tương tự như BatchNorm, nhưng khác biệt ở chỗ thay vì chuẩn hóa trên mini-batch, LayerNorm chuẩn hóa trên từng đặc trưng (feature) riêng lẻ, giúp cải thiện sự ổn định của quá trình huấn luyện (Hình 2. Công thức của LayerNorm cho một đặc trưng x trong một lớp ẩn: x−µ LayerNorm(x) = γ √ +β σ2 +ε Trong đó: • x là giá trị đầu ra của một đặc trưng trong một lớp ẩn. • µ là giá trị trung bình của các giá trị đầu ra của đặc trưng trong một minibatch.

• σ 2 là phương sai của các giá trị đầu ra của đặc trưng trong một minibatch. • ε là một hằng số nhỏ được thêm vào trong mẫu để tránh trường hợp chia cho 0. • γ và β là các tham số học của LayerNorm, tương tự như BatchNorm, được sử dụng để điều chỉnh vị trí và phạm vi của dữ liệu.3 BNNeck Hầu hết các mô hình đạt kết quả cao thường sử dụng cả triplet loss và ID loss, như được minh họa trong Hình 2. Tuy nhiên, việc kết hợp hai loại hàm mục tiêu này đôi khi dẫn đến sự không nhất quán với mục tiêu ban đầu của mỗi hàm.4: ID loss kết hợp triplet loss 11 ID loss nhằm tách biệt vector đặc trưng của mỗi lớp theo các hướng khác nhau trong không gian đặc trưng.

Do đó, việc áp dụng khoảng cách cosine thường phù hợp hơn so với khoảng cách Euclidean. Trong khi đó, triplet loss nhằm giảm thiểu khoảng cách giữa các mẫu trong cùng một lớp và tăng cường khoảng cách giữa các mẫu thuộc các lớp khác nhau, nên sử dụng khoảng cách Euclidean. Trong quá trình học, có thể giá trị của một loss giảm đi lại làm tăng giá trị của hàm loss kia. Sự ảnh hưởng của các yếu tố ID loss, triplet loss, lớp BN, lớp BNNeck được thể hiện ở Hình 2.5: Sơ đồ BNNeck BBNeck thêm lớp BatchNorm trước lớp FC để dễ dàng hội tụ ID loss hơn (Hình 2.

Gọi vector ft và fi lần lượt là vector trước và sau lớp BN. Vector ft sẽ được dùng cho việc học triplet còn vector fi sẽ qua thêm một lớp FC để dùng ID Loss. Sau quá trình huấn luyện, fi sẽ được dùng làm vector đặc trưng và kiểm thử mô hình. Ngoài ra bỏ bias ở lớp FC để ràng buộc siêu phẳng phân lớp về tâm toạ độ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phát Triển Kỹ Thuật Tìm Kiếm Đối Tượng Cho Camera Quan Sát Trong Luận Văn Thạc Sĩ Khoa Học Máy Tính là một nghiên cứu chuyên sâu về việc nâng cao khả năng nhận diện và theo dõi đối tượng trong hệ thống camera quan sát. Luận văn này tập trung vào việc phát triển các thuật toán tiên tiến, giúp cải thiện độ chính xác và tốc độ xử lý trong các tình huống thực tế. Điều này không chỉ mang lại lợi ích cho lĩnh vực an ninh mà còn mở ra nhiều ứng dụng tiềm năng trong các ngành công nghiệp khác. Để hiểu rõ hơn về các kỹ thuật rút trích đối tượng, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính rút trích nét đối tượng. Ngoài ra, nếu quan tâm đến hệ thống camera ổn định, Luận văn thạc sĩ tự động hóa điều khiển hệ thống camera ổn định hai trục sẽ cung cấp thêm góc nhìn chi tiết. Cuối cùng, để khám phá cách phân loại cảm xúc trong xử lý dữ liệu, hãy xem Luận văn thạc sĩ khoa học máy tính tóm tắt ý kiến trên cơ sở phân loại cảm xúc. Mỗi tài liệu này đều là cơ hội để bạn mở rộng kiến thức và hiểu sâu hơn về các chủ đề liên quan.

#Luận văn Thạc sĩ

#khoa học máy tính

#nhận diện đối tượng

#camera quan sát

#kỹ thuật tìm kiếm đối tượng

#học sâu trong camera

Chủ đề

Công nghệ camera và ứng dụng

Nghiên cứu trong khoa học máy tính

Phát triển thuật toán nhận diện

Xu hướng trong công nghệ giám sát