Nghiên Cứu Và Phát Triển Phương Pháp Trích Chọn Đặc Trưng Dựa Trên Học Sâu Trong Tái Định Danh Người

Nghiên cứu phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người, nâng cao độ chính xác và hiệu quả nhận diện.

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Kỹ thuật điện tử

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2024

140

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN

1.1. Trích chọn đặc trưng hình ảnh

1.2. Mạng nơ-ron tích chập

1.3. Mạng Nơ-ron hồi quy

1.4. Bài toán tái định danh người

1.4.1. Định nghĩa bài toán

1.4.2. Một số nghiên cứu liên quan

1.5. Độ đo khoảng cách và độ đo tương tự

1.6. Độ đo đánh giá kết quả tái định danh

1.7. Nén mạng học sâu và triển khai trên FGPA

1.8. Kết luận chương

2. CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI

2.1. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh

2.2. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh dựa trên thay đổi kiến trúc ResNet50

2.3. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn

2.4. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ đo EMD

2.5. Thử nghiệm và đánh giá kết quả

2.6. Cơ sở dữ liệu cho bài toán tái định danh

2.7. Kết quả thử nghiệm của đề xuất 1 - Trích đặc trưng cục bộ ảnh với kiến trúc ResNet50

2.8. Kết quả thử nghiệm đề xuất 2 - Chiến lược kết hợp muộn đặc trưng

2.9. Kết quả thử nghiệm của đề xuất 3- So sánh đặc trưng cục bộ với khoảng cách EMD

2.10. Kết luận chương

3. CHƯƠNG 3: KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI

3.1. Một số kiến trúc mạng Nơ-ron hồi quy phổ biến

3.2. Recurrent Neural Network (RNN)

3.3. Long Short-term Memory (LSTM)

3.4. Long Short-term Memory với cặp cổng (LSTMC)

3.5. Long Short-term Memory với kết nối Peephole (LSTMP)

3.6. Gated Recurrent Unit (GRU)

3.7. Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định danh sử dụng chuỗi hình ảnh

3.8. Thử nghiệm và kết quả

3.9. Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc GRU

3.10. Thử nghiệm và kết quả

3.11. Đề xuất nâng cao hiệu quả mô hình bằng đặc trưng thủ công (GOG) kết hợp sử dụng thuật toán học độ đo khoảng cách

3.12. Thử nghiệm và kết quả

3.13. Triển khai và đánh giá một hệ thống tái định danh

3.14. Mô tả hệ thống

3.15. Xây dựng cơ sở dữ liệu FAPR. Thử nghiệm và kết quả

3.16. Kết luận chương

4. CHƯƠNG 4: NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA

4.1. Kỹ thuật nén mạng học sâu

4.2. Cắt tỉa mạng (pruning)

4.3. Phương pháp đề xuất

4.4. Nhị phân hóa giá trị trọng số

4.5. Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với lớp mạng

4.6. Hàm kích hoạt Clamping Rectified Linear Unit - CReLU

4.7. Kiến trúc luồng của bộ tăng tốc mạng tích chập

4.8. Tính toán tài nguyên phần cứng

4.9. Thử nghiệm và kết quả

4.10. Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh

4.11. Cơ sở dữ liệu CIFAR-10

4.12. Cơ sở dữ liệu PASCAL VOC

4.13. Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10

4.14. Nén mạng VGG16-SSD với bài toán phát hiện đối tượng trên ảnh hướng tới triển khai trên FPGA

4.15. Kết luận chương

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Tái Định Danh Người Dựa Trên Học Sâu

Bài toán tái định danh người (Person Re-Identification - ReID) là một lĩnh vực quan trọng trong Computer Vision, đặc biệt trong các hệ thống giám sát an ninh và thành phố thông minh. Mục tiêu là so khớp các hình ảnh của cùng một người được chụp từ các camera khác nhau, thường không có sự chồng lấn về trường quan sát. Bài toán này gặp nhiều thách thức do sự thay đổi về góc nhìn, ánh sáng, tư thế, và trang phục. Sự phát triển của học sâu (deep learning) đã mang lại những đột phá lớn trong việc giải quyết bài toán ReID, đặc biệt là trong việc trích chọn đặc trưng hiệu quả. Các mô hình học sâu có khả năng tự động học các biểu diễn đặc trưng phức tạp từ dữ liệu, vượt trội hơn so với các phương pháp trích chọn thủ công truyền thống. Theo nghiên cứu, mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) là hai kiến trúc phổ biến được sử dụng rộng rãi trong lĩnh vực này.

1.1. Giới Thiệu Bài Toán Tái Định Danh Người ReID

Tái định danh người là quá trình xác định và so khớp các hình ảnh của cùng một người từ nhiều camera khác nhau. Bài toán này quan trọng trong các ứng dụng như theo dõi tội phạm, tìm kiếm người mất tích và quản lý đám đông. Độ khó của bài toán nằm ở sự khác biệt về góc nhìn, ánh sáng và trang phục giữa các camera. Các bộ dữ liệu tái định danh người như Market1501 và DukeMTMC-reID được sử dụng để đánh giá hiệu suất của các thuật toán tái định danh người. Các metrics tái định danh người (mAP, Rank-k) đóng vai trò quan trọng để đánh giá chính xác hiệu quả của các phương pháp khác nhau.

1.2. Vai Trò của Học Sâu trong Trích Chọn Đặc Trưng ReID

Học sâu đã cách mạng hóa lĩnh vực tái định danh người bằng cách tự động trích chọn đặc trưng từ hình ảnh và video. Thay vì dựa vào các đặc trưng thủ công, các mô hình học sâu như CNN và RNN có thể học các biểu diễn đặc trưng phức tạp, phù hợp với sự thay đổi đa dạng của hình ảnh người. Theo Nguyễn Hồng Quân (2024), luận án tiến sĩ của ông tập trung vào “Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người”, nhấn mạnh tầm quan trọng của học sâu trong lĩnh vực này.

1.3. Các Kiến Trúc Học Sâu Phổ Biến Cho Tái Định Danh

Các mạng nơ-ron tích chập (CNN) được sử dụng để trích xuất các đặc trưng không gian từ ảnh tĩnh, trong khi mạng nơ-ron hồi quy (RNN) được sử dụng để xử lý chuỗi các khung hình trong video, ghi lại thông tin thời gian. Gần đây, kiến trúc biến áp (Transformer) cũng được áp dụng thành công trong ReID, đặc biệt là trong việc nắm bắt các mối quan hệ toàn cục giữa các vùng khác nhau của hình ảnh. Việc kết hợp các kiến trúc khác nhau có thể mang lại hiệu quả tốt hơn so với sử dụng một kiến trúc duy nhất.

II. Thách Thức Trong Trích Chọn Đặc Trưng Học Sâu Cho ReID

Mặc dù học sâu đã mang lại những tiến bộ đáng kể cho tái định danh người, vẫn còn nhiều thách thức cần giải quyết. Một trong những thách thức lớn nhất là sự thay đổi về kiểu dáng, ánh sáng và góc nhìn giữa các camera. Các mô hình cần có khả năng tạo ra các biểu diễn đặc trưng mạnh mẽ, bất biến đối với những thay đổi này. Bên cạnh đó, sự thiếu hụt dữ liệu được gán nhãn cũng là một vấn đề, đặc biệt là trong các tình huống thực tế. Các phương pháp tăng cường dữ liệu và học chuyển giao có thể giúp giảm thiểu tác động của vấn đề này. Ngoài ra, tính toán phức tạp của các mô hình học sâu cũng là một rào cản đối với việc triển khai trong các hệ thống thời gian thực.

2.1. Vấn Đề Thay Đổi Kiểu Dáng và Góc Nhìn Camera

Sự thay đổi về kiểu dáng (pose variations) và góc nhìn camera ảnh hưởng lớn đến hiệu suất của các mô hình tái định danh người. Các mô hình cần phải học cách nhận diện người bất kể tư thế và góc nhìn của họ. Các kỹ thuật như Attention mechanism có thể giúp mô hình tập trung vào các phần quan trọng của cơ thể, giảm thiểu tác động của sự thay đổi về kiểu dáng.

2.2. Khó Khăn do Thiếu Hụt Dữ Liệu Gán Nhãn Cho ReID

Việc gán nhãn dữ liệu cho bài toán tái định danh người tốn nhiều công sức và thời gian. Phương pháp bán giám sát và phương pháp không giám sát có thể giúp tận dụng dữ liệu không được gán nhãn để cải thiện hiệu suất của mô hình. Kỹ thuật tăng cường dữ liệu cũng là một lựa chọn phổ biến để tăng số lượng dữ liệu huấn luyện.

2.3. Giới Hạn về Tính Toán Của Mô Hình Học Sâu ReID

Các mô hình học sâu thường yêu cầu tài nguyên tính toán lớn, gây khó khăn cho việc triển khai trong các hệ thống thời gian thực. Các kỹ thuật như giảm chiều dữ liệu và nén mô hình học sâu có thể giúp giảm chi phí tính toán và bộ nhớ, cho phép triển khai trên các thiết bị di động hoặc nhúng.

III. Giải Pháp Phương Pháp Trích Chọn Đặc Trưng Cục Bộ ReID

Một trong những hướng tiếp cận hiệu quả để giải quyết các thách thức của tái định danh người là sử dụng các phương pháp trích chọn đặc trưng cục bộ. Thay vì trích xuất các đặc trưng toàn cục từ toàn bộ hình ảnh, phương pháp này chia hình ảnh thành nhiều vùng nhỏ và trích xuất các đặc trưng riêng biệt cho từng vùng. Điều này cho phép mô hình tập trung vào các chi tiết quan trọng và trở nên ít nhạy cảm hơn với sự thay đổi về kiểu dáng và góc nhìn. Các đặc trưng cục bộ có thể được kết hợp bằng các kỹ thuật như Attention mechanism để tạo ra một biểu diễn đặc trưng mạnh mẽ cho mỗi người. Theo luận án của Nguyễn Hồng Quân, việc chia ảnh thành các vùng và kết hợp các đặc trưng theo chiến lược kết hợp muộn là một hướng đi tiềm năng.

3.1. Phân Vùng Ảnh và Trích Chọn Đặc Trưng Cho Từng Vùng

Chia ảnh thành các vùng nhỏ cho phép mô hình tập trung vào các bộ phận quan trọng của cơ thể người. Các mô hình học sâu như CNN có thể được sử dụng để trích chọn đặc trưng từ từng vùng. Các đặc trưng này sau đó có thể được kết hợp để tạo ra một biểu diễn đặc trưng toàn diện cho mỗi người.

3.2. Kết Hợp Đặc Trưng Cục Bộ Bằng Attention Mechanism

Attention mechanism cho phép mô hình tự động học cách gán trọng số cho các vùng khác nhau của hình ảnh. Các vùng quan trọng hơn sẽ nhận được trọng số cao hơn, trong khi các vùng ít quan trọng hơn sẽ nhận được trọng số thấp hơn. Điều này giúp mô hình tập trung vào các chi tiết quan trọng và bỏ qua các thông tin nhiễu.

3.3. Ứng Dụng Độ Đo Khoảng Cách EMD Cho Đặc Trưng Cục Bộ

Độ đo khoảng cách Earth Mover's Distance (EMD) là một độ đo hiệu quả để so sánh hai tập hợp các đặc trưng cục bộ. EMD đo lường chi phí tối thiểu để chuyển đổi một tập hợp đặc trưng thành một tập hợp khác. Điều này cho phép mô hình so sánh các hình ảnh người ngay cả khi có sự khác biệt nhỏ về vị trí và hình dạng của các bộ phận cơ thể.

IV. Phương Pháp Khai Thác Đặc Trưng Video ReID Dựa Trên RNN

Khi dữ liệu đầu vào là video, các mạng nơ-ron hồi quy (RNN) trở thành một lựa chọn phù hợp để khai thác thông tin thời gian. RNN có khả năng xử lý chuỗi các khung hình và ghi lại thông tin về sự thay đổi của hình ảnh theo thời gian. Các biến thể của RNN, như LSTM và GRU, được thiết kế để giải quyết vấn đề biến mất gradient, cho phép mô hình học các phụ thuộc dài hạn trong chuỗi video. Việc kết hợp RNN với các mô hình CNN có thể mang lại hiệu quả tốt hơn so với sử dụng một mô hình duy nhất.

4.1. Sử Dụng Mạng LSTM và GRU Để Xử Lý Chuỗi Hình Ảnh

Mạng LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Unit) là hai biến thể phổ biến của RNN. Chúng có khả năng học các phụ thuộc dài hạn trong chuỗi video, cho phép mô hình nắm bắt thông tin về sự thay đổi của hình ảnh theo thời gian. Điều này đặc biệt hữu ích trong việc giải quyết các vấn đề như tắc nghẽn và thay đổi về ánh sáng.

4.2. Kết Hợp Mạng CNN và RNN Để Tái Định Danh Người

Việc kết hợp mạng CNN và RNN cho phép mô hình tận dụng cả thông tin không gian và thông tin thời gian. CNN được sử dụng để trích chọn đặc trưng từ mỗi khung hình, trong khi RNN được sử dụng để xử lý chuỗi các đặc trưng này. Điều này giúp mô hình tạo ra một biểu diễn đặc trưng mạnh mẽ cho mỗi người.

4.3. Cải Thiện Hiệu Quả Bằng Đặc Trưng Thủ Công Kết Hợp Học Độ Đo

Kết hợp các đặc trưng thủ công (như GOG) với các đặc trưng học sâu có thể cải thiện hiệu suất của mô hình. Học độ đo khoảng cách giúp mô hình học cách so sánh các đặc trưng một cách hiệu quả. Thuật toán học độ đo khoảng cách giúp mô hình học cách so sánh các đặc trưng một cách hiệu quả.

V. Ứng Dụng Triển Khai Hệ Thống Tái Định Danh Người Thực Tế

Việc triển khai một hệ thống tái định danh người thực tế đòi hỏi nhiều thành phần khác nhau, bao gồm phát hiện người, theo dõi người và tái định danh. Hệ thống cần có khả năng xử lý dữ liệu từ nhiều camera khác nhau và hoạt động trong thời gian thực. Để đạt được điều này, cần phải sử dụng các thuật toán hiệu quả và tối ưu hóa các mô hình học sâu. Theo Nguyễn Hồng Quân, việc xây dựng cơ sở dữ liệu FAPR và thử nghiệm hệ thống tái định danh là một bước quan trọng để đánh giá hiệu quả của các phương pháp.

5.1. Xây Dựng Hệ Thống Tự Động Phát Hiện Theo Dõi và ReID

Một hệ thống tái định danh người hoàn chỉnh bao gồm ba giai đoạn chính: phát hiện người, theo dõi người và tái định danh. Giai đoạn phát hiện người sử dụng các thuật toán để xác định vị trí của người trong hình ảnh. Giai đoạn theo dõi người sử dụng các thuật toán để theo dõi người qua các khung hình liên tiếp. Giai đoạn tái định danh sử dụng các mô hình học sâu để so khớp các hình ảnh của cùng một người.

5.2. Tối Ưu Hóa Mô Hình Để Đảm Bảo Hiệu Suất Thời Gian Thực

Để hệ thống tái định danh người hoạt động trong thời gian thực, cần phải tối ưu hóa các mô hình học sâu và các thuật toán. Các kỹ thuật như giảm chiều dữ liệu, nén mô hình học sâu và sử dụng phần cứng chuyên dụng (như GPU) có thể giúp cải thiện hiệu suất.

5.3. Đánh Giá Hệ Thống Trên Dữ Liệu Thực Tế và Cải Tiến

Việc đánh giá hệ thống tái định danh người trên dữ liệu thực tế là rất quan trọng để đảm bảo hiệu quả của hệ thống trong các tình huống thực tế. Cần phải thu thập dữ liệu từ nhiều camera khác nhau và đánh giá hiệu suất của hệ thống bằng các metrics tái định danh người phù hợp. Kết quả đánh giá có thể được sử dụng để cải tiến các mô hình học sâu và các thuật toán.

VI. Kết Luận và Hướng Phát Triển Tương Lai Của ReID

Nghiên cứu về tái định danh người dựa trên học sâu đã đạt được những tiến bộ đáng kể trong những năm gần đây. Tuy nhiên, vẫn còn nhiều hướng phát triển tiềm năng. Một trong những hướng đi quan trọng là phát triển các mô hình mạnh mẽ hơn, có khả năng xử lý tốt hơn các vấn đề như thay đổi về kiểu dáng, ánh sáng và góc nhìn. Bên cạnh đó, việc nghiên cứu các phương pháp học không giám sát và bán giám sát cũng rất quan trọng để giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn. Ngoài ra, việc phát triển các hệ thống tái định danh người có thể triển khai trên các thiết bị di động và nhúng cũng là một hướng đi đầy hứa hẹn.

6.1. Các Hướng Nghiên Cứu Mới Trong Trích Chọn Đặc Trưng ReID

Các hướng nghiên cứu mới trong trích chọn đặc trưng cho tái định danh người bao gồm việc sử dụng mạng biến áp (Transformer), mô hình sinh đối nghịch (GAN) và các kiến trúc mạng mới. Các nghiên cứu này tập trung vào việc tạo ra các biểu diễn đặc trưng mạnh mẽ hơn, bất biến đối với sự thay đổi về kiểu dáng, ánh sáng và góc nhìn.

6.2. Ứng Dụng ReID Trong Giám Sát An Ninh và Thành Phố Thông Minh

Tái định danh người có nhiều ứng dụng tiềm năng trong lĩnh vực giám sát an ninh và thành phố thông minh. Các hệ thống tái định danh người có thể được sử dụng để theo dõi tội phạm, tìm kiếm người mất tích và quản lý đám đông. Việc tích hợp tái định danh người với các hệ thống giám sát hiện có có thể giúp cải thiện đáng kể hiệu quả của các hệ thống này.

6.3. Thách Thức Về Đạo Đức và Quyền Riêng Tư Cần Giải Quyết

Việc sử dụng tái định danh người đặt ra nhiều thách thức về đạo đức và quyền riêng tư. Cần phải đảm bảo rằng các hệ thống tái định danh người không được sử dụng để theo dõi và phân biệt đối xử với người dân. Cần phải có các quy định rõ ràng về việc thu thập, lưu trữ và sử dụng dữ liệu hình ảnh cá nhân.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1. Tính cấp thiết Thị giác máy tính (Computer Vision) là một trong những lĩnh vực đã và đang nhận được nhiều quan tâm của cộng đồng nghiên cứu. Trong bất kỳ một hệ thống thị giác máy tính nào, thành phần phân tích nội dung ảnh/video để đưa ra những thông tin hữu ích đóng vai trò rất quan trọng. Ngày nay, với sự phát triển mạnh mẽ của các mô hình học máy, đặc biệt là học sâu thực sự đã đem lại những cải tiến đáng kể cho thành phần này.

Tuy nhiên, hiệu quả của các mô hình học máy lại chịu ảnh hưởng lớn bởi phương pháp trích chọn đặc trưng dữ liệu đầu vào. Chính vì vậy, nghiên cứu các phương pháp trích chọn đặc trưng hiệu quả luôn cần thiết. Bên cạnh đó, trong rất nhiều các bài toán của thị giác máy tính, tái định danh người thực sự là một bài toán được các nhà khoa học quan tâm, tuy rất nhiều thách thức nhưng lại mang tính ứng dụng cao. Tái định danh người có thể được hiểu đơn giản là so khớp các hình ảnh người được thu nhận bởi các cặp camera không có sự chồng lấn về trường quan sát.

Khởi nguồn từ năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên phong về trí tuệ nhân tạo, đã khởi động một dự án mang tên "Summer Vision Project" nhằm tạo ra một hệ thống máy tính có thể nhận dạng các vật thể trong ảnh. Vào thời điểm thực hiện dự án này, công nghệ chủ đạo được áp dụng chỉ là trí tuệ nhân tạo dựa trên tập luật (rule-based AI), bản chất là tìm ra các quy tắc để phát hiện ra đối tượng được con người xác lập dựa trên tri thức và kinh nghiệm. Hướng tiếp cận này đã không đem lại hiệu quả cao do không thể thiết kế được một quy tắc tổng quát cho những thể hiện đa dạng của đối tượng trong ảnh. Hướng tiếp cận khác là dựa trên học máy hoặc tiếp cận dựa trên nhận dạng mẫu.

Các giải thuật học máy được thiết kế để tìm ra các mẫu hoặc các quy luật tri thức từ dữ liệu, từ đó tự suy ra các luật và dự đoán cho các dữ liệu có dạng tương tự gặp được sau khi huấn luyện. Đây là phương pháp học dựa trên dữ liệu và buộc phải có dữ liệu hay các quan sát trước từ môi trường. Khác với phương pháp tiếp cận dựa trên luật ở trên, từ dữ liệu trong trường hợp cụ thể để suy ra các luật ẩn trong dữ liệu nhằm dự đoán và sử dụng cho trường hợp tổng quát hoặc các dữ liệu khác tương tự. Dựa trên các quan sát thu được về dữ liệu, học máy có thể cải thiện độ chính xác theo thời gian.

Đây là hướng tiếp cận chủ yếu của trí tuệ nhân tạo hiện nay. Gần đây, các mạng Nơ-ron nhân tạo học sâu (DNN - Deep Neural Network) đã tạo ra những đột phá mới, cho 1 phép cải tiến đáng kể hiệu năng cho nhiều bài toán. Nhờ những tiến bộ của các mạng học sâu, lĩnh vực thị giác máy tính cũng ngày càng có những bước phát triển nhảy vọt với các kết quả đáng kinh ngạc. Khi giải quyết các bài toán cơ bản của lĩnh vực thị giác máy tính bằng học máy, trích trọn đặc trưng ảnh/video là một trong những yếu tố đóng vai trò quan trọng, quyết định hiệu quả của hệ thống.

Trích chọn đặc trưng cho phép giữ lại các đặc điểm quan trọng nhất của đối tượng cần nhận dạng trên ảnh, từ đó có thể loại bỏ dư thừa, nhiễu cũng như tạo ra biểu diễn cô đọng hơn cho đối tượng thay vì các thông tin điểm ảnh như ban đầu. Một đặc trưng được gọi là hiệu quả nếu nó biểu diễn được các đặc điểm riêng mang tính phân biệt của đối tượng này so với các đối tượng khác. Hiện nay, có hai hướng tiếp cận chính cho bài toán trích chọn đặc trưng đối tượng trong ảnh/video: (1) trích chọn thủ công (hand-designed/handcrafted features) và (2) trích chọn tự động thông qua các mạng học sâu, hay còn được gọi là các đặc trưng học sâu (deep-learned features). Các phương pháp trích chọn đặc trưng thủ công có thể khai thác những thông tin về màu sắc (color), hình dạng (shape), hoặc kết cấu (texture).

của ảnh một cách tường minh. Chúng được trích chọn theo một giải thuật đã được thiết kế cố định từ trước dựa trên kinh nghiệm của các chuyên gia. Mặc dù các loại đặc trưng thủ công này đem lại nhiều kết quả tốt cho các hệ thống thị giác máy tính nhưng việc áp dụng các đặc trưng thủ công vẫn tồn tại một số hạn chế như: mỗi loại đặc trưng thủ công đều hướng tới khai thác một đặc điểm nào đó của đối tượng quan sát do đó đặc trưng này chỉ thực sự hiệu quả đối với một loại dữ liệu nhất định; số lượng các đặc trưng thủ công là có hạn trong khi dữ liệu thực tế là vô hạn và rất đa dạng do có sự biến đổi lớn trong thực tế; việc triển khai các hệ thống sử dụng các đặc trưng thủ công cần có nhiều kinh nghiệm của các chuyên gia trong việc lựa chọn loại đặc trưng phù hợp cho bài toán được triển khai. Trong khi đó, các mạng học sâu ra đời theo cách tương tự như việc con người học tập từ dữ liệu thực tế.

Nhờ đó máy tính có thể tự động tìm ra cách thức trích chọn đặc trưng phù hợp cho loại dữ liệu mới thay cho con người. Đặc trưng được trích chọn theo phương pháp này được gọi là đặc trưng học sâu. Hướng tiếp cận này đã giải quyết được một số hạn chế của đặc trưng thủ công khi không còn quá phụ thuộc vào kinh nghiệm của các chuyên gia trong quá trình trích chọn đặc trưng. Cùng với sự ra đời của các kiến trúc mạng học sâu, cách tiếp cận để giải quyết các bài toán cơ bản của thị giác máy tính cũng dần thay đổi.

Ví dụ như bài toán phát hiện đối tượng trên ảnh. Lịch sử phát triển các giải thuật phát hiện và nhận dạng đối tượng trên ảnh gắn liền với lịch sử phát triển của các giải thuật trích trọn đặc trưng. Điều này được thể hiện trong Hình 1 với những mốc thời gian quan trọng. Trong đó năm 2012 với sự ra đời của mạng AlexNet [1] có thể coi như là 2 Deep Learning for Generic Object Detection: A Survey 3 RCNN ResNet Efficient Subwindow Search (Lampert et al.) (Girshick et al.) (He et al.) FV GoogLeNet Region Covariance (Perronnin et al.) (Szegedy et al.) DenseNet (Tuzel et al.) Focus of this survey (Huang et al.) HOG AlexNet VGGNet and Jones) (Dalal and Triggs) et al.) (Krizhevsky et al.) (Simonyan and Zisserman) of Words HOG-LBP Selective Search (Sivic and Zisserman) (Wang et al.) (Van de Sande et al.) COCO et al.) Fast RCNN (Ross Girshick) Mask RCNN (He et al.) SURF VOC et al.) (Bay et al.) Faster RCNN (Ren et al.

4 Milestones of object detection and recognition, including feature representations [47, 52, 101, 140, 147, 178, 179, 212, 248, 252, 263, 276, 279], detection frameworks [74, 85, 239, 271, 276], and datasets [68, 166, 234]. The time period up to 2012 is dominated by handcrafted features, a transition took place in 2012 Hình 1: Các mốc lịch sử về phát hiện và nhận dạng đối tượng bao gồm các phương pháp trích chọn with the development of DCNNs for image classification by Krizhevsky et al. [140], with methods after 2012 dominated by related deep networks. Mostof the đặc trưng listed methods[2] are highly cited and won a major ICCV or CVPR prize.

Table 1 Summary of related object detection surveys since 2000.thời gianSurvey cho Title sự bắt đầu Monocular Pedestrian Detection: Survey and củaVenuecác đặc trưng Ref. Year học Content sâu. An evaluation of three pedestrian detectors 1 [66] 2009 PAMI Experiments Về cấu2 trúc, Survey of trong mỗi Pedestrian Detection mô hình for Advanced [79] 2010 họcPAMIsâuA survey đềuof pedestrian chứa một khối quan trọng phục detection for advanced driver assistance systems Driver Assistance Systems vụ cho việc 3 trích chọn đặc trưng[59]tự2012động Pedestrian Detection: An Evaluation of the State of The Art PAMI từ các dữ liệu đầu vào, được gọi chung A thorough and detailed evaluation of detectors in monocular images 4 Detecting Faces in Images: A Survey [294] 2002 PAMI First survey of face detection from a single image là mạng lõi 5 A(backbone). Survey on Face Detection in the Các tham Wild: Past, số của [301] 2015 CVIU mạngA survey nàyof facesẽdetection được cập nhật trong quá in the wild since 2000 Present and Future trình học6 từ Ontập dữDetection: Road Vehicle liệuA Review huấn [258] luyện.

2006 Dữ liệu PAMI A reviewhuấn luyện of vision based càng on-road vehicle detection nhiều, systems càng đa 7 Text Detection and Recognition in Imagery: A [295] 2015 PAMI A survey of text detection and recognition in color imagery dạng thì càng có khả Survey năng tạo ra được mộtRepresentative bộ tham số tốt cho mô hình. Các papers on object categorization, detection, and 8 Toward Category Level Object Recognition [215] 2007 Book segmentation thành phần 9 Thekhác Evolution ofcủa mô hình Object Categorization and the học sâu có thể là một bộ phân lớp, bộ phát hiện [56] 2009 Book A trace of the evolution of object categorization over four decades Challenge of Image Abstraction đối tượng10 hoặc bộ phân đoạn Context based Object Categorization: A Critical Survey ảnh,. tuỳ [78] 2010 CVIU vào từng ứng dụng cụ thể. Trong nhiều A review of contextual information for object categorization 11 50 Years of Object Recognition: Directions [5] 2013 CVIU A review of the evolution of object recognition systems over five decades trường hợp thuật ngữ Forward mô hình học sâu và mạng học sâu được sử dụng thay thế Instance and category object recognition techniques 12 Visual Object Recognition [91] 2011 Tutorial lẫn nhau.13 MặcObjectdùClasscác Detection:mạng A Survey học [310] sâu cóCSkhả năng 2013 ACM làm Survey of generic việcmethods object detection vớibefore hầu 2011 hết các loại Feature Representation for Statistical Learning Feature representation methods in statistical learning based object 14 [160] 2015 PR dữ liệu và15 bàiSalient toán khác nhau nhưng based Object Detection: A Review Object Detection: A Survey [19] 2014 trongdetection, arXiv thực tế, để có được những mô hình including handcrafted and deep learning based features A survey for salient object detection Representation Learning: A Review and New Unsupervised feature learning and deep learning, probabilistic models, học sâu phù 16 hợp với bài toán cụ Perspectives thể PAMI [13] 2013 cũng cóautoencoders,nhiều thách manifold learning, andthức.

deep networksHiện nay, Có 17 Deep Learning [149] 2015 Nature An introduction to deep learning and applications rất nhiều18 kiến A Survey trúc mạng on Deep Learning Analysis in Medicalhọc Image sâu khác nhau [170] 2017 MIA A survey cùng với of deep learning các for image biến classification, object thể segmentation and registration in medical image analysis detection, của chúng Recent Advances in Convolutional Neural A broad survey of the recent advances in CNN and its applications in đã được đề 19 xuất.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Phát Triển Phương Pháp Trích Chọn Đặc Trưng Dựa Trên Học Sâu Trong Tái Định Danh Người" cung cấp cái nhìn sâu sắc về việc áp dụng các phương pháp học sâu để cải thiện quy trình tái định danh người. Nghiên cứu này không chỉ tập trung vào việc phát triển các thuật toán trích chọn đặc trưng hiệu quả mà còn nhấn mạnh tầm quan trọng của việc tối ưu hóa dữ liệu đầu vào để đạt được độ chính xác cao hơn trong nhận diện. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các phương pháp này, bao gồm khả năng nâng cao hiệu suất và độ tin cậy trong các ứng dụng thực tiễn.

Để mở rộng kiến thức của bạn về các phương pháp phân tích và khai thác dữ liệu, bạn có thể tham khảo tài liệu Luận văn thạc sĩ nghiên cứu sắt lỏng với sự trợ giúp của phương pháp khai khoáng dữ liệu, nơi bạn sẽ tìm thấy các kỹ thuật khai thác dữ liệu hữu ích. Ngoài ra, tài liệu Nghiên cứu phương pháp phân tích hành vi của khách hàng cũng sẽ giúp bạn hiểu rõ hơn về cách phân tích hành vi trong các ứng dụng thương mại. Cuối cùng, tài liệu Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu sẽ cung cấp thêm thông tin về việc áp dụng học sâu trong lĩnh vực gợi ý sản phẩm. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của học sâu trong phân tích và khai thác dữ liệu.

#nhận diện khuôn mặt