Luận văn thạc sĩ HCMUTE về ứng dụng mạng học sâu cho nhận diện khuôn mặt

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

121

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Các nghiên cứu đã được công bố

1.3. Mục tiêu

1.4. Nhiệm vụ và giới hạn

1.5. Phương pháp nghiên cứu

1.6. Tóm tắt các chương

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Những ứng dụng nhận dạng mặt người

2.2. Một số phương pháp nhận dạng khuôn mặt

2.3. Một số thuật toán tối ưu dùng trong huấn luyện mạng nơ-ron

3. CHƯƠNG 3: TIỀN XỬ LÝ ẢNH KHUÔN MẶT

3.1. Chuẩn hóa hình ảnh

3.2. Lấy mẫu ảnh khuôn mặt

3.3. Lọc ảnh dùng phương pháp tích chập

4. CHƯƠNG 4: NHẬN DẠNG KHUÔN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP

4.1. Giới thiệu mô hình mạng nơ-ron tích chập VGG-16

4.1.1. Cấu trúc mạng nơ-ron tích chập

4.1.2. Tính toán cho các lớp mạng

4.1.3. Mô hình mạng nơ-ron tích chập VGG-16

4.1.4. Thuật toán tối ưu dùng trong huấn luyện

4.2. Áp dụng mạng nơ-ron tích chập VGG-16 cho nhận diện khuôn mặt

4.2.1. Giới thiệu tập dữ liệu

4.2.2. Mô tả phương pháp huấn luyện

4.2.3. Mô tả phương pháp nhận dạng

4.3. Đánh giá độ chính xác kết quả nhận dạng

5. CHƯƠNG 5: KẾT QUẢ VÀ THẢO LUẬN

5.1. Minh họa tập dữ liệu

5.2. Kết quả phân tích ảnh qua các lớp tích chập

5.3. Kết quả huấn luyện mạng

5.3.1. Áp dụng thuật toán RMSProp

5.3.2. Áp dụng thuật toán Adam

5.4. Kết quả nhận dạng

5.5. So sánh hiệu suất với các mạng khác

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Hướng Phát Triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận diện khuôn mặt

Nhận diện khuôn mặt đã trở thành một lĩnh vực nghiên cứu quan trọng trong thời đại công nghệ 4.0. Công nghệ này không chỉ được ứng dụng trong các hệ thống an ninh mà còn trong các dịch vụ thương mại và giải trí. Việc sử dụng mạng học sâu trong nhận diện khuôn mặt đã mang lại những bước tiến vượt bậc, giúp cải thiện độ chính xác và tốc độ nhận diện. Các hệ thống như Facebook và Google đã áp dụng công nghệ này để nhận diện và phân loại khuôn mặt người dùng. Theo nghiên cứu, việc nhận diện khuôn mặt có thể được thực hiện mà không cần sự tương tác của người dùng, điều này cho thấy tính tiện lợi và hiệu quả của công nghệ này trong việc quản lý và giám sát. Đề tài “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” nhằm mục đích tìm hiểu và phát triển các giải pháp tối ưu cho vấn đề này.

1.1. Tầm quan trọng của nhận diện khuôn mặt

Nhận diện khuôn mặt không chỉ là một công nghệ mới mà còn là một phần quan trọng trong các hệ thống an ninh hiện đại. Công nghệ này cho phép nhận diện và theo dõi các đối tượng mà không cần sự đồng ý của họ, điều này có thể gây ra những lo ngại về quyền riêng tư. Tuy nhiên, trong nhiều trường hợp, nó lại mang lại lợi ích lớn cho xã hội, như trong việc phát hiện tội phạm và quản lý an ninh. Các nghiên cứu đã chỉ ra rằng, việc áp dụng machine learning và deep learning trong nhận diện khuôn mặt có thể cải thiện đáng kể độ chính xác và hiệu suất của hệ thống. Điều này mở ra nhiều cơ hội cho các ứng dụng trong lĩnh vực an ninh, thương mại và dịch vụ khách hàng.

II. Cơ sở lý thuyết về mạng học sâu

Mạng nơ-ron tích chập (CNN) là một trong những công nghệ chủ chốt trong lĩnh vực nhận diện khuôn mặt. CNN có khả năng tự động trích xuất đặc trưng từ hình ảnh mà không cần sự can thiệp của con người. Điều này giúp giảm thiểu sai sót và tăng cường độ chính xác trong quá trình nhận diện. Trong luận văn này, mô hình VGG-16 được sử dụng để thực hiện nhận diện khuôn mặt. Mô hình này đã được chứng minh là hiệu quả trong nhiều nghiên cứu trước đó. Việc áp dụng các thuật toán tối ưu như RMSprop và Adam trong quá trình huấn luyện cũng góp phần nâng cao hiệu suất của mô hình. Kết quả thực nghiệm cho thấy độ chính xác đạt trên 95%, cho thấy tiềm năng lớn của công nghệ này trong thực tiễn.

2.1. Mô hình VGG 16

Mô hình VGG-16 được thiết kế với nhiều lớp tích chập, giúp tăng cường khả năng nhận diện khuôn mặt. Mỗi lớp trong mô hình này có nhiệm vụ trích xuất các đặc trưng khác nhau từ hình ảnh đầu vào. Quá trình này không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý. Việc chuẩn hóa dữ liệu đầu vào cũng là một yếu tố quan trọng, giúp mô hình hoạt động hiệu quả hơn. Các nghiên cứu đã chỉ ra rằng, việc điều chỉnh số lượng lớp trong mô hình có thể ảnh hưởng lớn đến hiệu suất nhận diện. Do đó, việc thử nghiệm và tối ưu hóa mô hình là cần thiết để đạt được kết quả tốt nhất.

III. Kết quả và thảo luận

Kết quả thực nghiệm cho thấy mô hình VGG-16 đạt được độ chính xác cao trong việc nhận diện khuôn mặt. Qua việc so sánh với các mô hình khác, mô hình này cho thấy ưu thế vượt trội về hiệu suất. Việc áp dụng các thuật toán tối ưu như Adam và RMSprop đã giúp cải thiện đáng kể thời gian huấn luyện và độ chính xác của mô hình. Hơn nữa, việc sử dụng các tập dữ liệu lớn như FEI Face và CASIA-WebFace đã cung cấp một nền tảng vững chắc cho việc huấn luyện và kiểm tra mô hình. Kết quả này không chỉ có giá trị trong nghiên cứu mà còn có thể được áp dụng trong thực tiễn, mở ra nhiều cơ hội cho các ứng dụng trong lĩnh vực an ninh và thương mại.

3.1. So sánh hiệu suất với các mô hình khác

Việc so sánh hiệu suất giữa mô hình VGG-16 và các mô hình khác cho thấy rõ ràng sự vượt trội của VGG-16 trong việc nhận diện khuôn mặt. Các mô hình khác thường gặp khó khăn trong việc xử lý các biến thể trong hình ảnh, trong khi VGG-16 có khả năng nhận diện chính xác hơn nhờ vào cấu trúc mạng sâu và khả năng trích xuất đặc trưng mạnh mẽ. Kết quả này khẳng định rằng việc áp dụng học sâu trong nhận diện khuôn mặt không chỉ mang lại hiệu suất cao mà còn mở ra nhiều hướng nghiên cứu mới trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute ứng dụng mạng học sâu cho nhận diện khuôn mặt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận diện khuôn mặt là một lĩnh vực công nghệ sinh trắc học ngày càng phát triển mạnh mẽ trong bối cảnh cách mạng Công nghiệp 4.0. Theo ước tính, các hệ thống nhận diện khuôn mặt hiện nay đã được ứng dụng rộng rãi trong các lĩnh vực an ninh, quản lý ra vào, thương mại điện tử và robot. Công nghệ này được đánh giá là nhanh nhất và ít xâm phạm đến người dùng so với các phương pháp sinh trắc học khác như nhận dạng vân tay hay tròng mắt. Tuy nhiên, việc nâng cao độ chính xác và hiệu suất nhận diện vẫn là thách thức lớn do sự đa dạng và phức tạp của dữ liệu ảnh khuôn mặt trong thực tế.

Luận văn thạc sĩ “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” tập trung nghiên cứu và phát triển hệ thống nhận diện khuôn mặt dựa trên mạng nơ-ron tích chập (CNN), đặc biệt là mô hình VGG-16. Nghiên cứu sử dụng ba tập dữ liệu ảnh khuôn mặt gồm FEI Face, CASIA-WebFace và tập ảnh tự thu thập từ sinh viên trường Cao đẳng Lý Tự Trọng Tp. Hồ Chí Minh. Mục tiêu chính là xây dựng hệ thống nhận diện đạt độ chính xác trên 90% và phân tích ảnh hưởng của độ sâu mạng cũng như thuật toán tối ưu đến hiệu suất nhận dạng.

Phạm vi nghiên cứu tập trung vào việc chuẩn hóa ảnh đầu vào, huấn luyện và đánh giá mô hình CNN trên các tập dữ liệu trong khoảng thời gian đến năm 2020. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải tiến các hệ thống nhận diện khuôn mặt, góp phần nâng cao hiệu quả ứng dụng trong an ninh, quản lý và các lĩnh vực liên quan.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron tích chập (Convolutional Neural Network - CNN) và các thuật toán tối ưu trong huấn luyện mạng nơ-ron. CNN là mô hình học sâu được thiết kế để xử lý dữ liệu ảnh, với các lớp tích chập (convolution layer), lớp hiệu chỉnh tuyến tính (ReLU), lớp pooling và lớp kết nối đầy đủ (fully connected layer). Mạng VGG-16 được chọn làm mô hình nghiên cứu do cấu trúc đồng nhất với các bộ lọc 3x3, thuận tiện cho việc điều chỉnh độ sâu mạng mà không ảnh hưởng đến kích thước tham số.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm:

Chuẩn hóa ảnh đầu vào: chuyển đổi ảnh về hệ màu RGB và kích thước 224x224x3 để phù hợp với mô hình CNN.
Thuật toán tối ưu RMSProp và Adam: hai thuật toán được so sánh trong quá trình huấn luyện nhằm tối ưu hóa trọng số mạng, giúp giảm thiểu hàm mất mát và tăng độ chính xác.
Độ sâu mạng (số lớp CNN): ảnh hưởng đến khả năng trích xuất đặc trưng và hiệu suất nhận diện.

Ngoài ra, các thuật toán truyền thống như Viola-Jones, Local Binary Patterns (LBP) và K-Nearest Neighbours (K-NN) cũng được tham khảo để làm cơ sở so sánh và tiền xử lý ảnh.

Phương pháp nghiên cứu

Nguồn dữ liệu gồm ba tập ảnh khuôn mặt: FEI Face, CASIA-WebFace và tập ảnh tự thu thập từ 13 sinh viên khoa Điện – Điện tử, trường Cao đẳng Lý Tự Trọng Tp. Hồ Chí Minh. Ảnh được chuẩn hóa về hệ màu RGB và kích thước 224x224x3 trước khi đưa vào huấn luyện.

Phương pháp phân tích sử dụng mô hình mạng nơ-ron tích chập VGG-16 với các biến thể về số lớp để đánh giá ảnh hưởng độ sâu mạng. Hai thuật toán tối ưu RMSProp và Adam được áp dụng trong huấn luyện để so sánh hiệu suất. Quá trình huấn luyện được thực hiện trong 15 epoch cho mỗi tập dữ liệu.

Cỡ mẫu huấn luyện và kiểm tra được phân chia từ các tập dữ liệu trên, với mục tiêu đạt độ chính xác nhận diện trên 90%. Phương pháp đánh giá dựa trên độ chính xác nhận diện, ma trận nhầm lẫn và thời gian huấn luyện. Timeline nghiên cứu kéo dài trong năm 2020, bao gồm các bước thu thập dữ liệu, tiền xử lý, huấn luyện, đánh giá và so sánh kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất nhận diện trên ba tập dữ liệu: Mô hình VGG-16 đạt độ chính xác trên 95% trên cả ba tập FEI Face, CASIA-WebFace và tập ảnh tự thu. Cụ thể, độ chính xác lần lượt là khoảng 96%, 95.5% và 95.2%, cho thấy tính ổn định của mô hình trên dữ liệu đa dạng.
Ảnh hưởng của độ sâu mạng: Thay đổi số lớp trong mô hình VGG-16 cho thấy độ sâu tăng giúp cải thiện hiệu suất nhận diện. Mạng với 16 lớp tích chập đạt độ chính xác cao hơn khoảng 3-5% so với các biến thể nông hơn, đồng thời giữ được thời gian huấn luyện hợp lý.
So sánh hai thuật toán tối ưu RMSProp và Adam: Thuật toán Adam cho kết quả huấn luyện nhanh hơn và độ chính xác cao hơn khoảng 1-2% so với RMSProp trên tất cả các tập dữ liệu. Thời gian huấn luyện với Adam giảm trung bình 15% so với RMSProp.
So sánh với các mô hình khác trên tập FEI Face: Mô hình VGG-16 trong nghiên cứu vượt trội hơn các mô hình truyền thống như LBP và K-NN với độ chính xác cao hơn từ 10-15%. Điều này khẳng định ưu thế của mạng học sâu trong nhận diện khuôn mặt.

Thảo luận kết quả

Nguyên nhân chính của hiệu suất cao là do khả năng trích xuất đặc trưng sâu và đa chiều của mạng VGG-16, kết hợp với việc chuẩn hóa ảnh đầu vào và sử dụng các thuật toán tối ưu hiện đại. Việc tăng độ sâu mạng giúp mạng học được các đặc trưng phức tạp hơn, phù hợp với dữ liệu khuôn mặt đa dạng.

So với các nghiên cứu trước đây, kết quả đạt trên 95% độ chính xác là tương đương hoặc vượt trội, đặc biệt khi áp dụng trên tập dữ liệu tự thu thập với điều kiện thực tế. Biểu đồ độ chính xác và thời gian huấn luyện minh họa rõ sự ưu việt của thuật toán Adam và mô hình VGG-16 sâu hơn.

Ý nghĩa của kết quả này là mở ra hướng phát triển các hệ thống nhận diện khuôn mặt hiệu quả, có thể ứng dụng trong an ninh, quản lý ra vào và các lĩnh vực thương mại. Đồng thời, nghiên cứu cũng chỉ ra tầm quan trọng của việc lựa chọn cấu trúc mạng và thuật toán tối ưu phù hợp để cân bằng giữa độ chính xác và thời gian xử lý.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng tập dữ liệu tự thu thập với số lượng đối tượng và điều kiện ánh sáng, góc chụp khác nhau nhằm nâng cao khả năng tổng quát của mô hình. Chủ thể thực hiện: nhóm nghiên cứu và các cơ sở đào tạo; Thời gian: 6-12 tháng.
Tối ưu hóa cấu trúc mạng CNN: Thử nghiệm các kiến trúc mạng sâu hơn hoặc kết hợp các mô hình học sâu khác như ResNet, DenseNet để cải thiện độ chính xác và giảm thời gian huấn luyện. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 3-6 tháng.
Áp dụng thuật toán tối ưu mới: Nghiên cứu và thử nghiệm các thuật toán tối ưu tiên tiến hơn như AdamW, Ranger để tăng tốc độ hội tụ và giảm overfitting. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 3 tháng.
Phát triển hệ thống nhận diện thực tế: Triển khai hệ thống nhận diện khuôn mặt tích hợp camera giám sát tại các cơ quan, trường học để đánh giá hiệu quả trong môi trường thực tế. Chủ thể thực hiện: các tổ chức an ninh, quản lý; Thời gian: 12 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử, Công nghệ Thông tin: Nghiên cứu sâu về mạng nơ-ron tích chập và ứng dụng trong nhận diện khuôn mặt, phục vụ cho các đề tài học thuật và phát triển công nghệ.
Chuyên gia phát triển hệ thống an ninh và giám sát: Áp dụng các giải pháp nhận diện khuôn mặt chính xác, hiệu quả cho các hệ thống kiểm soát ra vào, giám sát an ninh.
Doanh nghiệp công nghệ và startup AI: Tìm hiểu các thuật toán học sâu và mô hình CNN để phát triển sản phẩm nhận diện khuôn mặt thương mại, nâng cao trải nghiệm người dùng.
Cơ quan quản lý và chính sách: Hiểu rõ về công nghệ nhận diện khuôn mặt để xây dựng các quy định, chính sách phù hợp về bảo mật, quyền riêng tư và ứng dụng công nghệ trong quản lý xã hội.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao được sử dụng trong nhận diện khuôn mặt?
CNN là mô hình học sâu chuyên xử lý dữ liệu ảnh, có khả năng tự động trích xuất đặc trưng từ ảnh qua các lớp tích chập. Nó giúp nhận diện khuôn mặt chính xác hơn so với các phương pháp truyền thống nhờ khả năng học đặc trưng phức tạp và đa chiều.
Tại sao chọn mô hình VGG-16 trong nghiên cứu này?
VGG-16 có cấu trúc đồng nhất với các bộ lọc 3x3, dễ dàng điều chỉnh độ sâu mạng mà không làm thay đổi kích thước tham số. Mô hình này đã được chứng minh hiệu quả trong nhiều bài toán nhận dạng ảnh, phù hợp để nghiên cứu ảnh hưởng độ sâu mạng.
Thuật toán tối ưu Adam có ưu điểm gì so với RMSProp?
Adam kết hợp ưu điểm của RMSProp và Momentum, giúp cập nhật trọng số nhanh hơn và ổn định hơn. Trong nghiên cứu, Adam cho thời gian huấn luyện nhanh hơn khoảng 15% và độ chính xác cao hơn 1-2% so với RMSProp.
Làm thế nào để chuẩn hóa ảnh đầu vào cho mạng CNN?
Ảnh được chuyển về hệ màu RGB với ba kênh màu và thay đổi kích thước về 224x224 pixel để phù hợp với yêu cầu ngõ vào của mô hình VGG-16. Việc chuẩn hóa giúp mạng học hiệu quả và tránh lỗi khi huấn luyện.
Ứng dụng thực tế của hệ thống nhận diện khuôn mặt này là gì?
Hệ thống có thể được sử dụng trong kiểm soát an ninh sân bay, quản lý ra vào tòa nhà, giám sát an ninh công cộng, và các ứng dụng thương mại như nhận diện khách hàng trong siêu thị, giúp nâng cao hiệu quả và bảo mật.

Kết luận

Nghiên cứu đã xây dựng thành công hệ thống nhận diện khuôn mặt sử dụng mạng nơ-ron tích chập VGG-16 với độ chính xác trên 95% trên ba tập dữ liệu đa dạng.
Độ sâu mạng và thuật toán tối ưu ảnh hưởng rõ rệt đến hiệu suất nhận diện, trong đó mô hình sâu hơn và thuật toán Adam cho kết quả tốt nhất.
Kết quả vượt trội so với các phương pháp truyền thống như LBP và K-NN, khẳng định ưu thế của học sâu trong nhận diện khuôn mặt.
Nghiên cứu mở ra hướng phát triển các hệ thống nhận diện khuôn mặt ứng dụng trong an ninh, quản lý và thương mại.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, tối ưu cấu trúc mạng và triển khai hệ thống thực tế.

Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng kết quả này để phát triển các giải pháp nhận diện khuôn mặt hiệu quả, đồng thời tiếp tục nghiên cứu nâng cao độ chính xác và khả năng ứng dụng trong môi trường thực tế.

Bài viết "Luận văn thạc sĩ HCMUTE về ứng dụng mạng học sâu cho nhận diện khuôn mặt" của tác giả Trần Giang Nam, dưới sự hướng dẫn của PGS.TS Nguyễn Thanh Hải, trình bày về việc áp dụng mạng học sâu trong lĩnh vực nhận diện khuôn mặt. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về công nghệ học sâu mà còn nêu bật những ứng dụng thực tiễn của nó trong việc cải thiện độ chính xác và hiệu suất của hệ thống nhận diện khuôn mặt. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà công nghệ này có thể được triển khai trong các lĩnh vực như an ninh, giám sát và quản lý.

Nếu bạn quan tâm đến các ứng dụng công nghệ thông tin trong giáo dục, hãy tham khảo bài viết Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa. Bài viết này cũng đề cập đến việc ứng dụng công nghệ hiện đại trong giáo dục, tương tự như cách mà mạng học sâu được áp dụng trong nhận diện khuôn mặt.

Ngoài ra, bạn có thể tìm hiểu thêm về Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi mà các phương pháp học máy cũng được áp dụng để cải thiện độ chính xác trong nhận diện giọng nói, một lĩnh vực có nhiều điểm tương đồng với nhận diện khuôn mặt.

Cuối cùng, bài viết Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép cũng sẽ cung cấp cho bạn cái nhìn về cách mà mạng neural có thể được sử dụng trong các ứng dụng an ninh mạng, mở rộng thêm kiến thức về công nghệ học sâu trong các lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#trí tuệ nhân tạo

#nhận diện khuôn mặt

#mạng học sâu

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực AI

Công nghệ nhận diện khuôn mặt

Giáo dục và nghiên cứu tại HCMUTE

Ứng dụng của mạng học sâu