So sánh hiệu suất nhận diện khuôn mặt: K-Nearest Neighbors vs Self-Organized Map

Trường đại học

Ho Chi Minh University of Technology

Chuyên ngành

Kỹ thuật Điều Khiển và Tự Động Hóa

Người đăng

Ẩn danh

Thể loại

master thesis

2020

157

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: INTRODUCTION

1.1. Study and Research

1.2. Design and Implementation

2. CHƯƠNG 2: RELATED THEORY

2.1. MACHINE LEARNING AND ARTIFICIAL NEURAL NETWORK

2.1.1. Origins of Machine Learning

2.1.2. Origins of Neural Networks

2.1.3. Machine Learning Algorithms

2.1.4. Machine Learning Models

2.1.4.1. Artificial Neural Networks

2.1.4.2. Support Vector Machine

2.1.4.2.1. Determine value of K

2.1.4.2.2. Application of KNN

2.1.4.3. Neural Network Algorithms

2.1.4.3.1. Biological and Artificial Neurons

2.1.4.3.2. Simple Artificial Neuron

2.1.4.3.3. Complicated Artificial Neuron

3. CHƯƠNG 3: DESIGN AND IMPLEMENTATION

3.1. FACE IMAGE PROCESSING

3.1.1. High Resolution Images

3.1.2. Online Database of Images

3.1.3. Low Resolution Images

3.1.4. Image Pre-processing

3.1.4.1. High Resolution Images

3.1.4.2. Online Database Images

3.1.4.3. Low Resolution Images

3.1.5. Image Data Compression

3.1.5.1. Input design for SOM system

3.1.5.2. Input design for KNN system

3.1.6. Reshape and Save Image Data

3.2. SYSTEM DESIGN FOR SELF-ORGANIZED MAP

3.2.1. Determine value of k

4. CHƯƠNG 4: TESTING AND EXPERIMENTAL WORK

4.1. NEURAL NETWORK VALIDATION

4.1.1. SOM Recognition Program

4.1.2. KNN Recognition Program

5. CHƯƠNG 5: PARAMETER OPTIMIZATION

5.1. Calibrate SOM System

5.1.1. Optimal Number of Neurons

5.1.2. Optimal Number of Epochs

5.2. Calibrate KNN System

5.2.1. Optimal Number of K

5.2.2. Optimal Number of Nearest Distance

6. CHƯƠNG 6: GUI DESIGN

6.1. GUI Design for SOM System

6.1.1. Database Camera Window

6.1.2. Database Modifying Window

6.1.3. Input Modifying Window

6.1.4. Input Camera Window

6.2. GUI Design for KNN System

6.2.1. Database Acquisition Windows

6.2.2. Training Data Encoding Wizard

6.2.3. Test Face Recognition Wizard

7. CHƯƠNG 7: SIGNIFICANCE OF THE PROJECT

8. CHƯƠNG 8: RECOMMENDATIONS

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về hiệu suất nhận diện khuôn mặt trong machine learning

Nhận diện khuôn mặt là một trong những ứng dụng quan trọng của machine learning và deep learning. Các thuật toán như K-Nearest Neighbors (KNN) và Self-Organized Map (SOM) đã được nghiên cứu và áp dụng rộng rãi. Việc so sánh hiệu suất giữa hai thuật toán này giúp hiểu rõ hơn về ưu nhược điểm của từng phương pháp trong việc nhận diện khuôn mặt.

1.1. Khái niệm cơ bản về nhận diện khuôn mặt

Nhận diện khuôn mặt là quá trình xác định và phân loại khuôn mặt trong hình ảnh. Các thuật toán như KNN và SOM sử dụng các đặc trưng hình ảnh để thực hiện nhiệm vụ này.

1.2. Tầm quan trọng của việc so sánh thuật toán

So sánh giữa KNN và SOM giúp xác định phương pháp nào phù hợp hơn trong các tình huống khác nhau, từ đó cải thiện độ chính xác và hiệu suất của hệ thống nhận diện.

II. Thách thức trong nhận diện khuôn mặt và các yếu tố ảnh hưởng

Nhận diện khuôn mặt gặp nhiều thách thức như điều kiện ánh sáng, góc nhìn và độ phân giải hình ảnh. Những yếu tố này có thể ảnh hưởng đến độ chính xác của cả hai thuật toán KNN và SOM. Việc hiểu rõ các thách thức này là cần thiết để cải thiện hiệu suất nhận diện.

2.1. Ảnh hưởng của điều kiện ánh sáng

Điều kiện ánh sáng không đồng đều có thể làm giảm độ chính xác của các thuật toán nhận diện khuôn mặt. KNN và SOM cần được tối ưu hóa để xử lý các tình huống này.

2.2. Góc nhìn và độ phân giải hình ảnh

Góc nhìn khác nhau và độ phân giải thấp có thể gây khó khăn cho việc nhận diện. Cả KNN và SOM cần có các phương pháp tiền xử lý để cải thiện khả năng nhận diện trong các điều kiện này.

III. Phương pháp K Nearest Neighbors trong nhận diện khuôn mặt

Thuật toán K-Nearest Neighbors (KNN) là một trong những phương pháp phổ biến trong nhận diện khuôn mặt. KNN hoạt động dựa trên nguyên tắc tìm kiếm các điểm dữ liệu gần nhất trong không gian đặc trưng. Phương pháp này có ưu điểm là đơn giản và dễ triển khai.

3.1. Nguyên lý hoạt động của KNN

KNN xác định lớp của một điểm dữ liệu mới bằng cách tìm kiếm K điểm gần nhất trong tập huấn luyện và chọn lớp phổ biến nhất trong số đó.

3.2. Ưu điểm và nhược điểm của KNN

KNN có ưu điểm là dễ hiểu và dễ triển khai, nhưng nhược điểm là hiệu suất có thể giảm khi kích thước dữ liệu lớn và không gian đặc trưng phức tạp.

IV. Phương pháp Self Organized Map trong nhận diện khuôn mặt

Self-Organized Map (SOM) là một loại mạng nơ-ron không giám sát, được sử dụng để phân loại và giảm chiều dữ liệu. SOM có khả năng tổ chức dữ liệu thành các nhóm tương tự, giúp cải thiện độ chính xác trong nhận diện khuôn mặt.

4.1. Cấu trúc và nguyên lý hoạt động của SOM

SOM sử dụng một lưới nơ-ron để tổ chức dữ liệu, nơi mỗi nơ-ron đại diện cho một nhóm đặc trưng. Quá trình huấn luyện giúp nơ-ron học cách phân loại dữ liệu.

4.2. Lợi ích của việc sử dụng SOM

SOM giúp giảm chiều dữ liệu và tổ chức thông tin một cách hiệu quả, từ đó cải thiện khả năng nhận diện khuôn mặt trong các điều kiện khác nhau.

V. So sánh hiệu suất giữa KNN và SOM trong nhận diện khuôn mặt

Việc so sánh hiệu suất giữa KNN và SOM cho thấy mỗi phương pháp có những ưu điểm và nhược điểm riêng. KNN thường cho kết quả nhanh hơn trong các tập dữ liệu nhỏ, trong khi SOM có thể hoạt động tốt hơn trong các tình huống phức tạp với nhiều đặc trưng.

5.1. Đánh giá độ chính xác của KNN và SOM

Các nghiên cứu cho thấy KNN có độ chính xác cao trong các tập dữ liệu nhỏ, trong khi SOM có thể đạt được độ chính xác tốt hơn trong các tập dữ liệu lớn và phức tạp.

5.2. Thời gian xử lý và hiệu suất

KNN thường yêu cầu thời gian xử lý ngắn hơn so với SOM, nhưng hiệu suất của SOM có thể vượt trội trong các tình huống phức tạp.

VI. Kết luận và triển vọng tương lai trong nhận diện khuôn mặt

Nhận diện khuôn mặt là một lĩnh vực đang phát triển nhanh chóng với nhiều ứng dụng thực tiễn. Việc so sánh giữa KNN và SOM giúp xác định phương pháp phù hợp cho từng tình huống cụ thể. Tương lai của nhận diện khuôn mặt hứa hẹn sẽ có nhiều cải tiến và ứng dụng mới.

6.1. Xu hướng phát triển trong công nghệ nhận diện khuôn mặt

Công nghệ nhận diện khuôn mặt đang ngày càng được cải tiến với sự phát triển của các thuật toán mới và khả năng xử lý dữ liệu lớn.

6.2. Ứng dụng thực tiễn của nhận diện khuôn mặt

Nhận diện khuôn mặt có thể được ứng dụng trong nhiều lĩnh vực như an ninh, giám sát, và tương tác giữa người và máy, mở ra nhiều cơ hội mới cho nghiên cứu và phát triển.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa face recognition performance comparison between knearest neighbors algorithm and selforganized map

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận diện khuôn mặt là một lĩnh vực công nghệ quan trọng, được ứng dụng rộng rãi trong các hệ thống an ninh, tương tác người-máy, và xử lý dữ liệu đa phương tiện. Theo báo cáo ngành, các hệ thống nhận diện khuôn mặt hiện đại có thể đạt độ chính xác lên đến khoảng 99,63% trên bộ dữ liệu Labeled Face in the Wild, cho thấy tiềm năng ứng dụng rất lớn trong thực tế. Tuy nhiên, việc so sánh hiệu suất giữa các thuật toán nhận diện khuôn mặt phổ biến vẫn còn hạn chế, gây khó khăn cho người mới và cả các nhà nghiên cứu trong việc lựa chọn phương pháp phù hợp.

Luận văn này tập trung xây dựng và so sánh hiệu suất của hai hệ thống nhận diện khuôn mặt sử dụng hai thuật toán khác nhau: thuật toán K-Nearest Neighbors (KNN) kết hợp với mạng nơ-ron ResNet-29 và mạng nơ-ron tự cấu trúc Self-Organized Map (SOM). Nghiên cứu được thực hiện trong giai đoạn từ tháng 8/2019 đến tháng 8/2020 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM, với mục tiêu đánh giá độ chính xác và tốc độ xử lý của hai hệ thống trên cùng một phần cứng.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp cái nhìn tổng quan về ưu nhược điểm của từng phương pháp, từ đó hỗ trợ lựa chọn giải pháp phù hợp cho các ứng dụng thực tế như giám sát an ninh, nhận dạng cá nhân, và xử lý video. Kết quả nghiên cứu góp phần thúc đẩy phát triển các hệ thống nhận diện khuôn mặt hiệu quả, đáp ứng yêu cầu về tốc độ và độ chính xác trong môi trường đa dạng điều kiện ánh sáng và chất lượng hình ảnh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực học máy và nhận diện khuôn mặt:

Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN): Mạng ResNet-29 được sử dụng để mã hóa đặc trưng khuôn mặt từ ảnh gốc. ResNet là một kiến trúc mạng sâu với khả năng học các đặc trưng phức tạp thông qua các lớp residual, giúp cải thiện hiệu suất nhận diện trong điều kiện ánh sáng và góc chụp khác nhau. Các khái niệm chính bao gồm: lớp convolutional, hàm kích hoạt sigmoid, và thuật toán huấn luyện back-propagation.
Thuật toán K-Nearest Neighbors (KNN): Là thuật toán học máy không tham số, phân loại dựa trên khoảng cách Euclidean giữa mẫu cần phân loại và các mẫu trong tập huấn luyện. Giá trị k được lựa chọn tối ưu thông qua phương pháp cross-validation để cân bằng giữa độ lệch và phương sai của mô hình.
Mạng nơ-ron tự cấu trúc (Self-Organized Map - SOM): Là mạng nơ-ron không giám sát, sử dụng để phân cụm và nhận diện khuôn mặt dựa trên đặc trưng hình ảnh đã được xử lý qua các kỹ thuật như Illumination Normalization (IN) và 2D Discrete Cosine Transform (2D-DCT). SOM giúp giảm chiều dữ liệu và tổ chức các mẫu tương tự gần nhau trên bản đồ hai chiều.

Các khái niệm chuyên ngành được áp dụng bao gồm: nhận diện dựa trên đặc trưng (feature-based recognition), nhận diện dựa trên ảnh (image-based recognition), hàm mất mát (loss function), và các chỉ số đánh giá như False Acceptance Rate (FAR), Receiver Operating Characteristic (ROC), và Cumulative Match Characteristic (CMC).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu khuôn mặt được thu thập từ nhiều nguồn, bao gồm ảnh chụp độ phân giải cao, ảnh từ webcam và các cơ sở dữ liệu trực tuyến. Cỡ mẫu khoảng vài trăm đến vài nghìn ảnh, đảm bảo đa dạng về điều kiện ánh sáng, góc chụp và biểu cảm khuôn mặt.

Phương pháp phân tích bao gồm:

Xây dựng hai hệ thống nhận diện khuôn mặt độc lập: hệ thống KNN kết hợp ResNet-29 được lập trình bằng Python, và hệ thống SOM sử dụng MATLAB.
Tiền xử lý ảnh: chuẩn hóa ánh sáng, nén dữ liệu bằng 2D-DCT, và trích xuất đặc trưng.
Huấn luyện và kiểm thử: sử dụng tập dữ liệu huấn luyện và tập kiểm thử riêng biệt, thực hiện tối ưu tham số như số lượng láng giềng k trong KNN, số lượng neuron và epoch trong SOM.
Đánh giá hiệu suất: đo lường độ chính xác nhận diện, tốc độ xử lý, và khả năng ứng dụng trong các điều kiện thực tế khác nhau.

Timeline nghiên cứu kéo dài từ tháng 8/2019 đến tháng 8/2020, bao gồm các giai đoạn nghiên cứu lý thuyết, thiết kế hệ thống, triển khai phần mềm, thử nghiệm và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận diện: Hệ thống KNN kết hợp ResNet-29 đạt độ chính xác trung bình khoảng 95%, cao hơn khoảng 7% so với hệ thống SOM sử dụng Illumination Normalization và 2D-DCT. Kết quả này được đo trên cùng bộ dữ liệu kiểm thử với điều kiện ánh sáng và góc chụp đa dạng.
Tốc độ xử lý: Hệ thống KNN-Python có tốc độ nhận diện nhanh hơn khoảng 20% so với hệ thống SOM-MATLAB, nhờ vào việc tối ưu thuật toán và sử dụng ngôn ngữ lập trình hiệu quả hơn.
Khả năng thích ứng với điều kiện ánh sáng: Hệ thống SOM thể hiện ưu thế trong việc xử lý các ảnh có điều kiện ánh sáng phức tạp nhờ kỹ thuật Illumination Normalization, giảm tỷ lệ lỗi nhận diện trong các trường hợp ánh sáng yếu hoặc chói sáng lên đến 15%.
Khả năng mở rộng và ứng dụng thực tế: Hệ thống KNN-ResNet có giao diện người dùng thân thiện, dễ dàng tích hợp vào các ứng dụng giám sát và nhận dạng thời gian thực, trong khi hệ thống SOM phù hợp với các ứng dụng nghiên cứu và phân tích dữ liệu lớn.

Thảo luận kết quả

Nguyên nhân chính dẫn đến sự khác biệt về độ chính xác là do ResNet-29 có khả năng học các đặc trưng phức tạp và trừu tượng hơn so với SOM, vốn dựa trên phương pháp phân cụm không giám sát. Điều này phù hợp với các nghiên cứu gần đây cho thấy mạng sâu thường vượt trội trong các bài toán nhận diện hình ảnh.

Tốc độ xử lý nhanh hơn của hệ thống KNN-Python cũng phản ánh ưu điểm của việc sử dụng ngôn ngữ lập trình hiện đại và thuật toán tối ưu, đồng thời cho thấy khả năng ứng dụng trong các hệ thống thời gian thực.

Kết quả về khả năng thích ứng với điều kiện ánh sáng của SOM cho thấy kỹ thuật tiền xử lý ảnh đóng vai trò quan trọng trong việc cải thiện hiệu suất nhận diện, đặc biệt trong môi trường thực tế với nhiều biến động.

Biểu đồ so sánh độ chính xác và tốc độ xử lý giữa hai hệ thống có thể minh họa rõ ràng sự khác biệt, giúp người dùng lựa chọn giải pháp phù hợp theo yêu cầu ứng dụng.

Đề xuất và khuyến nghị

Tối ưu hóa tham số thuật toán: Đề xuất thực hiện thêm các thử nghiệm để xác định giá trị k tối ưu trong KNN và số lượng neuron, epoch trong SOM nhằm nâng cao độ chính xác và giảm thời gian huấn luyện. Thời gian thực hiện dự kiến trong 3 tháng, do nhóm nghiên cứu thực hiện.
Phát triển giao diện người dùng đa nền tảng: Xây dựng giao diện thân thiện, hỗ trợ đa nền tảng cho hệ thống KNN-ResNet để mở rộng ứng dụng trong các thiết bị di động và hệ thống giám sát. Thời gian triển khai 6 tháng, phối hợp giữa nhóm phát triển phần mềm và chuyên gia UX/UI.
Áp dụng kỹ thuật tiền xử lý ảnh nâng cao: Nghiên cứu và tích hợp các phương pháp tiền xử lý mới như Wavelet Denoising, Adaptive Non-Local Means để cải thiện khả năng nhận diện trong điều kiện ánh sáng và nhiễu phức tạp. Thời gian nghiên cứu 4 tháng, do nhóm chuyên gia xử lý ảnh thực hiện.
Mở rộng bộ dữ liệu huấn luyện: Thu thập và bổ sung thêm dữ liệu khuôn mặt đa dạng về chủng tộc, độ tuổi và biểu cảm để tăng tính tổng quát của mô hình, giảm thiểu bias trong nhận diện. Thời gian thực hiện 1 năm, phối hợp với các tổ chức nghiên cứu và cộng đồng người dùng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điều khiển và Tự động hóa: Có thể áp dụng kiến thức về mạng nơ-ron và thuật toán KNN trong các đề tài liên quan đến nhận diện và xử lý tín hiệu.
Chuyên gia phát triển hệ thống an ninh và giám sát: Sử dụng kết quả nghiên cứu để lựa chọn thuật toán phù hợp cho các hệ thống nhận diện khuôn mặt trong môi trường thực tế.
Nhà phát triển phần mềm ứng dụng AI và Machine Learning: Tham khảo phương pháp thiết kế, triển khai và tối ưu hóa hệ thống nhận diện khuôn mặt đa nền tảng.
Các tổ chức nghiên cứu về xử lý ảnh và thị giác máy tính: Áp dụng các kỹ thuật tiền xử lý và mô hình mạng nơ-ron sâu để nâng cao hiệu quả nhận diện trong các dự án nghiên cứu.

Câu hỏi thường gặp

Tại sao chọn thuật toán KNN và SOM để so sánh?
KNN và SOM đại diện cho hai phương pháp học máy khác biệt: KNN là thuật toán giám sát đơn giản, trong khi SOM là mạng nơ-ron không giám sát. So sánh giúp đánh giá ưu nhược điểm của từng phương pháp trong nhận diện khuôn mặt.
Độ chính xác của hai hệ thống được đánh giá như thế nào?
Độ chính xác được đo bằng tỷ lệ nhận diện đúng trên tập kiểm thử đa dạng, với hệ thống KNN-ResNet đạt khoảng 95%, cao hơn 7% so với SOM.
Hệ thống có thể áp dụng trong điều kiện ánh sáng yếu không?
Hệ thống SOM với kỹ thuật Illumination Normalization cho thấy khả năng xử lý tốt hơn trong điều kiện ánh sáng phức tạp, giảm lỗi nhận diện lên đến 15%.
Ngôn ngữ lập trình nào được sử dụng cho hai hệ thống?
Hệ thống KNN-ResNet được phát triển bằng Python, còn hệ thống SOM được triển khai trong môi trường MATLAB.
Làm thế nào để lựa chọn giá trị k trong thuật toán KNN?
Giá trị k được xác định thông qua phương pháp cross-validation, cân bằng giữa độ chính xác và tránh hiện tượng overfitting hoặc underfitting.

Kết luận

Luận văn đã xây dựng thành công hai hệ thống nhận diện khuôn mặt dựa trên thuật toán KNN kết hợp ResNet-29 và mạng nơ-ron tự cấu trúc SOM.
Hệ thống KNN-ResNet đạt độ chính xác cao hơn khoảng 7% và tốc độ xử lý nhanh hơn 20% so với hệ thống SOM.
Kỹ thuật tiền xử lý ảnh đóng vai trò quan trọng trong việc cải thiện hiệu suất nhận diện, đặc biệt trong điều kiện ánh sáng phức tạp.
Nghiên cứu cung cấp cơ sở để lựa chọn thuật toán phù hợp theo yêu cầu ứng dụng thực tế, từ giám sát an ninh đến xử lý dữ liệu lớn.
Đề xuất các bước tiếp theo bao gồm tối ưu tham số, phát triển giao diện đa nền tảng, áp dụng kỹ thuật tiền xử lý nâng cao và mở rộng bộ dữ liệu huấn luyện nhằm nâng cao hiệu quả hệ thống.

Mời các nhà nghiên cứu và chuyên gia trong lĩnh vực tiếp tục khai thác và phát triển các giải pháp nhận diện khuôn mặt dựa trên nền tảng này để đáp ứng nhu cầu ngày càng cao của xã hội.

Bài luận văn thạc sĩ mang tiêu đề "So sánh hiệu suất nhận diện khuôn mặt: K-Nearest Neighbors vs Self-Organized Map" của tác giả Nguyễn Đức Minh, dưới sự hướng dẫn của các giáo sư tại Trường Đại Học Bách Khoa TP. Hồ Chí Minh, tập trung vào việc phân tích và so sánh hai thuật toán phổ biến trong nhận diện khuôn mặt: K-Nearest Neighbors (KNN) và Self-Organized Map (SOM). Bài viết không chỉ cung cấp cái nhìn sâu sắc về hiệu suất của từng thuật toán mà còn giúp độc giả hiểu rõ hơn về ứng dụng của chúng trong lĩnh vực nhận diện khuôn mặt, từ đó hỗ trợ cho các nghiên cứu và ứng dụng thực tiễn trong công nghệ thông tin.

Để mở rộng kiến thức của bạn về các thuật toán và ứng dụng trong lĩnh vực máy tính, bạn có thể tham khảo thêm bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi khám phá việc áp dụng Active Learning trong lĩnh vực nhận diện giọng nói, một lĩnh vực có sự tương đồng với nhận diện khuôn mặt.

Ngoài ra, bài viết "Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ" cũng mang đến những kiến thức quý giá về việc ứng dụng học sâu trong nhận diện giọng nói, cho thấy sự phát triển không ngừng của công nghệ trong việc xử lý và phân tích dữ liệu âm thanh.

Cuối cùng, bạn có thể tìm hiểu thêm về "Nhận dạng mô típ trong dữ liệu chuỗi thời gian hình ảnh", một nghiên cứu liên quan đến việc nhận diện các mẫu trong dữ liệu hình ảnh, mở rộng thêm khái niệm về nhận diện trong lĩnh vực công nghệ thông tin.

Những tài liệu này sẽ giúp bạn có cái nhìn đa chiều hơn về các thuật toán và ứng dụng trong lĩnh vực nhận diện hình ảnh và âm thanh.

#sánh

#hiệu

#suất

#nhận

#diện

Chủ đề

tài liệu