So Sánh Nhận Diện Khuôn Mặt Sử Dụng Giải Thuật K Gần Nhất với Mạng Nơ-ron Tự Cấu Trúc

Trường đại học

Trường Đại học Bách Khoa – ĐHQG – HCM

Chuyên ngành

Kỹ thuật Điều khiển và Tự động hóa

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2020

157

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: INTRODUCTION

1.1. OVERVIEW

1.2. Study and Research

1.3. Design and Implementation

2. CHƯƠNG 2: RELATED THEORY

2.1. MACHINE LEARNING AND ARTIFICIAL NEURAL NETWORK

2.1.1. Origins of Machine Learning

2.1.2. Origins of Neural Networks

2.1.3. Machine Learning Algorithms

2.1.4. Machine Learning Models

2.1.4.1. Artificial Neural Networks

2.1.4.2. Support Vector Machine

2.1.4.2.1. Determine value of K

2.1.4.2.2. Output class measurement

2.1.4.2.3. Application of KNN

2.1.4.3. Neural Network Algorithms

2.1.4.3.1. Biological and Artificial Neurons

2.1.4.3.2. Simple Artificial Neuron

2.1.4.3.3. Complicated Artificial Neuron

2.2. Kohonen Self-Organizing Map (SOM)

2.2.1. SOM Network Architecture

2.2.2. Training Process of SOM

2.2.2.1. The Competitive Process

2.2.2.2. The Cooperative Process

2.2.2.3. The Adaptive Process

2.2.2.4. Ordering and Convergence

2.3. Discrete Cosine Transform

2.3.1. Properties of DCT

2.3.2. Definition of DCT

2.3.2.1. One-dimensional type-2 DCT

2.3.2.2. Two-Dimensional Type-2 DCT

2.3.3. 2D-DCT in Image compression

2.3.3.1. 2D-DCT basis functions

2.3.3.2. DCT coefficients matrix

2.3.3.3. DCT Image Compression in JPEG format

2.3.3.3.1. Example with detailed process

2.3.4. Other Applications of DCT

2.3.4.1. An Engineer Approach

2.3.4.2. Finding least error IN technique

2.3.4.3. Applying and testing AS with DCT in image compression

2.4. Residual Network for Image Data Encoding

2.4.1. Deviation with other Neural Networks

2.4.2. Applying ResNet in image encoding

3. CHƯƠNG 3: DESIGN AND IMPLEMENTATION

3.1. FACE IMAGE PROCESSING

3.1.1. High Resolution Images

3.1.2. Online Database of Images

3.1.3. Low Resolution Images

3.1.4. Image Pre-processing

3.1.4.1. High Resolution Images

3.1.4.2. Online Database Images

3.1.4.3. Low Resolution Images

3.1.5. Image Data Compression

3.1.5.1. Input design for SOM system

3.1.5.2. Input design for KNN system

3.1.5.3. Reshape and Save Image Data

3.2. SYSTEM DESIGN FOR SELF-ORGANIZED MAP

3.2.1. Determine value of k

4. CHƯƠNG 4: TESTING AND EXPERIMENTAL WORK

4.1. NEURAL NETWORK VALIDATION

4.1.1. SOM Recognition Program

4.1.2. KNN Recognition Program

5. CHƯƠNG 5: PARAMETER OPTIMIZATION

5.1. Calibrate SOM System

5.1.1. Optimal Number of Neurons

5.1.2. Optimal Number of Epochs

5.2. Calibrate KNN System

5.2.1. Optimal Number of K

5.2.2. Optimal Number of Nearest Distance

5.3. GUI Design for SOM System

5.3.1. Database Camera Window

5.3.2. Database Modifying Window

5.3.3. Input Modifying Window

5.3.4. Input Camera Window

5.4. GUI Design for KNN System

5.4.1. Database Acquisition Windows

5.4.2. Training Data Encoding Wizard

5.4.3. Test Face Recognition Wizard

6. CHƯƠNG 6: SIGNIFICANCE OF THE PROJECT

7. CHƯƠNG 7: RECOMMENDATIONS

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Chuyên Sâu Nhận Diện Khuôn Mặt 55

Bài viết này tập trung vào so sánh hiệu suất nhận diện khuôn mặt giữa hai thuật toán phổ biến: K-NN (K-Nearest Neighbors) và SOM (Self-Organizing Map). Mục tiêu là cung cấp một nghiên cứu chuyên sâu, phân tích ưu nhược điểm, độ chính xác và tốc độ của từng phương pháp trong các điều kiện khác nhau. Nhận diện khuôn mặt ngày càng trở nên quan trọng trong nhiều lĩnh vực, từ an ninh đến tương tác người-máy. Việc hiểu rõ điểm mạnh và điểm yếu của từng thuật toán giúp lựa chọn phương pháp phù hợp nhất cho từng ứng dụng cụ thể. Nghiên cứu này tiếp nối và phát triển từ các công trình trước đó, đồng thời hướng đến việc cung cấp một cái nhìn tổng quan và so sánh chi tiết về hiệu suất của K-NN và SOM. Công trình được hoàn thành tại trường Đại học Bách Khoa – ĐHQG – HCM, dưới sự hướng dẫn của GS. Hồ Phạm Huy Ánh. Nghiên cứu này là một phần quan trọng trong việc ứng dụng trí tuệ nhân tạo (AI) và học máy (Machine Learning) vào các bài toán thực tế.

1.1. Ứng Dụng Thực Tế của Nhận Diện Khuôn Mặt Hiện Nay

Nhận diện khuôn mặt đã trở thành một công nghệ quen thuộc trong cuộc sống hàng ngày. Ứng dụng rộng rãi trong mở khóa điện thoại, hệ thống an ninh, kiểm soát truy cập, và nhiều ứng dụng khác. Các hệ thống nhận diện khuôn mặt ngày càng được cải thiện để đối phó với các điều kiện ánh sáng khắc nghiệt, góc nhìn khác nhau, và biểu cảm đa dạng. Sự phát triển này thúc đẩy sự quan tâm của các nhà nghiên cứu và kỹ sư trong việc khám phá các phương pháp nhận diện khuôn mặt mới và hiệu quả hơn. Việc tự động hóa quá trình nhận diện khuôn mặt là một nhiệm vụ thực tiễn do phạm vi ứng dụng rộng rãi của nó, bao gồm giám sát, tương tác giữa người và máy, hệ thống an ninh, nén video, lập chỉ mục video của cơ sở dữ liệu lớn và toàn bộ các ứng dụng đa phương tiện khác.

1.2. Mục Tiêu Nghiên Cứu So Sánh K NN và SOM Chi Tiết

Nghiên cứu tập trung vào so sánh hiệu suất giữa hai thuật toán K-NN và SOM. Mặc dù có nhiều nghiên cứu về các thuật toán nhận diện khuôn mặt khác nhau, việc so sánh trực tiếp và chi tiết giữa các phương pháp này còn hạn chế. Việc này gây khó khăn cho những người mới bắt đầu trong lĩnh vực nhận diện khuôn mặt trong việc đánh giá ưu nhược điểm của từng phương pháp. Do đó, mục tiêu chính của nghiên cứu là cung cấp một bài so sánh toàn diện về thuật toán và độ chính xác giữa hai phương pháp nhận diện khuôn mặt thông dụng, giúp các nhà nghiên cứu và kỹ sư có cái nhìn rõ ràng hơn về các lựa chọn của mình.

II. Bài Toán Nhận Diện Khuôn Mặt Thách Thức Giải Pháp 58

Mặc dù đã có nhiều tiến bộ trong lĩnh vực nhận diện khuôn mặt, vẫn còn nhiều thách thức cần giải quyết. Các yếu tố như ánh sáng, biểu cảm, góc nhìn và độ phân giải ảnh có thể ảnh hưởng đáng kể đến hiệu suất nhận diện. Việc phát triển các thuật toán nhận diện khuôn mặt mạnh mẽ và linh hoạt, có khả năng thích ứng với các điều kiện khác nhau, là một mục tiêu quan trọng. Các nghiên cứu gần đây đã tập trung vào việc sử dụng các kỹ thuật học sâu (deep learning), chẳng hạn như mạng nơ-ron tích chập (CNN), để trích xuất các đặc trưng khuôn mặt mạnh mẽ và cải thiện độ chính xác nhận diện. Nghiên cứu này tìm cách giải quyết các thách thức này bằng cách so sánh K-NN và SOM, hai thuật toán có cách tiếp cận khác nhau trong việc nhận diện khuôn mặt.

2.1. Yếu Tố Ảnh Hưởng Đến Hiệu Suất Nhận Diện Khuôn Mặt

Nhiều yếu tố có thể ảnh hưởng đến hiệu suất của các hệ thống nhận diện khuôn mặt. Ánh sáng thay đổi có thể làm thay đổi đáng kể diện mạo khuôn mặt, gây khó khăn cho việc trích xuất các đặc trưng chính xác. Biểu cảm khuôn mặt cũng có thể thay đổi hình dạng và cấu trúc khuôn mặt, đòi hỏi các thuật toán phải có khả năng xử lý các biến đổi này. Góc nhìn khác nhau, khi khuôn mặt không trực diện, cũng gây ra các biến dạng hình học, làm giảm độ chính xác nhận diện. Độ phân giải ảnh thấp cũng có thể làm mất các chi tiết quan trọng, ảnh hưởng đến khả năng nhận diện khuôn mặt.

2.2. Vai Trò Của Học Sâu Trong Cải Thiện Độ Chính Xác Nhận Diện

Học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), đã chứng minh khả năng vượt trội trong việc nhận diện khuôn mặt. Các mạng CNN có thể học các đặc trưng khuôn mặt phức tạp và trừu tượng từ dữ liệu huấn luyện lớn, cho phép chúng đạt được độ chính xác cao trong nhiều điều kiện khác nhau. Các kiến trúc mạng CNN như ResNet đã được sử dụng để trích xuất các đặc trưng khuôn mặt mạnh mẽ và cải thiện hiệu suất của các hệ thống nhận diện khuôn mặt.

III. K NN Phương Pháp Nhận Diện Khuôn Mặt Đơn Giản Hiệu Quả 60

K-NN (K-Nearest Neighbors) là một thuật toán học máy đơn giản nhưng hiệu quả, được sử dụng rộng rãi trong nhận diện khuôn mặt. Ý tưởng cơ bản của K-NN là phân loại một đối tượng dựa trên lớp của các đối tượng láng giềng gần nhất trong không gian đặc trưng. Trong nhận diện khuôn mặt, mỗi khuôn mặt được biểu diễn bằng một vectơ đặc trưng, và K-NN tìm kiếm các khuôn mặt gần nhất trong cơ sở dữ liệu để xác định danh tính của người đó. Ưu điểm của K-NN là dễ hiểu, dễ triển khai, và không yêu cầu quá trình huấn luyện phức tạp. Tuy nhiên, K-NN có thể chậm khi xử lý dữ liệu lớn và nhạy cảm với các tham số như số lượng láng giềng (K) và hàm khoảng cách.

3.1. Thuật Toán K NN Hoạt Động Như Thế Nào Trong Nhận Diện

Thuật toán K-NN hoạt động bằng cách tìm K mẫu huấn luyện gần nhất với mẫu cần phân loại. Khoảng cách giữa các mẫu thường được tính bằng khoảng cách Euclidean hoặc các độ đo khoảng cách khác. Sau khi tìm được K láng giềng gần nhất, lớp của mẫu cần phân loại được xác định bằng cách lấy lớp phổ biến nhất trong số K láng giềng đó. Giá trị của K là một tham số quan trọng, có thể ảnh hưởng đến hiệu suất của K-NN. Một giá trị K nhỏ có thể làm cho K-NN nhạy cảm với nhiễu, trong khi một giá trị K lớn có thể làm mờ ranh giới giữa các lớp.

3.2. Ưu Nhược Điểm Của K NN Trong Ứng Dụng Nhận Diện Khuôn Mặt

Ưu điểm của K-NN trong nhận diện khuôn mặt bao gồm sự đơn giản, dễ triển khai và không yêu cầu quá trình huấn luyện phức tạp. K-NN cũng có thể hoạt động tốt với dữ liệu phi tuyến tính. Tuy nhiên, K-NN có thể chậm khi xử lý dữ liệu lớn, vì nó cần tính khoảng cách giữa mẫu cần phân loại và tất cả các mẫu trong cơ sở dữ liệu. K-NN cũng nhạy cảm với các tham số như số lượng láng giềng (K) và hàm khoảng cách, và có thể bị ảnh hưởng bởi các đặc trưng không liên quan.

IV. SOM Tự Tổ Chức Bản Đồ Khuôn Mặt Hiệu Quả Ra Sao 59

SOM (Self-Organizing Map), hay còn gọi là mạng nơ-ron tự tổ chức, là một thuật toán học không giám sát có khả năng biểu diễn dữ liệu đa chiều trên một không gian hai chiều, thường là một lưới các nơ-ron. Trong nhận diện khuôn mặt, SOM có thể được sử dụng để tạo ra một bản đồ các đặc trưng khuôn mặt, trong đó các khuôn mặt tương tự được nhóm lại gần nhau trên bản đồ. Khi một khuôn mặt mới được đưa vào, SOM tìm kiếm nơ-ron gần nhất trên bản đồ và gán khuôn mặt đó vào nơ-ron đó. SOM có khả năng khám phá cấu trúc ẩn trong dữ liệu và trực quan hóa các mối quan hệ giữa các khuôn mặt. Tuy nhiên, SOM có thể khó huấn luyện và yêu cầu lựa chọn cẩn thận các tham số.

4.1. Cách Mạng Nơ Ron Tự Tổ Chức SOM Hoạt Động

SOM hoạt động bằng cách lặp đi lặp lại quá trình tìm kiếm nơ-ron chiến thắng (best matching unit - BMU) trên bản đồ cho mỗi mẫu trong dữ liệu huấn luyện. Nơ-ron chiến thắng là nơ-ron có vectơ trọng số gần nhất với mẫu đầu vào. Sau khi tìm được nơ-ron chiến thắng, vectơ trọng số của nơ-ron đó và các nơ-ron lân cận được cập nhật để gần hơn với mẫu đầu vào. Quá trình này được lặp lại cho đến khi bản đồ hội tụ và các nơ-ron được tổ chức theo một cấu trúc có ý nghĩa.

4.2. Ưu Điểm Nhược Điểm Của SOM trong Nhận Diện Khuôn Mặt

Ưu điểm của SOM trong nhận diện khuôn mặt bao gồm khả năng khám phá cấu trúc ẩn trong dữ liệu, trực quan hóa các mối quan hệ giữa các khuôn mặt và giảm chiều dữ liệu. SOM cũng có thể được sử dụng để phát hiện các khuôn mặt bất thường. Tuy nhiên, SOM có thể khó huấn luyện, yêu cầu lựa chọn cẩn thận các tham số và có thể không đạt được độ chính xác cao như các thuật toán khác.

V. So Sánh K NN và SOM Đánh Giá Hiệu Suất Thực Tế 56

Việc so sánh hiệu suất giữa K-NN và SOM trong nhận diện khuôn mặt là rất quan trọng để lựa chọn thuật toán phù hợp nhất cho từng ứng dụng cụ thể. Nghiên cứu này tiến hành đánh giá hiệu suất của cả hai thuật toán trên các bộ dữ liệu khuôn mặt khác nhau, sử dụng các độ đo như độ chính xác nhận diện, tốc độ nhận diện và độ ổn định. Kết quả cho thấy rằng K-NN có thể đạt được độ chính xác cao hơn SOM trong một số trường hợp, nhưng SOM có thể cung cấp khả năng trực quan hóa và khám phá dữ liệu tốt hơn. Việc lựa chọn giữa K-NN và SOM phụ thuộc vào yêu cầu cụ thể của từng ứng dụng.

5.1. Các Độ Đo Hiệu Suất Quan Trọng Độ Chính Xác và Tốc Độ

Độ chính xác nhận diện là một độ đo quan trọng cho biết tỷ lệ các khuôn mặt được nhận diện đúng. Tốc độ nhận diện là thời gian cần thiết để nhận diện một khuôn mặt. Các ứng dụng khác nhau có thể yêu cầu các mức độ chính xác và tốc độ khác nhau. Ví dụ, các hệ thống an ninh có thể yêu cầu độ chính xác cao, trong khi các ứng dụng tương tác người-máy có thể ưu tiên tốc độ.

5.2. Ứng Dụng Thực Tế Khi Nào Nên Dùng K NN Khi Nào Dùng SOM

K-NN phù hợp với các ứng dụng yêu cầu độ chính xác cao và có dữ liệu huấn luyện đủ lớn. SOM phù hợp với các ứng dụng yêu cầu khám phá cấu trúc dữ liệu, trực quan hóa các mối quan hệ giữa các khuôn mặt và giảm chiều dữ liệu. Ví dụ, K-NN có thể được sử dụng trong các hệ thống an ninh, trong khi SOM có thể được sử dụng trong các ứng dụng phân tích dữ liệu khuôn mặt.

VI. Kết Luận Hướng Phát Triển Nhận Diện Khuôn Mặt Tương Lai 58

Nghiên cứu này đã cung cấp một so sánh chi tiết về hiệu suất của K-NN và SOM trong nhận diện khuôn mặt. Kết quả cho thấy rằng cả hai thuật toán đều có những ưu điểm và nhược điểm riêng, và việc lựa chọn thuật toán phù hợp nhất phụ thuộc vào yêu cầu cụ thể của từng ứng dụng. Trong tương lai, việc kết hợp K-NN và SOM với các kỹ thuật học sâu có thể mang lại những kết quả ấn tượng hơn nữa trong lĩnh vực nhận diện khuôn mặt. Ngoài ra, việc nghiên cứu các thuật toán nhận diện khuôn mặt mạnh mẽ hơn, có khả năng đối phó với các điều kiện khác nhau, là một hướng đi quan trọng.

6.1. Kết Hợp K NN SOM và Học Sâu Tiềm Năng Phát Triển

Việc kết hợp các ưu điểm của K-NN, SOM và học sâu có thể mang lại những hệ thống nhận diện khuôn mặt mạnh mẽ và linh hoạt hơn. Ví dụ, các đặc trưng khuôn mặt trích xuất từ mạng CNN có thể được sử dụng làm đầu vào cho K-NN hoặc SOM, giúp cải thiện độ chính xác và tốc độ nhận diện. Các nghiên cứu trong tương lai có thể tập trung vào việc khám phá các cách kết hợp khác nhau giữa các thuật toán này.

6.2. Thách Thức và Cơ Hội Trong Nhận Diện Khuôn Mặt Tương Lai

Lĩnh vực nhận diện khuôn mặt vẫn còn nhiều thách thức và cơ hội. Các thách thức bao gồm việc phát triển các thuật toán có khả năng đối phó với các điều kiện ánh sáng khắc nghiệt, biểu cảm đa dạng, góc nhìn khác nhau và độ phân giải ảnh thấp. Các cơ hội bao gồm việc sử dụng các kỹ thuật học sâu mới, phát triển các ứng dụng nhận diện khuôn mặt sáng tạo và giải quyết các vấn đề về đạo đức và bảo mật liên quan đến việc sử dụng công nghệ này.

16/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa face recognition performance comparison between k nearest neighbors algorithm and self organized map

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận diện khuôn mặt là một lĩnh vực công nghệ quan trọng và có ứng dụng rộng rãi trong các hệ thống an ninh, tương tác người-máy, và xử lý đa phương tiện. Theo báo cáo ngành, các hệ thống nhận diện khuôn mặt hiện đại có thể đạt độ chính xác lên đến khoảng 99,63% trên bộ dữ liệu Labeled Face in the Wild, cho thấy tiềm năng ứng dụng rất lớn trong thực tế. Tuy nhiên, việc so sánh hiệu suất giữa các thuật toán nhận diện khuôn mặt phổ biến vẫn còn hạn chế, gây khó khăn cho người mới và cả các nhà nghiên cứu trong việc lựa chọn phương pháp phù hợp.

Luận văn này tập trung vào việc xây dựng và so sánh hiệu suất của hai hệ thống nhận diện khuôn mặt sử dụng hai thuật toán khác nhau: thuật toán K-Nearest Neighbors (KNN) kết hợp với mạng nơ-ron Residual Neural Network 29 lớp (ResNet-29) và mạng nơ-ron tự cấu trúc Self-Organized Map (SOM). Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 8/2019 đến tháng 8/2020 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM, với mục tiêu đánh giá độ chính xác và tốc độ xử lý của hai hệ thống trên cùng một phần cứng.

Ý nghĩa của nghiên cứu nằm ở việc cung cấp cái nhìn tổng quan, khách quan về ưu nhược điểm của hai phương pháp nhận diện khuôn mặt phổ biến, từ đó hỗ trợ các nhà phát triển và nghiên cứu lựa chọn giải pháp phù hợp cho từng ứng dụng cụ thể, đặc biệt trong các môi trường giám sát và an ninh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

Machine Learning (ML): Là lĩnh vực trí tuệ nhân tạo tập trung vào việc phát triển các thuật toán có khả năng học từ dữ liệu mà không cần lập trình rõ ràng. ML bao gồm các mô hình học có giám sát, không giám sát và học tăng cường.
Artificial Neural Networks (ANNs): Mô hình mạng nơ-ron nhân tạo lấy cảm hứng từ cấu trúc và chức năng của hệ thần kinh sinh học. Trong đó, mạng ResNet-29 là một kiến trúc CNN sâu với các khối residual giúp giảm thiểu vấn đề suy giảm gradient, tăng hiệu quả học sâu.
K-Nearest Neighbors (KNN): Thuật toán phân loại không tham số, dựa trên việc xác định nhãn của một điểm dữ liệu mới dựa trên nhãn của k điểm dữ liệu gần nhất trong tập huấn luyện, sử dụng khoảng cách Euclidean làm thước đo.
Self-Organized Map (SOM): Mạng nơ-ron tự tổ chức, thuộc loại mạng không giám sát, dùng để ánh xạ dữ liệu đa chiều vào không gian hai chiều, giúp phân loại và nhận dạng mẫu dựa trên sự tự tổ chức của các neuron.

Các khái niệm chính bao gồm: khoảng cách Euclidean, hàm kích hoạt sigmoid, thuật toán lan truyền ngược (backpropagation), quá trình huấn luyện mạng SOM, và các chỉ số đánh giá hiệu suất như độ chính xác, tốc độ xử lý.

Phương pháp nghiên cứu

Nghiên cứu sử dụng hai bộ dữ liệu khuôn mặt gồm ảnh độ phân giải cao và ảnh từ webcam, được chuẩn hóa và tiền xử lý phù hợp với từng hệ thống. Cỡ mẫu dữ liệu gồm khoảng vài trăm ảnh khuôn mặt với đa dạng điều kiện ánh sáng và góc chụp.

Phương pháp chọn mẫu là chọn ngẫu nhiên các ảnh từ cơ sở dữ liệu để đảm bảo tính đại diện. Hai hệ thống được phát triển độc lập: hệ thống KNN kết hợp ResNet-29 được lập trình bằng Python với giao diện người dùng thân thiện, còn hệ thống SOM được xây dựng trên nền MATLAB.

Phân tích hiệu suất được thực hiện thông qua các phép đo độ chính xác nhận diện, thời gian xử lý trung bình trên mỗi ảnh, và khả năng ứng dụng trong điều kiện ánh sáng khác nhau. Quá trình nghiên cứu kéo dài từ tháng 8/2019 đến tháng 8/2020, bao gồm các giai đoạn nghiên cứu lý thuyết, thiết kế hệ thống, triển khai phần mềm, thử nghiệm và so sánh kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận diện: Hệ thống KNN kết hợp ResNet-29 đạt độ chính xác trung bình khoảng 95%, cao hơn khoảng 7% so với hệ thống SOM sử dụng Illumination Normalization và 2D-DCT, với độ chính xác khoảng 88%. Kết quả này được đo trên cùng bộ dữ liệu thử nghiệm với hơn 200 ảnh.
Tốc độ xử lý: Hệ thống KNN-Python có thời gian xử lý trung bình mỗi ảnh khoảng 0,15 giây, nhanh hơn 20% so với hệ thống SOM-MATLAB với thời gian khoảng 0,19 giây mỗi ảnh.
Khả năng thích ứng với điều kiện ánh sáng: Hệ thống SOM thể hiện khả năng ổn định hơn trong điều kiện ánh sáng yếu nhờ kỹ thuật Illumination Normalization, trong khi hệ thống KNN có hiệu suất giảm nhẹ khoảng 5% khi ánh sáng thay đổi mạnh.
Tính khả thi ứng dụng thực tế: Cả hai hệ thống đều có giao diện người dùng thân thiện và được thử nghiệm trong môi trường giám sát thực tế tại một số địa phương, cho thấy khả năng ứng dụng cao trong các hệ thống an ninh và kiểm soát truy cập.

Thảo luận kết quả

Nguyên nhân chính dẫn đến sự khác biệt về độ chính xác là do mạng ResNet-29 có khả năng trích xuất đặc trưng khuôn mặt sâu và hiệu quả hơn so với phương pháp dựa trên SOM và kỹ thuật xử lý ảnh truyền thống. Điều này phù hợp với các nghiên cứu gần đây cho thấy các mạng CNN sâu thường vượt trội trong nhận diện hình ảnh.

Tuy nhiên, SOM với kỹ thuật tiền xử lý ảnh như Illumination Normalization và 2D-DCT lại có ưu thế về khả năng ổn định trong điều kiện ánh sáng phức tạp, điều mà mạng KNN-ResNet có thể gặp khó khăn do đặc trưng trích xuất bị ảnh hưởng bởi ánh sáng.

Kết quả cũng cho thấy sự khác biệt về tốc độ xử lý, phần lớn do sự khác biệt về ngôn ngữ lập trình và môi trường thực thi (Python so với MATLAB). Việc sử dụng Python giúp tối ưu hóa hiệu suất và dễ dàng triển khai trên nhiều nền tảng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và thời gian xử lý giữa hai hệ thống, cũng như bảng tổng hợp các chỉ số hiệu suất trong các điều kiện ánh sáng khác nhau để minh họa rõ ràng hơn.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán KNN-ResNet: Cần tiếp tục cải tiến mô hình ResNet-29 bằng cách tăng cường dữ liệu huấn luyện và áp dụng kỹ thuật tăng cường dữ liệu (data augmentation) để nâng cao khả năng nhận diện trong điều kiện ánh sáng và góc chụp đa dạng. Thời gian thực hiện: 6 tháng; chủ thể thực hiện: nhóm nghiên cứu AI tại trường đại học.
Phát triển hệ thống lai kết hợp SOM và KNN: Xây dựng hệ thống nhận diện khuôn mặt kết hợp ưu điểm của SOM trong xử lý ảnh và KNN trong phân loại để tăng độ chính xác và ổn định. Thời gian thực hiện: 9 tháng; chủ thể thực hiện: phòng thí nghiệm công nghệ hình ảnh.
Triển khai ứng dụng thực tế trong giám sát an ninh: Áp dụng hệ thống KNN-ResNet vào các hệ thống camera giám sát tại các khu vực công cộng, đồng thời tích hợp giao diện người dùng thân thiện để dễ dàng vận hành. Thời gian thực hiện: 12 tháng; chủ thể thực hiện: các công ty công nghệ an ninh.
Đào tạo và phổ biến kiến thức cho cộng đồng nghiên cứu: Tổ chức các hội thảo, khóa học về nhận diện khuôn mặt và so sánh thuật toán nhằm nâng cao nhận thức và kỹ năng cho sinh viên, nhà nghiên cứu và kỹ sư phát triển phần mềm. Thời gian thực hiện: liên tục; chủ thể thực hiện: các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Kỹ thuật Điều khiển và Tự động hóa, Khoa học Máy tính: Giúp hiểu rõ các thuật toán nhận diện khuôn mặt hiện đại, cách xây dựng và so sánh hệ thống thực tế.
Kỹ sư phát triển phần mềm và chuyên gia AI: Cung cấp kiến thức về ứng dụng mạng nơ-ron sâu và thuật toán KNN trong nhận diện khuôn mặt, hỗ trợ lựa chọn công nghệ phù hợp cho dự án.
Nhà quản lý và chuyên viên an ninh công nghệ thông tin: Hiểu được ưu nhược điểm của các hệ thống nhận diện khuôn mặt để áp dụng hiệu quả trong giám sát và kiểm soát truy cập.
Các nhà nghiên cứu trong lĩnh vực thị giác máy tính và xử lý ảnh: Tham khảo phương pháp nghiên cứu, thiết kế thí nghiệm và phân tích kết quả để phát triển các nghiên cứu tiếp theo.

Câu hỏi thường gặp

Tại sao chọn thuật toán KNN và SOM để so sánh?
KNN và SOM đại diện cho hai phương pháp học có giám sát và không giám sát phổ biến trong nhận diện khuôn mặt. So sánh giúp đánh giá ưu nhược điểm của từng phương pháp trong thực tế.
Độ chính xác của hệ thống được đánh giá như thế nào?
Độ chính xác được tính dựa trên tỷ lệ nhận diện đúng trên tổng số ảnh thử nghiệm, với bộ dữ liệu gồm hơn 200 ảnh đa dạng về điều kiện ánh sáng và góc chụp.
Hệ thống có thể áp dụng trong điều kiện ánh sáng yếu không?
Hệ thống SOM với kỹ thuật Illumination Normalization cho thấy khả năng ổn định hơn trong điều kiện ánh sáng yếu, trong khi KNN-ResNet cần cải tiến thêm để nâng cao hiệu quả.
Tốc độ xử lý ảnh có đáp ứng được yêu cầu thực tế?
Cả hai hệ thống đều xử lý nhanh, với thời gian trung bình dưới 0,2 giây mỗi ảnh, phù hợp cho các ứng dụng giám sát thời gian thực.
Ngôn ngữ lập trình nào được sử dụng và có ảnh hưởng gì đến hiệu suất?
Hệ thống KNN-ResNet được phát triển bằng Python, hệ thống SOM bằng MATLAB. Python giúp tối ưu tốc độ và dễ triển khai đa nền tảng, trong khi MATLAB thuận tiện cho nghiên cứu và thử nghiệm.

Kết luận

Luận văn đã xây dựng thành công hai hệ thống nhận diện khuôn mặt dựa trên thuật toán KNN kết hợp ResNet-29 và mạng nơ-ron tự cấu trúc SOM, với độ chính xác lần lượt đạt khoảng 95% và 88%.
Hệ thống KNN-ResNet có tốc độ xử lý nhanh hơn khoảng 20% so với hệ thống SOM, phù hợp cho các ứng dụng yêu cầu thời gian thực.
SOM thể hiện ưu thế trong việc xử lý ảnh dưới điều kiện ánh sáng phức tạp nhờ kỹ thuật tiền xử lý Illumination Normalization.
Nghiên cứu cung cấp cái nhìn tổng quan, giúp lựa chọn phương pháp nhận diện khuôn mặt phù hợp với từng điều kiện và mục đích sử dụng.
Các bước tiếp theo bao gồm tối ưu hóa mô hình, phát triển hệ thống lai, triển khai ứng dụng thực tế và đào tạo cộng đồng nghiên cứu.

Hành động đề xuất: Các nhà nghiên cứu và kỹ sư nên tiếp tục phát triển và thử nghiệm các mô hình kết hợp, đồng thời ứng dụng kết quả nghiên cứu vào các hệ thống giám sát an ninh để nâng cao hiệu quả và độ tin cậy.

Tài liệu có tiêu đề "So Sánh Hiệu Suất Nhận Diện Khuôn Mặt: K-NN vs. SOM - Nghiên Cứu Chuyên Sâu" cung cấp một cái nhìn sâu sắc về hai phương pháp nhận diện khuôn mặt phổ biến: K-NN (K-Nearest Neighbors) và SOM (Self-Organizing Map). Tác giả phân tích hiệu suất của từng phương pháp, chỉ ra những ưu điểm và nhược điểm của chúng trong việc nhận diện khuôn mặt. Bài viết không chỉ giúp người đọc hiểu rõ hơn về các thuật toán này mà còn cung cấp những thông tin hữu ích cho việc áp dụng trong thực tế.

Để mở rộng kiến thức của bạn về lĩnh vực nhận diện hình ảnh, bạn có thể tham khảo tài liệu Phương pháp phân cụm kmeans và ứng dụng vào bài toán nhận diện chữ số viết tay. Tài liệu này sẽ giúp bạn hiểu thêm về phương pháp phân cụm K-means, một kỹ thuật quan trọng trong lĩnh vực học máy, và cách nó có thể được áp dụng trong nhận diện chữ số viết tay. Mỗi liên kết là một cơ hội để bạn khám phá sâu hơn về các chủ đề liên quan, mở rộng kiến thức và ứng dụng của mình trong lĩnh vực này.

#Nhận diện khuôn mặt K-NN