I. Tổng quan
Nhận diện các thành phần chính trên khuôn mặt (Facial Keypoint Detection) là một trong những lĩnh vực nghiên cứu quan trọng trong phân tích và nhận diện hình ảnh. Việc áp dụng học sâu (deep learning) trong lĩnh vực này đã thu hút sự quan tâm của nhiều nhà nghiên cứu. Tuy nhiên, một trong những thách thức lớn khi sử dụng học sâu để nhận diện khuôn mặt là ảnh hưởng của độ sáng và góc nghiêng của khuôn mặt, dẫn đến kết quả nhận dạng không chính xác. Để giải quyết vấn đề này, luận văn đề xuất một phương pháp mới, sử dụng thuật toán giảm chiều vector nhằm phân loại ảnh trước khi đưa vào mô hình học sâu. Việc phân loại sẽ giúp xây dựng các mô hình học sâu riêng biệt cho từng loại ảnh, từ đó nâng cao hiệu quả huấn luyện. Mục tiêu chính của nghiên cứu là đạt được độ chính xác cao trong việc nhận diện các điểm chính trên khuôn mặt như giữa mắt trái (LE), giữa mắt phải (RE), đỉnh mũi (N), mép miệng bên trái (LM) và mép miệng bên phải (RM).
II. Kiến thức nền tảng
Chương này trình bày các kiến thức nền tảng liên quan đến học sâu và thuật toán giảm chiều vector. Mạng nơ-ron (neural networks) là một phần quan trọng trong học sâu, cho phép máy tính học từ dữ liệu và cải thiện khả năng dự đoán. Mạng nơ-ron tích chập (CNN) được sử dụng rộng rãi trong các ứng dụng nhận diện hình ảnh, bao gồm nhận diện khuôn mặt. Ngoài ra, Gaussian Process Latent Variable Models (GPLVM) cũng được đề cập như một phương pháp hữu ích trong việc giảm chiều không gian của dữ liệu. Từ đó, việc áp dụng thuật toán giảm chiều vector giúp tối ưu hóa quá trình huấn luyện mô hình học sâu, giảm thiểu thời gian và nâng cao độ chính xác trong nhận diện các thành phần trên khuôn mặt.
III. Các công trình nghiên cứu liên quan
Trong chương này, các nghiên cứu liên quan đến nhận diện các thành phần chính trên khuôn mặt bằng phương pháp học sâu được tổng hợp và phân tích. Nhiều nghiên cứu đã chỉ ra rằng việc áp dụng thuật toán giảm chiều không gian vector như Thin Plate Splines (TPS) có thể cải thiện đáng kể độ chính xác của mô hình nhận diện. Các phương pháp này không chỉ giúp giảm thiểu dữ liệu đầu vào mà còn tối ưu hóa quá trình huấn luyện mạng nơ-ron. Việc kết hợp các phương pháp phân loại và nhận diện trong cùng một mô hình đã cho thấy hiệu quả cao hơn so với các phương pháp truyền thống. Những nghiên cứu này đóng vai trò quan trọng trong việc phát triển và cải tiến các mô hình nhận diện khuôn mặt hiện đại.
IV. Phân tích và thiết kế hệ thống
Chương này tập trung vào việc phân tích yêu cầu và thiết kế hệ thống nhận diện các thành phần chính trên khuôn mặt. Việc phân tích yêu cầu giúp xác định các tiêu chí cần thiết cho ứng dụng, bao gồm độ chính xác, tốc độ xử lý và khả năng mở rộng. Thiết kế tổng quan trình bày cách lựa chọn thuật toán giảm chiều và mô hình học sâu phù hợp. Thin Plate Spline Latent Variable Model (TPSLVM) được lựa chọn để phân loại ảnh trước khi đưa vào mô hình CNN. Thiết kế chi tiết cũng được trình bày, bao gồm các tham số và cách tùy chỉnh cho từng thuật toán. Qua đó, hệ thống được tối ưu hóa để đạt được kết quả tốt nhất trong việc nhận diện các điểm chính trên khuôn mặt.
V. Thực nghiệm và đánh giá
Chương này trình bày các thực nghiệm đã được thực hiện để đánh giá hiệu quả của mô hình. Nền tảng phần cứng được sử dụng cho các thí nghiệm được mô tả rõ ràng, bao gồm thông số kỹ thuật và cấu hình hệ thống. Mô hình phân cụm bằng TPSLVM và mô hình CNN được triển khai để kiểm tra khả năng nhận diện các thành phần chính trên khuôn mặt. Kết quả cho thấy mô hình đạt được độ chính xác lên đến 95% trong việc nhận diện các điểm chính. Thời gian huấn luyện cũng được ghi nhận và so sánh giữa các mô hình trước và sau khi áp dụng thuật toán giảm chiều vector. Những hạn chế và hướng phát triển trong tương lai cũng được thảo luận để cải thiện hơn nữa khả năng nhận diện.