Luận văn: Chống tấn công giả mạo bằng ảnh, video - ĐH Bách Khoa Hà Nội

Nghiên cứu giải pháp chống tấn công giả mạo hệ thống nhận diện khuôn mặt bằng ảnh, video. Ứng dụng mạng nơ-ron để phân loại thật giả, nâng cao bảo mật.

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2021

52
1
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng Quan Về Chống Tấn Công Giả Mạo Khuôn Mặt

Chống tấn công giả mạo khuôn mặt là một lĩnh vực nghiên cứu quan trọng trong các hệ thống sinh trắc học hiện đại. Các hệ thống nhận diện sinh trắc học ngày nay phải đối mặt với những thách thức lớn từ các cuộc tấn công bằng ảnh và video giả mạo. Những tấn công này có thể sử dụng ảnh in, video playback hoặc các công nghệ deepfake tiên tiến để vượt qua các cơ chế bảo mật. Việc phát triển các phương pháp phòng chống giả mạo khuôn mặt hiệu quả là điều cần thiết để bảo vệ tính toàn vẹn của các hệ thống xác thực sinh trắc học. Luận văn thạc sĩ này tập trung vào việc nghiên cứu và đề xuất các giải pháp tiên tiến để chống giả mạo bằng ảnh và video thông qua công nghệ mạng nơ-ron tích chập.

1.1. Định Nghĩa Và Phạm Vi Của Bài Toán

Bài toán chống tấn công giả mạo liên quan đến việc phân biệt giữa khuôn mặt thật và khuôn mặt giả mạo trong ảnh hoặc video. Phạm vi nghiên cứu bao gồm các loại tấn công khác nhau như ảnh in, video playback, và mask 3D. Mục tiêu chính là phát triển hệ thống có khả năng phát hiện giả mạo khuôn mặt với độ chính xác cao, độ tin cậy cao và khả năng thích ứng với các loại tấn công mới.

1.2. Tầm Quan Trọng Của An Toàn Sinh Trắc học

An toàn sinh trắc học là yếu tố then chốt trong các ứng dụng an ninh. Các cuộc tấn công giả mạo có thể dẫn đến những hậu quả nghiêm trọng như trộm cắp danh tính, gian lận tài chính. Do đó, việc cải thiện bảo mật hệ thống nhận diện khuôn mặt bằng các phương pháp chống giả mạo tiên tiến là vô cùng cần thiết.

II. Các Phương Pháp Chống Tấn Công Giả Mạo Hiện Nay

Trong thực tế, có nhiều cách tiếp cận khác nhau để giải quyết bài toán chống tấn công giả mạo bằng ảnh và video. Các phương pháp này được phân chia thành nhiều hướng tiếp cận chính: cách tiếp cận dựa trên tác động của con người, cách tiếp cận dựa trên các đặc trưng khuôn mặt, và cách tiếp cận sử dụng học sâu. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, tùy thuộc vào bối cảnh ứng dụng cụ thể. Những năm gần đây, việc sử dụng mạng nơ-ron tích chập (CNN) đã cho thấy những kết quả rất khả quan trong phân loại ảnhphát hiện giả mạo.

2.1. Cách Tiếp Cận Dựa Trên Tác Động Con Người

Phương pháp này dựa trên việc phát hiện các chuyển động hoặc phản ứng tự nhiên của người khuôn mặt. Chống giả mạo video thường yêu cầu phát hiện nhấp mắt, chuyển động đầu, hoặc thay đổi biểu cảm. Các hệ thống này đòi hỏi sự tương tác từ người dùng, nhưng có thể bị vượt qua bởi các công nghệ deepfake tiên tiến.

2.2. Cách Tiếp Cận Dựa Trên Đặc Trưng Khuôn Mặt

Phương pháp này phân tích các đặc điểm vật lý của khuôn mặt như kết cấu, màu sắc, độ sâu. Phân loại khuôn mặt thật và giả mạo thông qua việc trích xuất các đặc trưng độc đáo. Cách tiếp cận này kết hợp với công nghệ máy học để đạt được độ chính xác cao hơn.

III. Giải Pháp Sử Dụng Mạng Nơ Ron Tích Chập

Mạng nơ-ron tích chập (CNN) đã trở thành công cụ chính trong việc giải quyết bài toán chống tấn công giả mạo bằng ảnh. Luận văn này đề xuất sử dụng các kiến trúc mạng tiên tiến như EfficientNetB0MobileNetv2 để phân loại khuôn mặt đầu vào. Những kiến trúc này được tối ưu hóa để cân bằng giữa độ chính xác và hiệu suất tính toán. Giải pháp thứ nhất sử dụng ảnh RGB đơn thuần, trong khi giải pháp thứ hai kết hợp thêm thông tin độ sâu của ảnh để cải thiện khả năng phát hiện giả mạo. Các mô hình này được huấn luyện trên các tập dữ liệu lớn và thử nghiệm để đánh giá hiệu suất thực tế.

3.1. Kiến Trúc Mạng EfficientNetB0 Và MobileNetv2

EfficientNetB0 cung cấp khả năng mở rộng hiệu quả cho các mạng nơ-ron tích chập, cho phép cân bằng chiều rộng, chiều sâu và độ phân giải đầu vào. MobileNetv2 được thiết kế để hoạt động trên các thiết bị di động với chi phí tính toán thấp. Cả hai kiến trúc đều rất phù hợp cho các ứng dụng phát hiện giả mạo trong thời gian thực.

3.2. Kỹ Thuật Sử Dụng Thông Tin Độ Sâu

Thêm thông tin độ sâu (depth information) vào quá trình phân loại giúp tăng độ chính xác trong việc phân biệt khuôn mặt thật và giả mạo. Độ sâu cung cấp dữ liệu 3D bổ sung, khiến các hình ảnh in hay video playback dễ phát hiện hơn. Phương pháp này cải thiện hiệu suất chống giả mạo đáng kể.

IV. Kết Quả Thực Nghiệm Và Ứng Dụng Thực Tế

Các thực nghiệm trong luận văn này được tiến hành trên các tập dữ liệu được chuẩn bị kỹ lưỡng với các kịch bản tấn công khác nhau. Đánh giá kết quả sử dụng các thông số như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (precision). Kết quả cho thấy giải pháp sử dụng thêm thông tin độ sâu đạt hiệu suất cao hơn so với chỉ sử dụng ảnh RGB. Ứng dụng thực thi được phát triển để kiểm tra khả năng ứng dụng thực tế của các mô hình đã huấn luyện. Các kết quả này chứng tỏ rằng mạng nơ-ron tích chập là giải pháp hiệu quả cho bài toán chống tấn công giả mạo khuôn mặt trong các ứng dụng thực tế.

4.1. Kịch Bản Thử Nghiệm Và Thông Số Đánh Giá

Các kịch bản thử nghiệm bao gồm phát hiện ảnh in, phát hiện video playback, và phát hiện mask 3D. Thông số đánh giá chính bao gồm độ chính xác toàn cầu, độ chính xác từng lớp, và thời gian xử lý. Mỗi kịch bản được kiểm tra với nhiều biến thể để đảm bảo khả năng tổng quát hóa của mô hình.

4.2. Triển Khai Ứng Dụng Thực Tế Và Hướng Phát Triển

Ứng dụng được triển khai để kiểm tra hiệu suất thực tế trên các thiết bị khác nhau. Những hướng phát triển trong tương lai bao gồm tối ưu hóa tốc độ xử lý, cải thiện độ chính xác, và mở rộng khả năng chống các loại tấn công mới. Hệ thống chống giả mạo khuôn mặt này có tiềm năng ứng dụng rộng rãi.

22/12/2025

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN BÀI TOÁN CHỐNG TẤN CÔNG GIẢ MẠO BẰNG ẢNH, VIDEO Chương này sẽ trình bày tổng quan về bài toán chống tấn công giả mạo bằng ảnh, video và các yêu cầu chính xác của bài toán được giải quyết trong luận văn. Tổng quan bài toán chống tấn công giả mạo bằng ảnh, video 1. Định nghĩa bài toán Trong các hệ thống truy cập thông minh hiện nay, công nghệ nhận dạng bằng sinh trắc học đang ngày càng được phát triển và là chìa khóa hữu hiệu để bảo mật hệ thống, trong đó có bảo mật bằng khuôn mặt. Chúng ta có thể dễ dàng truy cập vào những hệ thống qua khuôn mặt của chính mình.

Tuy nhiên, việc tìm hình ảnh hoặc video của chứa khuôn mặt của ai đó trên các trang web hay mạng xã hội (như Facebook, Youtube, Tiktok,…) là một điều rất dễ dàng. Những hình ảnh và video này có thể được người khác sử dụng cho những mục đích xấu. Các hệ thống sinh trắc học nhận diện dựa trên khuôn mặt rất dễ bị tấn công khi kẻ tấn công thay vì đưa mặt mình để hệ thống nhận diện thì sử dụng hình ảnh khuôn mặt đã được in trên giấy hoặc xuất hiện trong video đã quay sẵn của một người có trong hệ thống. Ví dụ tấn công giả mạo khuôn mặt bằng video [9].

Như vậy, định nghĩa bài toán chống tấn công giả mạo khuôn mặt bằng ảnh, video có thể được tóm lược như sau: “Chống tấn công giả mạo khuôn mặt bằng ảnh, video là xác định xem khuôn mặt được đưa vào hệ thống sinh trắc học là khuôn mặt thật đang quay trực tiếp bằng các thiết 12 bị của hệ thống hay là khuôn mặt giả mạo được in trên giấy hoặc xuất hiện trong video đã quay sẵn trước đó.” Bài toán chống tấn công giả mạo là một bài toán có tính ứng dụng rất cao trong thực tế, đặc biệt là trong các hệ thống bảo mật dùng sinh trắc học. Trong một hệ thống sinh trắc học, việc chống các loại tấn công giả mạo từ bên ngoài là một điều cực kì quan trọng và bắt buộc phải có. Đối tượng, phạm vi và phương pháp nghiên cứu Đề tài tập trung nghiên cứu các giải pháp khác nhau cho bài toán chống tấn công giả mạo khuôn mặt bằng hình ảnh hoặc video, từ đó đề xuất giải pháp sử dụng mạng nơ-ron tích chập và xây dựng một ứng dụng minh hoạ thực tế để kiểm tra tính khả thi của giải pháp. Trong quá trình thực hiện đề tài, tôi đã tiến hành nghiên cứu theo cách tiếp cận sau:  Khảo sát các phương pháp giải quyết bài toán chống giả mạo khuôn mặt thường được sử dụng hiện nay và phân tích ưu nhược điểm của các phương pháp đó.

 Tìm hiểu cơ sở lý thuyết về học sâu, mạng nơ-ron tích chập và các kiến trúc mạng nơ-ron tích chập phổ biến hiện nay.  Tìm hiểu một số nghiên cứu liên quan về các giải pháp chống tấn công giả mạo khuôn mặt bằng hình ảnh hoặc video sử dụng mạng nơ-ron tích chập từ đó đề xuất giải pháp phù hợp nhất để thực hiện đề tài. Giới hạn của bài toán Đề tài được nghiên cứu trong luận văn với những giới hạn như sau:  Kiểu tấn công giả mạo sử dụng là tấn công sử dụng hình ảnh hoặc video chứa khuôn mặt.  Ảnh RGB 2D là dữ liệu đầu vào của bài toán.

 Giải pháp tiếp cận là sử dụng mạng nơ-ron tích chập hai chiều (2D CNN). Các cách tiếp cận giải quyết bài toán 1. Cách tiếp cận dựa trên tác động của con người Cách tiếp cận này chủ yếu dựa trên đặc điểm nổi bật giữa truy cập hợp lệ khi người dùng đứng trực tiếp trước camera so với truy cập giả mạo là người dùng thực tế có thể thực 13 hiện những hành động, cử chỉ tự nhiên hoặc do hệ thống yêu cầu. Có hai phương pháp giải quyết bài toán theo cách tiếp cận này là phương pháp pháp hiện nháy mắt (Eye Blink) [5] và phương pháp thử thách – phản hồi (Challenge – Response) [6].

Phương pháp phát hiện nháy mắt Nháy mắt là hành động hoàn toàn tự nhiên của con người, đây cũng được coi là một biểu lộ khác biệt của khuôn mặt thật và khuôn mặt giả mạo. Do đó, phương pháp này sẽ kiểm tra một chuỗi hình ảnh chứa khuôn mặt mà máy quay của hệ thống nhận được có nháy mắt hay không, nếu có nháy mắt thì là khuôn mặt thật và ngược lại, nếu không có nháy mắt là khuôn mặt giả mạo. Một số ưu điểm của phương pháp này có thể kể đến như: chi phí thấp, dễ triển khai trên các thiết bị, thuận tiện với người dùng do nháy mắt là hoạt động hoàn toàn tự nhiên của con người. Tuy nhiên, phương pháp này có một nhược điểm lớn nhất là không thể phát hiện được tấn công giả mạo sử dụng video bởi vì khuôn mặt trong video vẫn có thể nháy mắt bình thường.

Phương pháp thử thách – phản hồi Khi sử dụng phương pháp thử thách – phản hồi, hệ thống sẽ yêu cầu người dùng thực hiện một hoặc một số thao tác, hành động nào đó trên khuôn mặt (thử thách) và người dùng phải thực hiện theo (phản hồi) để hệ thống kiểm tra. Thông thường hệ thống sẽ yêu cầu một nhóm các hành động đối với người dùng. Một số hành động cụ thể có thể kể đến như: quay mặt sang trái/phải, há mồm, nhắm mắt, cười, làm mặt buồn,. Các hành động này được yêu cầu ngẫu nhiên, không được ấn định thứ tự và số lượng trước để tăng thêm tính bảo mật (ví dụ như lúc thì yêu cầu 2 động tác, lúc thì yêu cầu 5 động tác,…).

Nhiệm vụ của người dùng lúc này là thực hiện đúng hành động để hệ thống xác nhận. Phương pháp thử thách-phản hồi đã khắc phục được nhược điểm lớn nhất của phương pháp phát hiện nháy mắt là có thể phát hiện tấn công giả mạo sử dụng video. Tuy nhiên, phương pháp này cũng có nhược điểm lớn đó là: người dùng sẽ có trải nghiệm không tốt khi phải thực hiện nhiều thao tác trước khi được nhận diện. Nếu thực hiện sai thao tác nào đó thì người sẽ phải thực hiện lại từ đầu gây ức chế và mất nhiều thời gian cho người dùng.

Cách tiếp cận dựa trên các đặc trưng của khuôn mặt Cách tiếp cận này chủ yếu dựa trên đặc trưng trên khuôn mặt mà hệ thống trích xuất được sau đó sử dụng các thuật toán học máy để phân biệt khuôn mặt đầu vào là khuôn mặt thật hay giả mạo. Có hai phương pháp thực hiện theo cách tiếp cận này là phương pháp sử dụng LBP và SVM [7] và phương pháp sử dụng mạng nơ-ron tích chập. Phương pháp sử dụng LBP và SVM LBP (Local Binary Patterns) là một phương pháp rút trích đặc trưng trong xử lý ảnh. Các đặc trưng được rút trích sẽ tiếp tục được tiến hành chọn lọc và thu gọn thành các vector đặc trưng.

Các vector đặc trưng sau đó có thể dùng để đưa vào các mô hình học máy để huấn luyện và phân loại. SVM (Support Vector Machine) là một thuật toán học máy để phân chia các dữ liệu ban đầu thành các nhóm riêng biệt. Như vậy, khi sử dụng phương pháp sử dụng LBP và SVM, hình ảnh khuôn mặt đầu vào được trích xuất đặc trưng bằng LBP, thu được các vector đặc trưng. Các vector đặc trưng đó sử dụng làm đầu vào cho thuật toán SVM để phân loại hình ảnh khuôn mặt đầu vào thuộc loại nào (thật hay giả mạo).

Phương pháp sử dụng LBP và SVM là phương pháp đơn giản, dễ triển khai trên các thiết bị. Tuy nhiên các đặc trưng là LBP trích xuất được dễ bị ảnh hưởng bởi nhiễu làm giảm khả năng phân loại thật/giả của mô hình. Phương pháp sử dụng mạng nơ-ron tích chập Mạng nơ-ron tích chập (Convolutional Neural Network, viết tắt là CNN) là một mạng lưới gồm các lớp tích chập (convolution) xếp chồng lên nhau nhằm trích xuất các đặc trưng, thông tin trừu tượng hơn về ảnh từ đó giúp phân loại ảnh tốt hơn. Kiến trúc cơ bản của mạng nơ-ron tích chập [15].

Như vậy, phương pháp dựa vào mạng nơ-ron tích chập là đưa hình ảnh khuôn mặt làm đầu vào cho mạng nơ-ron tích chập để sau quá trình trích xuất đặt trưng và thông tin trừu tượng của ảnh, chúng sẽ giúp ta phân loại là khuôn mặt đầu vào thật hay ảnh giả mạo. Phương pháp dựa vào mạng nơ-ron tích chập phân loại trên ảnh có ưu điểm lớn nhất là trích xuất được nhiều đặc trưng hơn làm tăng khả năng phân biệt thật/giả mạo của hệ thống. Tuy nhiên phương pháp này đôi khi xảy ra hiện tượng kết quả phân biệt thật/giả quá tốt trên bộ dữ liệu huấn luyện mà không tốt trên các bộ dữ liệu khác (còn được gọi là hiện tượng Overfitting). Tổng kết Bài toán chống tấn công giả mảo khuôn mặt là một bài toán rộng với nhiều cách tiếp cận và nhiều phương pháp giải quyết với những ưu, nhược điểm khác nhau.

Hiện nay, cùng với sự phát trển vượt bậc của học sâu (Deep Learning), các mô hình kiến trúc mạng nơ-ron tích chập cũng luôn được phát triển và cải thiện cả về chất lượng lẫn tốc độ. Với những đối tượng, phạm vi, giới hạn của bài toán mà tôi đã đề ra ở mục 1.3, tôi lựa chọn phương pháp sử dụng mạng nơ-ron tích chập hai chiều, ứng dụng một số kiến trúc mạng nơ-ron tích chập phổ biến hiện nay để phân biệt khuôn mặt thật/giả mạo. 16 CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU LIÊN QUAN 2. Mạng nơ-ron tích chập trong bài toán phân loại ảnh Phân loại ảnh là một bài toán quan trọng bậc nhất trong lĩnh vực “Thị giác máy tính” (Computer Vision) và sử dụng mạng nơ-ron tích chập hiện nay đang là một trong những giải pháp tốt nhất để giải quyết bài toán đó.

Mạng nơ-ron tích chập bao gồm tập hợp các lớp cơ bản là: lớp tích chập (convolution), lớp lấy mẫu (pooling), lớp kết nối đầu đủ (fully connected) và một số lớp phụ trợ khác. Kiến trúc cơ bản của một mạng nơ-ron tích chập [14]. Trong mạng nơ-ron tích chập, lớp tích chập là lớp đầu tiên và cũng là lớp quan trọng nhất của mạng. Lớp này có chức năng chính là phát hiện các đặc trưng có tính không gian một cách hiệu quả.

Các đặc trưng này có thể là các đặc trưng đơn giản như đặc trưng về góc, cạnh, màu sắc hoặc là các đặc trưng trìu tượng, phức tạp hơn. Các đặc trưng này sẽ giúp cho mô hình phân loại được dữ liệu đầu vào tốt hơn so với các phương pháp trích chọn đặc trưng khác (LBP, HoG,…). Một số kiến trúc mạng nơ-ron tích chập được sử dụng phổ biến hiện nay là ResNet, MobileNet, EfficientNet,… 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ