Phát hiện khuôn mặt giả mạo trong video: Tìm hiểu và ứng dụng

Chuyên khảo phân tích Phát hiện khuôn mặt giả mạo trong video, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Công Nghiệp Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2021

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN THẠC SỸ

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG BIỂU

DANH MỤC TỪ VIẾT TẮT

MỞ ĐẦU. MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1.1. Tổng quan các mô hình giả mạo khuôn mặt

1.1.1. Giới thiệu

1.1.2. Mô hình hoạt động

1.2. Tổng quan bài toán phát hiện giả mạo khuôn mặt trong video

1.2.1. Giới thiệu bài toán

1.2.2. Khó khăn và thách thức

1.2.3. Các hướng tiếp cận

1.2.3.1. Sử dụng các mô hình mạng học sâu

1.2.3.2. Phân tích sự chênh lệch về thành phần màu

1.2.3.3. Dựa trên các đặc điểm sinh lý

1.2.3.4. Quan tâm đến cấu trúc toàn thể khuôn mặt

1.2.3.5. Giữ lại các đặc điểm nổi trội

1.2.3.6. Dự đoán tư thế đầu

1.2.4. Hướng giải quyết

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Vị trí quan trọng trên khuôn mặt

2.2. Cơ sở ý tưởng của phương pháp

2.2.1. Xác định vùng khuôn mặt trong hình ảnh

2.2.2. Phát hiện các điểm xác định cấu trúc quan trọng trên khuôn mặt

2.2.2.1. Giới thiệu thuật ngữ

2.2.2.2. Ma trận nội tại

2.2.2.3. Trục chính

2.2.2.4. Điểm bù gốc

2.2.3. Mô phỏng máy ảnh đơn giản

2.2.4. Các tham số nội tại với các phép biến đổi 2D

2.2.5. Thuật toán Levenberg-Marquardt

2.2.5.1. Giới thiệu bài toán bình phương cực tiểu phi tuyến

2.2.5.2. Giới thiệu thuật toán Levenberg-Marquardt

2.2.5.3. Phương pháp Gradient Descent

2.2.5.4. Phương pháp Gauss-Newton

2.2.5.5. Phương pháp Levenberg-Marquardt

2.2.5.6. Cài đặt số học

2.2.5.7. Ưu và nhược điểm

2.2.6. Nhược điểm

2.2.7. Biểu đồ đốc định hướng

2.2.8. Phương pháp

2.2.9. Tính vectơ đặc trưng cho từng ô

2.2.10. Tính toán vectơ đặc trưng HOG

2.2.11. Support vector machine

2.2.11.1. Phương pháp

2.2.11.2. Phương pháp

3. CHƯƠNG 3: XÂY DỰNG THUẬT GIẢI

3.1. Các bước của thuật giải

3.2. Các bước xây dựng thuật giải

3.2.1. Tiền xử lý dữ liệu

3.2.2. Phát hiện khuôn mặt

3.2.3. Dự đoán các vị trí quan trọng trên khuôn mặt

3.2.4. Dự đoán tư thế đầu

3.2.5. Xây dựng mô hình phân lớp

3.3. Tóm tắt thuật giải

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Bộ dữ liệu thực nghiệm

4.1.1. Bộ dữ liệu 1: VidTIMIT & DeepfakeTIMIT

4.1.2. Bộ dữ liệu 2: UADFV

4.2. Môi trường thực nghiệm

4.3. Tỉ lệ huấn luyện, duyệt và kiểm tra

4.4. Cài đặt thực nghiệm thuật giải

4.5. Kết quả thực nghiệm

4.5.1. Tập thực nghiệm 1: VidTIMIT & DeepfakeTIMIT

4.5.2. Tập thực nghiệm 2: UADFV

4.5.3. Tập thực nghiệm 3: VidTIMIT & DeepfakeTIMIT và UADFV

4.5.4. Kết quả tổng hợp

5. CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ

5.1. Đánh giá nội bộ các mô hình

5.2. Đánh giá với các mô hình trên thế giới

TÀI LIỆU THAM KHẢO

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

Tóm tắt

I. Tổng quan về phát hiện khuôn mặt giả mạo trong video

Phát hiện khuôn mặt giả mạo trong video là một lĩnh vực nghiên cứu quan trọng trong thời đại công nghệ số hiện nay. Với sự phát triển của các công nghệ như công nghệ deepfake và công nghệ nhận diện khuôn mặt, việc phát hiện các video giả mạo trở nên cần thiết hơn bao giờ hết. Các video giả mạo không chỉ gây ra những hiểu lầm mà còn có thể ảnh hưởng đến danh tiếng và sự an toàn của cá nhân. Do đó, việc nghiên cứu và phát triển các phương pháp phát hiện khuôn mặt giả mạo là rất quan trọng.

1.1. Tình hình hiện tại về video giả mạo

Hiện nay, video giả mạo xuất hiện ngày càng nhiều trên mạng Internet. Các công nghệ như công nghệ nhận diện khuôn mặt và công nghệ deepfake đã giúp cho việc tạo ra các video giả mạo trở nên dễ dàng hơn. Điều này đặt ra thách thức lớn cho việc phát hiện và ngăn chặn các video giả mạo, đặc biệt là trong các lĩnh vực như truyền thông và chính trị.

1.2. Tầm quan trọng của phát hiện khuôn mặt giả mạo

Việc phát hiện khuôn mặt giả mạo không chỉ giúp bảo vệ danh tiếng của cá nhân mà còn ngăn chặn việc lan truyền thông tin sai lệch. Các phương pháp phát hiện hiệu quả có thể giúp xác thực tính chân thực của video, từ đó bảo vệ người dùng khỏi những tác động tiêu cực từ các video giả mạo.

II. Các thách thức trong việc phát hiện khuôn mặt giả mạo

Mặc dù có nhiều công nghệ hiện đại, việc phát hiện khuôn mặt giả mạo vẫn gặp phải nhiều thách thức. Các video giả mạo ngày càng tinh vi, khiến cho việc phát hiện trở nên khó khăn hơn. Các yếu tố như ánh sáng, góc quay và chất lượng video đều ảnh hưởng đến khả năng phát hiện.

2.1. Độ chính xác của các phương pháp hiện tại

Nhiều phương pháp hiện tại vẫn chưa đạt được độ chính xác cao trong việc phát hiện khuôn mặt giả mạo. Các mô hình học sâu thường cần một lượng lớn dữ liệu để huấn luyện, và việc thiếu dữ liệu có thể dẫn đến kết quả không chính xác.

2.2. Tính đa dạng của các kỹ thuật giả mạo

Các kỹ thuật giả mạo ngày càng đa dạng và tinh vi, từ việc sử dụng công nghệ deepfake đến các phương pháp chỉnh sửa video truyền thống. Điều này tạo ra một thách thức lớn cho các nhà nghiên cứu trong việc phát triển các phương pháp phát hiện hiệu quả.

III. Phương pháp phát hiện khuôn mặt giả mạo hiệu quả

Để phát hiện khuôn mặt giả mạo trong video, nhiều phương pháp đã được đề xuất. Các phương pháp này thường dựa trên các mô hình học sâu và các thuật toán phân lớp để phân tích video và xác định tính chân thực của khuôn mặt.

3.1. Sử dụng mô hình mạng học sâu

Mô hình mạng học sâu đã được chứng minh là hiệu quả trong việc phát hiện khuôn mặt giả mạo. Các mô hình này có khả năng học hỏi từ dữ liệu lớn và phát hiện các đặc điểm tinh vi của khuôn mặt trong video.

3.2. Phân tích đặc điểm sinh lý của khuôn mặt

Phân tích các đặc điểm sinh lý như chuyển động của mắt, miệng và các biểu cảm khuôn mặt có thể giúp phát hiện các video giả mạo. Những đặc điểm này thường không được mô phỏng chính xác trong các video giả mạo.

IV. Ứng dụng thực tiễn của công nghệ phát hiện khuôn mặt giả mạo

Công nghệ phát hiện khuôn mặt giả mạo có nhiều ứng dụng thực tiễn trong các lĩnh vực như an ninh, truyền thông và giải trí. Việc phát hiện hiệu quả các video giả mạo có thể giúp bảo vệ thông tin và danh tiếng của cá nhân.

4.1. Ứng dụng trong an ninh

Trong lĩnh vực an ninh, việc phát hiện khuôn mặt giả mạo có thể giúp ngăn chặn các hành vi gian lận và lừa đảo. Các công nghệ này có thể được sử dụng để xác thực danh tính trong các hệ thống an ninh.

4.2. Ứng dụng trong truyền thông

Trong truyền thông, việc phát hiện video giả mạo giúp bảo vệ tính chân thực của thông tin. Các nhà báo và nhà sản xuất nội dung có thể sử dụng công nghệ này để xác thực các video trước khi phát hành.

V. Kết luận và tương lai của phát hiện khuôn mặt giả mạo

Phát hiện khuôn mặt giả mạo trong video là một lĩnh vực đang phát triển nhanh chóng. Với sự tiến bộ của công nghệ, các phương pháp phát hiện ngày càng trở nên hiệu quả hơn. Tuy nhiên, vẫn còn nhiều thách thức cần phải vượt qua để đảm bảo tính chính xác và độ tin cậy của các phương pháp này.

5.1. Hướng phát triển trong tương lai

Trong tương lai, các nghiên cứu sẽ tiếp tục tập trung vào việc cải thiện độ chính xác của các phương pháp phát hiện khuôn mặt giả mạo. Việc kết hợp nhiều công nghệ khác nhau có thể giúp nâng cao hiệu quả phát hiện.

5.2. Tầm quan trọng của việc giáo dục người dùng

Giáo dục người dùng về các video giả mạo và cách phát hiện chúng là rất quan trọng. Việc nâng cao nhận thức sẽ giúp người dùng tự bảo vệ mình khỏi các thông tin sai lệch.

24/07/2025

Bạn đang xem trước tài liệu:

Phát hiện khuôn mặt giả mạo trong video

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ phát triển nhanh chóng, việc xuất hiện các video giả mạo khuôn mặt trên mạng Internet ngày càng phổ biến và tinh vi. Theo ước tính, chỉ với một thao tác tìm kiếm đơn giản trên Google với từ khóa "Fake videos", người dùng có thể nhận được hàng loạt kết quả trong chưa đầy một giây, bao gồm cả những video giả mạo các nhân vật nổi tiếng như cựu Tổng thống Mỹ Obama. Sự phát triển của công nghệ giả mạo khuôn mặt, đặc biệt là các mô hình như Generative Adversarial Networks (GANs) và Deepfake, đã tạo ra thách thức lớn trong việc phân biệt video thật và giả, ảnh hưởng nghiêm trọng đến lĩnh vực chính trị, xã hội và truyền thông.

Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp phát hiện khuôn mặt giả mạo trong video dựa trên các mô hình mạng học sâu, phân tích đặc điểm sinh lý và dự đoán tư thế đầu. Nghiên cứu tập trung vào việc xây dựng thuật toán phân lớp sử dụng các mô hình như Support Vector Machine (SVM), Random Forest (RF) và Multi-layer Perceptron (MLP) để so sánh và đánh giá hiệu quả. Phạm vi nghiên cứu bao gồm các video quay rõ toàn bộ khuôn mặt, sử dụng hai bộ dữ liệu thực nghiệm chính là VidTIMIT & DeepfakeTIMIT và UADFV, với tổng cộng khoảng 141 video thật và giả mạo.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp một công cụ hỗ trợ hiệu quả trong việc phát hiện các video giả mạo khuôn mặt, góp phần giảm thiểu tác động tiêu cực của tin giả và các hành vi lừa đảo trên mạng xã hội. Kết quả nghiên cứu có thể ứng dụng trong các hệ thống an ninh mạng, truyền thông và các lĩnh vực liên quan đến bảo mật thông tin cá nhân.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Mô hình Generative Adversarial Networks (GANs): Đây là mô hình mạng nơ-ron gồm hai thành phần cạnh tranh là mô hình sinh (Generator) và mô hình phân biệt (Discriminator). GANs được huấn luyện không giám sát để tạo ra dữ liệu giả mạo có độ chân thực cao, đồng thời cải thiện khả năng phân biệt thật giả qua quá trình huấn luyện lặp đi lặp lại.
Thuật toán Levenberg-Marquardt: Thuật toán này được sử dụng để giải bài toán bình phương cực tiểu phi tuyến trong việc xác định các điểm mốc quan trọng trên khuôn mặt. Đây là sự kết hợp giữa phương pháp Gradient Descent và Gauss-Newton, giúp tối ưu hóa nhanh và chính xác các tham số mô hình.

Các khái niệm chuyên ngành quan trọng bao gồm:

Histogram of Oriented Gradients (HOG): Phương pháp trích xuất đặc trưng hình ảnh dựa trên phân bố hướng độ dốc, được sử dụng để phát hiện khuôn mặt trong video.
Support Vector Machine (SVM), Random Forest (RF), Multi-layer Perceptron (MLP): Các thuật toán phân lớp được áp dụng để phân biệt khuôn mặt thật và giả dựa trên các đặc trưng trích xuất.
Tư thế đầu (Head Pose Estimation): Dự đoán hướng và vị trí đầu dựa trên các điểm mốc trên khuôn mặt, giúp phát hiện sự không khớp trong video giả mạo.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ dữ liệu thực nghiệm:

VidTIMIT & DeepfakeTIMIT: Bao gồm video và bản ghi âm của 43 người đọc các câu ngắn, phục vụ cho nghiên cứu nhận dạng khuôn mặt đa góc nhìn.
UADFV: Gồm 98 video, trong đó 49 video thật lấy từ YouTube và 49 video giả mạo được tạo bằng mô hình Deep Neural Network (DNN) sử dụng FakeAPP.

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Chuẩn hóa kích thước video, phát hiện khuôn mặt bằng HOG kết hợp SVM.
Xác định các điểm mốc quan trọng trên khuôn mặt sử dụng thư viện dlib và thuật toán Levenberg-Marquardt.
Dự đoán tư thế đầu dựa trên các điểm mốc đã xác định, sử dụng mô hình máy ảnh để chuyển đổi hình ảnh 3D sang 2D.
Xây dựng mô hình phân lớp thật giả bằng SVM, RF và MLP để so sánh hiệu quả.
Thời gian nghiên cứu từ tháng 12/2020 đến tháng 6/2021, với các giai đoạn thu thập dữ liệu, xây dựng thuật toán, thực nghiệm và đánh giá kết quả.

Cỡ mẫu nghiên cứu gồm tổng cộng khoảng 141 video thật và giả mạo, được chia thành các tập huấn luyện, duyệt và kiểm tra theo tỷ lệ phù hợp nhằm đảm bảo tính khách quan và độ tin cậy của kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện khuôn mặt giả mạo: Mô hình đề xuất đạt độ chính xác trung bình trên 90% khi phân loại video thật và giả trên cả hai bộ dữ liệu VidTIMIT & DeepfakeTIMIT và UADFV. Cụ thể, trên bộ dữ liệu VidTIMIT & DeepfakeTIMIT, mô hình SVM đạt độ chính xác 92%, trong khi trên bộ UADFV, độ chính xác đạt khoảng 89%.
So sánh các thuật toán phân lớp: SVM cho kết quả tốt nhất với độ chính xác trung bình 90%, tiếp theo là Random Forest với khoảng 87%, và MLP đạt khoảng 85%. Thời gian huấn luyện và dự đoán của SVM cũng nhanh hơn đáng kể so với các mô hình còn lại.
Tác động của dự đoán tư thế đầu: Việc sử dụng thông số tư thế đầu giúp cải thiện độ chính xác phân loại thêm khoảng 5% so với mô hình chỉ dựa trên đặc trưng HOG và điểm mốc khuôn mặt.
Khó khăn trong phát hiện giả mạo một phần: Mô hình gặp khó khăn khi video giả mạo chỉ chỉnh sửa một phần nhỏ khuôn mặt hoặc khi khuôn mặt bị che khuất, dẫn đến tỷ lệ nhận diện sai tăng lên khoảng 10%.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao là do sự kết hợp giữa trích xuất đặc trưng HOG, xác định điểm mốc khuôn mặt chính xác bằng thuật toán Levenberg-Marquardt và dự đoán tư thế đầu giúp mô hình nhận diện được các bất thường trong video giả mạo. So với các nghiên cứu trước đây chỉ sử dụng mạng học sâu hoặc phân tích màu sắc, phương pháp này tận dụng được cả đặc điểm sinh lý và cấu trúc khuôn mặt tổng thể, từ đó nâng cao độ chính xác.

Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác của các mô hình phân lớp trên từng bộ dữ liệu, cũng như bảng thống kê thời gian huấn luyện và dự đoán. Biểu đồ đường cong đặc trưng (ROC curve) cũng minh họa rõ khả năng phân biệt thật giả của từng mô hình.

Tuy nhiên, hạn chế của nghiên cứu là mô hình chưa xử lý tốt các trường hợp khuôn mặt bị che khuất hoặc giả mạo một phần nhỏ, do đó cần phát triển thêm các kỹ thuật bổ trợ trong tương lai. Ngoài ra, độ phân giải thấp của một số video cũng ảnh hưởng đến hiệu quả phát hiện.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu huấn luyện với các video có chất lượng khác nhau, bao gồm cả các trường hợp khuôn mặt bị che khuất hoặc giả mạo một phần, nhằm nâng cao khả năng tổng quát của mô hình. Thời gian thực hiện dự kiến trong 6-12 tháng, do phòng nghiên cứu và các đối tác cung cấp dữ liệu đảm nhận.
Phát triển mô hình kết hợp đa phương thức: Kết hợp thêm các đặc trưng âm thanh, cử động môi và cảnh vật xung quanh để phát hiện giả mạo toàn diện hơn, giảm thiểu sai sót khi chỉ dựa vào hình ảnh khuôn mặt. Đề xuất triển khai trong vòng 1 năm, phối hợp giữa nhóm nghiên cứu và chuyên gia xử lý tín hiệu.
Tối ưu hóa thuật toán phân lớp: Nghiên cứu áp dụng các mô hình học sâu tiên tiến như Capsule Networks hoặc Transformer để cải thiện khả năng nhận diện cấu trúc khuôn mặt và tư thế đầu, hướng đến tăng độ chính xác trên 95%. Thời gian nghiên cứu khoảng 12 tháng, do nhóm chuyên gia AI thực hiện.
Xây dựng hệ thống phát hiện thời gian thực: Triển khai thuật toán trên nền tảng phần cứng GPU để xử lý video trực tiếp, phục vụ các ứng dụng an ninh mạng và truyền thông. Dự kiến hoàn thành trong 9 tháng, do phòng công nghệ thông tin và đối tác công nghệ đảm nhiệm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về phát hiện giả mạo khuôn mặt, các thuật toán học máy và xử lý ảnh, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia an ninh mạng và bảo mật thông tin: Phương pháp phát hiện video giả mạo giúp tăng cường an ninh mạng, phòng chống các hành vi lừa đảo và phát tán tin giả trên nền tảng số.
Cơ quan truyền thông và báo chí: Công cụ phát hiện video giả mạo hỗ trợ kiểm chứng thông tin, giảm thiểu tác động của tin giả và nâng cao uy tín trong công tác truyền thông.
Doanh nghiệp phát triển phần mềm và ứng dụng đa phương tiện: Áp dụng thuật toán để phát triển các sản phẩm chống giả mạo video, bảo vệ quyền lợi người dùng và nâng cao chất lượng dịch vụ.

Câu hỏi thường gặp

Phương pháp phát hiện khuôn mặt giả mạo trong video dựa trên những đặc điểm nào?
Phương pháp sử dụng trích xuất đặc trưng HOG, xác định các điểm mốc quan trọng trên khuôn mặt và dự đoán tư thế đầu để phát hiện sự không khớp trong video giả mạo. Ví dụ, tư thế đầu không đồng nhất với chuyển động khuôn mặt là dấu hiệu giả mạo.
Bộ dữ liệu nào được sử dụng để huấn luyện và kiểm tra mô hình?
Nghiên cứu sử dụng hai bộ dữ liệu chính là VidTIMIT & DeepfakeTIMIT với 43 người và UADFV gồm 98 video thật và giả mạo, giúp đánh giá hiệu quả mô hình trên nhiều trường hợp thực tế.
Các thuật toán phân lớp nào được so sánh trong nghiên cứu?
Ba thuật toán chính là Support Vector Machine (SVM), Random Forest (RF) và Multi-layer Perceptron (MLP). Trong đó, SVM cho kết quả tốt nhất với độ chính xác trung bình trên 90%.
Mô hình có thể phát hiện giả mạo một phần khuôn mặt không?
Hiện tại, mô hình chủ yếu phát hiện giả mạo toàn bộ khuôn mặt. Việc giả mạo một phần nhỏ khuôn mặt vẫn là thách thức và có thể dẫn đến sai sót trong nhận diện.
Ứng dụng thực tiễn của phương pháp này là gì?
Phương pháp hỗ trợ phát hiện video giả mạo trong các lĩnh vực an ninh mạng, truyền thông, chính trị và giải trí, giúp ngăn chặn tin giả và bảo vệ thông tin cá nhân.

Kết luận

Luận văn đã xây dựng thành công phương pháp phát hiện khuôn mặt giả mạo trong video dựa trên trích xuất đặc trưng HOG, xác định điểm mốc khuôn mặt và dự đoán tư thế đầu.
Mô hình phân lớp SVM đạt độ chính xác trung bình trên 90% trên các bộ dữ liệu thực nghiệm.
Phương pháp giúp phát hiện hiệu quả các video giả mạo toàn bộ khuôn mặt, góp phần giảm thiểu tác động tiêu cực của tin giả trên mạng xã hội.
Hạn chế hiện tại là khó phát hiện giả mạo một phần khuôn mặt hoặc khi khuôn mặt bị che khuất, cần nghiên cứu bổ sung.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, phát triển mô hình đa phương thức và triển khai hệ thống phát hiện thời gian thực nhằm nâng cao hiệu quả ứng dụng.

Quý độc giả và các nhà nghiên cứu quan tâm có thể áp dụng và phát triển thêm từ kết quả nghiên cứu này để góp phần nâng cao an toàn thông tin và chất lượng truyền thông trong kỷ nguyên số.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan các mô hình giả mạo khuôn mặt Hơn 30 năm trước, Photoshop xuất hiện đã làm thay đổi hoàn toàn cách mà con người tiếp nhận tin tức. Những hình ảnh mà chúng ta nhìn thấy được trong cuộc sống hằng ngày có thể là sản phầm của một quá trình cắt ghép kỳ công. Khi đó, người dùng bắt đầu hoài nghi về độ chính xác của hình ảnh. Nhưng giờ đây, với sự phát triển mạnh của khoa học công nghệ nói chung và công nghệ giả mạo khuôn mặt nói riêng, video cũng phải chịu chung số phận bị giả mạo như hình ảnh.

Nhiều mô hình thuật toán giả mạo khuôn mặt trên video xuất hiện mạnh mẽ. Trong đó nổi bật nhất có các mô hình như GAN, Deepfake.1 Giới thiệu Generative Adversarial Networks (GAN) [2] là một trong số các mô hình mạnh trong lớp mô hình mạng nơ-ron sử dụng phương pháp học không giám sát. Mô hình này được giới thiệu và phát triển bởi Ian J. Về cơ bản, GAN được tạo thành từ một hệ thống gồm hai mô hình mạng nơ-ron cạnh tranh với nhau và có thể phân tích, nắm bắt và sao chép các biến thể trong bộ dữ liệu.2 Mô hình hoạt động Mô hình GANs có thể được chia thành ba phần:  Giai đoạn sinh dữ liệu: mô tả khả năng sinh ra dữ liệu mới.

 Giai đoạn phát hiện đối nghịch: huấn luyện một mô hình được thực hiện trong môi trường đối nghịch.  Giai đoạn huấn luyện bằng mạng nơ-ron: Sử dụng các mô hình mạng nơ-ron cho mục đích huấn luyện thuật toán. 4 Kiến trúc của GAN bao gồm hai thành phần nhỏ là một mô hình sinh để sinh ra dữ liệu mới và một mô hình phân biệt để xác định các thực thể thật giả. Mô hình sinh tạo các mẫu dữ liệu giả (có thể là hình ảnh, âm thanh, v.) và cố gắng đánh lừa mô hình phân biệt.

Mặt khác, mô hình phân biệt cố gắng tìm mẫu thật và mẫu giả. Mô hình sinh và phân biệt đều là mạng nơ-ron và cả hai đều chạy cạnh tranh với nhau trong giai đoạn huấn luyện. Các bước được thực hiện lặp đi lặp lại nhiều lần và mô hình huấn luyện ngày càng tốt hơn trong các công việc tương ứng sau mỗi lần lặp lại. Công việc có thể được hình dung bằng sơ đồ hình 1.1 Sơ đồ quy trình sinh video giả mạo của mô hình GANs Ở đây, mô hình sinh nắm bắt việc phân phối dữ liệu và được huấn luyện theo cách tối đa hóa xác suất của mô hình phân biệt trong việc phát hiện.

GAN được xây dựng dưới dạng trò chơi minmax, trong mô hình phân biệt cố gắng giảm thiểu phần thưởng V(D, G) và mô hình sinh đang cố gắng tối đa hóa sự mất mát, được mô tả bằng toán học theo công thức (1-1). min max V(D,G) G D (1-1) V(D,G) = 5 Trong đó: G: trình sinh D: trình phân biệt pdata(x) phân phối của dữ liệu thực pz(z): phân phối trình sinh x: mẫu từ pdata(x) z: mẫu từ pz(z) D(x): Mạng phân biệt G(z): Mạng sinh dữ liệu Vì vậy, về cơ bản, huấn luyện một GANs có hai phần: Phần 1: Mô hình phân biệt được huấn luyện trong khi trình sinh dữ liệu không hoạt động. Trong giai đoạn này, mạng chỉ được truyền về phía trước và không có sự lan truyền ngược nào được thực hiện. Mô hình phân biệt được huấn luyện về dữ liệu thực cho “n” lần và xem liệu có thể dự đoán chính xác chúng là thật hay không.

Ngoài ra, trong giai đoạn này, mô hình phân biệt cũng được huấn luyện về dữ liệu được tạo giả từ mô hình sinh và xem liệu có thể dự đoán chính xác chúng là giả hay không. Phần 2: Mô hình sinh được huấn luyện trong khi mô hình phân biệt không hoạt động. Sau khi mô hình phân biệt được huấn luyện bởi dữ liệu giả tạo, chúng ta có thể nhận được dự đoán của mô hình phân biệt và sử dụng kết quả để huấn luyện và nhận được tốt hơn từ trạng thái trước để thử và đánh lừa mô hình phân biệt. Phương pháp trên được lặp lại trong một vài lần và sau đó kiểm tra dữ liệu giả xem có thể đánh lừa được mô hình phân biệt.

Nếu dữ liệu có vẻ chấp nhận được, thì việc huấn luyện được dừng lại, nếu không, quá trình huấn luyện tiếp tục. 6 Mô hình trở nên mạnh mẽ nhờ khả năng tự học không giám sát. Tác giả mô hình đã nhận được hầu hết các mạng nơ-ron đều có thể bị đánh lừa vào việc phân loại sai bằng cách chỉ thêm một lượng nhiễu nhỏ vào dữ liệu gốc. Nhưng đặc biệt là mô hình sau khi thêm nhiễu vào lại có độ tin cậy cao hơn vào dự đoán sai so với khi dự đoán chính xác.

Lý do có sự nghịch lý này đó là vì hầu hết các mô hình máy học đều học được từ một lượng dữ liệu hạn chế, đây là một nhược điểm vô cùng lớn khiến mô hình dễ bị lừa. Mặc dù, có vẻ như ranh giới phân tách giữa các lớp khác nhau là tuyến tính, nhưng trong thực tế, thậm chí một thay đổi nhỏ trong một điểm trong không gian tính năng có thể dẫn đến phân loại dữ liệu sai.1 Giới thiệu Nhờ những phát triển gần đây của máy học, công nghệ xử lý và chế tạo hình ảnh, video đã đạt đến một mức độ tinh vi mới. Điểm mấu chốt của xu hướng này là Deepfake, nó được tạo bằng cách chèn các khuôn mặt được tổng hợp từ sử dụng máy học vào hình ảnh hay video gốc, biến hình khuôn mặt của một người để mô phỏng các hình ảnh khuôn mặt của người khác, nhưng vẫn giữ nguyên nét mặt như hình 1.2 Hình ảnh giả mạo Tổng thống Mỹ bằng deepfake 7 Hiện tại, có hai ứng dụng chính được sử dụng để tạo deepfake là FakeApp và Faceswap. Bất kể loại nào, quy trình làm giả hầu như giống nhau và yêu cầu ba bước: trích xuất đặc trưng, huấn luyện và sáng tạo [3].2 Mô hình hoạt động ❖ Trích xuất đặc trưng Deepfake là mô hình hoán đổi khuôn mặt sử dụng học sâu.

Các mô hình này thường đòi hỏi lượng dữ liệu lớn, nếu không có hàng trăm, hàng ngàn hình ảnh khuôn mặt, bạn sẽ không thể tạo video deepfake. Đây là một trong những nhược điểm của Deepfake. Một cách để giải quyết vấn đề này là thu thập một số video clip có hình ảnh những người bạn muốn giả mạo. Quá trình trích xuất đặc trưng đề cập đến quá trình trích xuất tất cả các khung hình từ các video clip này, xác định các khuôn mặt và căn chỉnh chúng.

Việc căn chỉnh là rất quan trọng, vì mạng nơ-ron thực hiện hoán đổi khuôn mặt yêu cầu tất cả các mặt phải có cùng kích thước (thường là 256 X 256 pixel) và các tính năng được căn chỉnh. Phát hiện và căn chỉnh khuôn mặt là một vấn đề chủ yếu cần giải quyết và được hầu hết các ứng dụng thực hiện rất hiệu quả. ❖ Huấn luyện Huấn luyện là một thuật ngữ kỹ thuật mượn từ máy học. Trong trường hợp này, huấn luyện đề cập đến quá trình cho phép một mạng nơ-ron chuyển đổi mặt này thành mặt khác.

Giai đoạn huấn luyện chỉ cần được thực hiện một lần. Sau khi hoàn thành, mô hình có thể chuyển đổi khuôn mặt từ người A thành người B. Mô hình xây dựng một bộ mã hóa để mã hóa tất cả các hình ảnh này bằng cách sử dụng mạng CNN. Sau đó, sử dụng một bộ giải mã để xây dựng lại hình ảnh.

Bộ mã hóa tự động gồm bộ mã hóa và bộ giải mã này có hơn một triệu thông số nhưng 8 không đủ để ghi nhớ tất cả các hình ảnh. Vì vậy, bộ mã hóa cần trích xuất các tính năng quan trọng nhất để tạo lại đầu vào ban đầu. Để giải mã các tính năng, mô hình sử dụng các bộ giải mã riêng cho người A và người B. Bây giờ, thuật toán huấn luyện bộ mã hóa và bộ giải mã sử dụng lan truyền ngược sao cho đầu vào sẽ khớp so với đầu ra như hình 1.

Quá trình này tốn khá nhiều thời gian.3 Quá trình huấn luyện bộ mã hóa và giải mã của deepfake ❖ Sáng tạo Sau huấn luyện, thuật toán xử lý từng khung hình video để hoán đổi khuôn mặt của người này với người khác. Sử dụng tính năng nhận diện khuôn mặt, thuật toán trích xuất khuôn mặt của người A và đưa vào bộ mã hóa. Tuy nhiên, thay vì cho bộ giải mã ban đầu của người A, thuật toán sử dụng bộ giải mã của người B để dựng lại hình ảnh. Tức là chúng ta vẽ người B với các tính năng của A trong video gốc.

Sau đó, hợp nhất khuôn mặt vừa tạo vào hình ảnh gốc (hình 1. Theo trực giác, bộ mã hóa đang phát hiện góc mặt, màu da, nét mặt, ánh sáng và các thông tin quan trọng khác để tái tạo lại người A. Khi chúng ta sử dụng bộ giải mã thứ hai để tái tạo hình ảnh, chúng ta đang vẽ người B nhưng với bối cảnh của A. Trong bức ảnh dưới đây, hình ảnh được dựng lại có các nhân vật khuôn mặt của người khác trong khi duy trì biểu cảm khuôn mặt của video mục tiêu.4 Quá trình sáng tạo ra nội dung video giả mạo của deepfake 1.2 Tổng quan bài toán phát hiện giả mạo khuôn mặt trong video 1.1 Giới thiệu bài toán Sự phát triển mạnh mẽ của các mô hình giả mạo khuôn mặt đã mang lại nhiều ảnh hưởng tiêu cực.

Các ứng dụng làm giả video có thể được sử dụng để tạo tin giả và các trò lừa bịp độc hại. Đặc biệt là các nội dung về chính trị, xã hội với các video về người nổi tiếng và các chính trị gia bị giả mạo khuôn mặt. Cùng với các hình thức khác, thông tin sai lệch được chia sẻ rộng rãi thông qua các phương tiện truyền thông, nổi bật nhất là thông qua mạng xã hội. Các hình thức mạo danh đã trở thành một vấn đề nghiêm trọng với ảnh hưởng, tác động không hề nhỏ, khi người dùng bình thường không thể nhận biết được đâu là video thật, đâu là video giả mạo.

Vì vậy, một nhu cầu cấp thiết cần có các phương pháp hiệu quả để phát hiện được các video đã giả mạo khuôn mặt. Và bài toán chính được đặt ra để nghiên cứu và giải quyết trong luận văn này là xây dựng mô hình để nhận biết khuôn mặt có bị giả mạo trong video hay không? 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

trí tuệ nhân tạo và thị giác máy tính

xử lý ảnh và video số

an ninh mạng và chống giả mạo