I. Tổng Quan Nghiên Cứu Biến Đổi Phong Cách Gương Mặt AI
Luận văn này giới thiệu tổng quan về việc ứng dụng AI trong biến đổi khuôn mặt, lý do lựa chọn đề tài, mục tiêu và phạm vi nghiên cứu. Nó cũng trình bày những đóng góp của luận văn, cấu trúc các phần và các nghiên cứu gần đây liên quan đến đề tài. Nhu cầu chỉnh sửa ảnh khuôn mặt bằng AI ngày càng phổ biến do sự phát triển của công nghệ di động và mạng xã hội. Mọi người sử dụng các ứng dụng để cải thiện và chia sẻ ảnh trên các nền tảng như Instagram, Facebook, Twitter và Snapchat, như đã đề cập trong bài báo “A Survey on Image Privacy in Online Social Networks”. Nhiều ứng dụng đã được phát triển để đáp ứng nhu cầu này, bao gồm Snapseed và Adobe Lightroom. Tuy nhiên, người dùng thường phải có kiến thức về đồ họa và tốn nhiều thời gian để đạt được kết quả mong muốn.
1.1. Ứng dụng AI phổ biến trong chỉnh sửa khuôn mặt
Các ứng dụng chỉnh sửa ảnh hiện nay cung cấp các tính năng cơ bản như điều chỉnh kích thước, màu sắc, độ sáng, độ tương phản và độ sắc nét. Chúng cũng cung cấp các hiệu ứng và bộ lọc để biến đổi hình ảnh theo phong cách riêng. Một số ứng dụng cung cấp các công cụ chỉnh sửa chuyên sâu và cho phép người dùng cắt ghép ảnh, thêm khung viên, và thay đổi tỉ lệ. Ví dụ, FaceApp cung cấp các tính năng như thay đổi giới tính, biến đổi khuôn mặt theo độ tuổi, thay đổi phong cách tóc và trang điểm. Tuy nhiên, ảnh kết quả thường mất nhiều đặc trưng so với ảnh ban đầu và bị giới hạn trong phạm vi cho phép của nhà phát triển.
1.2. Ưu điểm của biến đổi khuôn mặt bằng ngôn ngữ tự nhiên
Chỉnh sửa ảnh bằng ngôn ngữ tự nhiên (Natural Language Image Editing) là một lĩnh vực đang phát triển nhanh chóng và có tiềm năng lớn. Nó kết hợp xử lý ngôn ngữ tự nhiên và xử lý hình ảnh, cho phép người dùng chỉnh sửa ảnh thông qua việc sử dụng ngôn ngữ một cách tự nhiên. Việc này giúp người dùng thao tác dễ dàng hơn, không cần kiến thức chuyên môn về đồ họa. Người dùng chỉ cần mô tả yêu cầu về kết quả mong muốn, tiết kiệm thời gian và công sức. Nó cũng giúp đa dạng công cụ chỉnh sửa, người dùng có thể yêu cầu các thao tác cụ thể một cách linh hoạt.
II. Thách Thức Hạn Chế Biến Đổi Khuôn Mặt Bằng NLP
Mặc dù chỉnh sửa ảnh bằng ngôn ngữ tự nhiên đang phát triển, phương pháp này vẫn đối mặt với một số thách thức. Quan trọng nhất là hiểu rõ yêu cầu chỉnh sửa ảnh trong ngữ cảnh của câu mô tả ngôn ngữ tự nhiên, đòi hỏi mô hình phải hiểu ý nghĩa của từng từ và cụm từ. Việc trích xuất thông tin chính xác từ câu mô tả là cần thiết để hiểu được các chỉnh sửa mong muốn, bao gồm phân biệt đối tượng, mô tả màu sắc, cấu trúc và thuộc tính khác. Đảm bảo thông tin từ mô tả ngôn ngữ và hình ảnh được đồng bộ và không xung đột là một vấn đề khác, sự không rõ ràng trong mô tả có thể gây hiểu lầm và không nhất quán.
2.1. Vấn đề hiểu ngôn ngữ và trích xuất thông tin chính xác
Mô hình cần phải biết đến các quy tắc và chính sách chỉnh sửa ảnh để đảm bảo chỉnh sửa được đề xuất là hợp lý và không vi phạm các quy định. Đảm bảo chỉnh sửa tạo ra ảnh mới không chỉ đáp ứng yêu cầu mà còn giữ cho ảnh có vẻ tự nhiên và không làm mất tính tự nhiên của hình ảnh. Tuy nhiên, với sự tiến bộ của công nghệ và nghiên cứu liên quan, tiềm năng của chỉnh sửa ảnh bằng ngôn ngữ tự nhiên là rất lớn và mang đến trải nghiệm tiện lợi hơn cho người dùng. Phương pháp tiếp cận hiện tại có ưu và nhược điểm riêng, do đó luận văn đề xuất một hướng nghiên cứu để cải thiện nhược điểm của một phương pháp đang có.
2.2. Tính tự nhiên và các chính sách chỉnh sửa ảnh hợp lý
Việc sử dụng ngôn ngữ tự nhiên, người dùng có thể yêu cầu các thao tác chỉnh sửa cụ thể một cách linh hoạt. Chẳng hạn, người dùng có thể đưa ra yêu cầu giảm độ sáng, tăng độ tương phản hay xóa phông nền. Hay là việc biến đổi ảnh theo phong cách nghệ thuật hoặc biến đổi theo phong cách truyện tranh và nhiều hơn nữa chỉ bằng cách sử dụng ngôn ngữ một cách tự nhiên thay vì phải sử dụng nhiều công cụ nâng cao như Photoshop. Hướng tiếp cận này giúp hệ thống có thể hiểu và tương tác với các yêu cầu, câu lệnh, hoặc mô tả của người dùng để thực hiện các chỉnh sửa một cách chính xác và hiệu quả.
III. Phương Pháp Nghiên Cứu Kết Hợp StyleCLIP và Facer
Luận văn đặt ra ba mục tiêu chính: Nghiên cứu các kỹ thuật và phương pháp chỉnh sửa ảnh bằng ngôn ngữ tự nhiên tiên tiến hiện nay, nghiên cứu và đề xuất giải pháp để cải thiện một phương pháp hiện có, và phát triển một ứng dụng chỉnh sửa ảnh sử dụng ngôn ngữ tự nhiên trên điện thoại di động. Đóng góp chính của luận văn là kết hợp hai mô hình StyleCLIP và Facer để tối ưu hóa kết quả của StyleCLIP. Ngưỡng phân tách (B) phù hợp nhất được tìm ra thông qua thực nghiệm. Ứng dụng chỉnh sửa ảnh sử dụng ngôn ngữ tự nhiên được xây dựng, cho phép người dùng mô tả mong muốn và ứng dụng sẽ tạo ra ảnh kết quả. Khảo sát phản hồi của người dùng về chỉnh sửa ảnh bằng ngôn ngữ tự nhiên cũng được thực hiện.
3.1. Tối ưu hóa StyleCLIP với ngưỡng phân tách B phù hợp
Nghiên cứu các kỹ thuật và đưa ra đề xuất để cải thiện phương pháp hiện có mang ý nghĩa về mặt nghiên cứu trong lĩnh vực xử lý ảnh. Xây dựng một ứng dụng trên thiết bị di động để biến đổi ảnh theo ngôn ngữ tự nhiên có ý nghĩa quan trọng: tạo trải nghiệm tương tác tiện lợi, giúp người dùng không chuyên chỉnh sửa ảnh chuyên nghiệp, tiết kiệm thời gian và công sức, mở rộng khả năng sáng tạo và tùy chỉnh, và có khả năng ứng dụng thực tiễn cao. Ứng dụng mang lại giao diện dễ dùng và thuận tiện cho người dùng. Thay vì phải tìm hiểu và sử dụng các công cụ chỉnh sửa phức tạp, người dùng chỉ cần viết hoặc nói một câu chữ để diễn đạt ý kiến và yêu cầu chỉnh sửa.
3.2. Xây dựng ứng dụng biến đổi ảnh theo ngôn ngữ tự nhiên
Việc sử dụng ngôn ngữ tự nhiên trong ứng dụng cho phép người dùng không chuyên có khả năng thực hiện các chỉnh sửa ảnh chuyên nghiệp mà không cần phải nắm vững các kỹ thuật chỉnh sửa phức tạp. Họ có thể mô tả các chỉnh sửa mong muốn một cách tự nhiên và ứng dụng sẽ tự động thực hiện các thay đổi tương ứng. Điều này giúp tiết kiệm thời gian và công sức bằng cách tự động thực hiện các chỉnh sửa theo yêu cầu. Thay vì phải thực hiện từng bước chỉnh sửa thủ công, người dùng chỉ cần mô tả chỉnh sửa mong muốn và ứng dụng sẽ tự động áp dụng các thay đổi tương ứng lên ảnh.
IV. Thực Nghiệm và Đánh Giá Chất Lượng Biến Đổi AI
Về phương pháp, luận văn nghiên cứu các kỹ thuật tiên tiến cho bài toán biến đổi ảnh khuôn mặt và bài toán phân đoạn gương mặt. Nó tìm hiểu các mô hình máy học phù hợp có thể vận dụng để giải quyết các yêu cầu của bài toán. Thực nghiệm được thực hiện, phân tích và đánh giá để tìm ra giá trị ngưỡng phân tách phù hợp. Các phương pháp đo đạc độ tương đồng hoặc sai khác giữa hai bức ảnh được tìm hiểu để đưa ra các đánh giá và nhận xét. Luận văn cũng tìm hiểu các phương pháp và nền tảng để kết nối giao diện đồ họa và mô hình máy học để xây dựng ứng dụng.
4.1. Các kỹ thuật và mô hình máy học được sử dụng
Về máy học, luận văn tìm hiểu về mô hình StyleCLIP và thực hiện các thực nghiệm để tìm ra ngưỡng phân tách phù hợp. Mô hình đã được huấn luyện của StyleCLIP trên bộ dữ liệu FFHQ với tham số ngưỡng phân tách tìm được và kết hợp cùng bộ công cụ Facer. Về dịch máy, API phiên dịch ngôn ngữ được cung cấp bởi OpenAI được sử dụng để đa dạng ngôn ngữ hỗ trợ và đảm bảo tính chính xác cho mô hình StyleCLIP. Về đánh giá chất lượng ảnh, ba phương pháp được sử dụng: Mean Square Error (MSE) để đo lường sự chênh lệch pixel, Structural Similarity Index (SSIM) để đo độ tương đồng trên ba phương diện chính, và Perceptual Image Patch Similarity (LPIPS) để đo độ tương đồng thị giác.
4.2. Sử dụng API dịch máy OpenAI để cải thiện độ chính xác
Sử dụng API phiên dịch ngôn ngữ được cung cấp bởi OpenAl dé đa dạng ngôn ngữ hỗ trợ, cũng như đảm bảo tính chính xác cho mô hình StyleCLIP[5]. Về các phương pháp đánh giá chất lượng ảnh: Sử dụng ba phương pháp về đo lường độ sai khác và đo lường độ tường đồng giữa hai ảnh là: e_ Mean Square Error (MSE)[8] dé đo lường sự chênh lệch pixel giữa hai ảnh. e Structural Similarity Index (SSI)[9] dùng dé đo độ tương đồng trên ba phương diện chính: độ tương phản, cau trúc và màu sắc. e Perceptual Image Patch Similarity (LPIPS)[10] dé đo độ tương đồng thị giác giữa hai ảnh.
V. Kết Luận và Hướng Phát Triển Ứng Dụng AI
Luận văn được chia thành các chương: giới thiệu tổng quan về đề tài, trình bày cơ sở lý thuyết và phương pháp ứng dụng, trình bày phương pháp nghiên cứu đề xuất, trình bày về thiết kế ứng dụng và kiểm thử trong thực tế, và trình bày về kết luận và hướng phát triển. Chương 2 giới thiệu về cơ sở lý thuyết phát triển luận văn và những kết quả nổi bật của những nghiên cứu gần đây trong lĩnh vực chỉnh sửa ảnh bằng ngôn ngữ tự nhiên và các lĩnh vực liên quan. Nó cũng nêu chi tiết về cơ sở lý thuyết của những phương pháp được ứng dụng vào phương pháp nghiên cứu đề xuất ở chương sau. Khi thực hiện đề tài, các phương pháp hiện có và các kỹ thuật từ các công bố khoa học liên quan đã được tìm hiểu.
5.1. Tổng quan các nghiên cứu liên quan về chỉnh sửa ảnh NLP
Dưới đây là một số bài báo gần đây liên quan đến việc chỉnh sửa ảnh bằng ngôn ngữ tự nhiên: PhraseGAN: Phrase-Boost Generative Adversarial Network for Text-to-Image Generation đã trình bày các ví dụ và thử nghiệm thực tế về việc sử dụng mô hình PhraseGAN trong chỉnh sửa ảnh. CLIPstyler: Image Style Transfer with a Single Text Condition đã đóng góp phương pháp tạo hình ảnh mà phong cách ảnh được biến đổi dựa theo câu mô tả đầu vào. AnimeGAN: A Novel Lightweight GAN for Photo Animation là một mô hình GAN nhẹ được thiết kế để chuyển đổi ảnh chân dung thành hình ảnh hoạt hình phong cách anime.
5.2. Các hướng phát triển tiềm năng cho ứng dụng chỉnh sửa ảnh AI
Các mô hình GAN có thể được ứng dụng để sinh ảnh khuôn mặt từ văn bản, cụ thể là mô tả các thuộc tính khuôn mặt như màu tóc, tuổi tác, cảm xúc,...Các ứng dụng tiềm năng bao gồm tạo ảnh đại diện ảo, tạo hình mẫu cho nhân vật game, và thậm chí cả hỗ trợ trong các lĩnh vực pháp y (tạo chân dung kẻ tình nghi từ lời khai). Các mô hình GAN hiện tại cũng có thể được cải tiến để xử lý các yêu cầu chỉnh sửa phức tạp hơn, chẳng hạn như thay đổi biểu cảm khuôn mặt theo một ngữ cảnh cụ thể (ví dụ: 'làm cho anh ấy trông buồn khi nghe tin'). Điều này đòi hỏi mô hình phải hiểu được ngữ cảnh và tạo ra sự thay đổi biểu cảm phù hợp.