Luận Văn Thạc Sĩ: Khám Phá Mô Hình Generative Adversarial Networks Và Ứng Dụng Trong Chuyển Đổi Ảnh

Luận văn thạc sĩ khám phá mô hình Generative Adversarial Networks và ứng dụng trong chuyển đổi ảnh, mang lại hiệu quả cao trong xử lý hình ảnh.

Trường đại học

Đại học Quy Nhơn

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY

1.1. Ứng dụng của học máy

1.2. Phân loại các phương pháp học máy

1.3. Các bước trong bài toán học máy

1.4. Mô hình nơron nhân tạo

1.5. Mô hình mạng nơron nhân tạo

1.6. Quy tắc delta

1.7. Cấu trúc mạng CNN

1.8. Kết luận chương 1

2. CHƯƠNG 2: MÔ HÌNH GENERATIVE ADVERSARIAL NETWORKS (GAN)

2.1. Giới thiệu chung

2.2. Kiến trúc của GAN

2.3. Quá trình huấn luyện

2.4. Mô hình Pix2Pix và ứng dụng trong bài toán chuyển đổi ảnh

2.4.1. Mô hình Pix2pix

2.4.2. Kiến trúc của pix2pix

2.5. Kết luận chương 2

3. CHƯƠNG 3: ỨNG DỤNG GAN TRONG BÀI TOÁN CHUYỂN ĐỔI ẢNH

3.1. Giới thiệu và phân tích bài toán

3.2. Xây dựng chương trình thử nghiệm

3.3. Kiểm tra và đánh giá kết quả

3.4. Kết luận chương 3

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về học máy

Chương này cung cấp cái nhìn tổng quan về học máy, một lĩnh vực quan trọng của trí tuệ nhân tạo (AI). Học máy giúp máy tính tự học từ dữ liệu mà không cần lập trình rõ ràng. Các khái niệm cơ bản như mạng nơ-ron nhân tạo (ANN), mạng nơ-ron tích chập (CNN), và các phương pháp học như học có giám sát, học không giám sát, học bán giám sát, và học tăng cường được trình bày chi tiết. Các bước cơ bản trong một bài toán học máy bao gồm thiết lập mô hình, cung cấp dữ liệu, huấn luyện mô hình, và đánh giá kết quả. Chương này làm nền tảng cho việc nghiên cứu sâu hơn về mô hình GAN.

1.1. Khái niệm học máy

Học máy là một lĩnh vực của AI, nghiên cứu các kỹ thuật giúp máy tính tự học từ dữ liệu. Định nghĩa của T. Mitchell nhấn mạnh việc tối ưu hóa độ đo thực hiện dựa trên phân tích dữ liệu. Học máy được ứng dụng rộng rãi trong xử lý hình ảnh, khai phá dữ liệu, phân tích văn bản, và chăm sóc sức khỏe.

1.2. Phân loại phương pháp học máy

Có bốn phương pháp học máy chính: học có giám sát, học không giám sát, học bán giám sát, và học tăng cường. Mỗi phương pháp có đặc điểm và ứng dụng riêng, từ việc dự đoán đầu ra dựa trên dữ liệu có nhãn đến việc tìm kiếm cấu trúc ẩn trong dữ liệu không nhãn.

II. Mô hình Generative Adversarial Networks GAN

Chương này tập trung vào mô hình GAN, một công nghệ tiên tiến trong học sâu. GAN bao gồm hai mạng: Generator (tạo dữ liệu) và Discriminator (phân biệt dữ liệu thật và giả). Quá trình huấn luyện GAN dựa trên sự cạnh tranh giữa hai mạng này, giúp tạo ra dữ liệu chất lượng cao. Mô hình Pix2Pix, một biến thể của GAN, được giới thiệu như một giải pháp hiệu quả cho bài toán chuyển đổi ảnh.

2.1. Giới thiệu về GAN

GAN được giới thiệu bởi Ian Goodfellow vào năm 2014. Mô hình này sử dụng hai mạng nơ-ron đối nghịch để tạo ra dữ liệu mới. Generator tạo dữ liệu từ nhiễu ngẫu nhiên, trong khi Discriminator phân biệt dữ liệu thật và giả. Quá trình huấn luyện GAN giúp cải thiện chất lượng dữ liệu được tạo ra.

2.2. Ứng dụng của GAN trong chuyển đổi ảnh

Mô hình Pix2Pix là một ứng dụng cụ thể của GAN trong chuyển đổi ảnh. Nó cho phép chuyển đổi từ ảnh phác thảo sang ảnh hoàn chỉnh, từ ảnh đen trắng sang ảnh màu. Pix2Pix sử dụng kiến trúc U-Net cho Generator và PatchGAN cho Discriminator, giúp tạo ra kết quả chính xác và chi tiết.

III. Ứng dụng GAN trong bài toán chuyển đổi ảnh

Chương này trình bày ứng dụng thực tế của GAN trong bài toán chuyển đổi ảnh. Một chương trình thử nghiệm được xây dựng để chuyển đổi ảnh phác thảo thành ảnh hoàn chỉnh. Kết quả thử nghiệm cho thấy khả năng tạo ảnh chất lượng cao của GAN, đồng thời đánh giá hiệu quả của mô hình thông qua các biểu đồ tổn thất.

3.1. Xây dựng chương trình thử nghiệm

Chương trình thử nghiệm sử dụng mô hình Pix2Pix để chuyển đổi ảnh phác thảo thành ảnh hoàn chỉnh. Tập dữ liệu mẫu về giày, dép được sử dụng để huấn luyện mô hình. Quá trình huấn luyện được thực hiện qua nhiều epochs, với kết quả được đánh giá dựa trên chất lượng ảnh tạo ra.

3.2. Đánh giá kết quả

Kết quả thử nghiệm cho thấy mô hình Pix2Pix có khả năng tạo ra ảnh chất lượng cao từ ảnh phác thảo. Các biểu đồ tổn thất như disc_loss, gen_gan_loss, và gen_l1_loss được sử dụng để đánh giá hiệu quả của mô hình. Kết quả này là cơ sở cho các nghiên cứu tiếp theo trong lĩnh vực chuyển đổi ảnh.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu mô hình generative adversarial networks và ứng dụng trong chuyển đổi ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI), đặc biệt là lĩnh vực học máy (Machine Learning) và học sâu (Deep Learning), mô hình Generative Adversarial Networks (GAN) đã trở thành một công cụ đột phá trong việc tạo ra dữ liệu mới và chuyển đổi hình ảnh. Theo ước tính, lượng dữ liệu hình ảnh kỹ thuật số tăng trưởng nhanh chóng, đòi hỏi các phương pháp xử lý và chuyển đổi ảnh hiệu quả hơn. Luận văn tập trung nghiên cứu mô hình GAN và ứng dụng cụ thể trong bài toán chuyển đổi ảnh phác thảo thành ảnh màu thực tế, với mục tiêu phát triển một hệ thống tự động có khả năng tạo ra ảnh chất lượng cao từ ảnh phác thảo đầu vào.

Phạm vi nghiên cứu được giới hạn trong việc áp dụng mô hình Pix2Pix – một biến thể của GAN chuyên biệt cho bài toán image-to-image translation – trên tập dữ liệu “edges2shoes” gồm 49.825 ảnh huấn luyện và 200 ảnh kiểm tra về giày dép. Mục tiêu cụ thể là xây dựng và huấn luyện mô hình GAN để chuyển đổi ảnh phác thảo thành ảnh màu chân thực, đồng thời đánh giá hiệu quả mô hình qua các chỉ số tổn thất (loss) và chất lượng ảnh đầu ra.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao khả năng ứng dụng AI trong xử lý ảnh, hỗ trợ các lĩnh vực thiết kế đồ họa, thời trang, và các ngành công nghiệp sáng tạo khác. Việc làm chủ công nghệ GAN cũng mở ra cơ hội phát triển các ứng dụng mới trong tương lai, góp phần thúc đẩy sự phát triển của khoa học máy tính và trí tuệ nhân tạo tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của học máy và học sâu, trong đó tập trung vào các mô hình mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). Các khái niệm chính bao gồm:

Mạng nơ-ron nhân tạo (ANN): Mô hình gồm các nơ-ron nhân tạo kết nối với nhau qua các trọng số, sử dụng hàm kích hoạt phi tuyến để mô phỏng quá trình học và dự đoán.
Thuật toán lan truyền ngược (Backpropagation): Phương pháp tối ưu trọng số mạng bằng cách tính đạo hàm hàm lỗi và cập nhật trọng số theo hướng giảm lỗi.
Mạng nơ-ron tích chập (CNN): Mạng chuyên biệt cho xử lý ảnh, sử dụng các lớp tích chập, lớp kích hoạt ReLU, lớp lấy mẫu (Pooling) và lớp kết nối đầy đủ để trích xuất đặc trưng ảnh.
Mô hình Generative Adversarial Networks (GAN): Gồm hai mạng đối nghịch là Generator (mạng sinh) và Discriminator (mạng phân biệt), huấn luyện đồng thời để tạo ra dữ liệu giả giống thật.
Mô hình Pix2Pix: Một biến thể của GAN, sử dụng kiến trúc U-Net cho Generator và PatchGAN cho Discriminator, chuyên dùng cho bài toán chuyển đổi ảnh (image-to-image translation).

Phương pháp nghiên cứu

Nghiên cứu kết hợp phương pháp lý thuyết và thực nghiệm. Cụ thể:

Nguồn dữ liệu: Sử dụng tập dữ liệu “edges2shoes” gồm 49.825 ảnh huấn luyện và 200 ảnh kiểm tra, mỗi ảnh gồm cặp ảnh phác thảo và ảnh màu thực.
Phương pháp phân tích: Cài đặt và huấn luyện mô hình Pix2Pix trên tập dữ liệu, sử dụng thuật toán tối ưu hóa gradient descent mini-batch để cập nhật trọng số mạng Generator và Discriminator.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong khoảng thời gian học thạc sĩ, bao gồm giai đoạn tìm hiểu lý thuyết, cài đặt mô hình, huấn luyện và đánh giá kết quả.
Cỡ mẫu và chọn mẫu: Tập dữ liệu huấn luyện lớn (khoảng 50.000 ảnh) được chia thành các mini-batch để huấn luyện, đảm bảo tính đại diện và hiệu quả tính toán.
Đánh giá kết quả: Sử dụng các biểu đồ tổn thất (loss curves) của Generator và Discriminator, đồng thời đánh giá chất lượng ảnh đầu ra qua quan sát trực quan và so sánh với ảnh gốc.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả chuyển đổi ảnh: Mô hình Pix2Pix đã thành công trong việc chuyển đổi ảnh phác thảo thành ảnh màu thực tế với chất lượng cao. Sau 50 epochs huấn luyện, ảnh đầu ra thể hiện rõ các chi tiết và màu sắc gần giống ảnh thật, minh chứng qua các hình ảnh mẫu trong tập huấn luyện và kiểm tra.
Tổn thất mô hình: Biểu đồ tổn thất của Discriminator (disc_loss) giảm dần và ổn định quanh giá trị thấp, cho thấy khả năng phân biệt ảnh thật và giả ngày càng chính xác. Tổn thất của Generator (gen_gan_loss, gen_l1_loss) cũng giảm, phản ánh quá trình học sinh ảnh ngày càng giống thật hơn. Tổng tổn thất (gen_total_loss) đạt mức ổn định sau một số epoch, chứng tỏ mô hình hội tụ tốt.
So sánh với mô hình không điều kiện: Việc sử dụng mô hình Pix2Pix với điều kiện đầu vào (ảnh phác thảo) giúp cải thiện đáng kể chất lượng ảnh so với mô hình GAN không điều kiện, nhờ vào việc Discriminator nhận biết cặp ảnh nguồn và ảnh đích cùng lúc.
Tác động của kiến trúc PatchGAN: Sử dụng PatchGAN làm Discriminator giúp mô hình tập trung phân biệt các vùng nhỏ (patches) trong ảnh, nâng cao độ chính xác trong việc phát hiện chi tiết giả, từ đó cải thiện chất lượng tổng thể của ảnh sinh ra.

Thảo luận kết quả

Nguyên nhân chính của thành công là nhờ kiến trúc Pix2Pix kết hợp giữa mạng U-Net cho Generator và PatchGAN cho Discriminator, tận dụng hiệu quả đặc trưng cục bộ và toàn cục của ảnh. Kết quả phù hợp với các nghiên cứu trước đây về ứng dụng GAN trong chuyển đổi ảnh, đồng thời khẳng định tính khả thi của mô hình trong thực tế.

So với các phương pháp truyền thống, mô hình GAN cho phép tự động hóa quá trình chuyển đổi ảnh với độ chính xác và tính sáng tạo cao hơn. Việc huấn luyện đồng thời hai mạng đối nghịch giúp mô hình không ngừng cải thiện chất lượng ảnh sinh ra.

Dữ liệu có thể được trình bày qua các biểu đồ tổn thất (loss curves) minh họa quá trình hội tụ của mô hình, cùng bảng so sánh chất lượng ảnh đầu ra qua các epoch khác nhau. Các hình ảnh mẫu minh họa sự khác biệt rõ rệt giữa ảnh phác thảo đầu vào và ảnh màu đầu ra cũng là minh chứng trực quan cho hiệu quả nghiên cứu.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện: Mở rộng tập dữ liệu với đa dạng chủ đề và đối tượng ảnh để nâng cao khả năng tổng quát của mô hình, giúp cải thiện chất lượng ảnh đầu ra trên nhiều loại phác thảo khác nhau. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm nghiên cứu và cộng tác viên.
Tối ưu kiến trúc mạng: Nghiên cứu và áp dụng các biến thể mới của GAN như CycleGAN, StyleGAN để cải thiện khả năng chuyển đổi ảnh, đặc biệt trong các trường hợp không có cặp ảnh phác thảo-ảnh thật tương ứng. Thời gian thực hiện: 6 tháng, chủ thể: nhóm phát triển AI.
Ứng dụng trong công nghiệp sáng tạo: Triển khai mô hình vào các phần mềm thiết kế đồ họa, hỗ trợ tự động hóa quá trình tạo mẫu sản phẩm thời trang, giày dép, giúp giảm thời gian và chi phí sản xuất. Thời gian thực hiện: 12 tháng, chủ thể: doanh nghiệp công nghệ và thiết kế.
Phát triển giao diện người dùng thân thiện: Xây dựng ứng dụng web hoặc di động cho phép người dùng tải ảnh phác thảo và nhận ảnh màu tự động, mở rộng phạm vi sử dụng mô hình đến người không chuyên. Thời gian thực hiện: 6 tháng, chủ thể: nhóm phát triển phần mềm.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Khoa học máy tính, Trí tuệ nhân tạo: Nắm bắt kiến thức cơ bản và nâng cao về mô hình GAN, học sâu, cũng như ứng dụng thực tiễn trong xử lý ảnh.
Chuyên gia và kỹ sư phát triển AI: Áp dụng mô hình Pix2Pix và các kỹ thuật GAN trong các dự án xử lý ảnh, tạo dữ liệu tổng hợp, hoặc phát triển sản phẩm sáng tạo.
Doanh nghiệp trong lĩnh vực thiết kế và sản xuất thời trang, đồ họa: Tận dụng công nghệ chuyển đổi ảnh tự động để tối ưu hóa quy trình thiết kế, giảm chi phí và tăng tốc độ ra sản phẩm.
Giảng viên và nhà nghiên cứu: Tham khảo để phát triển các đề tài nghiên cứu mới, giảng dạy về học sâu và ứng dụng GAN trong các khóa học chuyên ngành.

Câu hỏi thường gặp

Mô hình GAN là gì và tại sao lại quan trọng trong xử lý ảnh?
GAN là mô hình học sâu gồm hai mạng đối nghịch (Generator và Discriminator) cùng huấn luyện để tạo ra dữ liệu giả giống thật. Nó quan trọng vì khả năng sinh ảnh chất lượng cao, hỗ trợ nhiều ứng dụng như chuyển đổi ảnh, tạo ảnh mới, nâng cao chất lượng ảnh.
Pix2Pix khác gì so với GAN truyền thống?
Pix2Pix là một biến thể của GAN có điều kiện, đầu vào của Generator là ảnh phác thảo thay vì nhiễu ngẫu nhiên. Điều này giúp mô hình học được mối quan hệ trực tiếp giữa ảnh đầu vào và ảnh đầu ra, nâng cao chất lượng chuyển đổi ảnh.
PatchGAN có vai trò gì trong mô hình Pix2Pix?
PatchGAN là kiến trúc Discriminator phân biệt ảnh thật/giả dựa trên các vùng nhỏ (patches) của ảnh, giúp mô hình tập trung vào chi tiết cục bộ, cải thiện độ chính xác và chất lượng ảnh sinh ra.
Làm thế nào để đánh giá chất lượng ảnh sinh ra từ GAN?
Có thể đánh giá qua các chỉ số tổn thất trong quá trình huấn luyện, quan sát trực quan ảnh đầu ra so với ảnh gốc, hoặc sử dụng các chỉ số đánh giá chất lượng ảnh như SSIM, PSNR trong các nghiên cứu mở rộng.
Ứng dụng thực tế của mô hình chuyển đổi ảnh này là gì?
Mô hình có thể ứng dụng trong thiết kế thời trang, tạo mẫu sản phẩm, hỗ trợ nghệ sĩ số, phát triển các công cụ chỉnh sửa ảnh tự động, và nhiều lĩnh vực sáng tạo khác cần chuyển đổi hoặc tạo ảnh nhanh chóng, chính xác.

Kết luận

Luận văn đã nghiên cứu và triển khai thành công mô hình Generative Adversarial Networks, đặc biệt là Pix2Pix, trong bài toán chuyển đổi ảnh phác thảo thành ảnh màu thực tế.
Mô hình đạt hiệu quả cao trên tập dữ liệu “edges2shoes” với gần 50.000 ảnh huấn luyện, thể hiện qua các biểu đồ tổn thất và chất lượng ảnh đầu ra.
Nghiên cứu làm rõ vai trò của kiến trúc mạng, hàm tối ưu và phương pháp huấn luyện trong việc nâng cao chất lượng ảnh sinh ra.
Đề xuất các giải pháp mở rộng dữ liệu, tối ưu mô hình và ứng dụng thực tiễn nhằm phát triển công nghệ chuyển đổi ảnh trong tương lai.
Khuyến khích các nhà nghiên cứu, kỹ sư và doanh nghiệp tiếp tục khai thác và ứng dụng mô hình GAN trong nhiều lĩnh vực sáng tạo và công nghiệp.

Triển khai thử nghiệm mở rộng trên các tập dữ liệu đa dạng hơn, phát triển ứng dụng thực tế và nghiên cứu các biến thể GAN mới để nâng cao hiệu quả chuyển đổi ảnh.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về học máy Chương 2: Mô hình Generative adversarial networks (GAN) Chương 3: Ứng dụng trong bài toán chuyển đổi ảnh e 5 CHƢƠNG 1: TỔNG QUAN VỀ HỌC MÁY Trong chương này, chúng tôi trình bày một số kiến thức tổng quan về học máy, các khái niệm liên quan đến ứng dụng mô hình học máy làm cơ sở nghiên cứu các nội dung chính về mô hình GAN.1 Khái niệm Khái niệm học có nghĩa rộng giống như sự thông minh, bao gồm cả quá trình và khó có một định nghĩa chính xác. Theo nghĩa từ điển, học là quá trình thu nhận kiến thức, kỹ năng do người khác truyền lại hoặc đọc đi, đọc lại, nghiền ngẫm ghi nhớ (học thuộc lòng). Rộng hơn, học bao gồm cả quá trình đúc rút tri thức từ các quan sát, trải nghiệm thực tiễn. Về phương diện công nghệ, học máy là một lĩnh vực của trí tuệ nhân tạo, trong đó nghiên cứu các kỹ thuật xây dựng và phát triển các chương trình máy tính có thể thích nghi và "học" từ các dữ liệu mẫu hoặc kinh nghiệm.

Đến nay, đã có nhiều định nghĩa cho khái niệm này, tuy nhiên khó có một định nghĩa thỏa đáng được mọi người thừa nhận. Định nghĩa sau phát triển từ định nghĩa của T. Mitchell cho ta cách nhìn toán học của một chương trình học khi nghiên cứu, thiết kế. Một chương trình máy tính được gọi là học từ dữ liệu/kinh nghiệm E đối với lớp nhiệm vụ T và độ đo mức thực hiện P nếu việc thực hiện các nhiệm vụ T của nó khi đo bằng P được cải tiến nhờ dữ liệu hoặc kinh nghiệm E.

e 6 Theo định nghĩa này, người ta cần tối ưu hóa độ đo thực hiện P dựa trên phân tích dữ liệu/ kinh nghiệm E để tìm cách thực hiện nhiệm vụ T tốt nhất.2 Ứng dụng của học máy Machine learning được ứng dụng trong các lĩnh vực sau đây: Xử lý hình ảnh: Bài toán xử lý ảnh sẽ giải quyết một số vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép biến đổi. Một số ví dụ cơ bản cho lĩnh vực này như ứng dụng ô tô tự lái, gắn thẻ hình ảnh, nhận dạng ký tự,… Khai phá dữ liệu: Khai phá dữ liệu là quá trình khám phá ra các thông tin có giá trị hoặc đưa ra các dự đoán từ dữ liệu. Học máy được ứng dụng trong khai phá dữ liệu bao gồm: gom cụm, dự đoán, phát hiện các bất thường, phát hiện ra các quy luật để ứng dụng vào hoạt động ngân hàng hay hoạt động của các hệ thống siêu thị,. Phân tích văn bản: là công việc trích xuất hoặc phân loại thông tin từ các văn bản.

Các văn bản ở đây có thể là một email, đoạn chat trên facebook hay là các tài liệu. Chăm sóc sức khỏe: Machine learning là một xu hướng phát triển nhanh chóng trong ngành chăm sóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực (real-time). Machine Learning còn giúp các chuyên gia y tế xác định những xu hướng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán bệnh. Marketing và bán hàng: Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những vật dụng mà bạn có thể sẽ quan tâm và yêu thích.

Khả năng tiếp nhận dữ e 7 liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa trải nghiệm mua sắm (hoặc thực hiện chiến dịch Marketing) chính là tương lai của ngành bán lẻ. Phân loại các phương pháp học máy Có nhiều loại phương pháp học máy khác nhau như: học có giám sát, học không giám sát, học bán giám sát và học tăng cường. Học có giám sát (Supervised Learning): Học có giám sát là một kĩ thuật học máy để học tập từ tập dữ liệu được gán nhãn cho trước. Tập dữ liệu cho trước sẽ chứa nhiều bộ dữ liệu.

Mỗi bộ dữ liệu có cấu trúc theo cặp {x, y} với x được xem là dữ liệu và y là nhãn của dữ liệu đó. Nhiệm vụ của học máy có giám sát là dự đoán đầu ra mong muốn dựa vào giá trị đầu vào. Tập dữ liệu huấn luyện được gán nhãn trước. Học có giám sát được áp dụng cho 2 nhóm bài toán chính là bài toán hồi quy (regression problem) và bài toán phân lớp (classification problem).

Học có giám sát là xây dựng một hàm xác định giá trị đầu ra tương ứng với đầu vào là tập dữ liệu hoặc dữ liệu mới. Ta gọi hàm này là hàm h(x) và mong muốn hàm này xuất ra đúng giá trị y với một hoặc nhiều tập dữ liệu mới khác với dữ liệu được học. Hàm h(x) có các tham số học khác nhau tùy thuộc vào bài toán. Việc học từ tập dữ liệu (training) cũng chính là tìm ra bộ tham số học cho hàm h(x).

Học không có giám sát (Unsupervised learning): Học không giám sát là một kĩ thuật của máy học nhằm tìm ra một mô hình hay cấu trúc bị ẩn bởi tập dữ liệu không được gán nhãn cho trước. Học không giám sát khác với học giám sát là không thể xác định trước đầu ra từ tập dữ liệu huấn luyện được. Tùy thuộc vào tập huấn luyện kết quả đầu ra sẽ khác nhau. Học bán giám sát (Semi-supervised Learning): Đây là sự kết hợp của hai phương pháp học có giám sát và không giám sát, trong đó sử dụng cả dữ e 8 liệu có sẵn nhãn và dữ liệu không nhãn.

Nó hoạt động chủ yếu giống như việc học tập không giám sát với những cải tiến mà một phần dữ liệu được dán nhãn có thể mang lại. Học tăng cường (Reinforcement Learning): Trong kiểu học này, các thuật toán dự đoán đầu ra cho một vấn đề dựa trên một tập các tham số điều chỉnh. Sau đó, đầu ra được tính toán trở thành một tham số đầu vào và đầu ra mới được tính cho đến khi thấy đầu ra tối ưu. Học tăng cường chủ yếu được sử dụng trong phát triển các ứng dụng giải trí AI, thu nhận kỹ năng, điều hướng rô-bốt và quyết định thời gian thực.4 Các bước trong bài toán học máy Một bài toán học máy cần trải qua 4 bước chính: Bước 1: Thiết lập mô hình (Model) Khi đi xây dựng mô hình cho học máy tức là đi mô phỏng các mẫu hình từ thực tế giúp đưa ra được dự báo hoặc nhận dạng.

Hay nói chính xác hơn là ta phải đi mô tả các biến dữ liệu có khả năng tác động lên kết quả hoạt động của mô hình, đồng thời phải tìm ra được mối quan hệ giữa biến tác động (biến độc lập) và biến kết quả (biến phụ thuộc). Ngoài ra, ta có thể xây dựng một giả định ban đầu nào đó. Bước 2: Cung cấp dữ liệu đầu vào thực tế Sau khi mô hình được thiết lập, các thông tin thực tế sẽ được đưa vào để cho quá trình “ tự học” của học máy thực hiện. Kết thúc của quá trình này là đưa ra kết quả thực hiện thực tế.

Bước 3: Quá trình huấn luyện mô hình Khi lựa chọn mô hình và có các tham số, ta có thể dựa vào chúng để suy luận cho một đầu vào mới nào đó. e 9 Trong học máy, luôn cần có dữ liệu để huấn luyện, nó được xem là điều kiện tiên quyết của quá trình học máy. Vì thế dữ liệu sau khi có được cần phải chuẩn hóa và phân chia dữ liệu. Việc chuẩn hóa các dữ liệu đầu vào nhằm thay đổi tốc độ và hiệu quả của huấn luyện, phân chia dữ liệu là để kiểm chứng mô hình vì việc mô hình được chọn rất khớp với tập dữ liệu đang có không có nghĩa là giả thuyết của ta là đúng mà có thể xảy ra tình huống dữ liệu thật lại không khớp.

Thông thường tập dữ liệu được chia thành 3 phần như sau:  Tập huấn luyện (Training set): Chiếm 60% dùng để học khi huấn luyện.  Tập kiểm chứng (Cross validation set): Chiếm 20%, dùng để kiểm chứng mô hình khi huấn luyện.  Tập kiểm tra (Test set): Chiếm 20%, dùng để kiểm tra xem mô hình đã phù hợp hay chưa sau khi huấn luyện. Bước 4: Đánh giá và sử dụng mô hình Một khi việc huấn luyện hoàn tất, để xem mô hình có hoạt động tốt hay không bằng cách dùng bước đánh giá.

Đây là bước dùng đến bộ dữ liệu mới hoặc dữ liệu thay thế. Việc đánh giá cho phép chúng ta kiểm tra mô hình với những dữ liệu chưa từng được dùng cho huấn luyện. Sau khi hoàn thành phần đánh giá, để cải thiện việc huấn luyện mô hình có thể thực hiện điều này bằng cách điều chỉnh thông số. Có một vài thông số được chúng ta ngầm giả định khi tiến hành huấn luyện và giờ là lúc để quay lại, kiểm tra những giả định đó và thử những giá trị khác để kiểm chứng mô hình.

Sau khi đã hoàn thành với những bước trên, cuối cùng có thể sử dụng mô hình để giải quyết hoàn toàn bài toán đặt ra. Nội dung tiếp theo, chúng tôi tập trung mô tả mạng Neural – mô hình học lấy ý tưởng từ hệ thống kết nối các tế bào thần kinh trong bộ não người. e 10 Chúng tôi nhận thấy rằng mạng Neural là thành phần cơ bản có liên quan mật thiết tới học sâu và là cơ sở cho mô hình học sâu.1 Mô hình nơron nhân tạo Trước tiên chúng ta quan tâm đến đơn vị cơ sở trong mạng là các nơron nhân tạo (gọi tắt là nơron hay nút). Mỗi nơron là một đơn vị xử lý cơ sở mà các thành phần liên quan bao gồm: Tập các tín hiệu vào x j tương ứng với các trọng số w j , j  1,.

n Bộ tích hợp các tín hiệu vào Net   w j x j  w, x  j 1 Hàm kích hoạt f để biến đổi giá trị thu được từ bộ tích hợp. 1  e x Một mạng chỉ gồm các đầu vào và một số nơron đầu ra được gọi là một mạng nơron đơn (perceptron). Mạng nơron đơn có khả năng tính toán yếu, e 11 chẳng hạn không mô hình được hàm XOR. Vì vậy, cần phải sử dụng mạng nơron nhiều lớp (multi-layer neural network).2 Mô hình mạng nơron nhân tạo Tín Tín Hiệu Hiệu vào ra Lớp vào Lớp ẩn 1 Lớp ẩn 2 Lớp ra Có nhiều cấu trúc khác nhau của mạng nơron.

Ở đây, chúng ta quan tâm đến mạng nơron nhiều lớp truyền thẳng, tức về mặt toán học cấu trúc là là đồ thị có hướng không có chu trình.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ "Nghiên Cứu Mô Hình GAN Và Ứng Dụng Trong Chuyển Đổi Ảnh" khám phá sâu sắc về mô hình Generative Adversarial Networks (GAN) và cách thức ứng dụng của nó trong việc chuyển đổi ảnh. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về lý thuyết GAN mà còn trình bày các ứng dụng thực tiễn, giúp người đọc hiểu rõ hơn về tiềm năng của công nghệ này trong lĩnh vực xử lý hình ảnh. Đặc biệt, luận văn còn nêu bật những thách thức và cơ hội trong việc phát triển các mô hình GAN, từ đó mở ra hướng nghiên cứu mới cho các nhà khoa học và sinh viên trong lĩnh vực công nghệ thông tin.

Nếu bạn muốn tìm hiểu thêm về các nghiên cứu liên quan, hãy tham khảo các tài liệu như tóm tắt luận án tiến sĩ tiếng việt ncs nguyễn khắc tấn, nơi bạn có thể tìm thấy những nghiên cứu sâu hơn về các mô hình học máy. Bên cạnh đó, luận văn thạc sĩ xây dựng thuật toán trích xuất số phách cũng sẽ cung cấp cho bạn cái nhìn về ứng dụng của thuật toán trong giáo dục. Cuối cùng, luận văn đề xuất các giải pháp nhằm nâng cao hiệu quả áp dụng sẽ giúp bạn hiểu rõ hơn về cách tối ưu hóa các mô hình nghiên cứu trong thực tiễn. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn mở rộng kiến thức và khám phá sâu hơn về các chủ đề liên quan.

#Luận văn Thạc sĩ

#xử lý ảnh

#ứng dụng AI

#nghiên cứu AI

#Generative Adversarial Networks

#Chuyển đổi ảnh

Chủ đề

nghiên cứu khoa học

Trí tuệ nhân tạo

Xử lý hình ảnh