Luận văn thạc sĩ về học sâu cho bài toán siêu phân giải ảnh

2024

114
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF THESIS

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu bài toán siêu phân giải ảnh

1.2. Đề tài và động lực chọn đề tài

1.3. Phạm vi và mục tiêu của luận văn

1.4. Đóng góp của luận văn này

1.5. Cấu trúc căn bản của luận văn này

2. CHƯƠNG 2: TỔNG QUAN TÀI LIỆU

2.1. Khảo sát các nghiên cứu về siêu phân giải ảnh

2.1.1. Theo kiến trúc mô hình

2.1.2. Theo số lượng đầu vào được xử lý

2.1.3. Theo hiểu biết về loại suy giảm chất lượng trong ảnh đầu vào

2.2. Kỹ thuật đặt lại tham số

2.3. Khảo sát một số loại phép tính tập trung

2.3.1. Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ

2.3.2. Phép tính tập trung hiệu quả

2.4. Các độ đo của bài toán siêu phân giải ảnh

2.4.1. Phân loại các độ đo đánh giá chất lượng ảnh

2.4.2. Một số độ đo được sử dụng trong luận văn này

2.4.2.1. Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu
2.4.2.2. Chỉ số tương đồng về cấu trúc

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Mô hình cơ sở

3.2. Mô hình đề xuất

3.2.1. Các thành phần cơ bản của REAGen

3.2.1.1. Lớp tích chập đặt lại tham số được
3.2.1.2. Lớp tích chập theo từng kênh và đặt lại tham số được
3.2.1.3. Lớp tích chập theo từng điểm và đặt lại tham số được
3.2.1.4. Lớp tích chập tách ra được theo chiều sâu và đặt lại tham số được
3.2.1.5. Khối tích chập cơ bản
3.2.1.6. Khối trọng tâm của phép tính tập trung hiệu quả
3.2.1.7. Khối tập trung hiệu quả với kết nối dư thừa
3.2.1.8. Khối phóng to

3.2.2. Mạng tạo sinh đề xuất

3.2.3. Mạng phân biệt đề xuất

3.3. Quy trình huấn luyện đề xuất

4. CHƯƠNG 4: THỰC NGHIỆM VÀ THẢO LUẬN

4.1. Chi tiết quá trình thực nghiệm

4.1.1. Điều kiện phần cứng

4.1.2. Các bộ dữ liệu

4.1.3. Tiền xử lý dữ liệu

4.1.4. Các siêu tham số của quá trình huấn luyện mô hình

4.1.5. Cách đo thời gian xử lý

4.2. Kết quả huấn luyện

4.2.1. Đánh giá qua các độ đo chất lượng ảnh

4.2.2. Đánh giá trực tiếp qua các ảnh đầu ra

4.2.3. Đánh giá qua thời gian xử lý

4.2.3.1. Tác động của chuẩn hóa theo lô và chuẩn hóa theo lớp
4.2.3.2. Tác động của các kết nối dư thừa skip-EA-res trong khối res-EA
4.2.3.3. Tác động của việc chọn các trọng số φ và γ

4.3. Kết quả đạt được

4.4. Kế hoạch phát triển

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu về siêu phân giải ảnh

Bài toán siêu phân giải ảnh (image super-resolution) là quá trình tạo ra một phiên bản với độ phân giải cao hơn từ một ảnh đầu vào có độ phân giải thấp. Vấn đề này không chỉ mang tính chất lý thuyết mà còn có rất nhiều ứng dụng thực tiễn trong các lĩnh vực như y tế, giám sát an ninh và giải trí. Đặc biệt, trong bối cảnh hiện đại, nhu cầu về ảnh chất lượng cao ngày càng gia tăng, dẫn đến việc phát triển các phương pháp mới nhằm nâng cao chất lượng ảnh. Học sâu đã trở thành một công cụ mạnh mẽ trong việc giải quyết bài toán này, với khả năng khai thác các đặc điểm phức tạp trong dữ liệu hình ảnh. Những mô hình như SwiftSRGAN đã cho thấy tiềm năng của machine learning trong việc cải thiện độ chính xác và tốc độ xử lý ảnh. Tuy nhiên, mô hình này cũng gặp phải những hạn chế nhất định, đặc biệt là trong việc duy trì độ chân thực của ảnh đầu ra.

II. Tổng quan về các phương pháp hiện tại

Trong nghiên cứu về siêu phân giải ảnh, đã có nhiều phương pháp được đề xuất, phân loại theo kiến trúc mô hình, số lượng đầu vào và các kỹ thuật xử lý. Những phương pháp này bao gồm các mô hình truyền thống như bicubic interpolation đến các mô hình hiện đại dựa trên neural networks. Deep learning đã mang lại những bước đột phá, với các mô hình như SRCNN, VDSR, và gần đây là các mạng đối kháng sinh như GANs. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, nhưng điểm chung là đều hướng tới việc tạo ra ảnh có chất lượng tốt hơn. Các nghiên cứu gần đây cũng đã chỉ ra rằng việc áp dụng thuật toán học sâu có thể cải thiện đáng kể chất lượng ảnh đầu ra, đồng thời giảm thiểu thời gian xử lý.

III. Đề xuất mô hình REASRGAN

Luận văn này đề xuất một mô hình mới có tên gọi REASRGAN, được xây dựng dựa trên nền tảng của SwiftSRGAN nhưng cải tiến hơn về mặt chất lượng ảnh. Mô hình này sử dụng kỹ thuật đặt lại tham sốphép tính tập trung hiệu quả để tối ưu hóa quá trình xử lý ảnh. Kỹ thuật đặt lại tham số cho phép mô hình sử dụng một phiên bản phức tạp hơn trong quá trình huấn luyện và đơn giản hóa khi kiểm thử, đảm bảo rằng đầu ra của cả hai phiên bản là như nhau. Bên cạnh đó, việc áp dụng phép tính tập trung hiệu quả giúp cải thiện độ chính xác mà không làm tăng quá nhiều độ phức tạp tính toán. Mô hình REASRGAN đã được kiểm tra trên nhiều bộ dữ liệu công khai và cho thấy kết quả vượt trội so với các mô hình trước đó, đặc biệt khi phóng to ảnh lên 4 lần.

IV. Kết quả và thảo luận

Kết quả thử nghiệm cho thấy mô hình REASRGAN đạt được chất lượng ảnh đầu ra tốt hơn so với SwiftSRGAN trên nhiều bộ dữ liệu. Cụ thể, khi phóng to ảnh lên 2 lần, REASRGAN cho thấy sự cải thiện rõ rệt về cả PSNRSSIM. Tuy nhiên, mô hình cũng gặp phải một số hạn chế như thời gian xử lý tăng gấp vài lần so với SwiftSRGAN. Điều này cho thấy cần có những cải tiến tiếp theo để tối ưu hóa tốc độ mà không làm giảm chất lượng ảnh. Ứng dụng học sâu trong siêu phân giải ảnh không chỉ giúp nâng cao chất lượng hình ảnh mà còn mở ra nhiều cơ hội nghiên cứu mới trong lĩnh vực computer visionimage processing.

10/01/2025

Bài viết "Luận văn thạc sĩ về học sâu cho bài toán siêu phân giải ảnh" của tác giả Trần Hồ Minh Thông, dưới sự hướng dẫn của TS. Nguyễn Đức Dũng tại Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh, nghiên cứu cách tiếp cận học sâu trong việc cải thiện chất lượng hình ảnh thông qua siêu phân giải. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp học sâu hiện đại mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực xử lý ảnh, từ đó mở ra cơ hội cho những nghiên cứu tiếp theo trong ngành công nghệ thông tin.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và học sâu, bạn có thể tìm hiểu thêm qua các bài viết sau: Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, bài viết này cũng đề cập đến những ứng dụng của học sâu trong nhận diện giọng nói, và Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, nơi khám phá việc áp dụng học sâu cho nhận diện giọng nói trong tiếng Việt. Những tài liệu này sẽ giúp bạn mở rộng thêm kiến thức về các ứng dụng của học sâu trong lĩnh vực công nghệ thông tin.