Luận văn thạc sĩ về học sâu cho bài toán siêu phân giải ảnh

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia thành phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2024

114

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF THESIS

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu bài toán siêu phân giải ảnh

1.2. Đề tài và động lực chọn đề tài

1.3. Phạm vi và mục tiêu của luận văn

1.4. Đóng góp của luận văn này

1.5. Cấu trúc căn bản của luận văn này

2. CHƯƠNG 2: TỔNG QUAN TÀI LIỆU

2.1. Khảo sát các nghiên cứu về siêu phân giải ảnh

2.1.1. Theo kiến trúc mô hình

2.1.2. Theo số lượng đầu vào được xử lý

2.1.3. Theo hiểu biết về loại suy giảm chất lượng trong ảnh đầu vào

2.2. Kỹ thuật đặt lại tham số

2.3. Khảo sát một số loại phép tính tập trung

2.3.1. Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ

2.3.2. Phép tính tập trung hiệu quả

2.4. Các độ đo của bài toán siêu phân giải ảnh

2.4.1. Phân loại các độ đo đánh giá chất lượng ảnh

2.4.2. Một số độ đo được sử dụng trong luận văn này

2.4.2.1. Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu

2.4.2.2. Chỉ số tương đồng về cấu trúc

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Mô hình cơ sở

3.2. Mô hình đề xuất

3.2.1. Các thành phần cơ bản của REAGen

3.2.1.1. Lớp tích chập đặt lại tham số được

3.2.1.2. Lớp tích chập theo từng kênh và đặt lại tham số được

3.2.1.3. Lớp tích chập theo từng điểm và đặt lại tham số được

3.2.1.4. Lớp tích chập tách ra được theo chiều sâu và đặt lại tham số được

3.2.1.5. Khối tích chập cơ bản

3.2.1.6. Khối trọng tâm của phép tính tập trung hiệu quả

3.2.1.7. Khối tập trung hiệu quả với kết nối dư thừa

3.2.1.8. Khối phóng to

3.2.2. Mạng tạo sinh đề xuất

3.2.3. Mạng phân biệt đề xuất

3.3. Quy trình huấn luyện đề xuất

4. CHƯƠNG 4: THỰC NGHIỆM VÀ THẢO LUẬN

4.1. Chi tiết quá trình thực nghiệm

4.1.1. Điều kiện phần cứng

4.1.2. Các bộ dữ liệu

4.1.3. Tiền xử lý dữ liệu

4.1.4. Các siêu tham số của quá trình huấn luyện mô hình

4.1.5. Cách đo thời gian xử lý

4.2. Kết quả huấn luyện

4.2.1. Đánh giá qua các độ đo chất lượng ảnh

4.2.2. Đánh giá trực tiếp qua các ảnh đầu ra

4.2.3. Đánh giá qua thời gian xử lý

4.2.3.1. Tác động của chuẩn hóa theo lô và chuẩn hóa theo lớp

4.2.3.2. Tác động của các kết nối dư thừa skip-EA-res trong khối res-EA

4.2.3.3. Tác động của việc chọn các trọng số φ và γ

4.3. Kết quả đạt được

4.4. Kế hoạch phát triển

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu về siêu phân giải ảnh

Bài toán siêu phân giải ảnh (image super-resolution) là quá trình tạo ra một phiên bản với độ phân giải cao hơn từ một ảnh đầu vào có độ phân giải thấp. Vấn đề này không chỉ mang tính chất lý thuyết mà còn có rất nhiều ứng dụng thực tiễn trong các lĩnh vực như y tế, giám sát an ninh và giải trí. Đặc biệt, trong bối cảnh hiện đại, nhu cầu về ảnh chất lượng cao ngày càng gia tăng, dẫn đến việc phát triển các phương pháp mới nhằm nâng cao chất lượng ảnh. Học sâu đã trở thành một công cụ mạnh mẽ trong việc giải quyết bài toán này, với khả năng khai thác các đặc điểm phức tạp trong dữ liệu hình ảnh. Những mô hình như SwiftSRGAN đã cho thấy tiềm năng của machine learning trong việc cải thiện độ chính xác và tốc độ xử lý ảnh. Tuy nhiên, mô hình này cũng gặp phải những hạn chế nhất định, đặc biệt là trong việc duy trì độ chân thực của ảnh đầu ra.

II. Tổng quan về các phương pháp hiện tại

Trong nghiên cứu về siêu phân giải ảnh, đã có nhiều phương pháp được đề xuất, phân loại theo kiến trúc mô hình, số lượng đầu vào và các kỹ thuật xử lý. Những phương pháp này bao gồm các mô hình truyền thống như bicubic interpolation đến các mô hình hiện đại dựa trên neural networks. Deep learning đã mang lại những bước đột phá, với các mô hình như SRCNN, VDSR, và gần đây là các mạng đối kháng sinh như GANs. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, nhưng điểm chung là đều hướng tới việc tạo ra ảnh có chất lượng tốt hơn. Các nghiên cứu gần đây cũng đã chỉ ra rằng việc áp dụng thuật toán học sâu có thể cải thiện đáng kể chất lượng ảnh đầu ra, đồng thời giảm thiểu thời gian xử lý.

III. Đề xuất mô hình REASRGAN

Luận văn này đề xuất một mô hình mới có tên gọi REASRGAN, được xây dựng dựa trên nền tảng của SwiftSRGAN nhưng cải tiến hơn về mặt chất lượng ảnh. Mô hình này sử dụng kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả để tối ưu hóa quá trình xử lý ảnh. Kỹ thuật đặt lại tham số cho phép mô hình sử dụng một phiên bản phức tạp hơn trong quá trình huấn luyện và đơn giản hóa khi kiểm thử, đảm bảo rằng đầu ra của cả hai phiên bản là như nhau. Bên cạnh đó, việc áp dụng phép tính tập trung hiệu quả giúp cải thiện độ chính xác mà không làm tăng quá nhiều độ phức tạp tính toán. Mô hình REASRGAN đã được kiểm tra trên nhiều bộ dữ liệu công khai và cho thấy kết quả vượt trội so với các mô hình trước đó, đặc biệt khi phóng to ảnh lên 4 lần.

IV. Kết quả và thảo luận

Kết quả thử nghiệm cho thấy mô hình REASRGAN đạt được chất lượng ảnh đầu ra tốt hơn so với SwiftSRGAN trên nhiều bộ dữ liệu. Cụ thể, khi phóng to ảnh lên 2 lần, REASRGAN cho thấy sự cải thiện rõ rệt về cả PSNR và SSIM. Tuy nhiên, mô hình cũng gặp phải một số hạn chế như thời gian xử lý tăng gấp vài lần so với SwiftSRGAN. Điều này cho thấy cần có những cải tiến tiếp theo để tối ưu hóa tốc độ mà không làm giảm chất lượng ảnh. Ứng dụng học sâu trong siêu phân giải ảnh không chỉ giúp nâng cao chất lượng hình ảnh mà còn mở ra nhiều cơ hội nghiên cứu mới trong lĩnh vực computer vision và image processing.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính cách tiếp cận học sâu cho bài toán siêu phân giải ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Siêu phân giải ảnh (image super resolution - SR) là quá trình tạo ra phiên bản ảnh có độ phân giải cao hơn từ ảnh đầu vào có độ phân giải thấp, đồng thời giữ nguyên nội dung và đặc điểm cấu trúc của ảnh gốc. Bài toán này có ứng dụng rộng rãi trong nhiều lĩnh vực như y học, giám sát, truyền thông và xử lý ảnh vệ tinh. Theo ước tính, nhu cầu về ảnh độ phân giải cao ngày càng tăng do sự phát triển của các thiết bị hiển thị và yêu cầu phân tích hình ảnh chính xác hơn. Tuy nhiên, việc thu thập ảnh chất lượng cao trực tiếp gặp nhiều hạn chế về công nghệ và chi phí, ví dụ như trong y học, các thiết bị MRI hay CT có giới hạn về độ phân giải và thời gian chụp lâu gây khó chịu cho bệnh nhân.

Mục tiêu của luận văn là phát triển một mô hình học sâu mới cho bài toán siêu phân giải ảnh một ảnh (single-image super resolution - SISR), tập trung vào việc nâng cao chất lượng ảnh đầu ra với độ chân thực và độ chính xác cao hơn so với các mô hình hiện có. Phạm vi nghiên cứu tập trung vào ảnh thường với nội dung đa dạng, bao gồm con người, động vật, cảnh quan, trong khoảng thời gian nghiên cứu từ tháng 9 đến tháng 12 năm 2023 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số đánh giá chất lượng ảnh như PSNR, SSIM và StairIQA, đồng thời cân bằng giữa độ chính xác về nội dung và độ chân thực theo cảm nhận của con người. Kết quả nghiên cứu có thể ứng dụng trong các hệ thống xử lý ảnh, y tế, truyền thông và các lĩnh vực đòi hỏi ảnh chất lượng cao.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Kỹ thuật đặt lại tham số (Reparameterization): Đây là kỹ thuật cho phép mô hình học sâu sử dụng kiến trúc phân nhánh phức tạp trong giai đoạn huấn luyện để tăng khả năng hội tụ, sau đó thu gọn thành kiến trúc phẳng đơn giản hơn trong giai đoạn kiểm thử nhằm giảm chi phí tính toán mà vẫn đảm bảo đầu ra không đổi. Kỹ thuật này giúp cân bằng giữa hiệu năng và hiệu quả tính toán.
Phép tính tập trung hiệu quả (Efficient Attention - EA): Là một dạng xấp xỉ của phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ (scaled dot-product attention - SDPA) với độ phức tạp tính toán tuyến tính thay vì bình phương. EA giúp mở rộng vùng tiếp thu (receptive field) của mô hình ra toàn bộ ảnh mà không làm tăng đáng kể chi phí tính toán.

Các khái niệm chính bao gồm:

Mạng tạo sinh đối nghịch (Generative Adversarial Networks - GAN): Kiến trúc gồm mạng tạo sinh (generator) và mạng phân biệt (discriminator) cạnh tranh để tạo ra ảnh siêu phân giải chân thực hơn.
Độ đo chất lượng ảnh không tham khảo (Blind Image Quality Assessment - BIQA): Độ đo đánh giá chất lượng ảnh mà không cần ảnh gốc, trong đó StairIQA là một mô hình BIQA dựa trên mạng ResNet với kiến trúc bậc thang, mô phỏng cảm nhận của con người.
Các chỉ số đánh giá ảnh: PSNR (peak signal to noise ratio), SSIM (structural similarity index measure) và StairIQA.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là các bộ dữ liệu công khai thường dùng trong bài toán siêu phân giải ảnh, bao gồm các ảnh có độ phân giải thấp và ảnh gốc chất lượng cao để đánh giá kết quả. Quá trình nghiên cứu được thực hiện theo timeline từ tháng 9 đến tháng 12 năm 2023.

Phương pháp phân tích bao gồm:

Xây dựng mô hình REASRGAN dựa trên mô hình cơ sở SwiftSRGAN, tích hợp kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả vào mạng tạo sinh (REAGen).
Thay thế mạng phân biệt của SwiftSRGAN bằng mạng nơ-ron của độ đo StairIQA (READis) để nâng cao khả năng đánh giá độ chân thực ảnh theo cảm nhận con người.
Áp dụng quy trình huấn luyện đa giai đoạn nhằm cân bằng sức mạnh giữa REAGen và READis, cũng như giữa độ chính xác và độ chân thực của ảnh đầu ra.
Đánh giá kết quả qua các chỉ số PSNR, SSIM, StairIQA và thời gian xử lý trên các bộ dữ liệu thử nghiệm.

Cỡ mẫu huấn luyện và kiểm thử được lựa chọn dựa trên các bộ dữ liệu chuẩn, đảm bảo tính đại diện và độ tin cậy của kết quả. Phương pháp chọn mẫu là ngẫu nhiên từ các bộ dữ liệu công khai. Phân tích kết quả được thực hiện thông qua so sánh các chỉ số đánh giá và quan sát trực quan ảnh đầu ra.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện chất lượng ảnh đầu ra: Mô hình REASRGAN cho kết quả PSNR và SSIM cao hơn so với SwiftSRGAN trên nhiều bộ dữ liệu khi phóng to ảnh lên 2 lần, với mức tăng khoảng 1-2 dB về PSNR và cải thiện SSIM từ 0.01 đến 0.03. Khi phóng to lên 4 lần, REASRGAN vượt trội hơn đáng kể, với PSNR tăng khoảng 2-3 dB và SSIM tăng 0.03-0.05.
Độ chân thực theo cảm nhận con người: Độ đo StairIQA cho thấy REASRGAN tạo ra ảnh có điểm số cao hơn SwiftSRGAN từ 5% đến 10%, phản ánh ảnh đầu ra thân thiện hơn với cảm nhận thị giác con người.
Thời gian xử lý: REASRGAN có thời gian xử lý tăng gấp 3-4 lần so với SwiftSRGAN do kiến trúc phức tạp hơn và việc áp dụng kỹ thuật đặt lại tham số. Ví dụ, với ảnh kích thước 640×360, thời gian xử lý của REASRGAN là khoảng 120 ms, trong khi SwiftSRGAN chỉ mất khoảng 30-40 ms.
Hiệu ứng phụ trong ảnh đầu ra: Một số ảnh đầu ra của REASRGAN xuất hiện các hiệu ứng xấu như nhiễu nhẹ hoặc các vùng méo mó nhỏ, tuy nhiên không ảnh hưởng nhiều đến tổng thể chất lượng ảnh.

Thảo luận kết quả

Việc tích hợp kỹ thuật đặt lại tham số giúp mô hình REASRGAN hội tụ tốt hơn trong quá trình huấn luyện, đồng thời giữ nguyên kích thước mô hình khi kiểm thử, góp phần nâng cao chất lượng ảnh đầu ra. Phép tính tập trung hiệu quả mở rộng vùng tiếp thu toàn ảnh với độ phức tạp tính toán tuyến tính, giúp mô hình nắm bắt được các mối quan hệ xa trong ảnh, từ đó cải thiện chi tiết và độ chân thực.

So với các nghiên cứu trước đây như SwiftSRGAN, REASRGAN đã cân bằng tốt hơn giữa độ chính xác và độ chân thực, khắc phục nhược điểm của SwiftSRGAN là ảnh đầu ra thiếu chân thực hoặc sai lệch chi tiết. Kết quả này phù hợp với xu hướng phát triển các mô hình GAN siêu phân giải hiện đại, đồng thời tận dụng được ưu điểm của các kỹ thuật đặt lại tham số và attention hiệu quả.

Tuy nhiên, thời gian xử lý tăng lên là một hạn chế cần được cải thiện trong các nghiên cứu tiếp theo để ứng dụng thực tế hiệu quả hơn. Các hiệu ứng xấu nhỏ trong ảnh đầu ra cũng cho thấy mô hình vẫn còn tiềm năng để tối ưu thêm về mặt ổn định và giảm nhiễu.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh PSNR, SSIM và StairIQA giữa REASRGAN và SwiftSRGAN trên các bộ dữ liệu khác nhau, cùng bảng tổng hợp thời gian xử lý và các quan sát về hiệu ứng ảnh đầu ra.

Đề xuất và khuyến nghị

Tối ưu hóa thời gian xử lý: Áp dụng các kỹ thuật nén mô hình, giảm số lượng tham số không cần thiết và tăng cường kỹ thuật đặt lại tham số để giảm thời gian xử lý xuống dưới 2 lần so với SwiftSRGAN. Chủ thể thực hiện: nhóm nghiên cứu phát triển mô hình, thời gian: 6-12 tháng.
Cải tiến quy trình huấn luyện: Nghiên cứu thêm các chiến lược huấn luyện đa giai đoạn với trọng số hàm mất mát điều chỉnh linh hoạt nhằm giảm thiểu các hiệu ứng nhiễu và méo mó trong ảnh đầu ra. Chủ thể thực hiện: nhóm nghiên cứu, thời gian: 3-6 tháng.
Mở rộng ứng dụng: Thử nghiệm mô hình trên các loại ảnh đặc thù như ảnh y khoa, ảnh vệ tinh để đánh giá khả năng tổng quát và điều chỉnh mô hình phù hợp với từng lĩnh vực. Chủ thể thực hiện: các phòng thí nghiệm chuyên ngành, thời gian: 6 tháng.
Phát triển công cụ đánh giá tự động: Tích hợp các độ đo BIQA như StairIQA vào hệ thống kiểm thử tự động để giám sát chất lượng ảnh đầu ra trong quá trình huấn luyện và triển khai thực tế. Chủ thể thực hiện: nhóm phát triển phần mềm, thời gian: 3 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Luận văn cung cấp kiến thức sâu sắc về kỹ thuật học sâu, đặt lại tham số và attention hiệu quả trong bài toán siêu phân giải ảnh, hỗ trợ phát triển các mô hình mới.
Chuyên gia phát triển phần mềm xử lý ảnh: Các giải pháp và mô hình đề xuất có thể ứng dụng trong phát triển phần mềm nâng cao chất lượng ảnh, video, đặc biệt trong các ứng dụng y tế, giám sát và truyền thông.
Người làm trong lĩnh vực y tế và chẩn đoán hình ảnh: Mô hình siêu phân giải ảnh có thể giúp cải thiện chất lượng ảnh y khoa, hỗ trợ chẩn đoán chính xác hơn mà không cần thiết bị đắt tiền hoặc thời gian chụp lâu.
Doanh nghiệp công nghệ và startup: Các công ty phát triển sản phẩm liên quan đến xử lý ảnh, camera, thiết bị di động có thể áp dụng mô hình để nâng cao trải nghiệm người dùng với ảnh và video chất lượng cao.

Câu hỏi thường gặp

Siêu phân giải ảnh là gì và tại sao quan trọng?
Siêu phân giải ảnh là kỹ thuật tạo ảnh có độ phân giải cao hơn từ ảnh gốc độ phân giải thấp, giúp cải thiện chất lượng hình ảnh trong nhiều lĩnh vực như y tế, giám sát và truyền thông. Ví dụ, trong y học, ảnh siêu phân giải giúp bác sĩ chẩn đoán chính xác hơn.
Mô hình REASRGAN khác gì so với SwiftSRGAN?
REASRGAN tích hợp kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả, giúp cải thiện chất lượng ảnh đầu ra về độ chính xác và độ chân thực so với SwiftSRGAN, mặc dù thời gian xử lý tăng lên.
Kỹ thuật đặt lại tham số có lợi ích gì?
Kỹ thuật này cho phép mô hình phức tạp hơn trong huấn luyện để tăng khả năng học, nhưng khi kiểm thử lại thu gọn thành mô hình đơn giản hơn, giúp giảm chi phí tính toán mà vẫn giữ nguyên kết quả.
Phép tính tập trung hiệu quả giúp gì cho mô hình?
Phép tính này mở rộng vùng tiếp thu toàn ảnh với độ phức tạp tính toán tuyến tính, giúp mô hình nắm bắt mối quan hệ xa trong ảnh mà không làm tăng đáng kể chi phí tính toán.
Làm thế nào để đánh giá chất lượng ảnh siêu phân giải?
Các chỉ số phổ biến gồm PSNR, SSIM (cần ảnh gốc để so sánh) và StairIQA (không cần ảnh gốc, mô phỏng cảm nhận con người). Ví dụ, StairIQA giúp đánh giá độ chân thực của ảnh đầu ra theo cảm nhận thị giác.

Kết luận

Đã phát triển thành công mô hình REASRGAN, cải tiến từ SwiftSRGAN bằng kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả, nâng cao chất lượng ảnh siêu phân giải.
Mô hình đạt được cải thiện rõ rệt về PSNR, SSIM và StairIQA trên các bộ dữ liệu chuẩn, đặc biệt khi phóng to ảnh lên 4 lần.
Thời gian xử lý tăng gấp 3-4 lần so với mô hình cơ sở, là điểm cần tối ưu trong nghiên cứu tiếp theo.
Quy trình huấn luyện đa giai đoạn giúp cân bằng giữa độ chính xác và độ chân thực của ảnh đầu ra.
Đề xuất các hướng phát triển tiếp theo bao gồm tối ưu hóa thời gian xử lý, mở rộng ứng dụng và phát triển công cụ đánh giá tự động.

Luận văn mở ra cơ hội nghiên cứu sâu hơn về các kỹ thuật học sâu trong siêu phân giải ảnh, đồng thời khuyến khích ứng dụng thực tiễn trong nhiều lĩnh vực. Độc giả và nhà nghiên cứu được mời tiếp cận và phát triển các giải pháp dựa trên nền tảng này để nâng cao chất lượng hình ảnh trong tương lai.

Bài viết "Luận văn thạc sĩ về học sâu cho bài toán siêu phân giải ảnh" của tác giả Trần Hồ Minh Thông, dưới sự hướng dẫn của TS. Nguyễn Đức Dũng tại Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh, nghiên cứu cách tiếp cận học sâu trong việc cải thiện chất lượng hình ảnh thông qua siêu phân giải. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp học sâu hiện đại mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực xử lý ảnh, từ đó mở ra cơ hội cho những nghiên cứu tiếp theo trong ngành công nghệ thông tin.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và học sâu, bạn có thể tìm hiểu thêm qua các bài viết sau: Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, bài viết này cũng đề cập đến những ứng dụng của học sâu trong nhận diện giọng nói, và Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, nơi khám phá việc áp dụng học sâu cho nhận diện giọng nói trong tiếng Việt. Những tài liệu này sẽ giúp bạn mở rộng thêm kiến thức về các ứng dụng của học sâu trong lĩnh vực công nghệ thông tin.

#Luận văn Thạc sĩ

#khoa học máy tính

#xử lý ảnh

#siêu phân giải ảnh

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực AI

Công nghệ học sâu

Xử lý và phân tích ảnh

Ứng dụng của học sâu trong khoa học máy tính