Nghiên cứu Luận văn Thạc sĩ: LCCycleGAN trong điều chỉnh độ sáng ảnh để tăng cường dữ liệu

2021

55
1
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Luận văn này nghiên cứu về tăng cường dữ liệu ảnh thông qua mô hình LCCycleGAN, một hệ thống mạng học sâu. Mục tiêu chính của nghiên cứu là tạo ra khả năng chuyển đổi ảnh từ ban ngày sang ban đêm và ngược lại, nhằm tăng cường dữ liệu hình ảnh cho các bài toán phát hiện vật thể. Trong bối cảnh công nghệ học sâutrí tuệ nhân tạo ngày càng phát triển, việc tối ưu hóa dữ liệu huấn luyện trong các điều kiện khắc nghiệt là rất quan trọng. Nghiên cứu này không chỉ cung cấp giải pháp cho bài toán cụ thể mà còn mở ra hướng đi mới trong việc ứng dụng CycleGAN cho các bài toán khác nhau trong lĩnh vực khoa học máy tính.

1.1. Lý do chọn đề tài

Sự phát triển của thị giác máy tính đã cho phép giải quyết nhiều vấn đề trong cuộc sống hàng ngày. Tuy nhiên, việc thiếu dữ liệu trong các điều kiện khắc nghiệt, như ánh sáng yếu vào ban đêm, đã tạo ra thách thức lớn cho các mô hình học máy. Nghiên cứu này được khởi nguồn từ nhu cầu thực tế trong việc nhận diện biển báo giao thông vào ban đêm tại Việt Nam, nơi mà dữ liệu huấn luyện cho các tình huống này rất hạn chế. Mục tiêu là xây dựng một hệ thống có khả năng tăng cường hình ảnh, từ đó giúp các mô hình hoạt động hiệu quả hơn trong mọi điều kiện ánh sáng.

II. Công trình liên quan

Chương này tổng hợp các nghiên cứu trước đây liên quan đến CycleGAN và các mô hình học sâu khác. CycleGAN đã cho thấy khả năng chuyển đổi giữa các kiểu ảnh mà không cần dữ liệu huấn luyện theo cặp. Điều này có nghĩa là mô hình có thể học từ hai tập dữ liệu không liên quan, giúp giảm thiểu chi phí trong việc thu thập và gán nhãn dữ liệu. Nghiên cứu cũng chỉ ra rằng các mô hình như Pix2pix yêu cầu dữ liệu theo cặp, điều này làm cho việc thu thập dữ liệu trở nên khó khăn hơn. Sự phát triển của các mô hình như LCCycleGAN không chỉ cải thiện khả năng chuyển đổi kiểu ảnh mà còn giúp tăng cường dữ liệu hình ảnh trong các tình huống thực tế, mở ra nhiều ứng dụng mới trong khoa học máy tính.

2.1. Hệ thống mạng GAN

Hệ thống GAN (Generative Adversarial Network) đã trở thành một trong những phương pháp chủ đạo trong việc tạo ra hình ảnh mới. GAN hoạt động dựa trên cơ chế đối kháng giữa hai mạng: một mạng sinh và một mạng phân biệt. Mạng sinh tạo ra hình ảnh mới, trong khi mạng phân biệt đánh giá tính chân thực của hình ảnh đó. Thông qua quá trình huấn luyện, hai mạng này cải thiện lẫn nhau, giúp tạo ra hình ảnh có chất lượng cao hơn. Tuy nhiên, việc huấn luyện GAN có thể gặp nhiều khó khăn, đặc biệt trong việc hội tụ và duy trì chất lượng hình ảnh. Những thách thức này đã dẫn đến sự phát triển của các mô hình cải tiến như CycleGAN, giúp giải quyết vấn đề chuyển đổi kiểu ảnh mà không cần dữ liệu theo cặp.

III. Mô hình đề xuất LCCycleGAN

Mô hình LCCycleGAN được đề xuất trong nghiên cứu này nhằm cải thiện khả năng chuyển đổi giữa các kiểu ảnh. Mô hình này không chỉ kế thừa những ưu điểm của CycleGAN mà còn tích hợp các cải tiến để tối ưu hóa quá trình chuyển đổi. Cụ thể, LCCycleGAN sử dụng hai hàm ánh xạ để đảm bảo rằng hình ảnh sau khi chuyển đổi từ kiểu này sang kiểu khác vẫn giữ được cấu trúc nguyên bản. Điều này giúp giảm thiểu độ sai lệch giữa ảnh đầu vào và đầu ra, đồng thời tăng cường khả năng nhận diện cho các bài toán phát hiện vật thể trong điều kiện ánh sáng yếu. Mô hình này đã chứng minh được hiệu quả qua các thử nghiệm thực tế, cho thấy khả năng tăng cường dữ liệu hình ảnh một cách hiệu quả.

3.1. Cấu trúc của LCCycleGAN

Cấu trúc của LCCycleGAN bao gồm hai mạng sinh và hai mạng phân biệt, tương tự như CycleGAN. Tuy nhiên, mô hình này đã được cải tiến để tối ưu hóa quá trình ánh xạ giữa các kiểu ảnh. Các thành phần của mô hình được thiết kế để tối ưu hóa hàm mất mát, từ đó nâng cao chất lượng hình ảnh sinh ra. Qua các thí nghiệm, mô hình đã cho thấy khả năng chuyển đổi hình ảnh giữa ban ngày và ban đêm với độ chân thực cao, mở ra hướng đi mới cho việc ứng dụng trong lĩnh vực thị giác máy tính.

IV. Đánh giá và thực nghiệm

Chương này trình bày các kết quả đánh giá mô hình LCCycleGAN thông qua các phương pháp định tính và định lượng. Qua các thử nghiệm thực tế, mô hình đã cho thấy khả năng sinh ra hình ảnh có chất lượng cao, gần giống với ảnh gốc. Đặc biệt, khả năng nhận diện biển báo giao thông trong điều kiện ánh sáng yếu đã được cải thiện rõ rệt nhờ vào việc sử dụng LCCycleGAN. Điều này chứng minh rằng mô hình không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn trong việc phát triển các hệ thống thị giác máy tính hiện đại.

4.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng LCCycleGAN có khả năng tạo ra hình ảnh với độ chân thực cao, đồng thời cải thiện khả năng nhận diện trong điều kiện ánh sáng yếu. Các chỉ số đánh giá cho thấy mô hình hoạt động hiệu quả hơn so với các phương pháp trước đây như Pix2pixCycleGAN. Điều này không chỉ giúp giảm thiểu chi phí thu thập dữ liệu mà còn nâng cao độ chính xác trong các bài toán nhận diện, mở ra nhiều cơ hội ứng dụng trong thực tế.

05/01/2025
Luận văn thạc sĩ khoa học máy tính lccyclegan điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính lccyclegan điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Nghiên cứu Luận văn Thạc sĩ: LCCycleGAN trong điều chỉnh độ sáng ảnh để tăng cường dữ liệu" của tác giả Phan Tấn Phúc, dưới sự hướng dẫn của Tiến Sĩ Nguyễn Đức Dũng tại Trường Đại Học Bách Khoa Tp.Hồ Chí Minh, trình bày về việc ứng dụng mô hình LCCycleGAN nhằm điều chỉnh độ sáng của hình ảnh với mục đích tăng cường dữ liệu. Nghiên cứu này không chỉ giúp cải thiện chất lượng hình ảnh mà còn mở rộng khả năng xử lý dữ liệu trong các ứng dụng học máy, từ đó mang lại nhiều lợi ích cho các lĩnh vực như nhận diện hình ảnh và phân tích dữ liệu.

Để tìm hiểu thêm về các ứng dụng và phương pháp trong lĩnh vực khoa học máy tính, bạn có thể tham khảo các bài viết liên quan như Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi mà các kỹ thuật học máy được áp dụng để tối ưu hóa quá trình lựa chọn dữ liệu. Bài viết Ứng Dụng Tổng Hợp Ảnh Chiều Sâu Trong Khoa Học Máy Tính cũng đưa ra những góc nhìn thú vị về việc sử dụng ảnh trong các ứng dụng đa hướng nhìn. Cuối cùng, bài viết Nhận Dạng Giọng Nói Tiếng Việt Qua Học Sâu và Mô Hình Ngôn Ngữ sẽ cung cấp thêm thông tin về ứng dụng của các công nghệ học sâu trong nhận diện giọng nói. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn mở rộng kiến thức và hiểu biết trong lĩnh vực khoa học máy tính.