I. Giới thiệu
Luận văn này nghiên cứu về tăng cường dữ liệu ảnh thông qua mô hình LCCycleGAN, một hệ thống mạng học sâu. Mục tiêu chính của nghiên cứu là tạo ra khả năng chuyển đổi ảnh từ ban ngày sang ban đêm và ngược lại, nhằm tăng cường dữ liệu hình ảnh cho các bài toán phát hiện vật thể. Trong bối cảnh công nghệ học sâu và trí tuệ nhân tạo ngày càng phát triển, việc tối ưu hóa dữ liệu huấn luyện trong các điều kiện khắc nghiệt là rất quan trọng. Nghiên cứu này không chỉ cung cấp giải pháp cho bài toán cụ thể mà còn mở ra hướng đi mới trong việc ứng dụng CycleGAN cho các bài toán khác nhau trong lĩnh vực khoa học máy tính.
1.1. Lý do chọn đề tài
Sự phát triển của thị giác máy tính đã cho phép giải quyết nhiều vấn đề trong cuộc sống hàng ngày. Tuy nhiên, việc thiếu dữ liệu trong các điều kiện khắc nghiệt, như ánh sáng yếu vào ban đêm, đã tạo ra thách thức lớn cho các mô hình học máy. Nghiên cứu này được khởi nguồn từ nhu cầu thực tế trong việc nhận diện biển báo giao thông vào ban đêm tại Việt Nam, nơi mà dữ liệu huấn luyện cho các tình huống này rất hạn chế. Mục tiêu là xây dựng một hệ thống có khả năng tăng cường hình ảnh, từ đó giúp các mô hình hoạt động hiệu quả hơn trong mọi điều kiện ánh sáng.
II. Công trình liên quan
Chương này tổng hợp các nghiên cứu trước đây liên quan đến CycleGAN và các mô hình học sâu khác. CycleGAN đã cho thấy khả năng chuyển đổi giữa các kiểu ảnh mà không cần dữ liệu huấn luyện theo cặp. Điều này có nghĩa là mô hình có thể học từ hai tập dữ liệu không liên quan, giúp giảm thiểu chi phí trong việc thu thập và gán nhãn dữ liệu. Nghiên cứu cũng chỉ ra rằng các mô hình như Pix2pix yêu cầu dữ liệu theo cặp, điều này làm cho việc thu thập dữ liệu trở nên khó khăn hơn. Sự phát triển của các mô hình như LCCycleGAN không chỉ cải thiện khả năng chuyển đổi kiểu ảnh mà còn giúp tăng cường dữ liệu hình ảnh trong các tình huống thực tế, mở ra nhiều ứng dụng mới trong khoa học máy tính.
2.1. Hệ thống mạng GAN
Hệ thống GAN (Generative Adversarial Network) đã trở thành một trong những phương pháp chủ đạo trong việc tạo ra hình ảnh mới. GAN hoạt động dựa trên cơ chế đối kháng giữa hai mạng: một mạng sinh và một mạng phân biệt. Mạng sinh tạo ra hình ảnh mới, trong khi mạng phân biệt đánh giá tính chân thực của hình ảnh đó. Thông qua quá trình huấn luyện, hai mạng này cải thiện lẫn nhau, giúp tạo ra hình ảnh có chất lượng cao hơn. Tuy nhiên, việc huấn luyện GAN có thể gặp nhiều khó khăn, đặc biệt trong việc hội tụ và duy trì chất lượng hình ảnh. Những thách thức này đã dẫn đến sự phát triển của các mô hình cải tiến như CycleGAN, giúp giải quyết vấn đề chuyển đổi kiểu ảnh mà không cần dữ liệu theo cặp.
III. Mô hình đề xuất LCCycleGAN
Mô hình LCCycleGAN được đề xuất trong nghiên cứu này nhằm cải thiện khả năng chuyển đổi giữa các kiểu ảnh. Mô hình này không chỉ kế thừa những ưu điểm của CycleGAN mà còn tích hợp các cải tiến để tối ưu hóa quá trình chuyển đổi. Cụ thể, LCCycleGAN sử dụng hai hàm ánh xạ để đảm bảo rằng hình ảnh sau khi chuyển đổi từ kiểu này sang kiểu khác vẫn giữ được cấu trúc nguyên bản. Điều này giúp giảm thiểu độ sai lệch giữa ảnh đầu vào và đầu ra, đồng thời tăng cường khả năng nhận diện cho các bài toán phát hiện vật thể trong điều kiện ánh sáng yếu. Mô hình này đã chứng minh được hiệu quả qua các thử nghiệm thực tế, cho thấy khả năng tăng cường dữ liệu hình ảnh một cách hiệu quả.
3.1. Cấu trúc của LCCycleGAN
Cấu trúc của LCCycleGAN bao gồm hai mạng sinh và hai mạng phân biệt, tương tự như CycleGAN. Tuy nhiên, mô hình này đã được cải tiến để tối ưu hóa quá trình ánh xạ giữa các kiểu ảnh. Các thành phần của mô hình được thiết kế để tối ưu hóa hàm mất mát, từ đó nâng cao chất lượng hình ảnh sinh ra. Qua các thí nghiệm, mô hình đã cho thấy khả năng chuyển đổi hình ảnh giữa ban ngày và ban đêm với độ chân thực cao, mở ra hướng đi mới cho việc ứng dụng trong lĩnh vực thị giác máy tính.
IV. Đánh giá và thực nghiệm
Chương này trình bày các kết quả đánh giá mô hình LCCycleGAN thông qua các phương pháp định tính và định lượng. Qua các thử nghiệm thực tế, mô hình đã cho thấy khả năng sinh ra hình ảnh có chất lượng cao, gần giống với ảnh gốc. Đặc biệt, khả năng nhận diện biển báo giao thông trong điều kiện ánh sáng yếu đã được cải thiện rõ rệt nhờ vào việc sử dụng LCCycleGAN. Điều này chứng minh rằng mô hình không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn trong việc phát triển các hệ thống thị giác máy tính hiện đại.
4.1. Kết quả thực nghiệm
Kết quả thực nghiệm cho thấy rằng LCCycleGAN có khả năng tạo ra hình ảnh với độ chân thực cao, đồng thời cải thiện khả năng nhận diện trong điều kiện ánh sáng yếu. Các chỉ số đánh giá cho thấy mô hình hoạt động hiệu quả hơn so với các phương pháp trước đây như Pix2pix và CycleGAN. Điều này không chỉ giúp giảm thiểu chi phí thu thập dữ liệu mà còn nâng cao độ chính xác trong các bài toán nhận diện, mở ra nhiều cơ hội ứng dụng trong thực tế.