Nghiên cứu Luận văn Thạc sĩ: LCCycleGAN trong điều chỉnh độ sáng ảnh để tăng cường dữ liệu

Luận văn thạc sĩ nghiên cứu máy tính lccyclegan điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Chuyên ngành

Khoa Khoa Học và Kỹ Thuật Máy Tính

Người đăng

Ẩn danh

Thể loại

thesis

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

Lời cảm ơn

Lời cam đoan

1. Chương 1: Giới thiệu

1.1. Giới thiệu đề tài

1.2. Lý do chọn đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. Chương 2: Công trình liên quan

2.1. Hệ thống mạng GAN

2.2. Chuyển kiểu ảnh với tập dữ liệu huấn luyện theo cặp - Pix2pix

2.3. Chuyển kiểu ảnh với tập dữ liệu huấn luyện không theo cặp - CycleGAN

2.4. Chuyển kiểu ảnh sử dụng mạng học sâu

3. Chương 3: Mô hình đề xuất

3.1. Tổng quan

3.2. Cấu trúc của hệ thống LCcycleGAN

3.2.1. Thành phần cơ sở từ CycleGAN

3.2.2. Thành phần cải tiến

3.2.3. Luồng chạy của LCcycleGAN

4. Chương 4: Hiện thực

4.1. Chuẩn bị dữ liệu

5. Chương 5: Đánh giá

5.1. Đánh giá định tính

5.2. Đánh giá định lượng

6. Chương 6: Tổng kết

6.1. Kết luận

6.2. Đánh giá ưu, nhược điểm

6.2.1. Nhược điểm

6.3. Hướng phát triển trong tương lai

Tài liệu

Tóm tắt

I. Giới thiệu

Luận văn này nghiên cứu về tăng cường dữ liệu ảnh thông qua mô hình LCCycleGAN, một hệ thống mạng học sâu. Mục tiêu chính của nghiên cứu là tạo ra khả năng chuyển đổi ảnh từ ban ngày sang ban đêm và ngược lại, nhằm tăng cường dữ liệu hình ảnh cho các bài toán phát hiện vật thể. Trong bối cảnh công nghệ học sâu và trí tuệ nhân tạo ngày càng phát triển, việc tối ưu hóa dữ liệu huấn luyện trong các điều kiện khắc nghiệt là rất quan trọng. Nghiên cứu này không chỉ cung cấp giải pháp cho bài toán cụ thể mà còn mở ra hướng đi mới trong việc ứng dụng CycleGAN cho các bài toán khác nhau trong lĩnh vực khoa học máy tính.

1.1. Lý do chọn đề tài

Sự phát triển của thị giác máy tính đã cho phép giải quyết nhiều vấn đề trong cuộc sống hàng ngày. Tuy nhiên, việc thiếu dữ liệu trong các điều kiện khắc nghiệt, như ánh sáng yếu vào ban đêm, đã tạo ra thách thức lớn cho các mô hình học máy. Nghiên cứu này được khởi nguồn từ nhu cầu thực tế trong việc nhận diện biển báo giao thông vào ban đêm tại Việt Nam, nơi mà dữ liệu huấn luyện cho các tình huống này rất hạn chế. Mục tiêu là xây dựng một hệ thống có khả năng tăng cường hình ảnh, từ đó giúp các mô hình hoạt động hiệu quả hơn trong mọi điều kiện ánh sáng.

II. Công trình liên quan

Chương này tổng hợp các nghiên cứu trước đây liên quan đến CycleGAN và các mô hình học sâu khác. CycleGAN đã cho thấy khả năng chuyển đổi giữa các kiểu ảnh mà không cần dữ liệu huấn luyện theo cặp. Điều này có nghĩa là mô hình có thể học từ hai tập dữ liệu không liên quan, giúp giảm thiểu chi phí trong việc thu thập và gán nhãn dữ liệu. Nghiên cứu cũng chỉ ra rằng các mô hình như Pix2pix yêu cầu dữ liệu theo cặp, điều này làm cho việc thu thập dữ liệu trở nên khó khăn hơn. Sự phát triển của các mô hình như LCCycleGAN không chỉ cải thiện khả năng chuyển đổi kiểu ảnh mà còn giúp tăng cường dữ liệu hình ảnh trong các tình huống thực tế, mở ra nhiều ứng dụng mới trong khoa học máy tính.

2.1. Hệ thống mạng GAN

Hệ thống GAN (Generative Adversarial Network) đã trở thành một trong những phương pháp chủ đạo trong việc tạo ra hình ảnh mới. GAN hoạt động dựa trên cơ chế đối kháng giữa hai mạng: một mạng sinh và một mạng phân biệt. Mạng sinh tạo ra hình ảnh mới, trong khi mạng phân biệt đánh giá tính chân thực của hình ảnh đó. Thông qua quá trình huấn luyện, hai mạng này cải thiện lẫn nhau, giúp tạo ra hình ảnh có chất lượng cao hơn. Tuy nhiên, việc huấn luyện GAN có thể gặp nhiều khó khăn, đặc biệt trong việc hội tụ và duy trì chất lượng hình ảnh. Những thách thức này đã dẫn đến sự phát triển của các mô hình cải tiến như CycleGAN, giúp giải quyết vấn đề chuyển đổi kiểu ảnh mà không cần dữ liệu theo cặp.

III. Mô hình đề xuất LCCycleGAN

Mô hình LCCycleGAN được đề xuất trong nghiên cứu này nhằm cải thiện khả năng chuyển đổi giữa các kiểu ảnh. Mô hình này không chỉ kế thừa những ưu điểm của CycleGAN mà còn tích hợp các cải tiến để tối ưu hóa quá trình chuyển đổi. Cụ thể, LCCycleGAN sử dụng hai hàm ánh xạ để đảm bảo rằng hình ảnh sau khi chuyển đổi từ kiểu này sang kiểu khác vẫn giữ được cấu trúc nguyên bản. Điều này giúp giảm thiểu độ sai lệch giữa ảnh đầu vào và đầu ra, đồng thời tăng cường khả năng nhận diện cho các bài toán phát hiện vật thể trong điều kiện ánh sáng yếu. Mô hình này đã chứng minh được hiệu quả qua các thử nghiệm thực tế, cho thấy khả năng tăng cường dữ liệu hình ảnh một cách hiệu quả.

3.1. Cấu trúc của LCCycleGAN

Cấu trúc của LCCycleGAN bao gồm hai mạng sinh và hai mạng phân biệt, tương tự như CycleGAN. Tuy nhiên, mô hình này đã được cải tiến để tối ưu hóa quá trình ánh xạ giữa các kiểu ảnh. Các thành phần của mô hình được thiết kế để tối ưu hóa hàm mất mát, từ đó nâng cao chất lượng hình ảnh sinh ra. Qua các thí nghiệm, mô hình đã cho thấy khả năng chuyển đổi hình ảnh giữa ban ngày và ban đêm với độ chân thực cao, mở ra hướng đi mới cho việc ứng dụng trong lĩnh vực thị giác máy tính.

IV. Đánh giá và thực nghiệm

Chương này trình bày các kết quả đánh giá mô hình LCCycleGAN thông qua các phương pháp định tính và định lượng. Qua các thử nghiệm thực tế, mô hình đã cho thấy khả năng sinh ra hình ảnh có chất lượng cao, gần giống với ảnh gốc. Đặc biệt, khả năng nhận diện biển báo giao thông trong điều kiện ánh sáng yếu đã được cải thiện rõ rệt nhờ vào việc sử dụng LCCycleGAN. Điều này chứng minh rằng mô hình không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn trong việc phát triển các hệ thống thị giác máy tính hiện đại.

4.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng LCCycleGAN có khả năng tạo ra hình ảnh với độ chân thực cao, đồng thời cải thiện khả năng nhận diện trong điều kiện ánh sáng yếu. Các chỉ số đánh giá cho thấy mô hình hoạt động hiệu quả hơn so với các phương pháp trước đây như Pix2pix và CycleGAN. Điều này không chỉ giúp giảm thiểu chi phí thu thập dữ liệu mà còn nâng cao độ chính xác trong các bài toán nhận diện, mở ra nhiều cơ hội ứng dụng trong thực tế.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính lccyclegan điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và thị giác máy tính thế kỷ 21, việc xây dựng các hệ thống nhận diện vật thể trong điều kiện ánh sáng khắc nghiệt như ban đêm vẫn còn nhiều thách thức. Theo ước tính, các hệ thống nhận diện hiện tại thường hoạt động hiệu quả trong điều kiện ánh sáng ban ngày nhưng giảm mạnh hiệu suất khi gặp ảnh chụp vào ban đêm hoặc trong điều kiện thiếu sáng. Vấn đề này đặc biệt nghiêm trọng trong các ứng dụng như xe tự hành, nơi mà sự sai sót có thể dẫn đến hậu quả nghiêm trọng. Mục tiêu nghiên cứu của luận văn là phát triển một hệ thống tăng cường dữ liệu bằng cách chuyển đổi ảnh ban ngày sang ban đêm và ngược lại, nhằm cải thiện khả năng nhận diện vật thể trong điều kiện ánh sáng đa dạng. Phạm vi nghiên cứu tập trung vào ảnh thu thập từ camera hành trình trên các tuyến đường phố Việt Nam trong khoảng thời gian gần đây, với dữ liệu bao gồm hơn 38.000 ảnh ban ngày và ban đêm. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác của các mô hình phát hiện vật thể, đặc biệt là trong điều kiện ánh sáng yếu, góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong giao thông thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng đối kháng sinh (GAN) và chuyển đổi kiểu ảnh không theo cặp (CycleGAN). GAN là mô hình học sâu gồm hai mạng sinh và phân biệt đối đầu nhau nhằm tạo ra ảnh giả có phân phối gần với ảnh thật. CycleGAN mở rộng GAN bằng cách sử dụng hai hàm ánh xạ ngược chiều, đảm bảo tính nhất quán chu trình, giúp chuyển đổi ảnh giữa hai miền mà không cần dữ liệu huấn luyện theo cặp. Ba khái niệm trọng tâm bao gồm:

Mạng sinh (Generator): tạo ảnh mới dựa trên ảnh đầu vào và điều kiện mức sáng.
Mạng phân biệt (Discriminator): phân biệt ảnh thật và ảnh giả để cải thiện chất lượng ảnh sinh.
Vector histogram mức sáng: đại diện phân phối mức sáng của ảnh, được sử dụng làm điều kiện đầu vào cho mạng sinh nhằm điều chỉnh độ sáng ảnh đầu ra.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập VNstreetcam1 gồm 38.917 ảnh thu thập từ 42 video camera hành trình tại các tuyến đường phố Việt Nam, chia thành 18.946 ảnh ban ngày và 19.971 ảnh ban đêm. Tập VNstreetcam2 gồm khoảng 10.000 ảnh được gắn nhãn bounding box cho các phương tiện giao thông lớn như ô tô, xe tải, xe bus, dùng để đánh giá mô hình phát hiện vật thể. Phương pháp phân tích bao gồm xây dựng mô hình LCcycleGAN - sự kết hợp giữa CycleGAN và GAN có điều kiện, cho phép điều chỉnh mức sáng ảnh đầu ra thông qua vector histogram. Quá trình huấn luyện sử dụng thuật toán Adam với hệ số học 0, tối ưu bộ nhớ bằng cách tận dụng ảnh đầu vào làm điều kiện cho nhánh huấn luyện đối nghịch. Timeline nghiên cứu trải dài từ thu thập dữ liệu, xây dựng mô hình, huấn luyện đến đánh giá định tính và định lượng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Khả năng điều chỉnh mức sáng ảnh đầu ra: LCcycleGAN cho phép sinh ảnh với nhiều mức sáng khác nhau dựa trên vector histogram điều kiện, thể hiện qua các ảnh đầu ra có độ sáng biến đổi rõ rệt, trong khi các mô hình chuyển kiểu ảnh học sâu khác chỉ tạo ra ảnh nhợt nhạt hoặc không rõ ràng về thời điểm trong ngày.
Tăng cường dữ liệu hiệu quả: Khi huấn luyện mạng YoloV3 với tập dữ liệu tăng cường bằng LCcycleGAN, độ chính xác trung bình (AP) trong phát hiện phương tiện giao thông tăng từ 0.1375 lên 0.3844 trong trường hợp chỉ có ảnh ban ngày ban đầu, vượt trội hơn so với tăng cường bằng CycleGAN nguyên gốc.
Hiệu suất phát hiện vật thể ổn định: LCcycleGAN không làm giảm độ chính xác phát hiện vật thể trong ảnh ban ngày, ngược lại còn cải thiện đáng kể so với mô hình không tăng cường hoặc tăng cường bằng CycleGAN.
Tốc độ sinh ảnh nhanh: LCcycleGAN có thể sinh khoảng 13 ảnh mỗi giây trên cấu hình máy tính tiêu chuẩn, nhanh hơn nhiều so với các phương pháp chuyển kiểu ảnh học sâu truyền thống mất khoảng 40 giây cho một ảnh.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do LCcycleGAN kết hợp thành công ưu điểm của CycleGAN và GAN có điều kiện, cho phép huấn luyện trên dữ liệu không theo cặp đồng thời điều chỉnh được mức sáng ảnh đầu ra. So với các nghiên cứu trước đây, LCcycleGAN khắc phục được hạn chế về yêu cầu dữ liệu theo cặp và khả năng điều chỉnh ánh sáng linh hoạt. Việc sử dụng vector histogram mức sáng làm điều kiện đầu vào giúp mô hình học được phân phối ánh sáng đặc trưng của từng thời điểm trong ngày, từ đó tạo ra ảnh sinh có tính chân thực cao hơn. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác AP của YoloV3 trên các tập dữ liệu khác nhau, cũng như bảng thống kê tốc độ sinh ảnh và chất lượng ảnh đầu ra. Tuy nhiên, ảnh sinh ra vẫn còn hiện tượng nhòe và một số vật thể bị mờ, cần cải tiến thêm trong tương lai.

Đề xuất và khuyến nghị

Mở rộng hàm trích xuất đặc trưng điều kiện: Thử nghiệm thêm các hàm trích xuất đặc trưng khác ngoài histogram mức sáng như histogram kênh màu khác, phân bố màu sắc hoặc đặc trưng vật thể để tăng tính đa dạng và chính xác của ảnh sinh.
Phát triển cơ chế kiểm tra chất lượng ảnh sinh: Xây dựng hệ thống kiểm tra tự động để đảm bảo vật thể gốc vẫn được giữ nguyên trong ảnh tăng cường, giảm thiểu nhiễu và ảnh mờ gây ảnh hưởng đến quá trình huấn luyện mạng phát hiện vật thể.
Cải thiện chuyển đổi ảnh từ tối sang sáng: Tập trung nghiên cứu và tối ưu hóa mô hình để nâng cao chất lượng ảnh sinh trong điều kiện ánh sáng yếu, khắc phục hiện tượng nhòe và mất chi tiết vật thể.
Triển khai ứng dụng thực tế và mở rộng dữ liệu: Áp dụng LCcycleGAN vào các hệ thống nhận diện vật thể trong giao thông thông minh tại Việt Nam và các khu vực có điều kiện ánh sáng phức tạp, đồng thời mở rộng tập dữ liệu với các điều kiện thời tiết khác nhau để nâng cao tính ứng dụng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển AI trong thị giác máy tính: Có thể áp dụng mô hình LCcycleGAN để cải thiện chất lượng dữ liệu huấn luyện, đặc biệt trong các bài toán nhận diện vật thể dưới điều kiện ánh sáng đa dạng.
Chuyên gia phát triển hệ thống xe tự hành: Nghiên cứu giải pháp tăng cường dữ liệu nhằm nâng cao độ chính xác nhận diện vật thể trong điều kiện ban đêm hoặc thiếu sáng, giảm thiểu rủi ro tai nạn.
Nhà quản lý dự án công nghệ giao thông thông minh: Tham khảo phương pháp tăng cường dữ liệu hiệu quả, tiết kiệm chi phí thu thập và gắn nhãn dữ liệu thực tế trong các dự án phát triển hệ thống giám sát và điều khiển giao thông.
Sinh viên và học viên cao học chuyên ngành khoa học máy tính, trí tuệ nhân tạo: Học tập mô hình kết hợp GAN và CycleGAN có điều kiện, phương pháp huấn luyện và đánh giá mô hình trong thực tế, từ đó phát triển các đề tài nghiên cứu liên quan.

Câu hỏi thường gặp

LCcycleGAN khác gì so với CycleGAN truyền thống?
LCcycleGAN bổ sung điều kiện mức sáng dưới dạng vector histogram vào mạng sinh, cho phép điều chỉnh độ sáng ảnh đầu ra linh hoạt, trong khi CycleGAN chỉ tạo ảnh với mức sáng cố định và không thể tùy chỉnh.
Tại sao cần tăng cường dữ liệu bằng chuyển đổi ảnh ngày - đêm?
Dữ liệu ban đêm thường rất hạn chế và khó thu thập, việc chuyển đổi ảnh ngày sang đêm giúp tạo thêm dữ liệu huấn luyện đa dạng, cải thiện khả năng nhận diện vật thể trong điều kiện ánh sáng yếu.
Phương pháp huấn luyện LCcycleGAN có yêu cầu dữ liệu theo cặp không?
Không, LCcycleGAN được thiết kế để huấn luyện trên dữ liệu không theo cặp, phù hợp với thực tế khi dữ liệu ảnh ngày và đêm không có ảnh tương ứng chính xác.
Hiệu quả của LCcycleGAN được đánh giá như thế nào?
Hiệu quả được đánh giá qua độ chính xác trung bình (AP) của mạng YoloV3 trong phát hiện phương tiện giao thông, với kết quả tăng từ 0.1375 lên 0.3844 khi sử dụng dữ liệu tăng cường bằng LCcycleGAN.
LCcycleGAN có thể áp dụng cho các bài toán chuyển đổi kiểu ảnh khác không?
Có, với việc mở rộng các hàm trích xuất đặc trưng điều kiện, LCcycleGAN có thể được điều chỉnh để chuyển đổi giữa nhiều kiểu ảnh khác nhau, không chỉ giới hạn ở chuyển đổi ngày - đêm.

Kết luận

Đã đề xuất thành công mô hình LCcycleGAN, kết hợp CycleGAN và GAN có điều kiện, cho phép chuyển đổi ảnh ngày - đêm với điều chỉnh mức sáng linh hoạt.
Xây dựng và sử dụng tập dữ liệu VNstreetcam gồm gần 39.000 ảnh ban ngày và ban đêm, phục vụ huấn luyện và đánh giá mô hình.
LCcycleGAN giúp tăng đáng kể độ chính xác phát hiện vật thể của mạng YoloV3, vượt trội hơn so với các phương pháp tăng cường dữ liệu truyền thống.
Mô hình có tốc độ sinh ảnh nhanh, phù hợp với ứng dụng thực tế và không đòi hỏi hạ tầng máy tính quá mạnh.
Hướng phát triển tiếp theo bao gồm mở rộng hàm trích xuất đặc trưng, cải thiện chất lượng ảnh sinh và phát triển cơ chế kiểm tra ảnh tăng cường.

Next steps: Tiếp tục thử nghiệm các đặc trưng điều kiện mới, hoàn thiện mô hình để giảm hiện tượng nhòe ảnh, triển khai ứng dụng thực tế trong hệ thống xe tự hành và giao thông thông minh.

Các nhà nghiên cứu và phát triển công nghệ thị giác máy tính được khuyến khích áp dụng và mở rộng mô hình LCcycleGAN trong các dự án tăng cường dữ liệu và chuyển đổi kiểu ảnh đa dạng.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu 1 Giới thiệu đề tài Thế ký 21, trí tuệ nhân tạo, thị giác máy tính ngày càng phát triển, ngày càng giải quyết được nhiều bài toán hơn và được áp dụng vào hầu hết các lĩnh vực trong đời sống xã hội. Tuy vậy, vẫn có nhiều vấn đề còn tồn đọng cần giải quyết nhưng không nhiều người chú ý đến nó, chẳng hạn như chúng ta thường đặt câu hỏi "hệ thống có giải quyết được vấn đề này hay không?" mà đôi khi quên mất câu hỏi "hệ thống này có giải quyết được vấn đề này trong điều kiện khắc nghiệt hay không?". Nhiều người hẳn sẽ nghĩ "Những trường hợp quá khó đối với mô hình thì bỏ qua, dù sao đây chỉ là những trường hợp hiếm gặp!". Nhưng thực tế thì không thể như vậy, lấy ví dụ cho một hệ thống xe tự lái, hệ thống này hoạt động hoàn hảo trong thời tiết nắng đẹp, nhưng đến tối thì chỉ đôi khi xãy ra lỗi.

Lỗ hổng này có thể gây ra hàng loạt tai nạn nếu người sử dụng không chú ý hoặc chủ quan khi sử dụng vào buổi tối, và nhà sản xuất cũng không thể đưa ra khuyến cáo “Không bật tính năng vào buổi tối” được. Vậy làm sao giải quyết vấn đề này? Cách đơn giản nhất là thu thập thêm dữ liệu vào ban đêm và đưa vào mạng để huấn luyện. Nhưng đúng là nói thì dễ hơn làm, việc thu thập thêm dữ liệu có rất nhiều khó khăn: • Điều kiện khắc nghiệt đó có dễ dàng cho việc thu thập dữ liệu không? Nếu như không phải là trời tối mà là trời mưa bão thì sao? Hình 1: Một ví dụ ảnh được chụp trong điều kiện khắc nghiệt (buổi tối, thiếu ảnh sáng, phương tiện chạy chiều ngược lại bật đèn pha). LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu Trang 10/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính • Dữ liệu mới thu thập có cùng một phân phối với dữ liệu ban đầu hay không? Ví dụ toàn bộ dữ liệu ban đầu được thu thập ở Nhật Bản, thì ta buộc phải thu thập dữ liệu buổi tối cũng ở Nhật Bản, không thể thay thế bằng dữ liệu ở Việt Nam.

• Sau khi thu thập xong dữ liệu, chi phí để gắn nhãn cho dữ liệu mới là bao nhiêu? Chúng ta có đủ nguồn lực để gắn nhãn cho các bài toán khó như phân vùng, đếm số người tham gia giao thông hay không? Từ những câu hỏi khó đó, nhất thiết phải có một phương án nào đó để tạo thêm dữ liệu trong điều kiện khắc nghiệt mà không phải tốn quá nhiều công sức, hay nói một cách khác là “phải có một hệ thống tăng cường dữ liệu để hỗ trợ cho các hệ thống thị giác máy tính khác”. 2 Lý do chọn đề tài Các bất cập đã đề cập bên trên vô tình xuất hiện khi tôi khi giải quyết bài toán “nhận diện biển báo giao thông ở Việt Nam”, yêu cầu đặt ra lúc bấy giờ là làm sao để hệ thống có thể hoạt động tốt cả ban ngày và ban đêm, việc tìm kiếm một tập dữ liệu ban ngày trên mạng là dễ dàng, nhưng tìm kiếm một tập dữ liệu có ban đêm và đủ khó cho điều kiện ở Việt Nam là vô vọng, tập dữ liệu thường chỉ chứa một phần nhỏ ảnh được chụp vào buổi tối, các ảnh này cũng có chất lượng tương đối tốt, trong khi thực tế thì camera còn phải đối mặt với các vấn đề khác như pha ngược chiều, thiếu chiếu sáng,. Từ những phân tích ở trên, tôi đã quyết định xây dựng một hệ thống giúp tăng cường dữ liệu bằng cách chuyển ảnh từ ngày sang đêm và ngược lại, ảnh đầu ra phải hiệu chỉnh được và quan trọng là có thể áp dụng được với bất kỳ tập dữ liệu theo cặp hoặc không theo cặp1. Khi áp dụng hệ thống này, ảnh sinh ra thường có cấu trúc tương tự ảnh đầu vào, vì vậy ta có thể tái sử dụng nhãn, từ đó giảm được chi phí gắn nhãn lại toàn bộ tập dữ liệu.

3 Phạm vi đề tài Do bài toán được xác định trong lúc giải quyết bài toán phát hiện vật thể nhằm phục vụ cho xe tự hành và yêu cầu đặt ra là nhận diện ảnh vào buổi tối, vì vậy phạm vi đề tài cũng được giới hạn trong các vấn đề liên quan: • Xây dựng một hệ thống chuyển ảnh từ ngày sang đêm và ngược lại. • Ảnh trong tập dữ liệu là ảnh từ camera hành trình trên xe hơi và được quay ở đường phố Việt Nam. 1 Tập dữ liệu theo cặp nghĩa là với mỗi ảnh huấn luyện trong tập thì cần phải có một ảnh nhãn để hệ thống học theo. Tuy nhiên do bài toán cần giải quyết là tăng cường dữ liệu, vì vậy, tập huấn luyện chỉ có nhãn cho bài toán nhận diện biển báo, hoàn toàn không có nhãn cho bài toán chuyển kiểu ảnh.

LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu Trang 11/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính Hình 2: Các vật thể trong ảnh vào buổi tối đều khó nhận diện hơn so với ảnh vào buổi sáng (phương tiện giao thông, biển báo giao thông), tuy nhiên dữ liệu huấn luyện trong điều kiện này lại vô cùng hạn chế. 4 Quá trình thực hiện Quá trình thực hiện luận văn này trải qua 4 bước: Bước 1: Tìm hiểu những công liên quan đến vấn đề chuyển kiểu ản: Công việc đầu tiên là tìm hiểu các công trình liên quan, các phương pháp trước đây để giải quyết bài toán chuyển kiểu ảnh này. Bước 2: Xây dựng hệ thống chuyển kiểu ảnh từ kiến thức đã thu thập được theo yêu cầu đã đặt ra: Hệ thống xây dựng phải vừa giải quyết được yêu cầu đã đặt ra, vừa phải có đặc tính nổi bật hơn các công trình trước đây Bước 3: Thu thập dữ liệu để huấn luyện: Sau khi xây dựng xong hệ thống thì cần có một tập dữ liệu vừa để huấn luyện, vừa để đánh giá. Bước 4: Đánh giá kết quả: đánh giá mô hình của mình bằng cả phươn pháp định tính và định lượng qua đó rút ra được ưu, nhược điểm và hướng phát triển tương lai của hệ thống.

LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu Trang 12/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính Chương 2 Công trình liên quan Vấn đề chuyển kiểu ảnh không phải mới, từ trước đến nay đã có nhiều phương pháp khác nhau để giải bài toán này, các phương pháp này có thể được chia làm ba hướng chính: • Hệ thống GAN có điều kiện: bao gồm các hệ thống GAN cần dữ liệu huấn luyện thep cặp, ứng với mỗi ảnh trong tập huấn luyện thì cần phải có một ảnh đầu ra và một ảnh kèm theo. • Hệ thống GAN huấn luyện với dữ liệu không theo cặp điển hình là CycleGAN[4]. Nhóm này bao gồm các hệ thống GAN chuyển kiểu giữa các nhóm ảnh, các mạng sinh có nhiệm vụ sinh ra một ảnh mới từ một ảnh đã có sao cho ảnh mới phải có cùng phân bố với nhóm ảnh yêu cầu. • Các mô hình không sử dụng GAN nổi bật có thể kể đến là hệ thống Chuyển kiểu ảnh sử dụng mạng học sâu [2, 5, 3].

Bên cạnh sử dụng phương pháp học sâu, còn có những phương pháp cổ điển khác như [6], tuy nhiên những phương pháp này thường khó đạt được độ chân thực như các hệ thống sử dụng kỹ thuật học sâu. 1 Hệ thống mạng GAN [1] Hệ thống GAN là một hệ thống mạng học sâu có thể sinh ra ảnh theo một yêu cầu nhất định. GAN được huấn luyện dựa trên cơ chế giữa người nghệ sĩ và nhà phê bình. Người nghệ sĩ là một mô hình sinh ảnh (Generator model) có nhiệm vụ tạo ra ảnh đầu ra, nhà phê thì có thể được hiểu là một mạng phân lớp (còn được gọi là Discrinimator model) có nhiệm vụ đánh giá chất lượng ảnh do người nghệ sĩ tạo ra2.

Hai mạng này được huấn luyện thay phiên nhau theo hai nhiệm vụ cực đại khả năng mạng phê bình nhận diện được ảnh thật hay giả và cực đại khả năng đánh lừa của mạng sinh ảnh. Hàm mất mát của mạng GAN có thể được biểu diễn như sau: L = Ex [logD(x)] + Ez [log(1 − D(G(z)))] (1) Với G(x) là hàm sinh ảnh và D(x) là hàm phê bình đưa ra nhận định về ảnh do mạng sinh sinh ra. Hàm lỗi trên cho thấy đặc tính đặc biệt của mạng GAN là một mạng trong hệ thống cố gắng cực đại hóa hàm lỗi và mạng còn lại cố gắng cực tiểu hóa hàm lỗi đó. Về ưu điểm, hệ thống GAN có thể giải quyết được rất nhiều bài toán về ảnh nói riêng và về tạo ra cái mới nói chung.

Chỉ cần xây dựng hệ thống hợp lý thì GAN có thể huấn luyện ra một mạng sinh có thể tạo hầu hết mọi thứ (Tạo ra ảnh mới, tô màu ảnh đã có, phục chế ảnh đã hư hỏng,. 2 Cụ thể mạng Discriminator này có nhiệm vụ phân biệt một ảnh bất kỳ là ảnh từ tập train hay ảnh được tạo ra bởi Generator LCcycleGAN: Điều chỉnh độ sáng ảnh hỗ trợ tăng cường dữ liệu Trang 13/53 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính Hình 3: Cấu trúc của một hệ thống GAN bao gồm mạng sinh (Generator) và mạng phân biệt (Discriminator), hai mạng này đối đầu với nhau trong quá trình huấn luyện để đạt được mục tiêu cuối cùng là mạng sinh có thể tạo ra hình ảnh có phân bố gần với ảnh trong tập huấn luyện 4 Về nhược điểm, mạng sinh trong hệ thống GAN thường khó hội tụ khi huấn luyện, ảnh được tạo ra có thể bị biến dạng. Bên cạnh đó, ngay cả khi mạng đã hội tụ thì vẫn đối mặt với nhiều vấn đề như “sụp đổ miền ảnh3 ”. Hệ thống GAN qua thời gian đã phát triển thành nhiều hướng khác nhau tương ứng là vô số ứng dụng khác nhau.

Tuy vậy, trong hướng “chuyển giao kiểu ảnh” này có một vài công trình tiêu biểu như Pix2pix[7], CycleGAN sẽ được trình bày sau đây. 2 Chuyển kiểu ảnh với tập dữ liệu huấn luyện theo cặp - Pix2pix Pix2pix[7] là một hệ thống GAN có thể thực hiện nhiều chức năng khác nhau và không chỉ bao hàm chuyển giao kiểu ảnh, một số có thể nhắc đến như tô màu ảnh, phục chế ảnh, tạo ra ảnh có độ phân giải siêu cao, .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Nghiên cứu Luận văn Thạc sĩ: LCCycleGAN trong điều chỉnh độ sáng ảnh để tăng cường dữ liệu" của tác giả Phan Tấn Phúc, dưới sự hướng dẫn của Tiến Sĩ Nguyễn Đức Dũng tại Trường Đại Học Bách Khoa Tp.Hồ Chí Minh, trình bày về việc ứng dụng mô hình LCCycleGAN nhằm điều chỉnh độ sáng của hình ảnh với mục đích tăng cường dữ liệu. Nghiên cứu này không chỉ giúp cải thiện chất lượng hình ảnh mà còn mở rộng khả năng xử lý dữ liệu trong các ứng dụng học máy, từ đó mang lại nhiều lợi ích cho các lĩnh vực như nhận diện hình ảnh và phân tích dữ liệu.

Để tìm hiểu thêm về các ứng dụng và phương pháp trong lĩnh vực khoa học máy tính, bạn có thể tham khảo các bài viết liên quan như Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi mà các kỹ thuật học máy được áp dụng để tối ưu hóa quá trình lựa chọn dữ liệu. Bài viết Ứng Dụng Tổng Hợp Ảnh Chiều Sâu Trong Khoa Học Máy Tính cũng đưa ra những góc nhìn thú vị về việc sử dụng ảnh trong các ứng dụng đa hướng nhìn. Cuối cùng, bài viết Nhận Dạng Giọng Nói Tiếng Việt Qua Học Sâu và Mô Hình Ngôn Ngữ sẽ cung cấp thêm thông tin về ứng dụng của các công nghệ học sâu trong nhận diện giọng nói. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn mở rộng kiến thức và hiểu biết trong lĩnh vực khoa học máy tính.

#khoa học máy tính

#Nghiên cứu thạc sĩ

#tăng cường dữ liệu ảnh

#điều chỉnh độ sáng ảnh

#mạng đối kháng sinh điều kiện

Chủ đề

Nghiên cứu và phát triển trong khoa học máy tính

Công nghệ AI và Machine Learning

Xử lý ảnh và Tăng cường dữ liệu

Ứng dụng của Mạng đối kháng trong Thực tiễn

Nghiên cứu Luận văn Thạc sĩ: LCCycleGAN trong điều chỉnh độ sáng ảnh để tăng cường dữ liệu

Lời cảm ơn

Lời cam đoan

1. Chương 1: Giới thiệu

1.1. Giới thiệu đề tài

1.2. Lý do chọn đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. Chương 2: Công trình liên quan

2.1. Hệ thống mạng GAN

2.2. Chuyển kiểu ảnh với tập dữ liệu huấn luyện theo cặp - Pix2pix

2.3. Chuyển kiểu ảnh với tập dữ liệu huấn luyện không theo cặp - CycleGAN

2.4. Chuyển kiểu ảnh sử dụng mạng học sâu

3. Chương 3: Mô hình đề xuất

3.1. Tổng quan

3.2. Cấu trúc của hệ thống LCcycleGAN

3.2.1. Thành phần cơ sở từ CycleGAN

3.2.2. Thành phần cải tiến

3.2.3. Luồng chạy của LCcycleGAN

4. Chương 4: Hiện thực

4.1. Chuẩn bị dữ liệu

5. Chương 5: Đánh giá

5.1. Đánh giá định tính

5.2. Đánh giá định lượng

6. Chương 6: Tổng kết

6.1. Kết luận

6.2. Đánh giá ưu, nhược điểm

6.2.1. Nhược điểm

6.3. Hướng phát triển trong tương lai

Tài liệu

I. Giới thiệu

1.1. Lý do chọn đề tài

II. Công trình liên quan

2.1. Hệ thống mạng GAN

III. Mô hình đề xuất LCCycleGAN

3.1. Cấu trúc của LCCycleGAN

IV. Đánh giá và thực nghiệm

4.1. Kết quả thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phan Tấn Phúc

Người hướng dẫn: Tiến Sĩ Nguyễn Đức Dũng

Trường học: Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Chuyên ngành: Khoa Khoa Học và Kỹ Thuật Máy Tính

Đề tài: Tăng cường Dữ Liệu Ảnh Với LCCycleGAN: Nghiên Cứu Thạc Sĩ Khoa Học Máy Tính

Loại tài liệu: thesis

Năm xuất bản: 2021

Địa điểm: Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm