## Tổng quan nghiên cứu

Phân đoạn thực thể ngụy trang là một lĩnh vực nghiên cứu mới và đầy thách thức trong ngành thị giác máy tính, với ứng dụng rộng rãi trong tìm kiếm, cứu hộ, bảo tồn động vật quý hiếm và các lĩnh vực quân sự, y khoa. Theo ước tính, các tập dữ liệu chuẩn như COD10K, NC4K, CAMO++ chứa hàng nghìn ảnh với hơn 1.000 thực thể ngụy trang được gán nhãn chi tiết, tuy nhiên việc thu thập và gán nhãn dữ liệu vẫn còn nhiều hạn chế do đặc thù khó nhận diện của các thực thể này trong môi trường tự nhiên. Luận văn tập trung giải quyết bài toán phân đoạn thực thể ngụy trang dựa trên khai thác các đặc trưng có tính phân biệt cao giữa thực thể và vùng nền, đồng thời đề xuất các phương pháp hiệu quả trong điều kiện ít dữ liệu huấn luyện. Mục tiêu chính là tăng cường đặc trưng biên cạnh để cải thiện độ chính xác phân đoạn và phát triển mô hình học sâu có khả năng học hiệu quả với số lượng mẫu hạn chế. Nghiên cứu được thực hiện trong phạm vi các tập dữ liệu chuẩn và đề xuất tập dữ liệu CAMO-FS mới, với thời gian nghiên cứu từ năm 2022 đến 2023 tại Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh. Kết quả nghiên cứu góp phần nâng cao hiệu quả các mô hình phân đoạn thực thể ngụy trang, hỗ trợ các ứng dụng thực tiễn trong bảo tồn và cứu hộ.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Thị giác máy tính và phân đoạn thực thể (Instance Segmentation):** Phân đoạn thực thể là tác vụ phân loại và xác định vị trí từng đối tượng riêng biệt trong ảnh ở cấp độ điểm ảnh, đòi hỏi mô hình hiểu sâu sắc về đặc trưng hình ảnh.
- **Đặc trưng biên cạnh (Contour Emphasis):** Biên cạnh vật thể chứa thông tin phân biệt quan trọng giúp mô hình nhận diện ranh giới giữa thực thể ngụy trang và nền, đặc biệt khi màu sắc và họa tiết tương đồng.
- **Học tương phản (Contrastive Learning):** Phương pháp học sâu không giám sát nhằm thu hẹp khoảng cách biểu diễn đặc trưng giữa các mẫu cùng lớp và đẩy xa các mẫu khác lớp, tăng cường khả năng phân biệt trong điều kiện ít dữ liệu.
- **Transformer trong thị giác máy tính:** Kiến trúc mạng học sâu dựa trên cơ chế self-attention, giúp mô hình học được các mối quan hệ toàn cục trong ảnh, cải thiện khả năng nhận diện các thực thể phức tạp.
- **Học ít dữ liệu (Few-shot Learning):** Kỹ thuật huấn luyện mô hình với số lượng mẫu hạn chế, sử dụng các cơ chế như bộ nhớ lưu trữ thực thể (Instance Memory Storage) và hàm mất mát ba thành phần (Instance Triplet Loss) để nâng cao hiệu quả học.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng các tập dữ liệu chuẩn về thực thể ngụy trang như COD10K (khoảng 10.000 ảnh), NC4K (4.121 ảnh), CAMO++ (2.695 ảnh), và tập dữ liệu đề xuất CAMO-FS (2.858 ảnh) được tinh chỉnh cho học ít dữ liệu.
- **Phương pháp phân tích:** 
  - Phát triển mô hình CE-OST dựa trên kiến trúc Transformer một giai đoạn, tích hợp khối tăng cường đặc trưng biên cạnh để cải thiện phân đoạn.
  - Đề xuất mô hình FS-CDIS hai giai đoạn, sử dụng học tương phản với hàm mất mát ba thành phần và bộ nhớ lưu trữ thực thể nhằm giải quyết bài toán trong điều kiện ít dữ liệu.
  - Thực nghiệm đánh giá độ chính xác trên các tập dữ liệu chuẩn, so sánh với các mô hình tiên tiến hiện có.
- **Timeline nghiên cứu:** 
  - Năm 2022: Thu thập và chuẩn bị dữ liệu, xây dựng mô hình CE-OST.
  - Năm 2023: Phát triển mô hình FS-CDIS, đề xuất tập dữ liệu CAMO-FS, thực nghiệm và đánh giá kết quả.
  - Cuối năm 2023: Hoàn thiện luận văn và báo cáo kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình CE-OST với khối tăng cường đặc trưng biên cạnh đạt độ chính xác phân đoạn trên tập CAMO++ cao hơn 5-7% so với các mô hình nền tảng như Mask RCNN và OSFormer.
- Mô hình FS-CDIS sử dụng học tương phản và bộ nhớ lưu trữ thực thể cải thiện độ chính xác phân đoạn trên tập CAMO-FS lên đến 10% so với các phương pháp học ít dữ liệu truyền thống.
- Tập dữ liệu CAMO-FS được đề xuất có quy mô 2.858 ảnh với 10 lớp ngữ nghĩa, cung cấp nguồn dữ liệu chất lượng cho nghiên cứu học ít dữ liệu trên thực thể ngụy trang.
- Thực nghiệm loại suy cho thấy mô hình FS-CDIS duy trì hiệu suất cao ngay cả khi số lượng mẫu huấn luyện giảm xuống còn 1-5 ảnh mỗi lớp, chứng minh khả năng học hiệu quả trong điều kiện dữ liệu hạn chế.

### Thảo luận kết quả

Các kết quả trên cho thấy việc tăng cường đặc trưng biên cạnh giúp mô hình phân biệt rõ ràng hơn ranh giới giữa thực thể ngụy trang và nền, đặc biệt trong các trường hợp ngụy trang tinh vi. Học tương phản kết hợp với bộ nhớ lưu trữ thực thể giúp mô hình tận dụng triệt để thông tin từ các mẫu ít ỏi, giảm thiểu hiện tượng overfitting và cải thiện khả năng tổng quát hóa. So với các nghiên cứu trước đây chủ yếu tập trung vào mô hình hai giai đoạn hoặc học sâu truyền thống, phương pháp đề xuất mang lại hiệu quả vượt trội trong cả điều kiện dữ liệu phong phú và hạn chế. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác (mAP) giữa các mô hình trên các tập dữ liệu khác nhau, cũng như bảng thống kê hiệu suất theo số lượng mẫu huấn luyện để minh họa khả năng học ít dữ liệu.

## Đề xuất và khuyến nghị

- **Phát triển mô hình tăng cường đặc trưng biên cạnh:** Tiếp tục cải tiến khối tăng cường biên cạnh nhằm nâng cao độ nhạy trong việc phát hiện ranh giới thực thể, hướng tới tăng ít nhất 3% độ chính xác trong vòng 12 tháng, do các nhóm nghiên cứu AI tại các trường đại học thực hiện.
- **Ứng dụng học tương phản trong học ít dữ liệu:** Mở rộng áp dụng kỹ thuật học tương phản kết hợp bộ nhớ lưu trữ thực thể cho các bài toán phân đoạn thực thể khác, nhằm giảm chi phí gán nhãn và tăng hiệu quả học, dự kiến triển khai trong 18 tháng tới.
- **Xây dựng và chia sẻ tập dữ liệu CAMO-FS:** Khuyến khích cộng đồng nghiên cứu sử dụng và phát triển thêm tập dữ liệu CAMO-FS để thúc đẩy nghiên cứu học ít dữ liệu trên thực thể ngụy trang, với mục tiêu tăng số lượng ảnh lên khoảng 5.000 trong 2 năm.
- **Triển khai ứng dụng thực tế:** Đề xuất tích hợp mô hình phân đoạn thực thể ngụy trang vào hệ thống giám sát bằng drone và camera an ninh để hỗ trợ tìm kiếm cứu hộ và bảo tồn động vật quý hiếm, với kế hoạch thử nghiệm thực tế trong vòng 1 năm.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo chuyên sâu về phân đoạn thực thể ngụy trang và học ít dữ liệu cho các nhà nghiên cứu và kỹ sư trong ngành, nhằm nâng cao năng lực ứng dụng công nghệ mới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Thị giác máy tính:** Nắm bắt kiến thức chuyên sâu về phân đoạn thực thể ngụy trang, các phương pháp học sâu tiên tiến và học ít dữ liệu.
- **Chuyên gia phát triển AI trong lĩnh vực bảo tồn và cứu hộ:** Áp dụng mô hình phân đoạn thực thể ngụy trang để tự động hóa công tác tìm kiếm động vật quý hiếm và người mất tích trong môi trường phức tạp.
- **Doanh nghiệp công nghệ phát triển hệ thống giám sát và drone:** Tận dụng các mô hình và tập dữ liệu đề xuất để nâng cao hiệu quả phát hiện và phân đoạn đối tượng trong các ứng dụng thực tế.
- **Cơ quan quản lý môi trường và bảo tồn động vật:** Sử dụng kết quả nghiên cứu để hỗ trợ công tác giám sát, bảo vệ các loài động vật có nguy cơ tuyệt chủng thông qua công nghệ thị giác máy tính.

## Câu hỏi thường gặp

1. **Phân đoạn thực thể ngụy trang là gì?**  
   Là tác vụ xác định và phân loại từng đối tượng ngụy trang trong ảnh ở cấp độ điểm ảnh, giúp nhận diện các thực thể khó phát hiện do hòa lẫn với môi trường.

2. **Tại sao cần tăng cường đặc trưng biên cạnh?**  
   Vì biên cạnh chứa thông tin phân biệt quan trọng giữa thực thể và nền, giúp mô hình nhận diện chính xác hơn các ranh giới phức tạp của đối tượng ngụy trang.

3. **Học tương phản giúp gì trong điều kiện ít dữ liệu?**  
   Học tương phản giúp mô hình học biểu diễn đặc trưng hiệu quả bằng cách thu hẹp khoảng cách giữa các mẫu cùng lớp và đẩy xa các mẫu khác lớp, giảm thiểu overfitting.

4. **Tập dữ liệu CAMO-FS có điểm gì nổi bật?**  
   CAMO-FS là tập dữ liệu mới được tinh chỉnh cho học ít dữ liệu, với hơn 2.800 ảnh và 10 lớp ngữ nghĩa, hỗ trợ nghiên cứu và phát triển mô hình trong điều kiện dữ liệu hạn chế.

5. **Mô hình CE-OST và FS-CDIS khác nhau thế nào?**  
   CE-OST là mô hình một giai đoạn tập trung tăng cường đặc trưng biên cạnh, trong khi FS-CDIS là mô hình hai giai đoạn sử dụng học tương phản và bộ nhớ lưu trữ thực thể để xử lý hiệu quả trong điều kiện ít dữ liệu.

## Kết luận

- Đã phát triển thành công mô hình CE-OST và FS-CDIS nâng cao hiệu quả phân đoạn thực thể ngụy trang với độ chính xác cải thiện từ 5-10% trên các tập dữ liệu chuẩn.  
- Đề xuất tập dữ liệu CAMO-FS hỗ trợ nghiên cứu học ít dữ liệu, mở rộng khả năng ứng dụng trong thực tế.  
- Kết quả thực nghiệm chứng minh mô hình hoạt động hiệu quả ngay cả với số lượng mẫu huấn luyện hạn chế.  
- Nghiên cứu góp phần thúc đẩy phát triển công nghệ phân đoạn thực thể ngụy trang, hỗ trợ các ứng dụng tìm kiếm cứu hộ và bảo tồn động vật.  
- Đề xuất các hướng phát triển tiếp theo bao gồm cải tiến đặc trưng biên cạnh, mở rộng tập dữ liệu và ứng dụng trong các lĩnh vực chuyên biệt.

Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình và dữ liệu đề xuất để phát triển các giải pháp thực tiễn, đồng thời tiếp tục nghiên cứu mở rộng và hoàn thiện công nghệ phân đoạn thực thể ngụy trang.