Luận văn thạc sĩ khoa học máy tính phân đoạn thực thể ngụy trang dựa trên đặc trưng có tính phân biệt cao

Luận văn thạc sĩ khoa học máy tính tập trung phân đoạn thực thể ngụy trang dựa trên đặc trưng phân biệt cao, ứng dụng hiệu quả trong xử lý ảnh và nhận dạng.

Trường đại học

Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

150

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

1.1. Giới thiệu đề tài

1.2. Định nghĩa bài toán

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Tổng quan nghiên cứu về thực thể ngụy trang

2.2. Các kiến trúc phân đoạn thực thể ngụy trang

2.2.1. Phân đoạn thực thể với kiến trúc hai giai đoạn

2.2.2. Phân đoạn thực thể với kiến trúc một giai đoạn

2.2.3. Hướng tiếp cận sử dụng ít dữ liệu huấn luyện

2.3. Các hướng tiếp cận khai thác đặc trưng có tính phân biệt cao

2.3.1. Tăng cường đặc trưng biên cạnh

2.3.2. Phương pháp học tương phản

2.4. Các tập dữ liệu chuẩn về thực thể ngụy trang

3. CHƯƠNG 3: MÔ HÌNH CE-OST KHAI THÁC ĐẶC TRƯNG VÙNG BIÊN CẠNH

3.1. Tổng quan

3.2. Mô hình Transformer một giai đoạn CE-OST

3.2.1. Khối tăng cường đặc trưng biên cạnh

3.2.2. Khối Transformer phân đoạn thực thể ngụy trang

3.3. Thực nghiệm loại suy

4. CHƯƠNG 4: MÔ HÌNH FS-CDIS HỌC ĐẶC TRƯNG PHÂN BIỆT VỚI ÍT MẪU DỮ LIỆU

4.1. Bộ dữ liệu đề xuất CAMO-FS

4.2. Mô hình FS-CDIS phân đoạn thực thể ngụy trang với ít mẫu dữ liệu

4.2.1. Khai thác đặc trưng ngụy trang với kỹ thuật học tương phản

4.2.2. Củng cố đặc trưng ngụy trang với bộ nhớ lưu trữ thực thể

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

5.2.1. Cải tiến các đặc trưng có tính phân biệt cao

5.2.2. Áp dụng hướng tiếp cận cho bài toán trên ảnh y khoa

CÔNG BỐ KHOA HỌC

TÀI LIỆU THAM KHẢO

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

Tóm tắt

I. Tổng quan về đề tài nghiên cứu

Bài toán phân đoạn thực thể ngụy trang trong lĩnh vực khoa học máy tính đang thu hút sự quan tâm lớn từ cộng đồng nghiên cứu. Phân đoạn thực thể là một nhiệm vụ quan trọng trong thị giác máy tính, cho phép máy tính nhận diện và phân loại các đối tượng trong hình ảnh. Đặc biệt, với các thực thể có tính chất ngụy trang, việc phát hiện và phân đoạn trở nên khó khăn hơn do khả năng ẩn mình vào môi trường xung quanh. Nghiên cứu này nhằm khai thác các đặc trưng phân biệt cao giữa thực thể và nền để cải thiện độ chính xác của các mô hình học máy. Việc phát hiện các thực thể ngụy trang không chỉ có giá trị trong nghiên cứu sinh học mà còn có ứng dụng trong các lĩnh vực như tìm kiếm cứu nạn, bảo tồn động vật hoang dã và an ninh. Theo đó, việc phát triển các mô hình phân đoạn hiệu quả sẽ giúp tối ưu hóa quy trình tìm kiếm và cứu hộ, giảm thiểu chi phí và thời gian.

1.1 Giới thiệu đề tài

Bối cảnh thực tiễn cho thấy rằng ngụy trang là một cơ chế tự vệ tự nhiên của nhiều loài động vật. Nghiên cứu về thực thể ngụy trang không chỉ giúp hiểu rõ hơn về hành vi sinh tồn của chúng mà còn mở ra nhiều ứng dụng thực tiễn trong khoa học máy tính. Việc phát hiện và phân đoạn các thực thể này có thể hỗ trợ trong các chiến dịch bảo tồn động vật, tìm kiếm cứu nạn và nhiều lĩnh vực khác. Đặc biệt, trong các tình huống khẩn cấp, việc sử dụng công nghệ như drone để thu thập hình ảnh và phân tích sẽ giúp tiết kiệm thời gian và nguồn lực. Do đó, nghiên cứu này không chỉ mang tính lý thuyết mà còn có giá trị thực tiễn cao.

1.2 Định nghĩa bài toán

Bài toán phân đoạn thực thể ngụy trang được định nghĩa là việc xác định và phân loại các thực thể trong hình ảnh có chứa yếu tố ngụy trang. Đầu vào là hình ảnh chứa các thực thể ngụy trang, và đầu ra là bản đồ phân đoạn ngữ nghĩa cho từng thực thể. Việc phân đoạn này đòi hỏi các mô hình học máy phải có khả năng nhận diện các đặc trưng phân biệt cao giữa thực thể và nền. Điều này không chỉ giúp cải thiện độ chính xác của các mô hình mà còn mở rộng khả năng ứng dụng trong các lĩnh vực khác nhau. Nghiên cứu này sẽ tập trung vào việc phát triển các phương pháp và mô hình mới nhằm giải quyết bài toán này một cách hiệu quả.

II. Công trình liên quan

Nghiên cứu về thực thể ngụy trang đã được thực hiện qua nhiều công trình trước đây, tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết. Các kiến trúc phân đoạn hiện tại chủ yếu tập trung vào việc phát hiện các đối tượng rõ ràng, trong khi các thực thể ngụy trang thường khó nhận diện. Các phương pháp như học tương phản và tăng cường đặc trưng đã được đề xuất để cải thiện khả năng phân đoạn. Tuy nhiên, việc áp dụng các phương pháp này trong ngữ cảnh ít dữ liệu huấn luyện vẫn còn hạn chế. Nghiên cứu này sẽ xem xét các công trình liên quan và đề xuất các hướng tiếp cận mới nhằm nâng cao hiệu quả phân đoạn thực thể ngụy trang.

2.1 Tổng quan nghiên cứu về thực thể ngụy trang

Nghiên cứu về thực thể ngụy trang đã chỉ ra rằng các đặc trưng ngụy trang có thể được khai thác để cải thiện độ chính xác của các mô hình phân đoạn. Các công trình trước đây đã sử dụng nhiều phương pháp khác nhau, từ các kiến trúc một giai đoạn đến hai giai đoạn, để giải quyết bài toán này. Tuy nhiên, vẫn còn nhiều vấn đề chưa được giải quyết, đặc biệt là trong việc phát hiện các thực thể ngụy trang trong điều kiện ít dữ liệu. Nghiên cứu này sẽ tập trung vào việc phát triển các mô hình mới nhằm cải thiện khả năng phân đoạn trong các tình huống này.

2.2 Các kiến trúc phân đoạn thực thể ngụy trang

Các kiến trúc phân đoạn hiện tại chủ yếu dựa trên các mô hình học sâu, như CNN và Transformer. Những mô hình này đã chứng minh được hiệu quả trong nhiều bài toán phân đoạn khác nhau. Tuy nhiên, khi áp dụng vào bài toán phân đoạn thực thể ngụy trang, các mô hình này thường gặp khó khăn trong việc nhận diện các đặc trưng ngụy trang. Nghiên cứu này sẽ đề xuất các cải tiến cho các kiến trúc hiện tại, nhằm tối ưu hóa khả năng phân đoạn thực thể ngụy trang.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân đoạn thực thể ngụy trang dựa trên đặc trưng có tính phân biệt cao

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Phân đoạn thực thể ngụy trang là một lĩnh vực nghiên cứu mới và đầy thách thức trong ngành thị giác máy tính, với ứng dụng rộng rãi trong tìm kiếm, cứu hộ, bảo tồn động vật quý hiếm và các lĩnh vực quân sự, y khoa. Theo ước tính, các tập dữ liệu chuẩn như COD10K, NC4K, CAMO++ chứa hàng nghìn ảnh với hơn 1.000 thực thể ngụy trang được gán nhãn chi tiết, tuy nhiên việc thu thập và gán nhãn dữ liệu vẫn còn nhiều hạn chế do đặc thù khó nhận diện của các thực thể này trong môi trường tự nhiên. Luận văn tập trung giải quyết bài toán phân đoạn thực thể ngụy trang dựa trên khai thác các đặc trưng có tính phân biệt cao giữa thực thể và vùng nền, đồng thời đề xuất các phương pháp hiệu quả trong điều kiện ít dữ liệu huấn luyện. Mục tiêu chính là tăng cường đặc trưng biên cạnh để cải thiện độ chính xác phân đoạn và phát triển mô hình học sâu có khả năng học hiệu quả với số lượng mẫu hạn chế. Nghiên cứu được thực hiện trong phạm vi các tập dữ liệu chuẩn và đề xuất tập dữ liệu CAMO-FS mới, với thời gian nghiên cứu từ năm 2022 đến 2023 tại Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh. Kết quả nghiên cứu góp phần nâng cao hiệu quả các mô hình phân đoạn thực thể ngụy trang, hỗ trợ các ứng dụng thực tiễn trong bảo tồn và cứu hộ.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Thị giác máy tính và phân đoạn thực thể (Instance Segmentation):** Phân đoạn thực thể là tác vụ phân loại và xác định vị trí từng đối tượng riêng biệt trong ảnh ở cấp độ điểm ảnh, đòi hỏi mô hình hiểu sâu sắc về đặc trưng hình ảnh.
- **Đặc trưng biên cạnh (Contour Emphasis):** Biên cạnh vật thể chứa thông tin phân biệt quan trọng giúp mô hình nhận diện ranh giới giữa thực thể ngụy trang và nền, đặc biệt khi màu sắc và họa tiết tương đồng.
- **Học tương phản (Contrastive Learning):** Phương pháp học sâu không giám sát nhằm thu hẹp khoảng cách biểu diễn đặc trưng giữa các mẫu cùng lớp và đẩy xa các mẫu khác lớp, tăng cường khả năng phân biệt trong điều kiện ít dữ liệu.
- **Transformer trong thị giác máy tính:** Kiến trúc mạng học sâu dựa trên cơ chế self-attention, giúp mô hình học được các mối quan hệ toàn cục trong ảnh, cải thiện khả năng nhận diện các thực thể phức tạp.
- **Học ít dữ liệu (Few-shot Learning):** Kỹ thuật huấn luyện mô hình với số lượng mẫu hạn chế, sử dụng các cơ chế như bộ nhớ lưu trữ thực thể (Instance Memory Storage) và hàm mất mát ba thành phần (Instance Triplet Loss) để nâng cao hiệu quả học.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng các tập dữ liệu chuẩn về thực thể ngụy trang như COD10K (khoảng 10.000 ảnh), NC4K (4.121 ảnh), CAMO++ (2.695 ảnh), và tập dữ liệu đề xuất CAMO-FS (2.858 ảnh) được tinh chỉnh cho học ít dữ liệu.
- **Phương pháp phân tích:** 
  - Phát triển mô hình CE-OST dựa trên kiến trúc Transformer một giai đoạn, tích hợp khối tăng cường đặc trưng biên cạnh để cải thiện phân đoạn.
  - Đề xuất mô hình FS-CDIS hai giai đoạn, sử dụng học tương phản với hàm mất mát ba thành phần và bộ nhớ lưu trữ thực thể nhằm giải quyết bài toán trong điều kiện ít dữ liệu.
  - Thực nghiệm đánh giá độ chính xác trên các tập dữ liệu chuẩn, so sánh với các mô hình tiên tiến hiện có.
- **Timeline nghiên cứu:** 
  - Năm 2022: Thu thập và chuẩn bị dữ liệu, xây dựng mô hình CE-OST.
  - Năm 2023: Phát triển mô hình FS-CDIS, đề xuất tập dữ liệu CAMO-FS, thực nghiệm và đánh giá kết quả.
  - Cuối năm 2023: Hoàn thiện luận văn và báo cáo kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình CE-OST với khối tăng cường đặc trưng biên cạnh đạt độ chính xác phân đoạn trên tập CAMO++ cao hơn 5-7% so với các mô hình nền tảng như Mask RCNN và OSFormer.
- Mô hình FS-CDIS sử dụng học tương phản và bộ nhớ lưu trữ thực thể cải thiện độ chính xác phân đoạn trên tập CAMO-FS lên đến 10% so với các phương pháp học ít dữ liệu truyền thống.
- Tập dữ liệu CAMO-FS được đề xuất có quy mô 2.858 ảnh với 10 lớp ngữ nghĩa, cung cấp nguồn dữ liệu chất lượng cho nghiên cứu học ít dữ liệu trên thực thể ngụy trang.
- Thực nghiệm loại suy cho thấy mô hình FS-CDIS duy trì hiệu suất cao ngay cả khi số lượng mẫu huấn luyện giảm xuống còn 1-5 ảnh mỗi lớp, chứng minh khả năng học hiệu quả trong điều kiện dữ liệu hạn chế.

### Thảo luận kết quả

Các kết quả trên cho thấy việc tăng cường đặc trưng biên cạnh giúp mô hình phân biệt rõ ràng hơn ranh giới giữa thực thể ngụy trang và nền, đặc biệt trong các trường hợp ngụy trang tinh vi. Học tương phản kết hợp với bộ nhớ lưu trữ thực thể giúp mô hình tận dụng triệt để thông tin từ các mẫu ít ỏi, giảm thiểu hiện tượng overfitting và cải thiện khả năng tổng quát hóa. So với các nghiên cứu trước đây chủ yếu tập trung vào mô hình hai giai đoạn hoặc học sâu truyền thống, phương pháp đề xuất mang lại hiệu quả vượt trội trong cả điều kiện dữ liệu phong phú và hạn chế. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác (mAP) giữa các mô hình trên các tập dữ liệu khác nhau, cũng như bảng thống kê hiệu suất theo số lượng mẫu huấn luyện để minh họa khả năng học ít dữ liệu.

## Đề xuất và khuyến nghị

- **Phát triển mô hình tăng cường đặc trưng biên cạnh:** Tiếp tục cải tiến khối tăng cường biên cạnh nhằm nâng cao độ nhạy trong việc phát hiện ranh giới thực thể, hướng tới tăng ít nhất 3% độ chính xác trong vòng 12 tháng, do các nhóm nghiên cứu AI tại các trường đại học thực hiện.
- **Ứng dụng học tương phản trong học ít dữ liệu:** Mở rộng áp dụng kỹ thuật học tương phản kết hợp bộ nhớ lưu trữ thực thể cho các bài toán phân đoạn thực thể khác, nhằm giảm chi phí gán nhãn và tăng hiệu quả học, dự kiến triển khai trong 18 tháng tới.
- **Xây dựng và chia sẻ tập dữ liệu CAMO-FS:** Khuyến khích cộng đồng nghiên cứu sử dụng và phát triển thêm tập dữ liệu CAMO-FS để thúc đẩy nghiên cứu học ít dữ liệu trên thực thể ngụy trang, với mục tiêu tăng số lượng ảnh lên khoảng 5.000 trong 2 năm.
- **Triển khai ứng dụng thực tế:** Đề xuất tích hợp mô hình phân đoạn thực thể ngụy trang vào hệ thống giám sát bằng drone và camera an ninh để hỗ trợ tìm kiếm cứu hộ và bảo tồn động vật quý hiếm, với kế hoạch thử nghiệm thực tế trong vòng 1 năm.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo chuyên sâu về phân đoạn thực thể ngụy trang và học ít dữ liệu cho các nhà nghiên cứu và kỹ sư trong ngành, nhằm nâng cao năng lực ứng dụng công nghệ mới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Thị giác máy tính:** Nắm bắt kiến thức chuyên sâu về phân đoạn thực thể ngụy trang, các phương pháp học sâu tiên tiến và học ít dữ liệu.
- **Chuyên gia phát triển AI trong lĩnh vực bảo tồn và cứu hộ:** Áp dụng mô hình phân đoạn thực thể ngụy trang để tự động hóa công tác tìm kiếm động vật quý hiếm và người mất tích trong môi trường phức tạp.
- **Doanh nghiệp công nghệ phát triển hệ thống giám sát và drone:** Tận dụng các mô hình và tập dữ liệu đề xuất để nâng cao hiệu quả phát hiện và phân đoạn đối tượng trong các ứng dụng thực tế.
- **Cơ quan quản lý môi trường và bảo tồn động vật:** Sử dụng kết quả nghiên cứu để hỗ trợ công tác giám sát, bảo vệ các loài động vật có nguy cơ tuyệt chủng thông qua công nghệ thị giác máy tính.

## Câu hỏi thường gặp

1. **Phân đoạn thực thể ngụy trang là gì?**  
   Là tác vụ xác định và phân loại từng đối tượng ngụy trang trong ảnh ở cấp độ điểm ảnh, giúp nhận diện các thực thể khó phát hiện do hòa lẫn với môi trường.

2. **Tại sao cần tăng cường đặc trưng biên cạnh?**  
   Vì biên cạnh chứa thông tin phân biệt quan trọng giữa thực thể và nền, giúp mô hình nhận diện chính xác hơn các ranh giới phức tạp của đối tượng ngụy trang.

3. **Học tương phản giúp gì trong điều kiện ít dữ liệu?**  
   Học tương phản giúp mô hình học biểu diễn đặc trưng hiệu quả bằng cách thu hẹp khoảng cách giữa các mẫu cùng lớp và đẩy xa các mẫu khác lớp, giảm thiểu overfitting.

4. **Tập dữ liệu CAMO-FS có điểm gì nổi bật?**  
   CAMO-FS là tập dữ liệu mới được tinh chỉnh cho học ít dữ liệu, với hơn 2.800 ảnh và 10 lớp ngữ nghĩa, hỗ trợ nghiên cứu và phát triển mô hình trong điều kiện dữ liệu hạn chế.

5. **Mô hình CE-OST và FS-CDIS khác nhau thế nào?**  
   CE-OST là mô hình một giai đoạn tập trung tăng cường đặc trưng biên cạnh, trong khi FS-CDIS là mô hình hai giai đoạn sử dụng học tương phản và bộ nhớ lưu trữ thực thể để xử lý hiệu quả trong điều kiện ít dữ liệu.

## Kết luận

- Đã phát triển thành công mô hình CE-OST và FS-CDIS nâng cao hiệu quả phân đoạn thực thể ngụy trang với độ chính xác cải thiện từ 5-10% trên các tập dữ liệu chuẩn.  
- Đề xuất tập dữ liệu CAMO-FS hỗ trợ nghiên cứu học ít dữ liệu, mở rộng khả năng ứng dụng trong thực tế.  
- Kết quả thực nghiệm chứng minh mô hình hoạt động hiệu quả ngay cả với số lượng mẫu huấn luyện hạn chế.  
- Nghiên cứu góp phần thúc đẩy phát triển công nghệ phân đoạn thực thể ngụy trang, hỗ trợ các ứng dụng tìm kiếm cứu hộ và bảo tồn động vật.  
- Đề xuất các hướng phát triển tiếp theo bao gồm cải tiến đặc trưng biên cạnh, mở rộng tập dữ liệu và ứng dụng trong các lĩnh vực chuyên biệt.

Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình và dữ liệu đề xuất để phát triển các giải pháp thực tiễn, đồng thời tiếp tục nghiên cứu mở rộng và hoàn thiện công nghệ phân đoạn thực thể ngụy trang.

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu. Chương này trình bày tổng quan đề tài, các thách thức, lý do thực hiện đề tài cũng như mục tiêu và các đóng góp khoa học của luận văn. * Chương 2: Các công trình liên quan. Chương này trình bày các kiến thức nền tang và các nghiên cứu về thực thể ngụy trang có liên quan đến đề tài luận văn như tổng quan về nghiên cứu trên đối tượng ngụy trang, các mô hình phân đoạn, và các tập dif liệu chuẩn phục vụ nghiên cứu.

¢ Chương 3: Phân đoạn thực thể ngụy trang với mô hình CE-OST khai thác đặc trưng biên cạnh. Chương này trình bay chi tiết các đóng góp của luận văn với mô hình CE-OST, thực nghiệm và các cải tiễn trong việc khai thác và tận dụng đặc trưng biên cạnh để phân đoạn hiệu quả thực thể ngụy trang. * Chương 4: Phân đoạn thực thể ngụy trang sử dụng ít dữ liệu huấn luyện với mô hình FS-CDIS. Chương này trình bày chi tiết các đóng góp của luận văn với mô hình FS-CDIS, thực nghiệm va các cải tiến trong việc phân đoạn thực thể ngụy trang với ngữ cảnh ít dữ liệu huấn luyện và khai thác đặc trưng phân biệt dựa trên kỹ thuật học tương phản.

* Chương 5: Kết luận. Chương nay tóm tắt nội dung luận văn và đề cập đến hướng phát triển đề tài. II Chương 2 CÔNG TRÌNH LIÊN QUAN Trong chương này, chúng tôi trình bày tóm lược các nghiên cứu về thực thể ngụy trang có liên quan đến luận văn này. Các nghiên cứu này gồm có các công trình về phân đoạn thực thể ngụy trang với các hướng tiếp cận một giai đoạn, hai giai đoạn và sử dụng ít dữ liệu huấn luyện.

Chúng tôi cũng trình bày các hướng tiếp cận giúp khai thác đặc trưng có tính phân biệt cao như sử dụng đặc trưng biên cạnh hay các phương pháp học tương phản. Cuối cùng, chúng tôi dé cập đến các tập dữ liệu đặc thù cho nghiên cứu trên thực thể ngụy trang.1 Tổng quan nghiên cứu về thực thể ngụy trang Bồi cảnh thực tiễn. Trong lĩnh vực thị giác máy tính, các nghiên cứu về thực thể ngụy trang được giới hạn trong các tác vụ thực hiện trên dữ liệu ảnh và video có chứa thực thể ngụy trang. Chúng ta có các bài toán như phân loại, phát hiện đối tượng, phân đoạn ngữ nghĩa, hay phân đoạn thực thể ngụy trang, theo thứ tự tăng dần về độ khó và về mức độ chỉ tiết mà mô hình học máy hiểu về thực thể ngụy trang đó.

Trong phần này, chúng tôi khảo sát các công trình liên quan đến bài toán phân đoạn đối tượng ngụy trang ở cấp độ thực thể (hay phân đoạn thực thể nguy trang). Đây là tác vụ có mức độ chỉ tiết cao, đòi hỏi mô hình học máy có khả năng nhận biết và tìm ra vị trí chính xác của các điểm ảnh thuộc về thực thể ngụy trang trong ảnh đầu vào. Trước hết, chúng tôi nhắc lại định nghĩa về thực thể ngụy trang. Cho trước một bức ảnh, khi xác định các vùng quan tâm (như khung bao - bounding box, hay mặt nạ ngữ Chương 2.

CÔNG TRÌNH LIEN QUAN 12 nghĩa - polygon masks) đại diện cho một đối tượng hay thực thé được quan tâm trong ảnh mà các đối tượng này có xu hướng bị nhầm lẫn là vùng nền thì các đối tượng này được xem là đối tượng hay thực thể ngụy trang. Theo đó, đối tượng hay thực thể ngụy trang được định nghĩa là một tập các khung bao hay một tập các điểm ảnh biểu diễn thực thể ngụy trang [38]. Mặc dù các nghiên cứu trên thực thể ngụy trang có nhiều ứng dụng trong thực tiễn, hướng nghiên cứu này vẫn chưa được khai phá triệt để, đặc biệt là hướng nghiên cứu khai thác các đặc trưng có tính phân biệt cao của thực thể ngụy trang, hay ứng dụng trong ngữ cảnh ít dữ liệu của thực thể ngụy trang. Thực trạng nghiên cứu về đôi tượng ngụy trang.

Cũng như phan lớn các bài toán trong thị giác máy tính, bài toán có hai hướng tiếp cận chính là sử dụng đặc trưng cấp thấp và sử dụng đặc trưng học sâu. Các hướng tiếp cận trước đây chủ yếu khai thác đặc trưng cấp thấp như màu sắc, biên cạnh, chất liệu, hay độ sáng [40, 61] để thực hiện các tác vụ trên thực thể ngụy trang. Nhiều năm gần đây, cùng với sự bùng nổ của các mạng học sâu, các tác vụ như phân loại, phát hiện hay phân đoạn thực thể ngụy trang đã đạt được nhiều thành tựu đáng kể. Zhai và cộng sự [S6] tận dụng kĩ thuật học dựa trên đồ thị để huấn luyện mô hình phát hiện được biên cạnh và vùng chứa đối tượng ngụy trang.

Sau đó, PFNet [54] được đề xuất phát hiện động vật ngụy trang dựa trên mô phỏng khả năng săn mỗi trong tự nhiên của các loài động vật ăn thịt. Năm 2019, Le và cộng sự [38] giới thiệu Anabranch, một mô hình kết hợp bài toán phân loại và phân đoạn trên đối tượng ngụy trang. Hướng tiếp cận này có khả năng tương thích với các kiến trúc mạng tích chập day đủ (fully convolution network). Vào năm 2020, SINet [12] ra đời với mục tiêu bắt chước hành vi săn môi của các loài động vật để xác định vị trí và nhận biết đối tượng ngụy trang trong tự nhiên.

Lyu và cộng sự [49] thiết kế một kiến trúc mạng có khả năng xếp hạng dự đoán các đối tượng ngụy trang trong khi vẫn có khả năng xác định vị trí và phân đoạn chúng để tăng cường độ chính xác dự đoán. Cùng thời gian đó, TINet [88] khai thác yếu tố tương tác để tinh chỉnh các đặc trưng có liên quan đến chất liệu và phân đoạn thực thể ngụy trang ở đa cấp độ đặc trưng. Le và cộng sự [36] tiếp tục nghiên cứu về thực thể ngụy trang với hướng tiếp cận kết hợp đa mô hình để cải thiện khả năng nắm bắt ngữ cảnh, từ đó hỗ trợ phát hiện thực thể ngụy trang tốt hơn. CÔNG TRÌNH LIEN QUAN 13 2.2 Các kiến trúc phân đoạn thực thể nguy trang Chúng tôi tiếp tục trình bày các kiến trúc có liên quan để phục vụ hiểu biết về bài toán phân đoạn thực thể ngụy trang với 3 hướng tiếp cận là sử dụng mô hình hai giai đoạn, mô hình một giai đoạn, và hướng tiếp cận sử dụng ít dữ liệu huấn luyện.

Trong đó, hướng tiếp cận một và hai giai đoạn cùng thể hiện khía cạnh kiến trúc thiết kế của các mô hình, còn hướng tiếp cận sử dung ít dữ liệu huấn luyện là một mô hình bài toán hoàn toàn khác, ở đó tập trung khai thác thông tin từ số lượng ít mẫu dữ liệu cho trước để mô hình học hiệu quả. Các phần dưới đây trình bày những nét chính về các mô hình được đề cập, giúp người đọc nắm bắt các thông tin quan trọng, phục vụ việc so sánh các mô hình này với mô hình dé xuất của chúng tôi.1 Phân đoạn thực thể với kiến trúc hai giai đoạn Với hướng tiếp cận hai giai đoạn, chúng ta có thể kể đến các công trình sử dụng một quy trình truyền thống gồm hai bước phát hiện và phân đoạn để khởi tạo các vùng quan tâm (ROI) với khung bao rồi sau đó sẽ tạo ra mặt nạ phân đoạn ngữ nghĩa theo từng khung báo đó [71]. Các công bố tiêu biểu cho hướng tiếp cận này có thể kể đến như: Mask RCNN [28], Mask Scoring RCNN [30], Cascade Mask RCNN [2], PANet [44], HTC [6], BlendMask [5], Mask Transfiner [33] hay DCNet [48]. Sau đây là những nét chính về các phương pháp hai giai đoạn phục vụ bài toán phân đoạn thực thé ma chúng tôi đã khảo sát.

Mô hình Mask RCNN [28] Mô hình kinh điển nhất là Mask RCNN [28], được dé xuất từ những năm 2017, dựa trên nền tảng kiến trúc Faster RCNN [63] cho bài toán phát hiện đối tượng. Mask R-CNN dé xuất việc thêm vào một nhánh dành riêng cho tác vụ phân đoạn ngữ nghĩa ở cấp độ thực thể. Theo đó, ba đầu ra sẽ giải quyết riêng biệt ba tác vụ khác nhau, lần lượt là phân loại, phát hiện đối tượng và phân đoạn thực thể. Quá trình huấn luyện mạng có thể được tiến hành độc lập để huấn luyện hay đóng băng các đầu ra này tùy theo mục đích tác vụ cần tối ưu.

Đầu ra phân đoạn thực thể sử dụng các vùng quan tâm đề xuất ROIs từ đầu Chương 2. CÔNG TRÌNH LIEN QUAN 14 ra phát hiện đối tượng để xác định các thực thể cần phân đoạn. Ý tưởng của mô hình này là tiền đề cho nhiều công trình về phân đoạn thực thể sau này. Mô hình Mask Scoring RCNN [30] Cùng hướng tiếp cận dựa trên Mask RCNN, Mask Scoring RCNN [30] có thêm một nhánh MaskIOU cho tác vụ đánh giá mặt nạ ngữ nghĩa.

Cụ thể, nhánh MaskIOU sử dụng đặc trưng thực thể va mặt na dự đoán được để tính điểm IoU giữa mặt nạ dự đoán va mặt nạ nhãn. Từ đó, tối ưu được tác vụ phân đoạn thực thể mà Mask R-CNN đang hướng đến.1 thể hiện trực quan kiến trúc mang của mô hình với nhánh MaskIOU là điểm cải tiến chính được đề xuất. ; Backbone network RCNN Head; 3 : “7 † = ~-==@= i class : Ox : : : t _ Yi ' Z7 i Med' 28x28 28x28], 28x28 _| ——Z t | x256| ——> xc na x1 wo!Mask Head | | : ' Input Image MaskloU Head , HÌNH 2.1: Kiến trúc mô hình Mask Scoring RCNN [30] với nhánh Mask- IOU là điểm cải tiến chính được đề xuất. Mô hình Cascade Mask R-CNN [2] Cascade R-CNN là một kiến trúc với nhiều giai đoạn bao gồm một chuỗi các bộ phát hiện đối tượng được huấn luyện với các ngưỡng IOU khác nhau tăng dần để chọn lọc ra các mẫu false positive một cách hiệu quả hơn.

Ở phiên bản được nhóm tác giả công bố, mô hình Cascade R-CNN [2] chỉ giải quyết van dé phát hiện đối tượng mà thôi. Tuy nhiên, với cùng một cơ chế như đã nhắc đến ở mô hình Mask R-CNN, Cascade R-CNN được thêm vào một nhánh phân đoạn để giải quyết được tác vụ phân đoạn thực thể. CÔNG TRÌNH LIÊN QUAN 15 Hình 2.2 thể hiện kiến trúc của mô hình với các mô-đun nối tiếp theo cơ chế xếp tầng (cascading). Trong trường hợp này, số lượng mô-đun nối tiếp nhau là ba mô-đun, kết quả của mô-đun trước được dùng làm đầu vào cho mô-đun tiếp theo.2: Kiến trúc mô hình Cascade R-CNN [2].

"I" là ảnh đầu vào, "conv" là lớp tích chập rút trích đặc trưng, "pool" là bộ trích xuất đặc trưng theo vùng (region-wise), "H" là đầu ra theo các tác vụ, "B" là kết quả khung bao, "C" là kết quả phân loại, và "BO" là các vùng dé xuất khởi tao của mạng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ phân đoạn trong AI

Ứng dụng của ngụy trang trong máy tính

Nghiên cứu về đặc trưng phân biệt

Luận văn thạc sĩ khoa học máy tính phân đoạn thực thể ngụy trang dựa trên đặc trưng có tính phân biệt cao

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

1.1. Giới thiệu đề tài

1.2. Định nghĩa bài toán

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Tổng quan nghiên cứu về thực thể ngụy trang

2.2. Các kiến trúc phân đoạn thực thể ngụy trang

2.2.1. Phân đoạn thực thể với kiến trúc hai giai đoạn

2.2.2. Phân đoạn thực thể với kiến trúc một giai đoạn

2.2.3. Hướng tiếp cận sử dụng ít dữ liệu huấn luyện

2.3. Các hướng tiếp cận khai thác đặc trưng có tính phân biệt cao

2.3.1. Tăng cường đặc trưng biên cạnh

2.3.2. Phương pháp học tương phản

2.4. Các tập dữ liệu chuẩn về thực thể ngụy trang

3. CHƯƠNG 3: MÔ HÌNH CE-OST KHAI THÁC ĐẶC TRƯNG VÙNG BIÊN CẠNH

3.1. Tổng quan

3.2. Mô hình Transformer một giai đoạn CE-OST

3.2.1. Khối tăng cường đặc trưng biên cạnh

3.2.2. Khối Transformer phân đoạn thực thể ngụy trang

3.3. Thực nghiệm loại suy

4. CHƯƠNG 4: MÔ HÌNH FS-CDIS HỌC ĐẶC TRƯNG PHÂN BIỆT VỚI ÍT MẪU DỮ LIỆU

4.1. Bộ dữ liệu đề xuất CAMO-FS

4.2. Mô hình FS-CDIS phân đoạn thực thể ngụy trang với ít mẫu dữ liệu

4.2.1. Khai thác đặc trưng ngụy trang với kỹ thuật học tương phản

4.2.2. Củng cố đặc trưng ngụy trang với bộ nhớ lưu trữ thực thể

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

5.2.1. Cải tiến các đặc trưng có tính phân biệt cao

5.2.2. Áp dụng hướng tiếp cận cho bài toán trên ảnh y khoa

CÔNG BỐ KHOA HỌC

TÀI LIỆU THAM KHẢO

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

I. Tổng quan về đề tài nghiên cứu

1.1 Giới thiệu đề tài

1.2 Định nghĩa bài toán

II. Công trình liên quan

2.1 Tổng quan nghiên cứu về thực thể ngụy trang

2.2 Các kiến trúc phân đoạn thực thể ngụy trang

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thành Danh

Người hướng dẫn: TS. Nguyễn Vinh Tiệp

Trường học: Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học Máy tính

Đề tài: Phân đoạn thực thể ngụy trang dựa trên đặc trưng có tính phân biệt cao

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Thành phố Hồ Chí Minh

SINH VIÊN CŨNG XEM