Chương 1: Giới thiệu. Chương này trình bày tổng quan đề tài, các thách thức, lý do thực hiện đề tài cũng như mục tiêu và các đóng góp khoa học của luận văn. * Chương 2: Các công trình liên quan. Chương này trình bày các kiến thức nền tang và các nghiên cứu về thực thể ngụy trang có liên quan đến đề tài luận văn như tổng quan về nghiên cứu trên đối tượng ngụy trang, các mô hình phân đoạn, và các tập dif liệu chuẩn phục vụ nghiên cứu.
¢ Chương 3: Phân đoạn thực thể ngụy trang với mô hình CE-OST khai thác đặc trưng biên cạnh. Chương này trình bay chi tiết các đóng góp của luận văn với mô hình CE-OST, thực nghiệm và các cải tiễn trong việc khai thác và tận dụng đặc trưng biên cạnh để phân đoạn hiệu quả thực thể ngụy trang. * Chương 4: Phân đoạn thực thể ngụy trang sử dụng ít dữ liệu huấn luyện với mô hình FS-CDIS. Chương này trình bày chi tiết các đóng góp của luận văn với mô hình FS-CDIS, thực nghiệm va các cải tiến trong việc phân đoạn thực thể ngụy trang với ngữ cảnh ít dữ liệu huấn luyện và khai thác đặc trưng phân biệt dựa trên kỹ thuật học tương phản.
* Chương 5: Kết luận. Chương nay tóm tắt nội dung luận văn và đề cập đến hướng phát triển đề tài. II Chương 2 CÔNG TRÌNH LIÊN QUAN Trong chương này, chúng tôi trình bày tóm lược các nghiên cứu về thực thể ngụy trang có liên quan đến luận văn này. Các nghiên cứu này gồm có các công trình về phân đoạn thực thể ngụy trang với các hướng tiếp cận một giai đoạn, hai giai đoạn và sử dụng ít dữ liệu huấn luyện.
Chúng tôi cũng trình bày các hướng tiếp cận giúp khai thác đặc trưng có tính phân biệt cao như sử dụng đặc trưng biên cạnh hay các phương pháp học tương phản. Cuối cùng, chúng tôi dé cập đến các tập dữ liệu đặc thù cho nghiên cứu trên thực thể ngụy trang.1 Tổng quan nghiên cứu về thực thể ngụy trang Bồi cảnh thực tiễn. Trong lĩnh vực thị giác máy tính, các nghiên cứu về thực thể ngụy trang được giới hạn trong các tác vụ thực hiện trên dữ liệu ảnh và video có chứa thực thể ngụy trang. Chúng ta có các bài toán như phân loại, phát hiện đối tượng, phân đoạn ngữ nghĩa, hay phân đoạn thực thể ngụy trang, theo thứ tự tăng dần về độ khó và về mức độ chỉ tiết mà mô hình học máy hiểu về thực thể ngụy trang đó.
Trong phần này, chúng tôi khảo sát các công trình liên quan đến bài toán phân đoạn đối tượng ngụy trang ở cấp độ thực thể (hay phân đoạn thực thể nguy trang). Đây là tác vụ có mức độ chỉ tiết cao, đòi hỏi mô hình học máy có khả năng nhận biết và tìm ra vị trí chính xác của các điểm ảnh thuộc về thực thể ngụy trang trong ảnh đầu vào. Trước hết, chúng tôi nhắc lại định nghĩa về thực thể ngụy trang. Cho trước một bức ảnh, khi xác định các vùng quan tâm (như khung bao - bounding box, hay mặt nạ ngữ Chương 2.
CÔNG TRÌNH LIEN QUAN 12 nghĩa - polygon masks) đại diện cho một đối tượng hay thực thé được quan tâm trong ảnh mà các đối tượng này có xu hướng bị nhầm lẫn là vùng nền thì các đối tượng này được xem là đối tượng hay thực thể ngụy trang. Theo đó, đối tượng hay thực thể ngụy trang được định nghĩa là một tập các khung bao hay một tập các điểm ảnh biểu diễn thực thể ngụy trang [38]. Mặc dù các nghiên cứu trên thực thể ngụy trang có nhiều ứng dụng trong thực tiễn, hướng nghiên cứu này vẫn chưa được khai phá triệt để, đặc biệt là hướng nghiên cứu khai thác các đặc trưng có tính phân biệt cao của thực thể ngụy trang, hay ứng dụng trong ngữ cảnh ít dữ liệu của thực thể ngụy trang. Thực trạng nghiên cứu về đôi tượng ngụy trang.
Cũng như phan lớn các bài toán trong thị giác máy tính, bài toán có hai hướng tiếp cận chính là sử dụng đặc trưng cấp thấp và sử dụng đặc trưng học sâu. Các hướng tiếp cận trước đây chủ yếu khai thác đặc trưng cấp thấp như màu sắc, biên cạnh, chất liệu, hay độ sáng [40, 61] để thực hiện các tác vụ trên thực thể ngụy trang. Nhiều năm gần đây, cùng với sự bùng nổ của các mạng học sâu, các tác vụ như phân loại, phát hiện hay phân đoạn thực thể ngụy trang đã đạt được nhiều thành tựu đáng kể. Zhai và cộng sự [S6] tận dụng kĩ thuật học dựa trên đồ thị để huấn luyện mô hình phát hiện được biên cạnh và vùng chứa đối tượng ngụy trang.
Sau đó, PFNet [54] được đề xuất phát hiện động vật ngụy trang dựa trên mô phỏng khả năng săn mỗi trong tự nhiên của các loài động vật ăn thịt. Năm 2019, Le và cộng sự [38] giới thiệu Anabranch, một mô hình kết hợp bài toán phân loại và phân đoạn trên đối tượng ngụy trang. Hướng tiếp cận này có khả năng tương thích với các kiến trúc mạng tích chập day đủ (fully convolution network). Vào năm 2020, SINet [12] ra đời với mục tiêu bắt chước hành vi săn môi của các loài động vật để xác định vị trí và nhận biết đối tượng ngụy trang trong tự nhiên.
Lyu và cộng sự [49] thiết kế một kiến trúc mạng có khả năng xếp hạng dự đoán các đối tượng ngụy trang trong khi vẫn có khả năng xác định vị trí và phân đoạn chúng để tăng cường độ chính xác dự đoán. Cùng thời gian đó, TINet [88] khai thác yếu tố tương tác để tinh chỉnh các đặc trưng có liên quan đến chất liệu và phân đoạn thực thể ngụy trang ở đa cấp độ đặc trưng. Le và cộng sự [36] tiếp tục nghiên cứu về thực thể ngụy trang với hướng tiếp cận kết hợp đa mô hình để cải thiện khả năng nắm bắt ngữ cảnh, từ đó hỗ trợ phát hiện thực thể ngụy trang tốt hơn. CÔNG TRÌNH LIEN QUAN 13 2.2 Các kiến trúc phân đoạn thực thể nguy trang Chúng tôi tiếp tục trình bày các kiến trúc có liên quan để phục vụ hiểu biết về bài toán phân đoạn thực thể ngụy trang với 3 hướng tiếp cận là sử dụng mô hình hai giai đoạn, mô hình một giai đoạn, và hướng tiếp cận sử dụng ít dữ liệu huấn luyện.
Trong đó, hướng tiếp cận một và hai giai đoạn cùng thể hiện khía cạnh kiến trúc thiết kế của các mô hình, còn hướng tiếp cận sử dung ít dữ liệu huấn luyện là một mô hình bài toán hoàn toàn khác, ở đó tập trung khai thác thông tin từ số lượng ít mẫu dữ liệu cho trước để mô hình học hiệu quả. Các phần dưới đây trình bày những nét chính về các mô hình được đề cập, giúp người đọc nắm bắt các thông tin quan trọng, phục vụ việc so sánh các mô hình này với mô hình dé xuất của chúng tôi.1 Phân đoạn thực thể với kiến trúc hai giai đoạn Với hướng tiếp cận hai giai đoạn, chúng ta có thể kể đến các công trình sử dụng một quy trình truyền thống gồm hai bước phát hiện và phân đoạn để khởi tạo các vùng quan tâm (ROI) với khung bao rồi sau đó sẽ tạo ra mặt nạ phân đoạn ngữ nghĩa theo từng khung báo đó [71]. Các công bố tiêu biểu cho hướng tiếp cận này có thể kể đến như: Mask RCNN [28], Mask Scoring RCNN [30], Cascade Mask RCNN [2], PANet [44], HTC [6], BlendMask [5], Mask Transfiner [33] hay DCNet [48]. Sau đây là những nét chính về các phương pháp hai giai đoạn phục vụ bài toán phân đoạn thực thé ma chúng tôi đã khảo sát.
Mô hình Mask RCNN [28] Mô hình kinh điển nhất là Mask RCNN [28], được dé xuất từ những năm 2017, dựa trên nền tảng kiến trúc Faster RCNN [63] cho bài toán phát hiện đối tượng. Mask R-CNN dé xuất việc thêm vào một nhánh dành riêng cho tác vụ phân đoạn ngữ nghĩa ở cấp độ thực thể. Theo đó, ba đầu ra sẽ giải quyết riêng biệt ba tác vụ khác nhau, lần lượt là phân loại, phát hiện đối tượng và phân đoạn thực thể. Quá trình huấn luyện mạng có thể được tiến hành độc lập để huấn luyện hay đóng băng các đầu ra này tùy theo mục đích tác vụ cần tối ưu.
Đầu ra phân đoạn thực thể sử dụng các vùng quan tâm đề xuất ROIs từ đầu Chương 2. CÔNG TRÌNH LIEN QUAN 14 ra phát hiện đối tượng để xác định các thực thể cần phân đoạn. Ý tưởng của mô hình này là tiền đề cho nhiều công trình về phân đoạn thực thể sau này. Mô hình Mask Scoring RCNN [30] Cùng hướng tiếp cận dựa trên Mask RCNN, Mask Scoring RCNN [30] có thêm một nhánh MaskIOU cho tác vụ đánh giá mặt nạ ngữ nghĩa.
Cụ thể, nhánh MaskIOU sử dụng đặc trưng thực thể va mặt na dự đoán được để tính điểm IoU giữa mặt nạ dự đoán va mặt nạ nhãn. Từ đó, tối ưu được tác vụ phân đoạn thực thể mà Mask R-CNN đang hướng đến.1 thể hiện trực quan kiến trúc mang của mô hình với nhánh MaskIOU là điểm cải tiến chính được đề xuất. ; Backbone network RCNN Head; 3 : “7 † = ~-==@= i class : Ox : : : t _ Yi ' Z7 i Med' 28x28 28x28], 28x28 _| ——Z t | x256| ——> xc na x1 wo!Mask Head | | : ' Input Image MaskloU Head , HÌNH 2.1: Kiến trúc mô hình Mask Scoring RCNN [30] với nhánh Mask- IOU là điểm cải tiến chính được đề xuất. Mô hình Cascade Mask R-CNN [2] Cascade R-CNN là một kiến trúc với nhiều giai đoạn bao gồm một chuỗi các bộ phát hiện đối tượng được huấn luyện với các ngưỡng IOU khác nhau tăng dần để chọn lọc ra các mẫu false positive một cách hiệu quả hơn.
Ở phiên bản được nhóm tác giả công bố, mô hình Cascade R-CNN [2] chỉ giải quyết van dé phát hiện đối tượng mà thôi. Tuy nhiên, với cùng một cơ chế như đã nhắc đến ở mô hình Mask R-CNN, Cascade R-CNN được thêm vào một nhánh phân đoạn để giải quyết được tác vụ phân đoạn thực thể. CÔNG TRÌNH LIÊN QUAN 15 Hình 2.2 thể hiện kiến trúc của mô hình với các mô-đun nối tiếp theo cơ chế xếp tầng (cascading). Trong trường hợp này, số lượng mô-đun nối tiếp nhau là ba mô-đun, kết quả của mô-đun trước được dùng làm đầu vào cho mô-đun tiếp theo.2: Kiến trúc mô hình Cascade R-CNN [2].
"I" là ảnh đầu vào, "conv" là lớp tích chập rút trích đặc trưng, "pool" là bộ trích xuất đặc trưng theo vùng (region-wise), "H" là đầu ra theo các tác vụ, "B" là kết quả khung bao, "C" là kết quả phân loại, và "BO" là các vùng dé xuất khởi tao của mạng.