Tổng quan nghiên cứu

Phát hiện đối tượng (object detection) là một nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính, bao gồm việc xác định vị trí và phân loại các đối tượng trong ảnh. Với sự phát triển nhanh chóng của các mô hình học sâu như Faster R-CNN, YOLO, RetinaNet, việc áp dụng các mô hình này vào các lĩnh vực thực tế ngày càng phổ biến. Tuy nhiên, hiệu quả của các mô hình này thường bị hạn chế khi áp dụng vào các miền dữ liệu khác nhau do sự khác biệt về đặc điểm hình ảnh như ánh sáng, góc nhìn hay điều kiện thời tiết. Đặc biệt, trong các trường hợp dữ liệu nhãn bị khan hiếm hoặc chi phí gán nhãn cao, việc huấn luyện mô hình chính xác trở nên khó khăn.

Luận văn này tập trung nghiên cứu khả năng thích ứng chéo miền (cross-domain) của mô hình phát hiện đối tượng FCOS (Full Convolution One Stage) thông qua phương pháp học chuyển giao (transfer learning) bằng cách tinh chỉnh (fine-tune) lớp cuối cùng của mô hình. Nghiên cứu sử dụng bộ dữ liệu nguồn MS-COCO 2017 với hơn 115.000 ảnh làm miền nguồn, và thử nghiệm trên nhiều bộ dữ liệu mục tiêu đa dạng như DeepFruits (nông nghiệp), DIOR (ảnh viễn thám), Oktoberfest (đồ ăn thức uống), Clipart1k (ảnh hoạt hình), ImageNet và IWildCam (động vật hoang dã). Mục tiêu là đánh giá khả năng tổng quát hóa của FCOS khi chuyển từ miền nguồn sang các miền mục tiêu khác nhau, đặc biệt trong điều kiện học ít mẫu (few-shot learning).

Nghiên cứu được thực hiện trong năm 2023 tại Đại học Paris-Saclay và Đại học Bách Khoa Hà Nội, với ý nghĩa quan trọng trong việc phát triển các hệ thống phát hiện đối tượng hiệu quả trong các ứng dụng thực tế đa dạng, từ nông nghiệp, giám sát môi trường đến xử lý ảnh viễn thám.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Mô hình phát hiện đối tượng hai giai đoạn (Two-stage detectors): Bao gồm R-CNN, Fast R-CNN, Faster R-CNN, trong đó giai đoạn đầu tạo ra các vùng đề xuất (region proposals), giai đoạn hai thực hiện phân loại và điều chỉnh hộp giới hạn (bounding box regression).

  • Mô hình phát hiện đối tượng một giai đoạn (One-stage detectors): Như YOLO, SSD, RetinaNet, FCOS, thực hiện trực tiếp phân loại và định vị đối tượng trên toàn bộ ảnh mà không cần bước đề xuất vùng.

  • Mạng Kim tự tháp đặc trưng (Feature Pyramid Network - FPN): Kỹ thuật kết hợp các bản đồ đặc trưng ở nhiều độ phân giải khác nhau để xử lý hiệu quả các đối tượng có kích thước đa dạng.

  • Hàm mất mát Focal Loss: Giải quyết vấn đề mất cân bằng giữa các mẫu nền (background) và mẫu đối tượng (foreground) bằng cách giảm trọng số các mẫu dễ phân loại, tập trung vào các mẫu khó.

  • Mô hình FCOS: Là mô hình phát hiện đối tượng không sử dụng anchor box, lấy mỗi điểm ảnh trên bản đồ đặc trưng làm mẫu huấn luyện, kết hợp FPN và focal loss để cải thiện độ chính xác.

Các khái niệm chính bao gồm: Intersection over Union (IoU), Precision, Recall, F1-score, Average Precision (AP), mean Average Precision (mAP), và các chỉ số mAP50, mAP75, mAP theo kích thước đối tượng (nhỏ, trung bình, lớn).

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Sử dụng bộ dữ liệu MS-COCO 2017 làm miền nguồn với 115.000 ảnh huấn luyện và 5.000 ảnh xác thực. Các bộ dữ liệu mục tiêu gồm DeepFruits (602 ảnh), DIOR (23.463 ảnh), Oktoberfest (1.110 ảnh), Clipart1k (1.000 ảnh), ImageNet (subset 10 lớp, 499 ảnh), IWildCam (3 lớp, 300 ảnh huấn luyện).

  • Phương pháp phân tích: Áp dụng học chuyển giao bằng cách giữ cố định các tham số của backbone ResNet-50 và FPN, chỉ tinh chỉnh lớp cuối cùng của FCOS head trên dữ liệu mục tiêu (fine-tune last layer). Các tham số học (learning rate, số vòng lặp) được điều chỉnh phù hợp từng bộ dữ liệu để tránh overfitting.

  • Timeline nghiên cứu: Quá trình huấn luyện và đánh giá được thực hiện theo từng bộ dữ liệu mục tiêu, với việc theo dõi đường cong mất mát trên tập huấn luyện và xác thực để lựa chọn mô hình tốt nhất. Mỗi bộ dữ liệu được huấn luyện trong khoảng 500 đến 8.000 vòng lặp tùy theo kích thước và độ phức tạp.

  • Đánh giá hiệu quả: Sử dụng các chỉ số mAP, F1-score ở các ngưỡng IoU khác nhau để so sánh hiệu suất của FCOS trên các miền dữ liệu khác nhau, đồng thời so sánh với mô hình Faster R-CNN trong một số trường hợp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả trên bộ dữ liệu DeepFruits (nông nghiệp):

    • Mô hình FCOS đạt mAP trung bình khoảng 65-73% cho các loại quả như táo (72.73%), cam (72.87%), xoài (69.94%), bơ (64%).
    • F1-score của FCOS vượt trội so với Faster R-CNN ở một số loại quả như xoài, nhưng thấp hơn ở các loại khác.
    • Kết quả cho thấy FCOS có khả năng thích ứng tốt với các đối tượng có đặc điểm tương đồng với miền nguồn MS-COCO.
  2. Hiệu quả trên bộ dữ liệu DIOR (ảnh viễn thám):

    • Mặc dù có lượng dữ liệu lớn (12.340 ảnh huấn luyện), mAP tổng thể chỉ đạt khoảng 17.7%, trong đó lớp "máy bay" đạt AP cao nhất (45.46%) do trùng với lớp trong MS-COCO.
    • Các lớp khác có AP thấp, phản ánh sự khác biệt lớn về đặc điểm ảnh và mật độ đối tượng (8.3 đối tượng/ảnh so với 7.7 của COCO).
    • Việc huấn luyện thêm vòng lặp không cải thiện đáng kể hiệu suất, cho thấy cần phương pháp xử lý đặc thù hơn.
  3. Hiệu quả trên bộ dữ liệu Oktoberfest (đồ ăn thức uống):

    • Mô hình đạt mAP khoảng 35%, với AP của lớp "bia" là 22.11%.
    • Các đối tượng nhỏ có mAP bằng 0, cho thấy hạn chế trong phát hiện đối tượng kích thước nhỏ.
    • Việc giảm learning rate giúp ổn định quá trình huấn luyện.
  4. Hiệu quả trên bộ dữ liệu Clipart1k (ảnh hoạt hình):

    • Mô hình đạt mAP khoảng 21%, thấp hơn nhiều so với các miền khác.
    • Việc chỉ tinh chỉnh lớp cuối cùng chưa đủ để mô hình thích ứng với đặc điểm đồ họa hoạt hình khác biệt.
    • Cần xem xét mở khóa thêm các lớp hoặc phương pháp huấn luyện khác.
  5. Hiệu quả trên bộ dữ liệu ImageNet (10 lớp, few-shot):

    • Mô hình đạt mAP trung bình 48%, với AP các lớp trùng với COCO đạt trên 64%.
    • Các lớp chưa từng xuất hiện trong COCO cũng có AP chấp nhận được, chứng tỏ khả năng tổng quát hóa của FCOS khi học ít mẫu.
  6. Hiệu quả trên bộ dữ liệu IWildCam (động vật hoang dã, few-shot):

    • Mô hình đạt mAP tổng thể 11%, AP lớp "động vật" là 27%.
    • Hiệu suất thấp do số lượng ảnh huấn luyện hạn chế (300 ảnh) và đặc điểm miền khác biệt.

Thảo luận kết quả

  • Việc sử dụng phương pháp fine-tune lớp cuối cùng giúp FCOS duy trì được kiến thức từ miền nguồn, đồng thời thích ứng với đặc điểm miền mục tiêu, đặc biệt hiệu quả với các miền có sự tương đồng cao như DeepFruits và ImageNet.

  • Hiệu suất giảm rõ rệt ở các miền có đặc điểm khác biệt lớn như DIOR và Clipart1k cho thấy việc chỉ tinh chỉnh lớp cuối chưa đủ, cần mở rộng huấn luyện các lớp sâu hơn hoặc áp dụng các kỹ thuật tiền xử lý như chia nhỏ ảnh.

  • Các biểu đồ đường cong mất mát cho thấy việc lựa chọn learning rate và số vòng lặp phù hợp là rất quan trọng để tránh overfitting hoặc underfitting.

  • So sánh với Faster R-CNN cho thấy FCOS có ưu thế về tốc độ và khả năng thích ứng trong một số trường hợp, nhưng cũng có hạn chế về độ chính xác với các đối tượng nhỏ hoặc miền dữ liệu phức tạp.

  • Các chỉ số mAP theo kích thước đối tượng cho thấy FCOS gặp khó khăn trong phát hiện các đối tượng nhỏ, cần nghiên cứu thêm các kỹ thuật cải thiện như tăng cường dữ liệu hoặc kiến trúc mạng chuyên biệt.

Đề xuất và khuyến nghị

  1. Mở khóa và huấn luyện thêm các lớp trong FCOS head:

    • Mục tiêu: Tăng khả năng thích ứng với miền dữ liệu mục tiêu có đặc điểm khác biệt lớn.
    • Thời gian: 2-4 tuần thử nghiệm và đánh giá.
    • Chủ thể: Nhóm nghiên cứu phát triển mô hình.
  2. Tiền xử lý ảnh bằng cách chia nhỏ ảnh (image tiling) cho các miền có mật độ đối tượng cao như DIOR:

    • Mục tiêu: Giảm độ phức tạp và cải thiện phát hiện đối tượng nhỏ.
    • Thời gian: 1-2 tuần triển khai và thử nghiệm.
    • Chủ thể: Kỹ sư dữ liệu và nhà phát triển mô hình.
  3. Kết hợp dữ liệu miền nguồn và miền mục tiêu trong huấn luyện:

    • Mục tiêu: Tăng cường dữ liệu huấn luyện, cải thiện khả năng tổng quát hóa.
    • Thời gian: 3 tuần xây dựng bộ dữ liệu kết hợp và huấn luyện.
    • Chủ thể: Nhóm thu thập và xử lý dữ liệu.
  4. Áp dụng kỹ thuật tăng cường dữ liệu (data augmentation) và học sâu nâng cao (meta-learning) cho few-shot learning:

    • Mục tiêu: Nâng cao hiệu quả học với dữ liệu hạn chế.
    • Thời gian: 4-6 tuần nghiên cứu và thử nghiệm.
    • Chủ thể: Nhà nghiên cứu và kỹ sư học máy.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành học máy và thị giác máy tính:

    • Lợi ích: Hiểu rõ về phương pháp cross-domain và few-shot learning trong phát hiện đối tượng.
    • Use case: Phát triển các mô hình phát hiện đối tượng đa miền.
  2. Kỹ sư phát triển hệ thống giám sát và nhận dạng hình ảnh:

    • Lợi ích: Áp dụng mô hình FCOS và kỹ thuật fine-tuning để triển khai hệ thống thực tế.
    • Use case: Giám sát nông nghiệp, an ninh, giao thông.
  3. Chuyên gia xử lý ảnh viễn thám và phân tích dữ liệu địa lý:

    • Lợi ích: Nắm bắt các thách thức và giải pháp khi áp dụng mô hình học sâu trên ảnh viễn thám.
    • Use case: Phân loại và phát hiện đối tượng trên ảnh vệ tinh.
  4. Nhà phát triển ứng dụng trong lĩnh vực động vật hoang dã và bảo tồn:

    • Lợi ích: Áp dụng kỹ thuật few-shot learning để phát hiện và phân loại động vật trong môi trường tự nhiên.
    • Use case: Giám sát quần thể động vật, nghiên cứu sinh thái.

Câu hỏi thường gặp

  1. Tại sao chỉ tinh chỉnh lớp cuối cùng của mô hình FCOS?
    Việc này giúp giữ lại kiến thức chung đã học từ bộ dữ liệu lớn MS-COCO, đồng thời giảm chi phí tính toán và tránh overfitting khi dữ liệu mục tiêu hạn chế. Ví dụ, trên bộ DeepFruits, fine-tune lớp cuối giúp đạt mAP trên 70%.

  2. Phương pháp đánh giá hiệu quả mô hình được sử dụng là gì?
    Sử dụng các chỉ số mAP, F1-score ở các ngưỡng IoU khác nhau (0.5, 0.75), cùng với phân tích theo kích thước đối tượng (nhỏ, trung bình, lớn). Ví dụ, mAP50 là mAP tại ngưỡng IoU 0.5.

  3. Tại sao hiệu suất trên bộ dữ liệu DIOR thấp hơn nhiều so với DeepFruits?
    Do đặc điểm ảnh viễn thám có mật độ đối tượng cao, kích thước nhỏ và khác biệt lớn so với ảnh trong MS-COCO, khiến mô hình khó tổng quát hóa chỉ với fine-tune lớp cuối.

  4. Có thể cải thiện hiệu suất phát hiện đối tượng nhỏ như thế nào?
    Có thể áp dụng kỹ thuật chia nhỏ ảnh, tăng cường dữ liệu, hoặc huấn luyện thêm các lớp sâu hơn trong mạng để tăng khả năng nhận diện chi tiết.

  5. Phương pháp few-shot learning được áp dụng như thế nào trong nghiên cứu?
    Chọn ngẫu nhiên một số lượng nhỏ ảnh (ví dụ 100-300 ảnh) từ bộ dữ liệu mục tiêu, chỉ fine-tune lớp cuối cùng của FCOS, đánh giá khả năng mô hình học hiệu quả với dữ liệu hạn chế.

Kết luận

  • Luận văn đã đánh giá hiệu quả của mô hình FCOS trong bài toán phát hiện đối tượng đa miền sử dụng kỹ thuật fine-tune lớp cuối cùng.
  • FCOS thể hiện khả năng thích ứng tốt với các miền có đặc điểm tương đồng như DeepFruits và ImageNet, đạt mAP trên 65%.
  • Hiệu suất giảm rõ rệt với các miền có đặc điểm khác biệt lớn như DIOR và Clipart, đặc biệt với đối tượng nhỏ.
  • Các đề xuất cải tiến bao gồm mở khóa thêm lớp huấn luyện, chia nhỏ ảnh, kết hợp dữ liệu và áp dụng kỹ thuật tăng cường dữ liệu.
  • Nghiên cứu mở ra hướng phát triển các hệ thống phát hiện đối tượng hiệu quả trong điều kiện dữ liệu hạn chế và đa dạng miền thực tế.

Hành động tiếp theo: Triển khai các đề xuất cải tiến, mở rộng thử nghiệm trên các bộ dữ liệu khác, và phát triển các kỹ thuật học sâu nâng cao để nâng cao khả năng tổng quát hóa của mô hình.