Tổng quan nghiên cứu

Trong những năm gần đây, việc ứng dụng các phương tiện bay không người lái (UAV) ngày càng phổ biến trong nhiều lĩnh vực như nghiên cứu khoa học, thương mại và giải trí. Theo ước tính, UAV đã phát triển vượt bậc về khả năng tự động hóa, thực hiện các nhiệm vụ phức tạp và ra quyết định độc lập. Tuy nhiên, việc điều khiển và theo dõi đối tượng bằng UAV vẫn còn nhiều thách thức, đặc biệt khi cần xử lý hình ảnh thời gian thực với độ chính xác cao. Luận văn tập trung nghiên cứu phát triển hệ thống quadcopter có khả năng bám theo vật thể dựa trên mô hình xử lý ảnh deep-learning, cụ thể là sử dụng mạng nơ-ron tích chập (CNN) YOLOv3 kết hợp với bộ xử lý logic mờ (fuzzy logic) để điều khiển quadcopter tự động.

Mục tiêu chính của nghiên cứu là xây dựng trạm mặt đất có khả năng nhận diện và theo dõi ba loại đối tượng khác nhau, đồng thời điều khiển quadcopter bám theo vật thể đã chọn. Nghiên cứu được thực hiện trong phạm vi thời gian đến năm 2020 tại thành phố Hồ Chí Minh, sử dụng phần cứng gồm GPU GTX 1060, CPU AMD Ryzen 5 và bộ điều khiển Ardupilot. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả điều khiển UAV trong các ứng dụng giám sát, cứu hộ và khảo sát địa hình, góp phần thúc đẩy phát triển công nghệ tự động hóa trong lĩnh vực hàng không không người lái.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron tích chập (CNN) và logic mờ (fuzzy logic). CNN là mô hình học sâu chuyên dụng cho xử lý ảnh, với các thành phần chính gồm lớp tích chập (convolutional layer), lớp gộp (pooling layer) và lớp kết nối đầy đủ (fully connected layer). Mạng YOLOv3 được sử dụng làm thuật toán nhận diện đối tượng, với kiến trúc Darknet-53 gồm 53 lớp tích chập, giúp phát hiện đối tượng nhanh và hiệu quả trong thời gian thực. Thuật toán này chia ảnh đầu vào thành lưới và dự đoán các hộp giới hạn (bounding box) cùng xác suất đối tượng, sử dụng kỹ thuật Non-Maximum Suppression để loại bỏ các dự đoán trùng lặp.

Logic mờ được áp dụng để xử lý các tín hiệu điều khiển quadcopter dựa trên khoảng cách giữa tâm hộp giới hạn của đối tượng và tâm khung hình camera. Hệ thống suy diễn logic mờ (FIS) gồm các thành phần: cơ sở luật IF-THEN, hàm thành viên (membership function), bộ quyết định và các giao diện fuzzification, defuzzification. Logic mờ cho phép xử lý thông tin không chính xác hoặc mơ hồ, mô phỏng cách ra quyết định của con người trong điều khiển quadcopter.

Các khái niệm chuyên ngành quan trọng bao gồm: PWM (Pulse Width Modulation) dùng để điều khiển tốc độ động cơ, PID firmware trong bộ điều khiển Ardupilot để ổn định bay, FPV (First Person View) camera truyền hình ảnh thời gian thực, và thuật toán anchor box trong YOLOv3 để dự đoán nhiều đối tượng cùng lúc.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hình ảnh thu được từ camera FPV gắn trên quadcopter, được truyền về trạm mặt đất để xử lý. Mô hình YOLOv3 được huấn luyện trên nền tảng Google Colab sử dụng framework Darknet với bộ dữ liệu gồm nhiều ảnh có gán nhãn ba loại đối tượng khác nhau. Quá trình huấn luyện sử dụng GPU GTX 1060 với VRAM 6GB và CPU AMD Ryzen 5 Six-Core, đảm bảo khả năng xử lý nhanh và hiệu quả.

Phương pháp phân tích bao gồm: nhận diện đối tượng bằng YOLOv3, tính toán vị trí đối tượng trong khung hình, sau đó sử dụng bốn bộ xử lý logic mờ độc lập cho các tín hiệu điều khiển throttle, roll, pitch và yaw. Các tín hiệu PWM được xuất ra để điều khiển động cơ quadcopter qua bộ điều khiển Ardupilot Mega 2.8. Cỡ mẫu nghiên cứu là tập dữ liệu hình ảnh đa dạng, được chọn lọc kỹ càng để đảm bảo độ chính xác của mô hình. Thời gian nghiên cứu kéo dài từ đầu năm 2019 đến tháng 9 năm 2020.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả nhận diện đối tượng: Mô hình YOLOv3 đạt độ chính xác nhận diện ba loại đối tượng với tỷ lệ chính xác trung bình trên 85%. Số lượng bounding box dự đoán lên đến 10,647 cho ảnh kích thước 416x416, được lọc qua thuật toán Non-Maximum Suppression để giảm trùng lặp.

  2. Độ trễ xử lý: Thời gian xử lý trung bình cho mỗi khung hình là khoảng 30ms, đảm bảo khả năng nhận diện và theo dõi trong thời gian thực. So với các nghiên cứu trước đây sử dụng SSD, thời gian xử lý có phần chậm hơn nhưng vẫn đáp ứng yêu cầu ứng dụng.

  3. Hiệu quả điều khiển quadcopter: Bộ xử lý logic mờ cho phép quadcopter điều chỉnh chính xác các tham số bay như throttle, roll, pitch và yaw dựa trên khoảng cách x, y giữa đối tượng và tâm khung hình. Tín hiệu PWM được điều chỉnh liên tục giúp quadcopter duy trì vị trí bám theo đối tượng với sai số trung bình dưới 5%.

  4. Giao diện người dùng: Hệ thống giao diện Python cho phép người dùng quan sát trực tiếp quá trình nhận diện và điều khiển, cung cấp thông số thời gian thực như vị trí đối tượng, tín hiệu PWM và trạng thái quadcopter.

Thảo luận kết quả

Nguyên nhân chính giúp hệ thống đạt hiệu quả là sự kết hợp giữa mô hình deep-learning mạnh mẽ YOLOv3 và bộ xử lý logic mờ linh hoạt, cho phép xử lý tín hiệu điều khiển trong môi trường thực tế có nhiều biến động. So với các nghiên cứu trước đây sử dụng SSD hoặc CMT Tracker, hệ thống này ưu việt hơn về khả năng tùy chỉnh đối tượng theo dõi và tích hợp điều khiển tự động.

Dữ liệu có thể được trình bày qua biểu đồ thời gian xử lý khung hình, biểu đồ sai số vị trí đối tượng theo thời gian và bảng so sánh độ chính xác nhận diện giữa các thuật toán. Kết quả cho thấy tiềm năng ứng dụng rộng rãi trong các lĩnh vực giám sát, cứu hộ và khảo sát địa hình, đồng thời mở ra hướng phát triển các UAV tự động thông minh hơn.

Đề xuất và khuyến nghị

  1. Tối ưu hóa mô hình YOLOv3: Cần tiếp tục huấn luyện với bộ dữ liệu lớn hơn và đa dạng hơn để nâng cao độ chính xác nhận diện, đồng thời áp dụng kỹ thuật pruning hoặc quantization để giảm thời gian xử lý, hướng tới mục tiêu giảm thời gian xử lý xuống dưới 20ms trong vòng 12 tháng tới.

  2. Nâng cấp phần cứng trạm mặt đất: Đề xuất sử dụng GPU thế hệ mới với hiệu năng cao hơn và bộ xử lý đa nhân để tăng khả năng xử lý song song, giảm độ trễ truyền tín hiệu, dự kiến thực hiện trong 6 tháng tiếp theo.

  3. Phát triển thuật toán logic mờ nâng cao: Xây dựng hệ thống logic mờ đa cấp, kết hợp với thuật toán học tăng cường (reinforcement learning) để cải thiện khả năng thích ứng với môi trường bay phức tạp, mục tiêu hoàn thiện trong 18 tháng.

  4. Mở rộng ứng dụng thực tế: Khuyến nghị triển khai thử nghiệm hệ thống trong các dự án cứu hộ, giám sát môi trường và khảo sát địa hình tại một số địa phương, thu thập phản hồi để điều chỉnh và hoàn thiện sản phẩm trong vòng 24 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành điều khiển tự động và trí tuệ nhân tạo: Luận văn cung cấp kiến thức sâu về ứng dụng CNN và logic mờ trong điều khiển UAV, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Kỹ sư phát triển UAV và robot bay: Các kỹ sư có thể áp dụng mô hình và thuật toán trong thiết kế hệ thống điều khiển tự động, nâng cao hiệu suất và độ chính xác của UAV.

  3. Doanh nghiệp công nghệ và startup trong lĩnh vực drone: Tham khảo để phát triển sản phẩm UAV thông minh, tích hợp xử lý ảnh thời gian thực và điều khiển tự động, tăng tính cạnh tranh trên thị trường.

  4. Cơ quan quản lý và tổ chức ứng dụng UAV: Hỗ trợ đánh giá công nghệ, xây dựng tiêu chuẩn kỹ thuật và triển khai các dự án ứng dụng UAV trong giám sát, cứu hộ và khảo sát.

Câu hỏi thường gặp

  1. Mô hình YOLOv3 có ưu điểm gì so với các thuật toán nhận diện khác?
    YOLOv3 cho phép nhận diện đối tượng nhanh trong thời gian thực với độ chính xác cao nhờ kiến trúc Darknet-53 và kỹ thuật anchor box, phù hợp cho các ứng dụng UAV cần xử lý nhanh.

  2. Logic mờ được áp dụng như thế nào trong điều khiển quadcopter?
    Logic mờ xử lý các tín hiệu khoảng cách x, y giữa đối tượng và tâm khung hình để tạo ra các tín hiệu PWM điều khiển động cơ, giúp quadcopter điều chỉnh vị trí bám theo vật thể một cách linh hoạt và chính xác.

  3. Tại sao cần trạm mặt đất để xử lý thay vì đặt GPU trên quadcopter?
    GPU trên quadcopter thường cồng kềnh, tiêu tốn nhiều năng lượng và làm tăng trọng lượng, ảnh hưởng đến khả năng bay. Trạm mặt đất giúp xử lý mạnh mẽ, giảm tải cho quadcopter và tiết kiệm năng lượng.

  4. Hệ thống có thể theo dõi bao nhiêu loại đối tượng cùng lúc?
    Hệ thống được huấn luyện để nhận diện và theo dõi ba loại đối tượng khác nhau, người dùng có thể lựa chọn đối tượng cần bám theo trong giao diện.

  5. Khả năng ứng dụng thực tế của hệ thống này ra sao?
    Hệ thống phù hợp cho các nhiệm vụ giám sát, cứu hộ, khảo sát địa hình, giúp giảm thiểu nhân lực và tăng hiệu quả hoạt động nhờ khả năng tự động nhận diện và theo dõi đối tượng trong thời gian thực.

Kết luận

  • Luận văn đã phát triển thành công hệ thống quadcopter bám theo vật thể dựa trên mô hình deep-learning YOLOv3 kết hợp logic mờ, đạt độ chính xác nhận diện trên 85% và thời gian xử lý khoảng 30ms mỗi khung hình.
  • Hệ thống điều khiển tự động giúp quadcopter duy trì vị trí bám theo đối tượng với sai số dưới 5%, đảm bảo ổn định và linh hoạt trong môi trường bay thực tế.
  • Giao diện người dùng trực quan hỗ trợ quan sát quá trình nhận diện và điều khiển thời gian thực, nâng cao trải nghiệm vận hành.
  • Nghiên cứu mở ra hướng phát triển UAV tự động thông minh, ứng dụng rộng rãi trong giám sát, cứu hộ và khảo sát địa hình.
  • Các bước tiếp theo bao gồm tối ưu hóa mô hình, nâng cấp phần cứng và mở rộng thử nghiệm thực tế, kêu gọi các nhà nghiên cứu và doanh nghiệp cùng hợp tác phát triển công nghệ.