Tổng quan nghiên cứu
Trong bối cảnh cuộc cách mạng công nghệ 4.0, trí tuệ nhân tạo (AI) và máy bay không người lái (drone) đã trở thành những lĩnh vực phát triển nhanh chóng và có ảnh hưởng sâu rộng đến nhiều ngành nghề. Theo báo cáo của ngành, thị trường drone toàn cầu năm 2018 đạt giá trị khoảng 14,1 tỷ đô la và dự kiến tăng gấp ba lần vào năm 2024, phản ánh sự gia tăng ứng dụng đa dạng từ nông nghiệp, cứu trợ thiên tai đến giám sát đô thị và môi trường. Tuy nhiên, để nâng cao hiệu quả và tính tự động hóa của drone, việc tích hợp các mô hình trí tuệ nhân tạo nhằm nhận diện vật thể là rất cần thiết.
Luận văn tập trung xây dựng mô hình trí tuệ nhân tạo dựa trên mạng thần kinh tích chập (CNN) nhằm hỗ trợ drone DJI Tello nhận diện các vật thể có dạng hình học cơ bản như hình tròn, tam giác, hình chữ nhật và ngũ giác đều. Mục tiêu cụ thể là phát triển bộ dữ liệu ảnh đa dạng với các vật thể có màu sắc cơ bản trong không gian RGB, phù hợp với camera của drone, đồng thời xây dựng và huấn luyện mô hình CNN để đạt độ chính xác cao trong nhận diện và phân loại vật thể. Nghiên cứu được thực hiện trong môi trường trong nhà với điều kiện ánh sáng ổn định, từ tháng 2 đến tháng 8 năm 2023.
Việc phát triển mô hình này không chỉ nâng cao khả năng tự động hóa và an toàn cho drone trong quá trình bay mà còn mở ra nhiều ứng dụng thực tiễn trong giám sát, khảo sát và điều khiển drone thông minh. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải thiện hiệu suất nhận diện vật thể, giảm thiểu rủi ro va chạm và tăng cường khả năng thực hiện các nhiệm vụ phức tạp của drone.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: học máy (Machine Learning) và học sâu (Deep Learning), trong đó mạng thần kinh tích chập (Convolutional Neural Network - CNN) là trọng tâm. Học máy là phương pháp tự động hóa phân tích dữ liệu, cho phép máy tính học từ dữ liệu mà không cần lập trình cụ thể. Học sâu là một nhánh của học máy sử dụng mạng nơ ron nhiều tầng để trích xuất đặc trưng phức tạp từ dữ liệu, đặc biệt hiệu quả trong xử lý hình ảnh.
CNN là mô hình mạng nơ ron nhân tạo được thiết kế đặc biệt cho các bài toán nhận diện và phân loại hình ảnh. Kiến trúc CNN bao gồm các lớp tích chập (Convolutional layer) để trích xuất đặc trưng, lớp kích hoạt phi tuyến ReLU để tăng tính phi tuyến, lớp tổng hợp (Pooling) nhằm giảm kích thước dữ liệu và lớp kết nối đầy đủ (Fully connected) để phân loại. CNN có khả năng tự động học các đặc trưng quan trọng từ dữ liệu hình ảnh, giúp tối ưu hóa quá trình nhận diện vật thể.
Các khái niệm chính được áp dụng trong nghiên cứu gồm:
- Drone (Máy bay không người lái): Thiết bị bay tự động hoặc điều khiển từ xa, trong nghiên cứu là DJI Tello với camera 5 MP và khả năng bay tối đa 13 phút.
- Mạng thần kinh tích chập (CNN): Mô hình học sâu chuyên xử lý ảnh, gồm các lớp tích chập, ReLU, pooling và fully connected.
- Bộ dữ liệu ảnh (Dataset): Tập hợp hình ảnh vật thể hình học cơ bản với màu sắc đỏ, lục, lam, được xây dựng phù hợp với camera drone.
- Các chỉ số đánh giá mô hình: Độ chính xác (accuracy), precision, recall và F1-score, dùng để đánh giá hiệu quả nhận diện và phân loại.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ ảnh vật thể hình học cơ bản được chế tạo thủ công từ giấy màu và bìa cứng với ba màu cơ bản (đỏ, lục, lam). Bộ dữ liệu được xây dựng với kích thước phù hợp với camera của DJI Tello, chuyển đổi sang hệ màu trắng đen để tăng hiệu quả nhận diện. Quá trình thu thập dữ liệu diễn ra trong môi trường trong nhà với ánh sáng ổn định, tránh trùng màu nền.
Phương pháp phân tích sử dụng mô hình CNN được xây dựng và huấn luyện trên nền tảng Python với các thư viện hỗ trợ như OpenCV, Matplotlib và DJITelloPy để điều khiển drone. Mô hình được huấn luyện trên bộ dữ liệu ảnh với kích thước mẫu khoảng vài nghìn ảnh, sử dụng phương pháp học có giám sát (supervised learning). Cỡ mẫu huấn luyện và kiểm thử được chia theo tỷ lệ phù hợp để đảm bảo tính khách quan và độ tin cậy của kết quả.
Quá trình huấn luyện mô hình được thực hiện trên nền tảng Google Colab với GPU Nvidia A100, giúp tăng tốc độ xử lý và tối ưu hóa thuật toán. Các bước thực hiện gồm: xây dựng bộ dữ liệu, thiết kế kiến trúc CNN, huấn luyện mô hình, kiểm thử và đánh giá hiệu quả bằng ma trận nhầm lẫn (confusion matrix) và các chỉ số precision, recall, F1-score.
Thời gian nghiên cứu kéo dài từ tháng 2 đến tháng 8 năm 2023, bao gồm các giai đoạn chuẩn bị dữ liệu, phát triển mô hình, thực nghiệm và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất nhận diện cao: Mô hình CNN đạt độ chính xác trên 99% trên cả tập huấn luyện và tập kiểm tra, thể hiện khả năng phân loại chính xác các vật thể hình học cơ bản. Các chỉ số precision, recall và F1-score đều đạt giá trị tối đa 1,00 cho từng loại hình dạng (hình tròn, tam giác, chữ nhật, ngũ giác đều).
Khả năng nhận diện đa dạng màu sắc: Mô hình thành công trong việc chuyển đổi và nhận diện các vật thể có màu đỏ, lục, lam sang hệ màu trắng đen, giúp drone phân biệt vật thể trong môi trường có nền không trùng màu. Điều này đảm bảo tính ổn định và chính xác trong nhận diện.
Tính ứng dụng thực tiễn: Thực nghiệm đặt vật thể ở nhiều vị trí khác nhau trong không gian thử nghiệm cho thấy mô hình duy trì hiệu quả nhận diện ổn định, giúp drone có thể phát hiện và phân loại vật thể trong quá trình bay.
Tối ưu hóa thuật toán và thời gian huấn luyện: Việc sử dụng GPU Nvidia A100 trên Google Colab giúp giảm đáng kể thời gian huấn luyện, đồng thời cải thiện khả năng xử lý dữ liệu lớn và phức tạp.
Thảo luận kết quả
Kết quả nghiên cứu cho thấy mô hình CNN được xây dựng phù hợp và hiệu quả trong việc nhận diện vật thể hình học cơ bản cho drone DJI Tello. Độ chính xác trên 99% vượt trội so với nhiều nghiên cứu tương tự trong lĩnh vực nhận diện hình ảnh drone, chứng tỏ tính khả thi của việc tích hợp AI vào thiết bị bay nhỏ gọn.
Nguyên nhân thành công đến từ việc xây dựng bộ dữ liệu đa dạng về màu sắc và hình dạng, cùng với kiến trúc CNN được tối ưu hóa cho bài toán nhận diện vật thể đơn giản nhưng thiết yếu. Việc chuyển đổi màu sắc sang hệ trắng đen giúp giảm nhiễu và tăng khả năng phân biệt vật thể trong môi trường thực nghiệm.
So sánh với các nghiên cứu khác về nhận diện vật thể bằng drone, mô hình này có ưu điểm về độ chính xác và tính ổn định trong điều kiện ánh sáng trong nhà. Tuy nhiên, nghiên cứu cũng nhận thấy hạn chế khi áp dụng trong môi trường ngoài trời hoặc điều kiện ánh sáng phức tạp, cần mở rộng bộ dữ liệu và cải tiến mô hình trong tương lai.
Dữ liệu có thể được trình bày qua biểu đồ độ chính xác theo từng epoch huấn luyện, ma trận nhầm lẫn chuẩn hóa cho từng lớp vật thể, và bảng so sánh các chỉ số precision, recall, F1-score giữa các loại hình học. Các biểu đồ này minh họa rõ ràng hiệu quả và độ tin cậy của mô hình.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm hình ảnh vật thể trong nhiều điều kiện ánh sáng và môi trường khác nhau, bao gồm ngoài trời và các nền phức tạp, nhằm nâng cao khả năng tổng quát hóa của mô hình. Thời gian thực hiện dự kiến 6 tháng, do nhóm nghiên cứu và cộng tác viên thực hiện.
Tối ưu hóa mô hình CNN: Nghiên cứu và áp dụng các kiến trúc CNN tiên tiến hơn như ResNet hoặc EfficientNet để cải thiện hiệu suất nhận diện và giảm thiểu thời gian huấn luyện. Thời gian triển khai 3 tháng, do nhóm phát triển AI đảm nhiệm.
Tích hợp mô hình vào hệ thống điều khiển drone: Phát triển phần mềm tích hợp mô hình AI trực tiếp trên drone DJI Tello hoặc hệ thống điều khiển từ xa để thực hiện nhận diện vật thể trong thời gian thực, nâng cao khả năng tự động hóa. Thời gian thực hiện 4 tháng, phối hợp giữa nhóm AI và kỹ thuật drone.
Thử nghiệm thực tế và đánh giá hiệu quả: Tiến hành các bài kiểm tra bay trong môi trường thực tế với các vật thể đa dạng, đánh giá độ chính xác, tốc độ phản hồi và khả năng tránh va chạm của drone. Thời gian dự kiến 2 tháng, do nhóm nghiên cứu và kỹ thuật viên thực hiện.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo cho sinh viên, kỹ sư và nhà nghiên cứu về ứng dụng AI trong drone, đồng thời phát triển tài liệu hướng dẫn sử dụng mô hình và phần mềm. Thời gian 3 tháng, do khoa Kỹ thuật và Công nghệ Đại học Huế chủ trì.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ Nhân tạo và Robotics: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng CNN trong nhận diện vật thể cho drone, giúp phát triển các đề tài nghiên cứu liên quan.
Kỹ sư phát triển drone và hệ thống tự động hóa: Tham khảo để áp dụng mô hình AI nâng cao khả năng nhận diện và điều khiển drone trong các ứng dụng thực tế như giám sát, khảo sát và cứu hộ.
Doanh nghiệp công nghệ và startup trong lĩnh vực drone và AI: Sử dụng kết quả nghiên cứu để phát triển sản phẩm drone thông minh, cải thiện tính năng nhận diện vật thể và tăng cường an toàn bay.
Cơ quan quản lý và tổ chức đào tạo: Áp dụng luận văn làm tài liệu tham khảo trong đào tạo kỹ thuật drone và AI, đồng thời hỗ trợ xây dựng chính sách phát triển công nghệ drone tại địa phương.
Câu hỏi thường gặp
Mô hình CNN được xây dựng như thế nào để nhận diện các hình dạng cơ bản?
Mô hình CNN sử dụng các lớp tích chập để trích xuất đặc trưng từ ảnh vật thể, kết hợp với lớp ReLU và pooling để giảm kích thước dữ liệu, cuối cùng là lớp fully connected và softmax để phân loại hình tròn, tam giác, chữ nhật và ngũ giác đều. Ví dụ, mô hình đạt độ chính xác trên 99% trong thực nghiệm.Bộ dữ liệu ảnh được xây dựng ra sao và có đặc điểm gì?
Bộ dữ liệu gồm các hình ảnh vật thể hình học cơ bản với màu đỏ, lục, lam, được chế tạo thủ công và chụp trong môi trường trong nhà với ánh sáng ổn định. Ảnh được chuyển sang hệ màu trắng đen để tăng hiệu quả nhận diện.Làm thế nào để tích hợp mô hình AI vào drone DJI Tello?
Sử dụng thư viện DJITelloPy để điều khiển drone, mô hình CNN được triển khai trên nền tảng Python và tích hợp qua giao tiếp dữ liệu giữa drone và máy tính, cho phép drone nhận diện vật thể trong thời gian thực.Mô hình có thể áp dụng trong điều kiện ngoài trời không?
Hiện tại mô hình được huấn luyện và thử nghiệm trong môi trường trong nhà với ánh sáng ổn định. Để áp dụng ngoài trời cần mở rộng bộ dữ liệu và điều chỉnh mô hình để xử lý các điều kiện ánh sáng và nền phức tạp hơn.Các chỉ số đánh giá mô hình gồm những gì và ý nghĩa ra sao?
Các chỉ số chính gồm độ chính xác (accuracy), precision, recall và F1-score. Precision đo khả năng phân loại đúng vật thể thuộc lớp, recall đo khả năng phát hiện đầy đủ vật thể, F1-score là trung bình điều hòa của precision và recall, phản ánh hiệu quả tổng thể của mô hình.
Kết luận
- Đã xây dựng thành công mô hình trí tuệ nhân tạo dựa trên CNN hỗ trợ drone DJI Tello nhận diện vật thể hình học cơ bản với độ chính xác trên 99%.
- Bộ dữ liệu ảnh đa dạng về màu sắc và hình dạng được thiết kế phù hợp với camera drone, giúp nâng cao hiệu quả huấn luyện và nhận diện.
- Mô hình cho thấy khả năng nhận diện ổn định trong môi trường trong nhà với ánh sáng ổn định, mở ra tiềm năng ứng dụng trong nhiều lĩnh vực.
- Đề xuất mở rộng bộ dữ liệu, tối ưu hóa mô hình và tích hợp trực tiếp vào hệ thống điều khiển drone để nâng cao tính tự động và an toàn bay.
- Khuyến khích các nhà nghiên cứu, kỹ sư và doanh nghiệp ứng dụng kết quả nghiên cứu để phát triển drone thông minh, đồng thời tiếp tục nghiên cứu mở rộng trong các điều kiện thực tế đa dạng hơn.
Hành động tiếp theo là triển khai các đề xuất mở rộng và tích hợp mô hình vào drone trong môi trường thực tế, đồng thời tổ chức đào tạo chuyển giao công nghệ nhằm thúc đẩy ứng dụng rộng rãi trong cộng đồng nghiên cứu và sản xuất.