Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ xe tự hành, việc nghiên cứu và ứng dụng các phương pháp cảm biến đa dạng nhằm nâng cao khả năng nhận thức môi trường xung quanh là một xu hướng quan trọng. Theo ước tính, ngành công nghiệp xe tự hành toàn cầu dự kiến tăng trưởng với tốc độ trung bình hàng năm khoảng 20% trong thập kỷ tới, phản ánh nhu cầu cấp thiết về các giải pháp công nghệ mới. Luận văn tập trung vào việc nghiên cứu, thiết kế và chế tạo một mẫu xe golf tự hành sử dụng kỹ thuật hợp nhất đa cảm biến (multisensor fusion) nhằm vận hành hiệu quả trong khuôn viên Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh (HCMUTE).

Mục tiêu cụ thể của nghiên cứu là phát triển hệ thống xe golf tự hành có hai chế độ vận hành: tự động và điều khiển thủ công, với khả năng nhận diện làn đường, phân đoạn ngữ nghĩa cảnh vật, xử lý dữ liệu GPS và LiDAR 2D để đảm bảo an toàn và chính xác trong điều khiển. Phạm vi nghiên cứu tập trung trong khuôn viên HCMUTE, với các điều kiện môi trường không quá phức tạp, nhằm thử nghiệm và đánh giá hiệu quả của hệ thống trong thực tế. Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp nền tảng công nghệ cho các thế hệ sinh viên và giảng viên trong lĩnh vực xe tự hành, đồng thời góp phần thúc đẩy ứng dụng trí tuệ nhân tạo và xử lý ảnh trong giao thông thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

  1. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN được sử dụng để trích xuất đặc trưng sâu từ hình ảnh, phục vụ cho các nhiệm vụ phát hiện làn đường và phân đoạn ngữ nghĩa. Các kiến trúc CNN như ResNet-18 với khối residual giúp giải quyết vấn đề biến mất gradient, cùng với mô hình LiteSeg được cải tiến tích hợp Convolutional Block Attention Module (CBAM) nhằm tăng cường khả năng tập trung vào các vùng quan trọng trong ảnh.

  2. Thuật toán hợp nhất đa cảm biến (Multisensor Fusion): Kết hợp dữ liệu từ camera, GPS và LiDAR 2D bằng các thuật toán như Kalman Filter để lọc nhiễu tín hiệu GPS, Adaptive Breakpoint Detector (ABD) và RANSAC để phân cụm và nhận dạng vật thể từ dữ liệu LiDAR, cùng với kỹ thuật đa luồng (multithreading) để xử lý song song các luồng dữ liệu.

Các khái niệm chính bao gồm: Semantic Segmentation, Lane-Line Detection, Kalman Filter, PID Controller, và thuật toán clustering điểm mây (point cloud clustering).

Phương pháp nghiên cứu

Nguồn dữ liệu thu thập bao gồm hình ảnh RGB từ camera Astra, dữ liệu vị trí từ module GPS Ublox M8N, dữ liệu quét môi trường 2D từ LiDAR RPLidar A1, và tín hiệu phản hồi góc lái từ bộ mã hóa tuyệt đối (absolute encoder). Cỡ mẫu nghiên cứu là toàn bộ dữ liệu thu thập được trong quá trình thử nghiệm trên khuôn viên HCMUTE trong khoảng thời gian từ tháng 9/2021 đến tháng 1/2022.

Phương pháp phân tích sử dụng các mô hình học sâu được huấn luyện và tinh chỉnh trên bộ dữ liệu tự gán nhãn, kết hợp với các thuật toán lọc và điều khiển truyền thống như Kalman Filter và PID Controller. Việc lựa chọn phương pháp phân tích dựa trên yêu cầu cân bằng giữa độ chính xác và khả năng thực thi thời gian thực trên phần cứng có cấu hình trung bình (laptop với GPU NVIDIA GTX 1650 và Jetson TX2). Quá trình nghiên cứu được thực hiện theo timeline gồm khảo sát tài liệu, thiết kế phần cứng, phát triển phần mềm, thử nghiệm và đánh giá hệ thống.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của mô hình học sâu trong nhận diện làn đường và phân đoạn ngữ nghĩa: Mô hình Lane-Line Detection đạt độ chính xác mIoU trên 85%, trong khi mô hình Semantic Segmentation cải tiến với CBAM đạt mIoU khoảng 80%, cho thấy khả năng nhận diện chính xác các đối tượng và làn đường trong môi trường campus.

  2. Độ ổn định và chính xác của dữ liệu GPS sau lọc Kalman: Việc áp dụng Kalman Filter giúp giảm nhiễu tín hiệu GPS, cải thiện độ chính xác vị trí trung bình từ sai số khoảng 5 mét xuống còn dưới 2 mét, đảm bảo định vị liên tục và ổn định cho xe.

  3. Khả năng phát hiện vật cản và tránh va chạm bằng LiDAR 2D: Thuật toán Adaptive Breakpoint Detector kết hợp RANSAC phân cụm điểm mây giúp nhận dạng vật thể với độ chính xác trên 90% trong phạm vi 12 mét, hỗ trợ hiệu quả cho quá trình tránh vật cản.

  4. Tốc độ xử lý và đáp ứng thời gian thực: Hệ thống đạt tốc độ xử lý tối thiểu 20 khung hình/giây (FPS), đáp ứng yêu cầu vận hành thực tế, với việc sử dụng đa luồng và phân phối xử lý giữa laptop và Jetson TX2 giúp giảm tải cho bộ xử lý chính.

Thảo luận kết quả

Nguyên nhân của các kết quả tích cực đến từ việc kết hợp hiệu quả các thuật toán học sâu với kỹ thuật lọc và điều khiển truyền thống, đồng thời tận dụng phần cứng phù hợp để cân bằng giữa hiệu suất và chi phí. So với các nghiên cứu trước đây sử dụng cảm biến đắt tiền như LiDAR 3D, việc sử dụng LiDAR 2D kết hợp camera và GPS trong nghiên cứu này là giải pháp tiết kiệm chi phí nhưng vẫn đảm bảo độ chính xác chấp nhận được trong môi trường campus. Kết quả cũng cho thấy hạn chế trong việc vận hành ở môi trường phức tạp hơn như đường lớn hoặc khu vực đông người, do giới hạn góc quay camera và độ nhạy của cảm biến giá rẻ. Biểu đồ so sánh hiệu suất các mô hình học sâu và biểu đồ sai số vị trí GPS trước và sau lọc Kalman có thể minh họa rõ nét các phát hiện này.

Đề xuất và khuyến nghị

  1. Nâng cấp hệ thống cảm biến: Thay thế hoặc bổ sung các cảm biến có độ chính xác cao hơn như LiDAR 3D hoặc camera góc rộng để mở rộng phạm vi hoạt động và cải thiện khả năng nhận diện trong môi trường phức tạp. Mục tiêu tăng độ chính xác vị trí và nhận diện vật thể lên trên 95% trong vòng 12 tháng, do nhóm phát triển và phòng thí nghiệm AI thực hiện.

  2. Cải tiến thuật toán xử lý dữ liệu: Áp dụng các mô hình học sâu tiên tiến hơn như mạng nơ-ron sâu đa tầng (deep multi-layer networks) và kỹ thuật học tăng cường (reinforcement learning) để nâng cao khả năng dự đoán và điều khiển. Thời gian thực hiện dự kiến 18 tháng, phối hợp với các chuyên gia AI và kỹ sư phần mềm.

  3. Tối ưu phần mềm và đa luồng: Mở rộng và tối ưu hóa kỹ thuật đa luồng, sử dụng các thư viện tối ưu như TensorRT để tăng tốc độ xử lý, giảm độ trễ xuống dưới 15 FPS nhằm đáp ứng các ứng dụng thực tế đa dạng hơn. Thời gian thực hiện 6 tháng, do nhóm phát triển phần mềm đảm nhận.

  4. Mở rộng phạm vi thử nghiệm: Thực hiện thử nghiệm trên các địa điểm có điều kiện giao thông phức tạp hơn như khu đô thị hoặc sân golf thực tế để đánh giá và điều chỉnh hệ thống phù hợp. Kế hoạch triển khai trong 12 tháng tiếp theo, phối hợp với các đối tác bên ngoài và nhà trường.

Đối tượng nên tham khảo luận văn

  1. Sinh viên và nghiên cứu sinh ngành Kỹ thuật Máy tính và Trí tuệ Nhân tạo: Luận văn cung cấp kiến thức thực tiễn về ứng dụng CNN, multisensor fusion và điều khiển tự động, hỗ trợ phát triển kỹ năng nghiên cứu và thực hành.

  2. Giảng viên và nhà nghiên cứu trong lĩnh vực xe tự hành và robot: Tài liệu chi tiết về thiết kế phần cứng, thuật toán xử lý và thử nghiệm thực tế giúp làm nền tảng cho các dự án nghiên cứu tiếp theo.

  3. Kỹ sư phát triển hệ thống điều khiển và tự động hóa: Cung cấp các giải pháp tích hợp cảm biến và thuật toán điều khiển PID, Kalman Filter trong môi trường thực tế với chi phí hợp lý.

  4. Doanh nghiệp và startup công nghệ giao thông thông minh: Tham khảo mô hình phát triển xe tự hành chi phí thấp, ứng dụng trong môi trường giới hạn, làm cơ sở cho việc phát triển sản phẩm thương mại.

Câu hỏi thường gặp

  1. Hệ thống xe golf tự hành này có thể hoạt động ngoài khuôn viên trường không?
    Hiện tại, hệ thống được thiết kế và thử nghiệm chủ yếu trong khuôn viên HCMUTE với môi trường không quá phức tạp. Việc mở rộng ra môi trường bên ngoài đòi hỏi nâng cấp cảm biến và thuật toán để xử lý các tình huống đa dạng hơn.

  2. Các cảm biến sử dụng có độ chính xác như thế nào?
    Camera Astra cung cấp hình ảnh RGB và độ sâu với độ phân giải 1280x960, LiDAR 2D có phạm vi đo từ 0.15m đến 12m với độ phân giải góc ≤1°, GPS sau lọc Kalman có sai số vị trí dưới 2 mét trong điều kiện thử nghiệm.

  3. Tốc độ xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
    Hệ thống đạt tối thiểu 20 FPS, đủ để vận hành trong môi trường campus với các tình huống cơ bản, nhờ vào việc sử dụng đa luồng và phân phối xử lý giữa laptop và Jetson TX2.

  4. Hệ thống có thể hoạt động hoàn toàn tự động không?
    Hiện tại, xe golf có hai chế độ: tự động và thủ công. Tuy nhiên, do giới hạn về phần cứng và cảm biến, hệ thống chưa thể vận hành hoàn toàn tự động mà không cần sự giám sát hoặc can thiệp của người điều khiển.

  5. Có thể áp dụng các thuật toán học sâu khác để cải thiện hiệu suất không?
    Có thể. Việc áp dụng các mô hình học sâu tiên tiến hơn hoặc kỹ thuật học tăng cường có thể nâng cao khả năng nhận diện và điều khiển, tuy nhiên cần cân nhắc về chi phí tính toán và khả năng thực thi trên phần cứng hiện có.

Kết luận

  • Luận văn đã thành công trong việc thiết kế và chế tạo một mẫu xe golf tự hành sử dụng kỹ thuật hợp nhất đa cảm biến, vận hành hiệu quả trong khuôn viên HCMUTE.
  • Mô hình học sâu kết hợp với các thuật toán lọc và điều khiển truyền thống đã nâng cao độ chính xác nhận diện và định vị, với tốc độ xử lý đáp ứng yêu cầu thực tế.
  • Hệ thống sử dụng phần cứng chi phí thấp, tạo điều kiện thuận lợi cho việc nghiên cứu và ứng dụng trong môi trường học thuật.
  • Hạn chế hiện tại bao gồm khả năng vận hành trong môi trường phức tạp và độ chính xác cảm biến chưa tối ưu.
  • Các bước tiếp theo bao gồm nâng cấp cảm biến, cải tiến thuật toán, tối ưu phần mềm và mở rộng phạm vi thử nghiệm nhằm hoàn thiện hệ thống cho ứng dụng thực tế rộng rãi hơn.

Khuyến khích các nhà nghiên cứu và kỹ sư trong lĩnh vực xe tự hành tiếp tục phát triển dựa trên nền tảng này để thúc đẩy công nghệ giao thông thông minh tại Việt Nam.