Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, trí tuệ nhân tạo (AI) và các ứng dụng học sâu ngày càng trở nên thiết yếu trong nhiều lĩnh vực, đặc biệt là trong ngành công nghiệp ô tô. Theo ước tính, các hệ thống hỗ trợ lái xe thông minh (Advanced Driver-Assistance Systems - ADAS) đang được phát triển rộng rãi nhằm nâng cao an toàn và hướng tới mục tiêu xe tự lái hoàn toàn. Một trong những thách thức lớn là khả năng nhận diện chính xác các vật thể trên đường như người đi bộ, phương tiện giao thông và biển báo. Đề tài "Hệ thống nhận diện vật thể trên đường sử dụng mạng Capsule" tập trung nghiên cứu và thiết kế một hệ thống nhận diện dựa trên mạng Capsule, một kiến trúc mạng neural tiên tiến được đề xuất nhằm khắc phục những hạn chế của mạng CNN truyền thống.

Mục tiêu chính của nghiên cứu là thiết kế, huấn luyện và đánh giá mạng Capsule để nhận diện các loại phương tiện lưu thông trên đường với độ chính xác cao, đồng thời đề xuất thiết kế sơ bộ phần mềm nhận diện tích hợp trên nền tảng phần cứng NVIDIA Jetson Nano và camera Raspberry Pi V1. Phạm vi nghiên cứu tập trung vào việc xây dựng các lớp mạng Capsule, thuật toán định tuyến động và đánh giá hiệu suất nhận diện trong môi trường thực tế tại Việt Nam trong giai đoạn 2021-2022. Ý nghĩa của đề tài không chỉ góp phần nâng cao hiệu quả nhận diện vật thể trong hệ thống xe tự lái mà còn mở rộng ứng dụng mạng Capsule trong lĩnh vực kỹ thuật điện tử và thị giác máy tính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết trọng tâm: mạng neural truyền thống (CNN) và mạng Capsule (CapsNet). CNN là mô hình mạng neural phổ biến trong thị giác máy tính, sử dụng các lớp tích chập và pooling để trích xuất đặc trưng. Tuy nhiên, pooling layers trong CNN gây mất mát thông tin không gian quan trọng như vị trí, tỷ lệ và hướng của đối tượng, dẫn đến hạn chế trong việc nhận diện chính xác vị trí vật thể.

Mạng Capsule được đề xuất bởi Geoffrey Hinton nhằm khắc phục nhược điểm này bằng cách sử dụng các vector đa chiều (capsules) thay vì các giá trị vô hướng, giúp lưu trữ thông tin về vị trí, tỷ lệ, hướng và các thuộc tính khác của đối tượng. Cơ chế định tuyến động (dynamic routing) giữa các capsules cho phép mạng học được mối quan hệ phân cấp giữa các bộ phận của đối tượng, tăng khả năng nhận diện chính xác ngay cả với dữ liệu đầu vào không hoàn hảo. Các khái niệm chính bao gồm:

  • Primary Capsules: Lớp đầu tiên thực hiện convolution, reshape và squash để tạo vector đại diện cho các đặc trưng hình ảnh.
  • Higher Layer Capsules: Lớp cao hơn thực hiện định tuyến theo thỏa thuận, tổng hợp các dự đoán từ lớp trước để xác định đối tượng tổng thể.
  • Margin Loss và Reconstruction Loss: Hàm mất mát kết hợp để huấn luyện mạng, trong đó margin loss đảm bảo phân loại chính xác, reconstruction loss giúp tái tạo hình ảnh đầu vào nhằm tránh overfitting.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong luận văn bao gồm các hình ảnh phương tiện giao thông trên đường, được xử lý và chuẩn bị để huấn luyện mạng Capsule. Phương pháp chọn mẫu dựa trên tập dữ liệu có tính đại diện cho các loại phương tiện phổ biến như ô tô và xe buýt. Mô hình mạng Capsule được xây dựng và huấn luyện trên nền tảng phần cứng NVIDIA Jetson Nano với camera Raspberry Pi V1 thu thập hình ảnh thực tế.

Phương pháp phân tích bao gồm:

  • Thiết kế kiến trúc mạng Capsule với các lớp Primary và Higher Capsules.
  • Huấn luyện mô hình với 50 epochs, batch size 100, learning rate 0.001 và 3 vòng định tuyến.
  • Đánh giá hiệu suất qua các chỉ số training loss, training accuracy và validation accuracy.
  • Thiết kế sơ bộ phần mềm nhận diện tích hợp trên hệ thống nhúng.
  • Thời gian nghiên cứu từ 01/2021 đến 01/2022.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận diện cao: Mạng Capsule được huấn luyện đạt độ chính xác khoảng 91% trong việc nhận diện các phương tiện lưu thông trên đường như ô tô và xe buýt. Kết quả này được thể hiện qua biểu đồ training accuracy và validation accuracy, với giá trị ổn định sau 37 epochs.

  2. Hiệu quả của cơ chế định tuyến động: Thuật toán routing by agreement giúp mạng Capsule phân biệt chính xác các bộ phận cấu thành đối tượng, từ đó nâng cao khả năng nhận diện trong các tình huống phức tạp, vượt trội hơn so với CNN truyền thống.

  3. Thiết kế phần cứng và phần mềm tích hợp: Hệ thống nhận diện được thiết kế dựa trên board Jetson Nano với GPU 128-core và camera Raspberry Pi V1, đảm bảo khả năng xử lý song song và thu thập hình ảnh chất lượng cao. Tuy nhiên, phần mềm nhận diện hiện vẫn chưa hoàn thiện do lỗi kỹ thuật, đây là hạn chế lớn của nghiên cứu.

  4. Khả năng mở rộng và ứng dụng thực tế: Mạng Capsule cho thấy tiềm năng ứng dụng trong các hệ thống hỗ trợ lái xe thông minh, đặc biệt trong việc nhận diện vật thể đa dạng và phức tạp trên đường phố Việt Nam.

Thảo luận kết quả

Nguyên nhân chính giúp mạng Capsule đạt hiệu quả cao là do khả năng lưu giữ thông tin không gian và mối quan hệ phân cấp giữa các bộ phận của đối tượng, điều mà CNN truyền thống không làm được do mất mát thông tin trong pooling layers. So sánh với các nghiên cứu trước đây, kết quả này phù hợp với báo cáo của ngành về ưu điểm của mạng Capsule trong xử lý dữ liệu hình ảnh không cân bằng và biến đổi.

Biểu đồ training loss và accuracy minh họa quá trình huấn luyện ổn định, tuy nhiên độ chính xác có thể được cải thiện hơn nữa nếu có bộ dữ liệu huấn luyện đa dạng và phong phú hơn. Việc chưa hoàn thiện phần mềm nhận diện là điểm cần khắc phục để đưa hệ thống vào ứng dụng thực tế. Kết quả nghiên cứu góp phần mở rộng ứng dụng mạng Capsule trong lĩnh vực kỹ thuật điện tử và thị giác máy tính, đồng thời hỗ trợ phát triển các hệ thống xe tự lái tại Việt Nam.

Đề xuất và khuyến nghị

  1. Hoàn thiện phần mềm nhận diện: Tập trung sửa lỗi và phát triển phần mềm nhận diện vật thể trên nền tảng Jetson Nano trong vòng 6 tháng tới, nhằm đảm bảo hệ thống hoạt động ổn định và chính xác. Chủ thể thực hiện là nhóm phát triển phần mềm tại VinAI.

  2. Mở rộng bộ dữ liệu huấn luyện: Thu thập và xử lý thêm khoảng 10.000 hình ảnh đa dạng về các loại phương tiện và điều kiện môi trường khác nhau để nâng cao độ chính xác mô hình. Thời gian thực hiện dự kiến 12 tháng, do nhóm nghiên cứu và kỹ sư dữ liệu đảm nhiệm.

  3. Tối ưu thuật toán định tuyến: Nghiên cứu và áp dụng các biến thể thuật toán routing để giảm thời gian huấn luyện và tăng hiệu suất nhận diện, hướng tới ứng dụng trong thời gian thực. Thời gian nghiên cứu 6 tháng, do nhóm nghiên cứu AI thực hiện.

  4. Tích hợp hệ thống vào xe tự lái thử nghiệm: Phối hợp với các đơn vị sản xuất ô tô như VinFast để thử nghiệm hệ thống nhận diện trên xe thực tế, đánh giá hiệu quả và điều chỉnh phù hợp. Kế hoạch triển khai trong 18 tháng, do liên minh giữa viện nghiên cứu và doanh nghiệp thực hiện.

Đối tượng nên tham khảo luận văn

  1. Kỹ sư phát triển AI và học sâu: Luận văn cung cấp kiến thức chuyên sâu về mạng Capsule, thuật toán định tuyến động và ứng dụng thực tế, giúp kỹ sư nâng cao kỹ năng thiết kế mô hình nhận diện.

  2. Nhà nghiên cứu thị giác máy tính: Các nhà nghiên cứu có thể tham khảo phương pháp xây dựng và huấn luyện mạng Capsule, cũng như đánh giá hiệu quả so với CNN truyền thống trong các bài toán nhận diện vật thể.

  3. Doanh nghiệp công nghệ ô tô: Các công ty phát triển hệ thống hỗ trợ lái xe và xe tự lái có thể ứng dụng kết quả nghiên cứu để cải thiện khả năng nhận diện vật thể, tăng cường an toàn giao thông.

  4. Sinh viên và giảng viên ngành kỹ thuật điện tử: Luận văn là tài liệu tham khảo quý giá cho việc học tập và giảng dạy về mạng neural, học sâu và ứng dụng AI trong kỹ thuật điện tử.

Câu hỏi thường gặp

  1. Mạng Capsule khác gì so với CNN truyền thống?
    Mạng Capsule sử dụng vector đa chiều để lưu trữ thông tin về vị trí, tỷ lệ và hướng của đối tượng, trong khi CNN chỉ dùng giá trị vô hướng. Điều này giúp Capsule giữ được thông tin không gian quan trọng mà CNN thường mất do pooling layers.

  2. Cơ chế định tuyến động hoạt động như thế nào?
    Định tuyến động cho phép các capsules ở lớp thấp gửi tín hiệu đến capsules ở lớp cao dựa trên sự đồng thuận (agreement) giữa các dự đoán, giúp mạng học được mối quan hệ phân cấp giữa các bộ phận của đối tượng.

  3. Độ chính xác của hệ thống nhận diện đạt được là bao nhiêu?
    Mạng Capsule trong nghiên cứu đạt độ chính xác khoảng 91% trong việc nhận diện các phương tiện như ô tô và xe buýt trên đường.

  4. Phần mềm nhận diện đã hoàn thiện chưa?
    Hiện phần mềm vẫn đang trong quá trình phát triển và gặp một số lỗi kỹ thuật, chưa hoàn thiện để đưa vào sử dụng thực tế.

  5. Hệ thống phần cứng sử dụng những thiết bị nào?
    Hệ thống sử dụng board NVIDIA Jetson Nano với GPU 128-core và camera Raspberry Pi V1 độ phân giải 5MP, đảm bảo khả năng xử lý và thu thập hình ảnh chất lượng cao.

Kết luận

  • Đã thiết kế và huấn luyện thành công mạng Capsule nhận diện vật thể trên đường với độ chính xác khoảng 91%.
  • Mạng Capsule khắc phục được hạn chế của CNN truyền thống nhờ cơ chế định tuyến động và lưu giữ thông tin không gian đa chiều.
  • Hệ thống phần cứng tích hợp Jetson Nano và camera Raspberry Pi V1 phù hợp cho ứng dụng nhận diện trong môi trường thực tế.
  • Phần mềm nhận diện hiện chưa hoàn thiện, cần tiếp tục phát triển để ứng dụng thực tế.
  • Đề xuất mở rộng dữ liệu, tối ưu thuật toán và tích hợp hệ thống vào xe tự lái trong các bước nghiên cứu tiếp theo.

Để tiếp tục phát triển đề tài, các nhà nghiên cứu và kỹ sư được khuyến khích hoàn thiện phần mềm, mở rộng bộ dữ liệu và thử nghiệm thực tế nhằm nâng cao hiệu quả và ứng dụng của hệ thống nhận diện vật thể sử dụng mạng Capsule.