Luận Văn Thạc Sĩ: Nghiên Cứu Thiết Kế Và Xây Dựng Xe Golf Tự Động Sử Dụng Đa Cảm Biến

Luận văn thạc sĩ nghiên cứu thiết kế và xây dựng xe golf tự hành sử dụng công nghệ đa cảm biến, ứng dụng trong giao thông thông minh.

Trường đại học

Ho Chi Minh City University of Technology and Education

Chuyên ngành

Computer Engineering Technology

Người đăng

Ẩn danh

Thể loại

graduation project

2022

Phí lưu trữ

35 Point

Mục lục chi tiết

ACKNOWLEDGEMENT

A GUARANTEE

ABSTRACT

1. CHAPTER 1: OVERVIEW AND RELATED RESEARCH

1.1. RESEARCH OBJECTIVE

1.2. LIMITATION

1.3. RESEARCH CONTENT

1.4. THESIS SUMMARY

2. CHAPTER 2: LITERATURE REVIEW

2.1. Convolutional Neural Network

2.2. Image Segmentation

3. CHAPTER 3: THE HARDWARE PLATFORM

4. CHAPTER 4: SOFTWARE DESIGN

5. CHAPTER 5: EXPERIMENTAL RESULT, COMPARISON, AND EVALUATION

6. CHAPTER 6: CONCLUSION AND FUTURE WORK

APPENDIX 5: (Pre-Defense Evaluation sheet)

APPENDIX 6: (Evaluation sheet of Defense Committee Member)

LIST OF FIGURES

LIST OF TABLES

ABBREVIATIONS

Tóm tắt

I. Thiết kế xe golf tự động

Phần này tập trung vào thiết kế xe golf tự động, bao gồm các yếu tố cơ bản như cấu trúc hệ thống, các thành phần phần cứng và phần mềm cần thiết. Luận văn đề xuất một phương pháp kết hợp đa cảm biến để xe có thể hoạt động trong môi trường thực tế. Các cảm biến chính bao gồm Camera, GPS và 2D LiDAR, được tích hợp để tăng cường khả năng nhận thức của xe. Phần này cũng nhấn mạnh việc sử dụng các mô hình học sâu như lane-line detection và semantic segmentation để cải thiện độ chính xác của hệ thống.

1.1. Cấu trúc hệ thống

Hệ thống được thiết kế với hai chế độ hoạt động: Tự động và Thủ công. Cấu trúc bao gồm các khối xử lý chính như vi điều khiển Arduino, máy tính xách tay với card đồ họa NVIDIA GTX 1650 và Jetson TX2 để xử lý dữ liệu từ GPS và LiDAR. Các khối này được kết nối thông qua giao thức UDP để đảm bảo tính đồng bộ và hiệu quả.

1.2. Phần cứng và cảm biến

Các cảm biến được sử dụng bao gồm Camera RGB, GPS Ublox M8N và 2D LiDAR RPLidar A1. Các thiết bị này được lựa chọn dựa trên chi phí thấp nhưng vẫn đảm bảo hiệu suất trong môi trường thực tế. Phần cứng cũng bao gồm các module điều khiển như Ezi servo và driver để điều khiển hướng và tốc độ của xe.

II. Xây dựng xe golf tự động

Phần này tập trung vào quá trình xây dựng xe golf tự động, bao gồm việc triển khai các thuật toán và tích hợp hệ thống. Luận văn sử dụng các thuật toán như Kalman Filter để giảm nhiễu từ dữ liệu GPS và Adaptive Breakpoint Detection để xử lý dữ liệu từ LiDAR. Các thuật toán này được kết hợp với nhau để tạo ra một hệ thống nhận thức môi trường chính xác và hiệu quả.

2.1. Thuật toán nhận thức

Các thuật toán nhận thức bao gồm lane-line detection và semantic segmentation được huấn luyện trên bộ dữ liệu tự tạo. Các mô hình này được tối ưu hóa để hoạt động hiệu quả trên phần cứng có sẵn, đảm bảo tốc độ xử lý và độ chính xác trong thời gian thực.

2.2. Tích hợp hệ thống

Hệ thống được tích hợp bằng cách sử dụng kỹ thuật multithreading để xử lý đồng thời các tác vụ từ các cảm biến khác nhau. Dữ liệu từ Camera, GPS và LiDAR được kết hợp để tạo ra một bản đồ môi trường chi tiết, giúp xe có thể di chuyển an toàn và hiệu quả.

III. Ứng dụng và đánh giá

Phần này đánh giá hiệu suất của hệ thống xe golf tự động trong môi trường thực tế. Kết quả thử nghiệm cho thấy hệ thống hoạt động tốt trên các tuyến đường trong khuôn viên trường đại học, với tốc độ xử lý đạt tối thiểu 20 khung hình/giây. Hệ thống cũng đảm bảo độ chính xác và an toàn trong các tình huống di chuyển cơ bản.

3.1. Kết quả thử nghiệm

Hệ thống được thử nghiệm trên các tuyến đường trong khuôn viên trường đại học, với các kịch bản di chuyển cơ bản. Kết quả cho thấy hệ thống có thể xử lý tốt các tình huống như tránh vật cản và duy trì làn đường một cách chính xác.

3.2. Hạn chế và cải tiến

Mặc dù hệ thống hoạt động hiệu quả trong các kịch bản cơ bản, nhưng vẫn còn một số hạn chế như khả năng xử lý trong môi trường đông đúc hoặc thay đổi đột ngột. Các cải tiến trong tương lai có thể bao gồm nâng cấp phần cứng và tích hợp thêm các thuật toán phức tạp hơn.

13/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ research design and construct an autonomous golf cart using multisensor fusion

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ xe tự hành, việc nghiên cứu và ứng dụng các phương pháp cảm biến đa dạng nhằm nâng cao khả năng nhận thức môi trường xung quanh là một xu hướng quan trọng. Theo ước tính, ngành công nghiệp xe tự hành toàn cầu dự kiến tăng trưởng với tốc độ trung bình hàng năm khoảng 20% trong thập kỷ tới, phản ánh nhu cầu cấp thiết về các giải pháp công nghệ mới. Luận văn tập trung vào việc nghiên cứu, thiết kế và chế tạo một mẫu xe golf tự hành sử dụng kỹ thuật hợp nhất đa cảm biến (multisensor fusion) nhằm vận hành hiệu quả trong khuôn viên Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh (HCMUTE).

Mục tiêu cụ thể của nghiên cứu là phát triển hệ thống xe golf tự hành có hai chế độ vận hành: tự động và điều khiển thủ công, với khả năng nhận diện làn đường, phân đoạn ngữ nghĩa cảnh vật, xử lý dữ liệu GPS và LiDAR 2D để đảm bảo an toàn và chính xác trong điều khiển. Phạm vi nghiên cứu tập trung trong khuôn viên HCMUTE, với các điều kiện môi trường không quá phức tạp, nhằm thử nghiệm và đánh giá hiệu quả của hệ thống trong thực tế. Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp nền tảng công nghệ cho các thế hệ sinh viên và giảng viên trong lĩnh vực xe tự hành, đồng thời góp phần thúc đẩy ứng dụng trí tuệ nhân tạo và xử lý ảnh trong giao thông thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN được sử dụng để trích xuất đặc trưng sâu từ hình ảnh, phục vụ cho các nhiệm vụ phát hiện làn đường và phân đoạn ngữ nghĩa. Các kiến trúc CNN như ResNet-18 với khối residual giúp giải quyết vấn đề biến mất gradient, cùng với mô hình LiteSeg được cải tiến tích hợp Convolutional Block Attention Module (CBAM) nhằm tăng cường khả năng tập trung vào các vùng quan trọng trong ảnh.
Thuật toán hợp nhất đa cảm biến (Multisensor Fusion): Kết hợp dữ liệu từ camera, GPS và LiDAR 2D bằng các thuật toán như Kalman Filter để lọc nhiễu tín hiệu GPS, Adaptive Breakpoint Detector (ABD) và RANSAC để phân cụm và nhận dạng vật thể từ dữ liệu LiDAR, cùng với kỹ thuật đa luồng (multithreading) để xử lý song song các luồng dữ liệu.

Các khái niệm chính bao gồm: Semantic Segmentation, Lane-Line Detection, Kalman Filter, PID Controller, và thuật toán clustering điểm mây (point cloud clustering).

Phương pháp nghiên cứu

Nguồn dữ liệu thu thập bao gồm hình ảnh RGB từ camera Astra, dữ liệu vị trí từ module GPS Ublox M8N, dữ liệu quét môi trường 2D từ LiDAR RPLidar A1, và tín hiệu phản hồi góc lái từ bộ mã hóa tuyệt đối (absolute encoder). Cỡ mẫu nghiên cứu là toàn bộ dữ liệu thu thập được trong quá trình thử nghiệm trên khuôn viên HCMUTE trong khoảng thời gian từ tháng 9/2021 đến tháng 1/2022.

Phương pháp phân tích sử dụng các mô hình học sâu được huấn luyện và tinh chỉnh trên bộ dữ liệu tự gán nhãn, kết hợp với các thuật toán lọc và điều khiển truyền thống như Kalman Filter và PID Controller. Việc lựa chọn phương pháp phân tích dựa trên yêu cầu cân bằng giữa độ chính xác và khả năng thực thi thời gian thực trên phần cứng có cấu hình trung bình (laptop với GPU NVIDIA GTX 1650 và Jetson TX2). Quá trình nghiên cứu được thực hiện theo timeline gồm khảo sát tài liệu, thiết kế phần cứng, phát triển phần mềm, thử nghiệm và đánh giá hệ thống.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình học sâu trong nhận diện làn đường và phân đoạn ngữ nghĩa: Mô hình Lane-Line Detection đạt độ chính xác mIoU trên 85%, trong khi mô hình Semantic Segmentation cải tiến với CBAM đạt mIoU khoảng 80%, cho thấy khả năng nhận diện chính xác các đối tượng và làn đường trong môi trường campus.
Độ ổn định và chính xác của dữ liệu GPS sau lọc Kalman: Việc áp dụng Kalman Filter giúp giảm nhiễu tín hiệu GPS, cải thiện độ chính xác vị trí trung bình từ sai số khoảng 5 mét xuống còn dưới 2 mét, đảm bảo định vị liên tục và ổn định cho xe.
Khả năng phát hiện vật cản và tránh va chạm bằng LiDAR 2D: Thuật toán Adaptive Breakpoint Detector kết hợp RANSAC phân cụm điểm mây giúp nhận dạng vật thể với độ chính xác trên 90% trong phạm vi 12 mét, hỗ trợ hiệu quả cho quá trình tránh vật cản.
Tốc độ xử lý và đáp ứng thời gian thực: Hệ thống đạt tốc độ xử lý tối thiểu 20 khung hình/giây (FPS), đáp ứng yêu cầu vận hành thực tế, với việc sử dụng đa luồng và phân phối xử lý giữa laptop và Jetson TX2 giúp giảm tải cho bộ xử lý chính.

Thảo luận kết quả

Nguyên nhân của các kết quả tích cực đến từ việc kết hợp hiệu quả các thuật toán học sâu với kỹ thuật lọc và điều khiển truyền thống, đồng thời tận dụng phần cứng phù hợp để cân bằng giữa hiệu suất và chi phí. So với các nghiên cứu trước đây sử dụng cảm biến đắt tiền như LiDAR 3D, việc sử dụng LiDAR 2D kết hợp camera và GPS trong nghiên cứu này là giải pháp tiết kiệm chi phí nhưng vẫn đảm bảo độ chính xác chấp nhận được trong môi trường campus. Kết quả cũng cho thấy hạn chế trong việc vận hành ở môi trường phức tạp hơn như đường lớn hoặc khu vực đông người, do giới hạn góc quay camera và độ nhạy của cảm biến giá rẻ. Biểu đồ so sánh hiệu suất các mô hình học sâu và biểu đồ sai số vị trí GPS trước và sau lọc Kalman có thể minh họa rõ nét các phát hiện này.

Đề xuất và khuyến nghị

Nâng cấp hệ thống cảm biến: Thay thế hoặc bổ sung các cảm biến có độ chính xác cao hơn như LiDAR 3D hoặc camera góc rộng để mở rộng phạm vi hoạt động và cải thiện khả năng nhận diện trong môi trường phức tạp. Mục tiêu tăng độ chính xác vị trí và nhận diện vật thể lên trên 95% trong vòng 12 tháng, do nhóm phát triển và phòng thí nghiệm AI thực hiện.
Cải tiến thuật toán xử lý dữ liệu: Áp dụng các mô hình học sâu tiên tiến hơn như mạng nơ-ron sâu đa tầng (deep multi-layer networks) và kỹ thuật học tăng cường (reinforcement learning) để nâng cao khả năng dự đoán và điều khiển. Thời gian thực hiện dự kiến 18 tháng, phối hợp với các chuyên gia AI và kỹ sư phần mềm.
Tối ưu phần mềm và đa luồng: Mở rộng và tối ưu hóa kỹ thuật đa luồng, sử dụng các thư viện tối ưu như TensorRT để tăng tốc độ xử lý, giảm độ trễ xuống dưới 15 FPS nhằm đáp ứng các ứng dụng thực tế đa dạng hơn. Thời gian thực hiện 6 tháng, do nhóm phát triển phần mềm đảm nhận.
Mở rộng phạm vi thử nghiệm: Thực hiện thử nghiệm trên các địa điểm có điều kiện giao thông phức tạp hơn như khu đô thị hoặc sân golf thực tế để đánh giá và điều chỉnh hệ thống phù hợp. Kế hoạch triển khai trong 12 tháng tiếp theo, phối hợp với các đối tác bên ngoài và nhà trường.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Kỹ thuật Máy tính và Trí tuệ Nhân tạo: Luận văn cung cấp kiến thức thực tiễn về ứng dụng CNN, multisensor fusion và điều khiển tự động, hỗ trợ phát triển kỹ năng nghiên cứu và thực hành.
Giảng viên và nhà nghiên cứu trong lĩnh vực xe tự hành và robot: Tài liệu chi tiết về thiết kế phần cứng, thuật toán xử lý và thử nghiệm thực tế giúp làm nền tảng cho các dự án nghiên cứu tiếp theo.
Kỹ sư phát triển hệ thống điều khiển và tự động hóa: Cung cấp các giải pháp tích hợp cảm biến và thuật toán điều khiển PID, Kalman Filter trong môi trường thực tế với chi phí hợp lý.
Doanh nghiệp và startup công nghệ giao thông thông minh: Tham khảo mô hình phát triển xe tự hành chi phí thấp, ứng dụng trong môi trường giới hạn, làm cơ sở cho việc phát triển sản phẩm thương mại.

Câu hỏi thường gặp

Hệ thống xe golf tự hành này có thể hoạt động ngoài khuôn viên trường không?
Hiện tại, hệ thống được thiết kế và thử nghiệm chủ yếu trong khuôn viên HCMUTE với môi trường không quá phức tạp. Việc mở rộng ra môi trường bên ngoài đòi hỏi nâng cấp cảm biến và thuật toán để xử lý các tình huống đa dạng hơn.
Các cảm biến sử dụng có độ chính xác như thế nào?
Camera Astra cung cấp hình ảnh RGB và độ sâu với độ phân giải 1280x960, LiDAR 2D có phạm vi đo từ 0.15m đến 12m với độ phân giải góc ≤1°, GPS sau lọc Kalman có sai số vị trí dưới 2 mét trong điều kiện thử nghiệm.
Tốc độ xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
Hệ thống đạt tối thiểu 20 FPS, đủ để vận hành trong môi trường campus với các tình huống cơ bản, nhờ vào việc sử dụng đa luồng và phân phối xử lý giữa laptop và Jetson TX2.
Hệ thống có thể hoạt động hoàn toàn tự động không?
Hiện tại, xe golf có hai chế độ: tự động và thủ công. Tuy nhiên, do giới hạn về phần cứng và cảm biến, hệ thống chưa thể vận hành hoàn toàn tự động mà không cần sự giám sát hoặc can thiệp của người điều khiển.
Có thể áp dụng các thuật toán học sâu khác để cải thiện hiệu suất không?
Có thể. Việc áp dụng các mô hình học sâu tiên tiến hơn hoặc kỹ thuật học tăng cường có thể nâng cao khả năng nhận diện và điều khiển, tuy nhiên cần cân nhắc về chi phí tính toán và khả năng thực thi trên phần cứng hiện có.

Kết luận

Luận văn đã thành công trong việc thiết kế và chế tạo một mẫu xe golf tự hành sử dụng kỹ thuật hợp nhất đa cảm biến, vận hành hiệu quả trong khuôn viên HCMUTE.
Mô hình học sâu kết hợp với các thuật toán lọc và điều khiển truyền thống đã nâng cao độ chính xác nhận diện và định vị, với tốc độ xử lý đáp ứng yêu cầu thực tế.
Hệ thống sử dụng phần cứng chi phí thấp, tạo điều kiện thuận lợi cho việc nghiên cứu và ứng dụng trong môi trường học thuật.
Hạn chế hiện tại bao gồm khả năng vận hành trong môi trường phức tạp và độ chính xác cảm biến chưa tối ưu.
Các bước tiếp theo bao gồm nâng cấp cảm biến, cải tiến thuật toán, tối ưu phần mềm và mở rộng phạm vi thử nghiệm nhằm hoàn thiện hệ thống cho ứng dụng thực tế rộng rãi hơn.

Khuyến khích các nhà nghiên cứu và kỹ sư trong lĩnh vực xe tự hành tiếp tục phát triển dựa trên nền tảng này để thúc đẩy công nghệ giao thông thông minh tại Việt Nam.

Chủ đề

Công nghệ tự động hóa trong phương tiện

Ứng dụng đa cảm biến trong thiết kế xe

Nghiên cứu và phát triển xe golf

Luận văn và nghiên cứu khoa học trong kỹ thuật