Báo cáo đề tài NCKH: Xe tự hành dùng thị giác máy tính và học sâu

Nghiên cứu khoa học về mô hình xe tự hành ứng dụng thị giác máy tính và học sâu. Báo cáo chi tiết thuật toán điều khiển và thiết kế phần cứng.

Trường đại học

Trường Đại học Sư phạm Kỹ thuật TPHCM

Chuyên ngành

Công nghệ Kỹ thuật Điều khiển và Tự động hóa

Người đăng

Ẩn danh

Thể loại

Báo cáo tổng kết đề tài nghiên cứu khoa học của sinh viên

2021

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu về xe tự hành và ứng dụng thị giác máy tính

Xe tự hành là công nghệ tiên phong trong lĩnh vực giao thông thông minh, được các nước trên thế giới theo đuổi tích cực. Công nghệ này kết hợp thị giác máy tính và học sâu để tạo ra hệ thống điều khiển tự động hoàn toàn. Thị giác máy tính cho phép xe nhận diện và phân tích môi trường xung quanh thông qua camera, trong khi học sâu cung cấp khả năng xử lý dữ liệu phức tạp. Các công ty như Tesla đã chứng minh giá trị vượt trội của công nghệ này trên thị trường toàn cầu. Ứng dụng thị giác máy tính trong xe tự hành không chỉ cải thiện hiệu suất vận hành mà còn nâng cao an toàn giao thông. Hệ thống này sử dụng các cảm biến hiện đại như LIDAR, RADAR, và camera để thu thập dữ liệu môi trường.

1.1. Nguyên lý hoạt động của xe tự hành

Xe tự hành hoạt động dựa trên ba module chính: nhận thức, quyết định và thực thi. Module nhận thức sử dụng thị giác máy tính để phát hiện vật thể, đường đi và chướng ngại vật. Học sâu với mạng thần kinh nhân chập (CNN) xử lý hình ảnh từ camera gắn trên xe. Module quyết định sử dụng các thuật toán điều khiển như Pure Pursuit và Stanley để xác định hướng đi. Cuối cùng, module thực thi điều khiển bánh lái và tốc độ thông qua bộ điều khiển PID, đảm bảo xe hoạt động ổn định và an toàn.

1.2. Các công nghệ cảm biến trong xe tự hành

Xe tự hành sử dụng nhiều loại cảm biến để nhận thức môi trường. Camera cung cấp dữ liệu hình ảnh cho thị giác máy tính. LIDAR phát hiện chướng ngại vật thông qua tia laser. RADAR xác định vận tốc và khoảng cách của các vật thể xung quanh. Cảm biến siêu âm giúp phát hiện vật thể gần. Hệ thống GPS cung cấp định vị toàn cầu. Sự kết hợp hài hòa của các cảm biến này tạo nên một hệ thống nhận thức toàn diện, cho phép xe tự hành vận hành an toàn trong các điều kiện môi trường khác nhau.

II. Mạng thần kinh nhân chập trong xử lý hình ảnh

Mạng thần kinh nhân chập (CNN) là nền tảng của học sâu trong thị giác máy tính. Kiến trúc này đặc biệt hiệu quả trong việc xử lý dữ liệu hình ảnh nhờ cấu trúc phân cấp của nó. CNN gồm các lớp nhân chập, hàm kích hoạt, pooling layer và fully-connected layer. Mỗi lớp nhân chập trích xuất các đặc trưng khác nhau từ hình ảnh, từ các cạnh đơn giản đến các mẫu phức tạp. Mạng thần kinh nhân chập được ứng dụng rộng rãi trong phân đoạn ảnh, nhận diện vật thể, và phát hiện làn đường. Trong xe tự hành, CNN giúp xác định đường đi từ hình ảnh camera, cho phép hệ thống điều khiển bánh lái chính xác.

2.1. Cấu trúc và các thành phần của CNN

Mạng thần kinh nhân chập gồm nhiều lớp xếp chồng lên nhau. Lớp nhân chập thực hiện phép toán tích chập giữa kernel và hình ảnh đầu vào. Hàm kích hoạt ReLU giới thiệu tính phi tuyến tính. Lớp pooling giảm kích thước không gian và số lượng thông số. Bước sải (stride) và bước đệm (padding) điều chỉnh kích thước đầu ra. Fully-Connected Layer kết nối tất cả các neuron từ lớp trước để thực hiện phân loại. Cấu trúc này cho phép CNN học các đặc trưng ảnh phức tạp một cách tự động và hiệu quả.

2.2. Ứng dụng CNN trong phát hiện và phân loại

CNN được sử dụng rộng rãi trong phát hiện vật thể và phân loại ảnh cho xe tự hành. Các mạng tiền huấn luyện như ResNet, VGG, và MobileNet cung cấp các đặc trưng mạnh mẽ cho các tác vụ cụ thể. Học sâu cho phép mô hình học từ hàng triệu hình ảnh để nhận diện chính xác các thành phần đường bộ. Trong bối cảnh xe tự hành, CNN giúp phát hiện tín hiệu giao thông, biển báo, và chướng ngại vật. Khả năng xử lý dữ liệu thời gian thực của CNN làm cho nó trở thành lựa chọn lý tưởng cho các ứng dụng điều khiển tự động.

III. Phân đoạn ảnh và ứng dụng BiSeNet

Phân đoạn ảnh là tác vụ chia hình ảnh thành các vùng có ý nghĩa, được sử dụng để xác định đường đi trong xe tự hành. Khác với phân loại ảnh truyền thống, phân đoạn ảnh cung cấp thông tin chi tiết từng pixel. BiSeNet là kiến trúc hiệu quả kết hợp Spatial Path (SP) và Context Path (CP), tối ưu hóa cân bằng giữa độ chính xác và tốc độ. Spatial Path bảo tồn thông tin không gian trong khi Context Path xử lý thông tin ngữ cảnh toàn cầu. Phân đoạn ảnh sử dụng BiSeNet cho phép xe tự hành phân tách đường đi từ nền, giúp hệ thống điều khiển xác định hướng chuyển động một cách chính xác. Bộ dữ liệu Cityscapes cung cấp các mẫu huấn luyện chất lượng cao cho các mô hình phân đoạn ảnh.

3.1. Cấu trúc và lợi ích của BiSeNet

BiSeNet (Bilateral Segmentation Network) được thiết kế đặc biệt cho phân đoạn ảnh thời gian thực. Spatial Path giữ lại độ phân giải cao để bảo tồn chi tiết cạnh. Context Path sử dụng lấy mẫu giảm để nắm bắt thông tin toàn cục. Sự kết hợp của hai đường dẫn này tạo nên kiến trúc cân bằng. BiSeNet cho phép xử lý hình ảnh ở tốc độ cao với độ chính xác tương đối cao. Global Average Pooling trong Context Path giúp mô hình hiểu các đặc trưng global. Điều này làm cho BiSeNet lý tưởng cho các ứng dụng xe tự hành yêu cầu xử lý thời gian thực.

3.2. Ứng dụng trong xác định đường đi của xe tự hành

Phân đoạn ảnh dựa trên BiSeNet cho phép xe tự hành xác định đường đi một cách chính xác. Hình ảnh từ camera được xử lý bằng mạng phân đoạn ảnh để tách biệt đường từ nền. Kỹ thuật trích xuất tọa độ biên dạng đường phân tích các điểm ranh giới giữa đường và không đường. Các tọa độ này sau đó được sử dụng bởi bộ điều khiển Pure Pursuit hoặc Stanley để xác định góc lái cần thiết. Quá trình này lặp lại liên tục, cho phép xe thích ứng với những thay đổi trong môi trường. Phương pháp này ổn định, nhanh, và đáng tin cậy cho các ứng dụng điều khiển thực thời.

IV. Mô hình và thuật toán điều khiển xe tự hành

Mô hình động học và động lực học là cơ sở để thiết kế bộ điều khiển cho xe tự hành. Động học lái Ackermann mô tả cách bánh xe quay để thay đổi hướng. Phân tích mô hình động học xác định mối quan hệ giữa góc lái và đường đi của xe. Thuật toán điều khiển chính bao gồm Pure Pursuit và Stanley cho điều khiển bánh lái, cùng với bộ điều khiển PID cho điều khiển tốc độ. Pure Pursuit tính toán góc lái dựa trên điểm mục tiêu trên đường. Stanley điều chỉnh góc lái dựa trên sai lệch vị trí và hướng. Bộ điều khiển PID điều chỉnh tốc độ bằng cách so sánh tốc độ thực tế với tốc độ mong muốn, đảm bảo vận hành ổn định.

4.1. Động học xe Ackermann và các bộ điều khiển bánh lái

Động học Ackermann mô tả chuyển động của xe dựa trên góc lái và chiều dài cơ sở. Pure Pursuit là bộ điều khiển hình học đơn giản nhưng hiệu quả, theo dõi một điểm mục tiêu trên đường. Nó tính toán góc lái dựa trên khoảng cách đến điểm mục tiêu và chiều dài cơ sở. Bộ điều khiển Stanley có thêm thành phần hiệu chỉnh sai lệch vị trí và hướng, làm cho nó ổn định hơn trong các tình huống phức tạp. Cả hai phương pháp đều phù hợp cho xe tự hành vì chúng có thể xử lý thời gian thực và không yêu cầu khối lượng tính toán lớn.

4.2. Điều khiển tốc độ sử dụng bộ điều khiển PID

Bộ điều khiển PID (Proportional-Integral-Derivative) là phương pháp cổ điển nhưng hiệu quả cho điều khiển tốc độ xe tự hành. Thành phần Proportional phản ứng với sai lệch hiện tại. Thành phần Integral tích lũy sai lệch theo thời gian để khắc phục sai lệch dịch chuyển. Thành phần Derivative dự đoán sai lệch tương lai. Kỹ thuật điều chỉnh các hệ số PID (Kp, Ki, Kd) ảnh hưởng đến hiệu suất điều khiển. Giải thuật PID cho phép xe tự hành duy trì tốc độ mong muốn trong các điều kiện khác nhau, từ sàn phẳng đến đoạn dốc.

21/12/2025

Bạn đang xem trước tài liệu:

Đề tài nckh mô hình xe tự hành sử dụng thị giác máy tính và kĩ thuật học sâu

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1: CÁC NGUYÊN LÍ CỦA XE TỰ HÀNH Trong mục này, nhóm sẽ trình bày tổng quan về nguyên lí của xe tự hành và các công nghệ liên quan. Phần này bao gồm giới thiệu về xe tự hành, các công nghệ đa dạng được sử dụng trong xe tự hành, tổng quan về mạng nhân tạo, học máy, mạng học sâu, các cơ bản của mạng nhân tạo thần kinh nhân chập liên quan đến báo cáo 1. Giới thiệu về xe tự hành Định nghĩa của một chiếc xe tự lái ( tự hành, tự động ) là một phương tiện có khả năng cảm nhận môi trường xung quanh và định hướng di chuyển được trong môi trường đó mà không có sự can thiệp từ bàn tay của con người. Xe tự hành tiếp nhận thông tin về môi trường bên ngoài bằng nhiều loại công nghệ khác nhau như lidar, GPS và tầm nhìn máy tính.

Hệ thống điều khiển tiến bộ có thể thu nhận các thông tin từ các cảm biến để tìm ra đường đi tối ưu cho đích đến, phân biệt các vật cản và các vấn đề tương tự. Một ví dụ cho phân biệt vật cản trong xe tự hành là xác định được vị trí của các xe đang di chuyển trong cùng làn đường hoặc đối diện trong quá trình di chuyển từ các thông tin của cảm biến. Điều này rất hữu dụng trong quá trình định đi đường đi. Công nghệ xe tự hành hướng đến hai mục tiêu sau: Một, lợi ích trong việc xử lí một lượng lớn thông tin và sử dụng chúng để đưa ra các quyết định mang tính tư duy cao, hai, mô phỏng khả năng học hỏi và thích ứng của con người trong khi bị bắt gặp trong những trường hợp quen thuộc và khác lạ.

Các lợi ích của xe tự động đem đến cho người dùng trong tương lai rất to lớn. Theo những dự đoán của những chuyên gia về ngành xe tự động, công nghệ của con người ngày càng phát triển và sẽ đến một lúc nào đó mà con người có thể giao phó khả năng lái xe lại cho máy móc. Bánh lái xe sẽ biến mất thay vào đó là các hệ thống cảm biến lidar, GPS, cảm biến siêu âm mà các xe không người lái hiện nay đang sử dụng. Tương lai đầy hứa hẹn đang ngày càng được tiến tới gần hơn.1 Các lợi ích của phương tiện xe tự hành.

Các công nghệ được sử dụng trong xe tự hành Hình 1.2 Các bộ phận quan trọng trong xe tự hành gồm Camera, Lidar, GPS, IMU, cảm biến siêu âm,. Xe tự lái sử dụng nhiều công nghệ tự động để có đem đến cho người sử dụng một trải nghiệm êm ái. Để có thể đáp ứng về các yêu cầu của loại phương tiện này yêu cầu sự đồng bộ hài hòa giữa các dữ liệu thu thập được từ cảm biến tiến bộ, các thuật toán phức tạp và sức mạnh phần cứng đủ lớn để có thể xử lí thông tin trong thời gian thực. Với phần mềm tiên tiến đủ khả năng phân biệt giữa các vật thể, xe cộ, làn đường, biển báo, tuân thủ theo các quy luật giao thông cũng như đối phó được với các rủi ro khó lường trước được như trường hợp người đi bộ hay xe đi ngược chiều.2 thể hiện tầm 17 quan trọng của các thiết bị cảm biến và cảm sát trong một xe tự hành.

Các thiết bị cảm biến sẽ được giới thiệu trong mục dưới.1 Lidar LIDAR, viết tắt cho Light Detection And Ranging[1], là một cảm biến có khả năng đo khoảng cách từ cảm biến tới một vật bằng cách sử dụng một tia laze để chiếu sáng mục tiêu đó và đo các xung phản xạ. Mô hình 3D của một đối tượng sẽ được biểu hiện lại nhờ vào sự khác biệt của thời gian và độ dài bước sóng. Một công cụ LIDAR thường bao gồm tia laze, một máy quét và bộ thu nhận tín hiệu GPS. Máy bay và trực thăng là những phương tiện sử dụng LIDAR thường xuyên cho thu thập dữ liệu trong môi trường rộng lớn.

Có hai loại LIDAR là đo địa hình và độ sâu. LIDAR địa hình sử dụng các tia laze cận hồng ngoại để lập bản đồ trên đất liền. LIDAR độ sâu cho phép các nhà khoa học và các chuyên gia đo lường khám nghiệm cả hai môi trường tự nhiên và nhân tạo một cách chính xác và linh hoạt. Về tia sáng, LIDAR sử dụng các tia tử ngoại hoặc tia cận hồng ngoại để hình dung ra vật thể.

Tầm đo của LIDAR rất đa dạng, bao gồm vật thể phi kim, đá, nước mưa, chất hóa học, khí, mây. Một tia laze hẹp có thể quét được mô hình vật với độ chính xác cao. LIDAR là một công nghệ rất quan trọng trong xây dựng xe tự hành.3 Ảnh môi trường được quét bởi LIDAR. 18 Độ dài bước sóng của LIDAR có khoảng từ 10 micro mét đến 250 nano mét (tia UV).

Tính chất tán xạ ngược của ánh sáng chính là chìa khóa cho ứng dụng này. Các loại tán xạ ngược khác nhau được dùng trong các ứng dụng LIDAR khác nhau: phổ biến nhất là tán xạ Rayleigh, tán xạ Mie, tán xạ Raman và huỳnh quang. Kết hợp bước sóng hợp lí có thể cho phép tạo bản đồ từ xa của các thành phần trong khí quyển bằng cách xem xét những sự thay đổi phụ thuộc vào bước sóng trong độ tập trung của tín hiệu trả về. Kết quả của LIDAR được biểu diễn trong hình 1.

Về mặt chung, có hai phương thức để đo của LIDAR: - Không mạch lạc hay đo năng lượng trực tiếp: về mặt nguyên tắc là đo độ lớn. - Mạch lạc: Các hệ thống mạch lạc thường xuyên sử dụng Optical heterodyne detection (đo lường chế trộn nhiều sóng quang). Phương pháp này nhạy hơn đo trực tiếp, điều này cho phép tiêu tốn ít năng lượng hơn nhưng với điều kiện yêu cầu bộ truyền phức tạp hơn. Phương thức này rất thích hợp cho doppler, hay đo độ nhạy pha.

Trong cả hai loại LIDAR, có hai loại mô hình xung: - Micropulse LIDAR systems (hệ thống LIDAR xung siêu nhỏ): Được phát triển dựa vào sự phát triển mạnh mẽ của sức mạnh xử lí của phần cứng máy tính kết hợp các các tiến bộ trong công nghệ tia laze. Hệ thống này sử dụng ít năng lượng hơn trong tia laze, thường vào khoảng một microjoule. Một điều nữa là hệ thống này an toàn cho mắt nên có thể sử dụng mà không cần tính toán đến các biện pháp bảo hộ. - High energy system (hệ thống năng lượng cao): Hệ thống này được sử dụng phổ biến trong nghiên cứu bầu khí quyển nơi chúng được dùng để đo nhiều đại lượng khí quyển: độ cao, các lớp và độ dày của đám mây, tính chất của hạt đám mây, nhiệt độ, áp thấp, sức gió, độ ẩm.4 Một ví dụ của LIDAR về chức năng và áp dụng.

Có một số bộ phận quan trọng khi nói đến LIDAR: - Laze: Trong các ứng dụng không liên quan đến khoa học thì laze 600-100nm là thông thường nhất, những tia sáng phát ra có thể bị hấp thu bởi mắt thường nên công suất sẽ bị giới hạn để giữ an toàn cho mắt. An toàn cho mắt là một yêu cầu cho đa số các ứng dụng. Một giải pháp thay thế thông thường khác là laze 1550nm, loại laze này an toàn cho người dùng ở công suất cao hơn tại vì bước sóng này không được tập trung bởi mắt, nhưng công nghệ dò tìm ít tiến bộ hơn nên những bước sóng này được sử dụng ở khoảng cách xa hơn và ít chính xác hơn. Chúng cũng được sử dụng các ứng dụng quân sự do bước sóng này không biểu hiện lên kính nhìn đêm không giống như laze hồng ngoại 1000nm.

- Máy quét và lăng kính: Tốc độ hình ảnh được dựng lên cũng bị ảnh hưởng bởi tốc độ quét. Có một số ý kiến về quét góc phương vị và độ cao, bao gồm gương phẳng dao động kép, sự kết hợp với một gương đa giác, một máy quét trục kép. Lựa chọn lăng kính vẫn ảnh hưởng đến độ phân giải của góc và tầm dò. Một gương lỗ hoặc một bộ tách chùm là các lựa chọn để lấy tín hiệu trả về.

- Bộ tách sóng quang và máy thu điện tử: Hai công nghệ bộ tách sóng quang được dùng trong LIDAR: bộ tách sóng quang thể rắn, như là điốt quang avalanche hoặc bộ nhân quang. Độ nhạy của bộ nhận tín hiệu là một thông số khác cần phải được cân bằng trong thiết kế LIDAR. - Vị trí và hệ thống định vị: Các cảm biến LIDAR được gắn trên phương tiện di chuyển như máy bay hoặc là vệ tinh cần thiết bị đo đạc để tìm ra vị trí tuyệt đối và 20 hướng của cảm biến. Những thiết bị này thường được gắn thêm bộ thu Global Positioning System và Inertail Measurement Unit (IMU) hay bộ đo quán tính.

- Tạo hình ảnh 3D: Có thể đạt được một hình ảnh bằng hai phương thức quét và không quét. “3D gated viewing laser radar” là một hệ thống laze laze không quét áp dụng một laze có xung và camera quan sát nhanh. LIDAR có thể thu thập dữ liệu một cách nhanh chóng và chính xác, các dữ liệu thu về có mật độ mẫu cao giúp người dùng hình dung được mối quan hệ không gian phức tạp giữa các điểm trong không gian 3D, giúp quét được ở các độ sâu và an toàn. LIDAR được ứng dụng trong nhiều lĩnh vực như nông nghiệp, thiên văn học, khảo cổ học, biến đổi khí hậu, quản lí đất đai, lập bản đồ đất.2 GPS GPS [3] là một tập hợp các vệ tinh trên quỹ đạo chia sẻ thông tin và cung cấp cho người dùng thông tin chính xác về địa điểm trên mặt đất.

Hệ thống vệ tinh được thiết kế dựa trên hệ thống định vị được phát triển bởi bộ phòng vệ Mĩ vào những năm 70 của thế kỉ trước. Ứng dụng ban đầu của hệ thống là sử dụng trong mục đích quân sự nhưng dần dần lại được khả thi trong đời sống nhân dân. Hệ thống GPS có thể cung cấp cho người dùng thông tin về vị trí của một vật thể một cách chính xác ở bất kì nơi nào trên thế giới. Hệ thống này là một chiều do người dùng chỉ có thể nhận tín hiệu từ GPS mà không thể gửi được.

Lí do điều này diễn ra là vì thông tin của vệ tinh cần được bảo mật và hệ thống không thể đáp ứng được giao tiếp hai chiều với lượng người dùng dường như vô tận. Hệ thống GPS thường được tích hợp trong các phương tiện di chuyển, đặc biệt là các phương tiện vận hành trên mặt đất. Do GPS cung cấp người dùng thông tin vị trí toàn cầu cũng như chức năng định vị đường đi giúp người vận hành phương tiện tiết kiệm thời gian cũng như công sức.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Báo cáo đề tài NCKH: Xe tự hành dùng thị giác máy tính và học sâu

I. Giới thiệu về xe tự hành và ứng dụng thị giác máy tính

1.1. Nguyên lý hoạt động của xe tự hành

1.2. Các công nghệ cảm biến trong xe tự hành

II. Mạng thần kinh nhân chập trong xử lý hình ảnh

2.1. Cấu trúc và các thành phần của CNN

2.2. Ứng dụng CNN trong phát hiện và phân loại

III. Phân đoạn ảnh và ứng dụng BiSeNet

3.1. Cấu trúc và lợi ích của BiSeNet

3.2. Ứng dụng trong xác định đường đi của xe tự hành

IV. Mô hình và thuật toán điều khiển xe tự hành

4.1. Động học xe Ackermann và các bộ điều khiển bánh lái

4.2. Điều khiển tốc độ sử dụng bộ điều khiển PID

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Hoàng Hải Nam

Người hướng dẫn: PGS.TS Lê Mỹ Hà

Trường học: Trường Đại học Sư phạm Kỹ thuật TPHCM

Chuyên ngành: Công nghệ Kỹ thuật Điều khiển và Tự động hóa

Đề tài: Xe tự hành sử dụng thị giác máy tính và kỹ thuật học sâu

Loại tài liệu: Báo cáo tổng kết đề tài nghiên cứu khoa học của sinh viên

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Báo cáo đề tài NCKH: Xe tự hành dùng thị giác máy tính và học sâu

I. Giới thiệu về xe tự hành và ứng dụng thị giác máy tính

1.1. Nguyên lý hoạt động của xe tự hành

1.2. Các công nghệ cảm biến trong xe tự hành

II. Mạng thần kinh nhân chập trong xử lý hình ảnh

2.1. Cấu trúc và các thành phần của CNN

2.2. Ứng dụng CNN trong phát hiện và phân loại

III. Phân đoạn ảnh và ứng dụng BiSeNet

3.1. Cấu trúc và lợi ích của BiSeNet

3.2. Ứng dụng trong xác định đường đi của xe tự hành

IV. Mô hình và thuật toán điều khiển xe tự hành

4.1. Động học xe Ackermann và các bộ điều khiển bánh lái

4.2. Điều khiển tốc độ sử dụng bộ điều khiển PID

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Hoàng Hải Nam

Người hướng dẫn: PGS.TS Lê Mỹ Hà

Trường học: Trường Đại học Sư phạm Kỹ thuật TPHCM

Chuyên ngành: Công nghệ Kỹ thuật Điều khiển và Tự động hóa

Đề tài: Xe tự hành sử dụng thị giác máy tính và kỹ thuật học sâu

Loại tài liệu: Báo cáo tổng kết đề tài nghiên cứu khoa học của sinh viên

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Có thể bạn quan tâm