Phương Pháp Tăng Cường Học Cho Bài Toán Điều Khiển Tín Hiệu Giao Thông Tự Động

Khóa luận nghiên cứu các phương pháp học tăng cường trong điều khiển tín hiệu đèn giao thông tự động, ứng dụng công nghệ hiện đại.

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

66
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Bài toán điều khiển tín hiệu đèn giao thông

1.2. Mục tiêu của khóa luận

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Nội dung thực hiện

1.5. Cấu trúc khóa luận

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYẾT

2.1. Các công trình liên quan

2.2. Kiến thức về thuật toán học tăng cường

3. CHƯƠNG 3: CÁC BỘ ĐIỀU KHIỂN ĐỀ XUẤT CHO BÀI TOÁN ĐIỀU KHIỂN TÍN HIỆU ĐÈN GIAO THÔNG

3.1. Bộ điều khiển cơ bản

3.2. Double Deep Q-Network (Double DQN)

3.3. Proximal Policy Optimization (PPO)

4. CHƯƠNG 4: MÔ PHỎNG VÀ THỰC NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

DANH MỤC BẢNG

DANH MỤC THUẬT TOÁN

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng Quan Về Phương Pháp Tăng Cường Học Trong Điều Khiển Tín Hiệu Giao Thông

Bài toán điều khiển tín hiệu giao thông tự động đang trở thành một thách thức lớn trong bối cảnh đô thị hóa nhanh chóng. Việc áp dụng học máy trong điều khiển giao thông không chỉ giúp tối ưu hóa lưu lượng xe mà còn giảm thiểu ùn tắc và ô nhiễm môi trường. Nghiên cứu này sẽ trình bày tổng quan về các phương pháp hiện có và tiềm năng của học tăng cường trong việc giải quyết bài toán này.

1.1. Khái Niệm Về Điều Khiển Tín Hiệu Giao Thông

Điều khiển tín hiệu giao thông là quá trình quản lý màu sắc đèn tín hiệu để điều phối lưu lượng xe. Các phương pháp truyền thống như điều khiển hẹn giờ và điều khiển kích hoạt đã được sử dụng rộng rãi, nhưng vẫn còn nhiều hạn chế trong việc thích ứng với tình huống giao thông thực tế.

1.2. Tầm Quan Trọng Của Học Tăng Cường

Học tăng cường (RL) cho phép các hệ thống tự động học hỏi từ môi trường và cải thiện hiệu suất theo thời gian. Điều này đặc biệt hữu ích trong việc điều khiển tín hiệu giao thông, nơi mà lưu lượng xe có thể thay đổi liên tục.

II. Thách Thức Trong Việc Điều Khiển Tín Hiệu Giao Thông Tự Động

Mặc dù có nhiều tiến bộ trong công nghệ, việc điều khiển tín hiệu giao thông vẫn gặp phải nhiều thách thức. Các vấn đề như chi phí lắp đặt cảm biến, độ chính xác của dữ liệu và khả năng xử lý thông tin trong thời gian thực là những yếu tố cần được xem xét.

2.1. Chi Phí Lắp Đặt Hệ Thống Cảm Biến

Việc lắp đặt các cảm biến và camera để theo dõi lưu lượng giao thông có thể tốn kém. Điều này gây khó khăn cho việc triển khai các giải pháp điều khiển tín hiệu giao thông thông minh tại nhiều khu vực.

2.2. Độ Chính Xác Của Dữ Liệu Giao Thông

Dữ liệu giao thông thu thập từ các cảm biến có thể không chính xác do nhiều yếu tố như thời tiết, sự cố giao thông hoặc lỗi kỹ thuật. Điều này ảnh hưởng đến khả năng ra quyết định của hệ thống điều khiển.

III. Phương Pháp Học Tăng Cường Được Áp Dụng Trong Điều Khiển Tín Hiệu Giao Thông

Các phương pháp học tăng cường như DQN, PPO và A2C đã được áp dụng để tối ưu hóa việc điều khiển tín hiệu giao thông. Những thuật toán này cho phép hệ thống tự động học hỏi từ các tình huống giao thông thực tế và cải thiện hiệu suất theo thời gian.

3.1. Thuật Toán DQN Trong Điều Khiển Tín Hiệu

Deep Q-Network (DQN) là một trong những thuật toán học tăng cường phổ biến nhất. Nó cho phép hệ thống học hỏi từ các trải nghiệm trước đó để đưa ra quyết định tốt hơn trong tương lai.

3.2. Proximal Policy Optimization PPO

PPO là một thuật toán học tăng cường hiệu quả, giúp cải thiện độ ổn định và hiệu suất của các quyết định trong điều khiển tín hiệu giao thông. Nó cho phép điều chỉnh chính sách một cách linh hoạt mà không cần phải huấn luyện lại từ đầu.

IV. Ứng Dụng Thực Tiễn Của Học Tăng Cường Trong Giao Thông

Việc áp dụng học tăng cường trong điều khiển tín hiệu giao thông đã cho thấy nhiều kết quả khả quan. Các nghiên cứu đã chỉ ra rằng việc sử dụng các thuật toán này có thể giảm thiểu thời gian chờ và cải thiện lưu lượng giao thông tại các giao lộ.

4.1. Kết Quả Nghiên Cứu Từ Các Mô Hình Mô Phỏng

Nghiên cứu đã sử dụng mô phỏng SUMO để đánh giá hiệu quả của các thuật toán học tăng cường. Kết quả cho thấy rằng các thuật toán này có thể giảm đáng kể thời gian chờ trung bình của các phương tiện.

4.2. So Sánh Với Các Chiến Lược Truyền Thống

So với các chiến lược điều khiển tín hiệu truyền thống, các thuật toán học tăng cường cho thấy hiệu quả vượt trội trong việc tối ưu hóa lưu lượng giao thông và giảm thiểu ùn tắc.

V. Kết Luận Và Hướng Phát Triển Tương Lai Trong Điều Khiển Tín Hiệu Giao Thông

Học tăng cường đang mở ra nhiều cơ hội mới trong việc điều khiển tín hiệu giao thông tự động. Các nghiên cứu trong tương lai cần tập trung vào việc cải thiện độ chính xác của dữ liệu và phát triển các thuật toán mạnh mẽ hơn để đáp ứng nhu cầu giao thông ngày càng tăng.

5.1. Hướng Nghiên Cứu Tương Lai

Nghiên cứu có thể mở rộng sang việc áp dụng các công nghệ mới như IoT và Big Data để cải thiện khả năng thu thập và phân tích dữ liệu giao thông.

5.2. Tích Hợp Các Giải Pháp Thông Minh

Việc tích hợp các giải pháp điều khiển tín hiệu giao thông thông minh với các hệ thống giao thông công cộng có thể tạo ra một mạng lưới giao thông hiệu quả hơn, giảm thiểu ùn tắc và ô nhiễm.

10/07/2025

Trích đoạn nội dung tài liệu

Chương 1| Trình bày tổng quan về bài toán Điều khiển tín hiệu đèn giao thông. ° Chương] Trình bày những nghiên cứu về các công trình liên quan và đưa ra các cơ sở lý thuyết. e Chương] Trình bày chỉ tiết va cách thức hoạt động của các bộ điều khiển được sử dụng trong quá trình thực nghiệm. ° Chương [4] Trình bày chỉ tiết về bộ mô phỏng được sử dụng, các thiết lập thực nghiệm, kết quả thực nghiệm và đánh giá kết quả thu được.

° Chương] Rút ra kết luận và hướng phát triển trong tương lai. Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYÊT Trong chương này, chúng tôi sẽ trình bày một số công trình nghiên cứu liên quan việc giải quyết bài toán Điều khiển tín hiệu giao thông theo hướng tiếp cận dựa trên học tập, cùng với đó là tổng quan về các cơ sở lý thuyết làm nền tang trong khóa luận này.1|trình bày những mô hình và thuật toán đã được áp dụng và thực nghiệm cho bài toán Điều khiển tín hiệu đèn giao thông cùng với các công trình nghiên cứu trên các bộ mô phỏng khác nhau.2|sé trinh bay kiến thức về ý tưởng và những thành phan trong các thuật toán Hoc tăng cường cũng như phân loại các thuật toán. Bên cạnh đó, phan này cũng dé cập đến việc mô hình hóa bài toán Điều khiển tín hiệu đèn giao thông dưới dạng một quy trình quyết định Markov.1 Các công trình liên quan Trong nội dung này, chúng tôi trình bày một số công trình liên quan đến bài toán Điều khiển tín hiệu đèn theo hướng tiếp cận dựa trên học tập. Bên cạnh đó, chúng tôi cũng trình bày những công trình nghiên cứu liên quan được thực hiện trên những bộ mô phỏng khác nhau.1 Thuật toán ITSC 1 Ảnh được lay từ Chương 2.

CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 10 ITSC là thuật toán được sử dung trong các hệ thống điều khiển giao thông thông minh dựa trên điện toán đám mây hoặc các công nghệ yêu cầu tài nguyên tính toán từ xa. Trong đó, xe cộ hoặc các phương tiện giao thông sẽ gởi thông tin về vị trí địa lý của chúng lên các máy chủ đám mây thông qua các thiết bị đi động hoặc các thiết bị theo đõi định kỳ. Máy chủ đám mây sẽ tiếp nhận và tổng hợp thông tin, sau đó đưa ra các quyết định về pha đèn giao thông cho giao lộ tương ứng bằng cách gởi quyết định tới tất cả các phương tiện có liên quan (hoặc trong Chương 2. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 11 một trường hợp khác là gởi quyết định xuống các bộ điều khiển tín hiệu, nơi tiếp nhận những nhu cầu để thực hiện việc giữ hoặc chuyển pha tín hiệu).

Tuy nhiên, các hệ thống này thường gặp một van dé lớn đó là độ trễ (latency). Nếu một trong hai bên là các phương tiện chậm trễ trong việc gởi thông tin lên các máy chủ hoặc các máy chủ bị trễ trong việc nhận thức được thực tế và đưa ra quyết định thì có thể dẫn đến các hậu quả hết sức nghiêm trọng. Theo đó, các nhà nghiên cứu về các hệ thống điều khiển giao thông thông minh đã xem độ trễ là việc tất nhiên phải xảy ra và con người không thể kiểm soát chúng. Thuật toán ITSC được thiết kế để tìm ra giải pháp điều khiển giao thông tối ưu dựa trên hai tham số tg, va typ.3|minh họa thuật toán ITSC.: thời điểm hiện tại ® tại: độ trễ của các phương tiện trong việc gởi thông tin * ty: độ trễ của máy chủ đám mây trong việc đưa ra quyết định.

Mô hình FRAP HINH 2.2: Minh họa các hướng di chuyển tại một một ngã tư. Các dấu mũi tên chỉ ra các hướng di chuyển bị ràng buộc bởi tín hiệu giao thông Một thách thức khác đặt ra đối với bài toán Điều khiển tín hiệu đèn giao thông đó là không gian tìm kiếm là rất lớn. CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 12 HINH 2.3: Bộ mô phỏng Manhattan va ban đồ có 4 giao lộ trong bộ mô phỏng AIMP| Vi du như tình huống giao thông tại giao lộ có 4 luéng giao thông (ngã tư) và 8 hướng di chuyển phụ thuộc vào tín hiệu được minh họa ở Hình 2.2| Néu mỗi làn đường đều có n phương tiện thì kích thước không gian trạng thái qua 8 giai đoạn là 8xwŠ. Vì thế để cắt giảm kích thước không gian trạng thái, Yaunhao Xiong và các cộng sự đã nghiên cứu và để xuất mô hình FRAP [21], dựa trên những nguyên tắc về cạnh tranh giai đoạn trong điều khiển tín hiệu giao thông để đạt được sự bat biến trong các trường hợp lật và xoay trong lưu lượng giao thông.

Các công trình thực hiện nhưng bộ đánh giá khác Bên cạnh bộ mô phỏng giao thông SUMO mà chúng tôi sử dụng trong khóa luận này, đã có rất nhiều công trình nghiên cứu về bài toán Điều khiển tín hiệu đèn giao thông theo hướng tiếp cận dựa trên học tập được thực hiện trên những bộ mô phỏng khác. Năm 2019, Chang Liu và các cộng sự đã trình bày nghiên cứu của họ trên bộ mô phỏng thử nghiệm CityFlow [19]. Mặc dù cung cấp một tình huống giao 2Anh duoc 1a từ https : //www. com/aimsun-nexb-case-studies/ manhattan-traffic-model-mtm/ và Chương 2.

CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 13 thông sát với nhu cầu trong thé giới thực và được sử dụng phổ biến là Manhattan, New York, tuy nhiên với những sự hỗ trợ hạn chế và độ hiểu chỉnh giao thông không được chặt chẽ, bộ mộ phỏng này đã không được các chuyên gia trong lĩnh vực giao thông đánh giá cao. Ngoài ra, một nghiên cứu về phương pháp điều khiển đèn giao thông phối hợp được trình bày bởi Tong Thanh Pham, Tim Brys và Matthew E.Taylor đã thực hiện dựa trên bộ mô phỏng AIM [9]. Nhung hạn chế lớn nhất của bộ mô phỏng này là nó chủ yếu bao gồm những tình huống giao thông theo kiểu dạng mạng lưới đối xứng đơn giản và ít liên quan đến thực tế.1 Giới thiệu về Học tăng cường Học tăng cường là một phần con trong lĩnh vực Trí tuệ nhân tạo, bắt nguồn từ lý thuyết tối ưu. Về căn bản thì Học tăng cường là một vòng lặp phản hồi có điều kiện thông qua nhiều bước thời gian.

Tại mỗi bước thời gian, một tác nhân tương tác với môi trường bằng cách quan sát các mô tả trạng thái trong môi trường đó và phản hồi lại thông qua việc thực hiện một hành động khả thi. Môi trường sẽ chấp nhận hành động và thay đổi sang trạng thái kế tiếp. Sau đó, nó sẽ gởi thông tin và điểm thưởng tại trạng thái kế tiếp đó lại cho tác nhân, và chuyển sang bước thời gian tiếp theo.4] minh họa một bước thời gian (t) của một bài toán Học tăng cường. Nói tóm lại bài toán học tăng cường có hai thành phần chính đó là tác nhân tương tác với môi trường được mô hình hóa dưới dạng một quy trình quyết định Markov (MDP) để tìm ra chiến lược làm tối ưu hàm điểm thưởng - được xem như là một hàm đánh giá độ tốt xấu cho mục tiêu đặt ra.

Một quy trình quyết định Markov được xác định bởi: s® Một tập hữu hạn các trạng thái S. ® Một tập các hành động khả thi A. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 14 Hành động Môi trường Trạng thái kế tiếp HÌNH 2.4: Minh họa một bước thời gian của bài toán Học tăng cường ® Một hàm xác suất chuyển đổi trạng thái P(s¿, a:, $441) hay còn gọi là hàm dịch chuyển giúp xác định xác suất tại trạng thái s; thực hiện hành động a; để chuyển sang thái kế tiếp s;„. ¢ Một hàm điểm thưởng R(s;, a;) để xác định điểm thưởng nhận được khi thực hiện hành động 4ø; tại trạng thái s;.

© Một hệ số chiết khấu y € (0, 1) Trong đó: s; là trạng thái tại bước thời gian thứ t; sr là trạng thái tại bước thời gian cuối cùng. Theo đó, bài toán Học tăng cường sẽ bắt đầu tại bước thời gian t = 0, kết thúc tại thời điểm t = T và một quá trình như vậy sẽ được xem là một "episode". Một chuỗi những trải nghiệm qua một episode được gọi là một "trajectory", ký hiệu +.1) Dựa vào những khái niệm trên, chúng ta có điểm thưởng tích lũy tai một episode là: T R(t) =rtyn+Y reat. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 15 Điểm thưởng kỳ vọng qua nhiều trajectory là: T ](t) = Er~x|R(t)]| = Feld +ưi (2.3) Với 7 được gọi là một chiến lược, cái ánh xạ các trạng thái với các hành động.

(71:5 + A) Dua vào không gian trạng thái va tập hành động có sẵn trong môi trường, các thuật toán Học tăng cường có thể chia làm ba loại chính, tuy nhiên hầu hết thành phần bên trong chúng đều có sử dụng các mạng Neural sâu (Deep Neural Network - DNN) để tận dụng khả năng ước tính xấp xỉ vượt trội của chúng. Hình phác thảo sơ bộ về ba phân lớp chính của các thuật toán học tăng cường cùng với các thuật toán tiêu biểu của mỗi lớp. Theo đó, ba loại chính của các thuật toán Học tăng cường là: s Các thuật toán với môi trường có không gian trang thái bị giới han va không gian hành động rời rạc. Đây là những thuật toán thích hợp để áp dụng cho những tác vụ có môi trường đơn giản.

Những thuật toán này sẽ điều khiển những tác nhân lựa chọn một trong những hành động đã được cho trước và đưa môi trường đến những trạng thái đã được biết trước. ¢ Các thuật toán với môi trường có không gian trạng thái không bị giới hạn và không gian hành động rời rạc. Trong một số trò chơi như Snake hay Sokoban, chúng được xem là những trò chơi phức tạp vì có không gian trạng thái lớn nhưng những hành động khả thi mà tác nhân có thể thực hiện chỉ giới hạn trong một số lượng hữu hạn. Những thuật toán trong loại này rất hữu dụng để giải quyết những bài toán trong môi trường như vậy vì trong thuật toán sẽ có một hoặc nhiều mạng DNN, phổ biến nhất là mạng Neural tích chập (Convolution Neural Networks - CNN) để thuận lợi cho việc xử lý và trích xuất những đặc trưng từ những trạng thái nhận được từ môi trường và trả về những hành động có sẵn.

3 Ảnh được kham thảo từ Chương 2. CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 16 T : lis HINH 2.5: Các thuật toán Hoc tăng cường được phân loại dựa trên tính chat của không gian trạng thái và tập hành động.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phương Pháp Tăng Cường Học Cho Bài Toán Điều Khiển Tín Hiệu Giao Thông Tự Động cung cấp những phương pháp hiệu quả nhằm nâng cao khả năng học tập và ứng dụng trong lĩnh vực điều khiển tín hiệu giao thông tự động. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các kỹ thuật và công nghệ hiện đại trong việc tối ưu hóa hệ thống giao thông, mà còn mang lại những lợi ích thiết thực trong việc cải thiện hiệu suất và an toàn giao thông.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Chuyên đề thực tập nâng cao quản lý nhà nước đối với chất lượng công trình giao thông việt nam, nơi bạn sẽ tìm thấy những giải pháp quản lý chất lượng công trình giao thông tại Việt Nam. Ngoài ra, tài liệu Khóa luận tốt nghiệp công nghệ thông tin hệ thống thống kê lưu lượng giao thông xử lý phân tán theo thời gian thực sẽ cung cấp cái nhìn sâu sắc về cách thức thu thập và phân tích dữ liệu lưu lượng giao thông, giúp bạn nắm bắt được các xu hướng và thách thức trong lĩnh vực này. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn có thể khám phá thêm và nâng cao hiểu biết của mình về điều khiển tín hiệu giao thông tự động.