Chương 1| Trình bày tổng quan về bài toán Điều khiển tín hiệu đèn giao thông. ° Chương] Trình bày những nghiên cứu về các công trình liên quan và đưa ra các cơ sở lý thuyết. e Chương] Trình bày chỉ tiết va cách thức hoạt động của các bộ điều khiển được sử dụng trong quá trình thực nghiệm. ° Chương [4] Trình bày chỉ tiết về bộ mô phỏng được sử dụng, các thiết lập thực nghiệm, kết quả thực nghiệm và đánh giá kết quả thu được.
° Chương] Rút ra kết luận và hướng phát triển trong tương lai. Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYÊT Trong chương này, chúng tôi sẽ trình bày một số công trình nghiên cứu liên quan việc giải quyết bài toán Điều khiển tín hiệu giao thông theo hướng tiếp cận dựa trên học tập, cùng với đó là tổng quan về các cơ sở lý thuyết làm nền tang trong khóa luận này.1|trình bày những mô hình và thuật toán đã được áp dụng và thực nghiệm cho bài toán Điều khiển tín hiệu đèn giao thông cùng với các công trình nghiên cứu trên các bộ mô phỏng khác nhau.2|sé trinh bay kiến thức về ý tưởng và những thành phan trong các thuật toán Hoc tăng cường cũng như phân loại các thuật toán. Bên cạnh đó, phan này cũng dé cập đến việc mô hình hóa bài toán Điều khiển tín hiệu đèn giao thông dưới dạng một quy trình quyết định Markov.1 Các công trình liên quan Trong nội dung này, chúng tôi trình bày một số công trình liên quan đến bài toán Điều khiển tín hiệu đèn theo hướng tiếp cận dựa trên học tập. Bên cạnh đó, chúng tôi cũng trình bày những công trình nghiên cứu liên quan được thực hiện trên những bộ mô phỏng khác nhau.1 Thuật toán ITSC 1 Ảnh được lay từ Chương 2.
CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 10 ITSC là thuật toán được sử dung trong các hệ thống điều khiển giao thông thông minh dựa trên điện toán đám mây hoặc các công nghệ yêu cầu tài nguyên tính toán từ xa. Trong đó, xe cộ hoặc các phương tiện giao thông sẽ gởi thông tin về vị trí địa lý của chúng lên các máy chủ đám mây thông qua các thiết bị đi động hoặc các thiết bị theo đõi định kỳ. Máy chủ đám mây sẽ tiếp nhận và tổng hợp thông tin, sau đó đưa ra các quyết định về pha đèn giao thông cho giao lộ tương ứng bằng cách gởi quyết định tới tất cả các phương tiện có liên quan (hoặc trong Chương 2. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 11 một trường hợp khác là gởi quyết định xuống các bộ điều khiển tín hiệu, nơi tiếp nhận những nhu cầu để thực hiện việc giữ hoặc chuyển pha tín hiệu).
Tuy nhiên, các hệ thống này thường gặp một van dé lớn đó là độ trễ (latency). Nếu một trong hai bên là các phương tiện chậm trễ trong việc gởi thông tin lên các máy chủ hoặc các máy chủ bị trễ trong việc nhận thức được thực tế và đưa ra quyết định thì có thể dẫn đến các hậu quả hết sức nghiêm trọng. Theo đó, các nhà nghiên cứu về các hệ thống điều khiển giao thông thông minh đã xem độ trễ là việc tất nhiên phải xảy ra và con người không thể kiểm soát chúng. Thuật toán ITSC được thiết kế để tìm ra giải pháp điều khiển giao thông tối ưu dựa trên hai tham số tg, va typ.3|minh họa thuật toán ITSC.: thời điểm hiện tại ® tại: độ trễ của các phương tiện trong việc gởi thông tin * ty: độ trễ của máy chủ đám mây trong việc đưa ra quyết định.
Mô hình FRAP HINH 2.2: Minh họa các hướng di chuyển tại một một ngã tư. Các dấu mũi tên chỉ ra các hướng di chuyển bị ràng buộc bởi tín hiệu giao thông Một thách thức khác đặt ra đối với bài toán Điều khiển tín hiệu đèn giao thông đó là không gian tìm kiếm là rất lớn. CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 12 HINH 2.3: Bộ mô phỏng Manhattan va ban đồ có 4 giao lộ trong bộ mô phỏng AIMP| Vi du như tình huống giao thông tại giao lộ có 4 luéng giao thông (ngã tư) và 8 hướng di chuyển phụ thuộc vào tín hiệu được minh họa ở Hình 2.2| Néu mỗi làn đường đều có n phương tiện thì kích thước không gian trạng thái qua 8 giai đoạn là 8xwŠ. Vì thế để cắt giảm kích thước không gian trạng thái, Yaunhao Xiong và các cộng sự đã nghiên cứu và để xuất mô hình FRAP [21], dựa trên những nguyên tắc về cạnh tranh giai đoạn trong điều khiển tín hiệu giao thông để đạt được sự bat biến trong các trường hợp lật và xoay trong lưu lượng giao thông.
Các công trình thực hiện nhưng bộ đánh giá khác Bên cạnh bộ mô phỏng giao thông SUMO mà chúng tôi sử dụng trong khóa luận này, đã có rất nhiều công trình nghiên cứu về bài toán Điều khiển tín hiệu đèn giao thông theo hướng tiếp cận dựa trên học tập được thực hiện trên những bộ mô phỏng khác. Năm 2019, Chang Liu và các cộng sự đã trình bày nghiên cứu của họ trên bộ mô phỏng thử nghiệm CityFlow [19]. Mặc dù cung cấp một tình huống giao 2Anh duoc 1a từ https : //www. com/aimsun-nexb-case-studies/ manhattan-traffic-model-mtm/ và Chương 2.
CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 13 thông sát với nhu cầu trong thé giới thực và được sử dụng phổ biến là Manhattan, New York, tuy nhiên với những sự hỗ trợ hạn chế và độ hiểu chỉnh giao thông không được chặt chẽ, bộ mộ phỏng này đã không được các chuyên gia trong lĩnh vực giao thông đánh giá cao. Ngoài ra, một nghiên cứu về phương pháp điều khiển đèn giao thông phối hợp được trình bày bởi Tong Thanh Pham, Tim Brys và Matthew E.Taylor đã thực hiện dựa trên bộ mô phỏng AIM [9]. Nhung hạn chế lớn nhất của bộ mô phỏng này là nó chủ yếu bao gồm những tình huống giao thông theo kiểu dạng mạng lưới đối xứng đơn giản và ít liên quan đến thực tế.1 Giới thiệu về Học tăng cường Học tăng cường là một phần con trong lĩnh vực Trí tuệ nhân tạo, bắt nguồn từ lý thuyết tối ưu. Về căn bản thì Học tăng cường là một vòng lặp phản hồi có điều kiện thông qua nhiều bước thời gian.
Tại mỗi bước thời gian, một tác nhân tương tác với môi trường bằng cách quan sát các mô tả trạng thái trong môi trường đó và phản hồi lại thông qua việc thực hiện một hành động khả thi. Môi trường sẽ chấp nhận hành động và thay đổi sang trạng thái kế tiếp. Sau đó, nó sẽ gởi thông tin và điểm thưởng tại trạng thái kế tiếp đó lại cho tác nhân, và chuyển sang bước thời gian tiếp theo.4] minh họa một bước thời gian (t) của một bài toán Học tăng cường. Nói tóm lại bài toán học tăng cường có hai thành phần chính đó là tác nhân tương tác với môi trường được mô hình hóa dưới dạng một quy trình quyết định Markov (MDP) để tìm ra chiến lược làm tối ưu hàm điểm thưởng - được xem như là một hàm đánh giá độ tốt xấu cho mục tiêu đặt ra.
Một quy trình quyết định Markov được xác định bởi: s® Một tập hữu hạn các trạng thái S. ® Một tập các hành động khả thi A. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 14 Hành động Môi trường Trạng thái kế tiếp HÌNH 2.4: Minh họa một bước thời gian của bài toán Học tăng cường ® Một hàm xác suất chuyển đổi trạng thái P(s¿, a:, $441) hay còn gọi là hàm dịch chuyển giúp xác định xác suất tại trạng thái s; thực hiện hành động a; để chuyển sang thái kế tiếp s;„. ¢ Một hàm điểm thưởng R(s;, a;) để xác định điểm thưởng nhận được khi thực hiện hành động 4ø; tại trạng thái s;.
© Một hệ số chiết khấu y € (0, 1) Trong đó: s; là trạng thái tại bước thời gian thứ t; sr là trạng thái tại bước thời gian cuối cùng. Theo đó, bài toán Học tăng cường sẽ bắt đầu tại bước thời gian t = 0, kết thúc tại thời điểm t = T và một quá trình như vậy sẽ được xem là một "episode". Một chuỗi những trải nghiệm qua một episode được gọi là một "trajectory", ký hiệu +.1) Dựa vào những khái niệm trên, chúng ta có điểm thưởng tích lũy tai một episode là: T R(t) =rtyn+Y reat. CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 15 Điểm thưởng kỳ vọng qua nhiều trajectory là: T ](t) = Er~x|R(t)]| = Feld +ưi (2.3) Với 7 được gọi là một chiến lược, cái ánh xạ các trạng thái với các hành động.
(71:5 + A) Dua vào không gian trạng thái va tập hành động có sẵn trong môi trường, các thuật toán Học tăng cường có thể chia làm ba loại chính, tuy nhiên hầu hết thành phần bên trong chúng đều có sử dụng các mạng Neural sâu (Deep Neural Network - DNN) để tận dụng khả năng ước tính xấp xỉ vượt trội của chúng. Hình phác thảo sơ bộ về ba phân lớp chính của các thuật toán học tăng cường cùng với các thuật toán tiêu biểu của mỗi lớp. Theo đó, ba loại chính của các thuật toán Học tăng cường là: s Các thuật toán với môi trường có không gian trang thái bị giới han va không gian hành động rời rạc. Đây là những thuật toán thích hợp để áp dụng cho những tác vụ có môi trường đơn giản.
Những thuật toán này sẽ điều khiển những tác nhân lựa chọn một trong những hành động đã được cho trước và đưa môi trường đến những trạng thái đã được biết trước. ¢ Các thuật toán với môi trường có không gian trạng thái không bị giới hạn và không gian hành động rời rạc. Trong một số trò chơi như Snake hay Sokoban, chúng được xem là những trò chơi phức tạp vì có không gian trạng thái lớn nhưng những hành động khả thi mà tác nhân có thể thực hiện chỉ giới hạn trong một số lượng hữu hạn. Những thuật toán trong loại này rất hữu dụng để giải quyết những bài toán trong môi trường như vậy vì trong thuật toán sẽ có một hoặc nhiều mạng DNN, phổ biến nhất là mạng Neural tích chập (Convolution Neural Networks - CNN) để thuận lợi cho việc xử lý và trích xuất những đặc trưng từ những trạng thái nhận được từ môi trường và trả về những hành động có sẵn.
3 Ảnh được kham thảo từ Chương 2. CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 16 T : lis HINH 2.5: Các thuật toán Hoc tăng cường được phân loại dựa trên tính chat của không gian trạng thái và tập hành động.