I. Giới thiệu
Luận án nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến. Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và Hamilton-Jacobi-Isaacs (HJI). Học củng cố (Reinforcement Learning - RL) phát triển từ qui hoạch động (Dynamic Programming - DP) thành qui hoạch động thích nghi (Adaptive Dynamic Programming - ADP), trở thành phương pháp hiệu quả để xấp xỉ nghiệm HJB và HJI. Luận án tập trung vào hai giải thuật chính: Online Adaptive Dynamic Programming (OADP) và Online Robust Adaptive Dynamic Programming (ORADP).
1.1. Tổng quan về đề tài
Học củng cố là phương pháp học máy dựa trên việc tối ưu hóa hành động thông qua phần thưởng. Trong điều khiển tự động, RL được ứng dụng để giải quyết các bài toán phức tạp như điều khiển tối ưu và thích nghi. Hệ phi tuyến đòi hỏi các giải thuật điều khiển linh hoạt và bền vững. Luận án đề xuất các giải thuật RL online để xấp xỉ nghiệm HJB và HJI, giúp cải thiện hiệu suất điều khiển.
1.2. Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu chính của luận án là phát triển các giải thuật RL để điều khiển hệ phi tuyến một cách bền vững. Nhiệm vụ bao gồm thiết kế giải thuật OADP và ORADP, phân tích tính ổn định và hội tụ, và ứng dụng vào điều khiển robot di động. Kết quả nghiên cứu hướng đến việc tối ưu hóa hiệu suất điều khiển và giảm thiểu tài nguyên tính toán.
II. Cơ sở lý thuyết
Chương này trình bày các khái niệm cơ bản về học củng cố, bao gồm các giải thuật kinh điển như Value Iteration (VI), Policy Iteration (PI) và Q-Learning. Xấp xỉ hàm là yếu tố quan trọng trong RL, giúp giảm độ phức tạp tính toán. Các loại xấp xỉ hàm như mạng thần kinh nhân tạo (NN) được phân tích và so sánh. Qui hoạch động thích nghi (ADP) là phương pháp chính để xấp xỉ nghiệm HJB và HJI.
2.1. Giải thuật học củng cố kinh điển
Các giải thuật RL kinh điển như VI, PI và Q-Learning là nền tảng cho các nghiên cứu hiện đại. VI tập trung vào việc cập nhật giá trị hàm mục tiêu, trong khi PI cải thiện chính sách điều khiển. Q-Learning là giải thuật không cần mô hình, phù hợp cho các hệ thống phức tạp.
2.2. Xấp xỉ hàm trong RL
Xấp xỉ hàm giúp giảm độ phức tạp tính toán trong RL bằng cách thay thế các hàm phức tạp bằng các mô hình đơn giản hơn. Các loại xấp xỉ hàm như mạng MLP, RBF và CMAC được sử dụng rộng rãi. Mỗi loại có ưu nhược điểm riêng, phù hợp với các bài toán khác nhau.
III. Giải thuật học củng cố trong điều khiển tối ưu
Chương này tập trung vào giải thuật OADP để xấp xỉ nghiệm HJB cho hệ phi tuyến với mô hình xác định. Giải thuật sử dụng cấu trúc điều khiển với một xấp xỉ hàm, giúp giảm độ phức tạp tính toán. Các luật cập nhật tham số được đồng bộ hóa để tăng tốc độ hội tụ. Kết quả mô phỏng cho thấy hiệu quả của OADP so với các phương pháp truyền thống.
3.1. Cấu trúc điều khiển OADP
Giải thuật OADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.
3.2. Phân tích ổn định và hội tụ
Giải thuật OADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy OADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.
IV. Giải thuật học củng cố trong điều khiển thích nghi bền vững
Chương này trình bày giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến không có thông tin về động học nội. Giải thuật ORADP được thiết kế để đảm bảo tính bền vững và ổn định trong điều khiển. Kết quả mô phỏng và thực nghiệm trên robot di động cho thấy hiệu quả của ORADP trong việc điều khiển hệ thống phức tạp.
4.1. Cấu trúc điều khiển ORADP
Giải thuật ORADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.
4.2. Phân tích ổn định và hội tụ
Giải thuật ORADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy ORADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.
V. Ứng dụng giải thuật ORADP cho robot di động
Chương này trình bày ứng dụng giải thuật ORADP trong điều khiển robot di động (WMR). Giải thuật ORADP được thiết kế để điều khiển WMR mà không cần chia tách bộ điều khiển động học và động lực học. Kết quả mô phỏng và thực nghiệm cho thấy ORADP có ưu điểm vượt trội so với các phương pháp điều khiển thích nghi truyền thống.
5.1. Mô hình robot di động
Mô hình WMR được sử dụng để kiểm tra hiệu quả của giải thuật ORADP. Robot di động là hệ thống phi tuyến phức tạp, đòi hỏi các giải thuật điều khiển linh hoạt và bền vững.
5.2. Kết quả mô phỏng và thực nghiệm
Kết quả mô phỏng cho thấy ORADP có khả năng điều khiển WMR một cách hiệu quả, đảm bảo tính bền vững và ổn định. Thực nghiệm trên robot thực tế cũng xác nhận tính khả thi của giải thuật ORADP trong các ứng dụng thực tế.
VI. Giải thuật học củng cố điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO
Chương này mở rộng giải thuật ORADP để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán. Giải thuật ORADP mở rộng được thiết kế để đảm bảo tính đồng bộ và ổn định trong điều khiển nhiều hệ thống. Kết quả mô phỏng cho thấy hiệu quả của giải thuật trong điều khiển hệ thống robot bầy đàn.
6.1. Lý thuyết đồ thị và mô hình hợp tác
Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác. Mô hình hợp tác nhiều hệ phi tuyến MIMO được phân tích để thiết kế giải thuật điều khiển.
6.2. Giải thuật ORADP mở rộng
Giải thuật ORADP mở rộng được thiết kế để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Giải thuật đảm bảo tính đồng bộ và ổn định trong điều khiển, giúp cải thiện hiệu suất của hệ thống robot bầy đàn.