Trường đại học
Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí MinhChuyên ngành
Tự động hóaNgười đăng
Ẩn danhThể loại
luận án tiến sĩ kỹ thuật2015
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Luận án nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến. Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và Hamilton-Jacobi-Isaacs (HJI). Học củng cố (Reinforcement Learning - RL) phát triển từ qui hoạch động (Dynamic Programming - DP) thành qui hoạch động thích nghi (Adaptive Dynamic Programming - ADP), trở thành phương pháp hiệu quả để xấp xỉ nghiệm HJB và HJI. Luận án tập trung vào hai giải thuật chính: Online Adaptive Dynamic Programming (OADP) và Online Robust Adaptive Dynamic Programming (ORADP).
Học củng cố là phương pháp học máy dựa trên việc tối ưu hóa hành động thông qua phần thưởng. Trong điều khiển tự động, RL được ứng dụng để giải quyết các bài toán phức tạp như điều khiển tối ưu và thích nghi. Hệ phi tuyến đòi hỏi các giải thuật điều khiển linh hoạt và bền vững. Luận án đề xuất các giải thuật RL online để xấp xỉ nghiệm HJB và HJI, giúp cải thiện hiệu suất điều khiển.
Mục tiêu chính của luận án là phát triển các giải thuật RL để điều khiển hệ phi tuyến một cách bền vững. Nhiệm vụ bao gồm thiết kế giải thuật OADP và ORADP, phân tích tính ổn định và hội tụ, và ứng dụng vào điều khiển robot di động. Kết quả nghiên cứu hướng đến việc tối ưu hóa hiệu suất điều khiển và giảm thiểu tài nguyên tính toán.
Chương này trình bày các khái niệm cơ bản về học củng cố, bao gồm các giải thuật kinh điển như Value Iteration (VI), Policy Iteration (PI) và Q-Learning. Xấp xỉ hàm là yếu tố quan trọng trong RL, giúp giảm độ phức tạp tính toán. Các loại xấp xỉ hàm như mạng thần kinh nhân tạo (NN) được phân tích và so sánh. Qui hoạch động thích nghi (ADP) là phương pháp chính để xấp xỉ nghiệm HJB và HJI.
Các giải thuật RL kinh điển như VI, PI và Q-Learning là nền tảng cho các nghiên cứu hiện đại. VI tập trung vào việc cập nhật giá trị hàm mục tiêu, trong khi PI cải thiện chính sách điều khiển. Q-Learning là giải thuật không cần mô hình, phù hợp cho các hệ thống phức tạp.
Xấp xỉ hàm giúp giảm độ phức tạp tính toán trong RL bằng cách thay thế các hàm phức tạp bằng các mô hình đơn giản hơn. Các loại xấp xỉ hàm như mạng MLP, RBF và CMAC được sử dụng rộng rãi. Mỗi loại có ưu nhược điểm riêng, phù hợp với các bài toán khác nhau.
Chương này tập trung vào giải thuật OADP để xấp xỉ nghiệm HJB cho hệ phi tuyến với mô hình xác định. Giải thuật sử dụng cấu trúc điều khiển với một xấp xỉ hàm, giúp giảm độ phức tạp tính toán. Các luật cập nhật tham số được đồng bộ hóa để tăng tốc độ hội tụ. Kết quả mô phỏng cho thấy hiệu quả của OADP so với các phương pháp truyền thống.
Giải thuật OADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.
Giải thuật OADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy OADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.
Chương này trình bày giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến không có thông tin về động học nội. Giải thuật ORADP được thiết kế để đảm bảo tính bền vững và ổn định trong điều khiển. Kết quả mô phỏng và thực nghiệm trên robot di động cho thấy hiệu quả của ORADP trong việc điều khiển hệ thống phức tạp.
Giải thuật ORADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.
Giải thuật ORADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy ORADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.
Chương này trình bày ứng dụng giải thuật ORADP trong điều khiển robot di động (WMR). Giải thuật ORADP được thiết kế để điều khiển WMR mà không cần chia tách bộ điều khiển động học và động lực học. Kết quả mô phỏng và thực nghiệm cho thấy ORADP có ưu điểm vượt trội so với các phương pháp điều khiển thích nghi truyền thống.
Mô hình WMR được sử dụng để kiểm tra hiệu quả của giải thuật ORADP. Robot di động là hệ thống phi tuyến phức tạp, đòi hỏi các giải thuật điều khiển linh hoạt và bền vững.
Kết quả mô phỏng cho thấy ORADP có khả năng điều khiển WMR một cách hiệu quả, đảm bảo tính bền vững và ổn định. Thực nghiệm trên robot thực tế cũng xác nhận tính khả thi của giải thuật ORADP trong các ứng dụng thực tế.
Chương này mở rộng giải thuật ORADP để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán. Giải thuật ORADP mở rộng được thiết kế để đảm bảo tính đồng bộ và ổn định trong điều khiển nhiều hệ thống. Kết quả mô phỏng cho thấy hiệu quả của giải thuật trong điều khiển hệ thống robot bầy đàn.
Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác. Mô hình hợp tác nhiều hệ phi tuyến MIMO được phân tích để thiết kế giải thuật điều khiển.
Giải thuật ORADP mở rộng được thiết kế để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Giải thuật đảm bảo tính đồng bộ và ổn định trong điều khiển, giúp cải thiện hiệu suất của hệ thống robot bầy đàn.
Bạn đang xem trước tài liệu:
Luận án tiến sĩ tự động hóa nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
Tài liệu "Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến" trình bày những phương pháp tiên tiến trong việc áp dụng giải thuật học củng cố để cải thiện khả năng điều khiển cho các hệ thống phi tuyến. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các kỹ thuật điều khiển thích nghi mà còn chỉ ra cách thức mà các giải thuật học máy có thể được tích hợp để tối ưu hóa hiệu suất của hệ thống. Những lợi ích mà tài liệu mang lại bao gồm việc nâng cao khả năng ứng dụng trong thực tiễn, cũng như cung cấp cái nhìn sâu sắc về các thách thức và giải pháp trong lĩnh vực điều khiển tự động.
Nếu bạn muốn mở rộng kiến thức của mình về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ tự động hóa thiết kế bộ điều khiển lqg bền vững hệ ball and beam. Tài liệu này sẽ cung cấp thêm thông tin về thiết kế bộ điều khiển bền vững, giúp bạn có cái nhìn toàn diện hơn về các phương pháp điều khiển hiện đại.