Luận án tiến sĩ: Giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

2015

167
0
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Tổng quan về đề tài

1.2. Khái niệm về học củng cố

1.3. Lịch sử phát triển của RL trong điều khiển

1.4. Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.4.1. Sự cần thiết phải nghiên cứu học củng cố trong điều khiển

1.4.2. Tính cấp thiết của đề tài

1.4.3. Mục tiêu nghiên cứu

1.4.4. Nhiệm vụ nghiên cứu

1.5. Đối tượng, phạm vi và phương pháp nghiên cứu

1.5.1. Đối tượng và phạm vi nghiên cứu

1.5.2. Phương pháp nghiên cứu

1.6. Những đóng góp mới của luận án về mặt khoa học

1.6.1. Về mặt lý thuyết

1.6.2. Về mặt thực tiễn

1.7. Bố cục luận án

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Lý thuyết học củng cố

2.2. Các giải thuật học củng cố kinh điển

2.2.1. Giải thuật VI (Value Iteration)

2.2.2. Giải thuật PI (Policy Iteration)

2.2.3. Giải thuật Q-Learning

2.3. Xấp xỉ hàm trong RL

2.3.1. Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

2.3.2. Yêu cầu về xấp xỉ hàm trong RL

2.4. Các loại xấp xỉ hàm trong RL, so sánh và đánh giá

2.5. Thuộc tính của NN truyền thẳng một lớp

2.6. Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm

3. CHƯƠNG 3: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU

3.1. Học củng cố trong điều khiển tối ưu

3.1.1. Mô tả bài toán

3.1.2. Phương trình HJB (Hamilton-Jacobi-Bellman)

3.2. Phân tích và thiết kế giải thuật học củng cố OADP

3.2.1. Cấu trúc điều khiển và luật cập nhật tham số online

3.2.2. Giải thuật OADP

3.2.3. Phân tích ổn định và hội tụ của giải thuật OADP

3.3. Mô phỏng, so sánh và đánh giá

4. CHƯƠNG 4: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG

4.1. Học củng cố trong điều khiển thích nghi bền vững

4.1.1. Mô tả bài toán

4.1.2. Phương trình HJI (Hamilton-Jacobi-Isaacs)

4.1.3. Luật điều khiển học củng cố dựa vào nghiệm HJI

4.2. Giải thuật ORADP

4.2.1. Cấu trúc điều khiển và luật cập nhật tham số

4.2.2. Giải thuật ORADP

4.2.3. Phân tích ổn định và hội tụ của giải thuật ORADP

4.3. Mô phỏng, so sánh và đánh giá

5. CHƯƠNG 5: ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG

5.1. Mô hình phi tuyến của WMR

5.2. Mô hình WMR thực nghiệm

5.3. Giải thuật ORADP áp dụng cho WMR

5.3.1. Quỹ đạo tham chiếu

5.3.2. Thiết lập tham số học

5.3.3. Kết quả mô phỏng

6. CHƯƠNG 6: GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO

6.1. Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO

6.1.1. Đồ thị truyền thông phân tán

6.1.2. Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP

6.1.2.1. Học củng cố trong điều khiển hợp tác
6.1.2.2. Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng
6.1.2.3. Giải thuật ORADP mở rộng
6.1.2.4. Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng

6.1.3. Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng

6.1.3.1. Mô hình hệ thống robot bầy đàn
6.1.3.2. Áp dụng giải thuật và kết quả mô phỏng

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL

PHỤ LỤC B: CHỨNG MINH ĐỊNH LÝ 3.1

PHỤ LỤC C: CHỨNG MINH BỔ ĐỀ 4.4

PHỤ LỤC D: CHỨNG MINH ĐỊNH LÝ 4.1

PHỤ LỤC E: MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT

PHỤ LỤC F: CHỨNG MINH BỔ ĐỀ 6.1

Luận án tiến sĩ tự động hóa nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

Tài liệu "Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến" trình bày những phương pháp tiên tiến trong việc áp dụng giải thuật học củng cố để cải thiện khả năng điều khiển cho các hệ thống phi tuyến. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các kỹ thuật điều khiển thích nghi mà còn chỉ ra cách thức mà các giải thuật học máy có thể được tích hợp để tối ưu hóa hiệu suất của hệ thống. Những lợi ích mà tài liệu mang lại bao gồm việc nâng cao khả năng ứng dụng trong thực tiễn, cũng như cung cấp cái nhìn sâu sắc về các thách thức và giải pháp trong lĩnh vực điều khiển tự động.

Nếu bạn muốn mở rộng kiến thức của mình về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ tự động hóa thiết kế bộ điều khiển lqg bền vững hệ ball and beam. Tài liệu này sẽ cung cấp thêm thông tin về thiết kế bộ điều khiển bền vững, giúp bạn có cái nhìn toàn diện hơn về các phương pháp điều khiển hiện đại.