Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Tổng quan về đề tài

1.2. Khái niệm về học củng cố

1.3. Lịch sử phát triển của RL trong điều khiển

1.4. Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.4.1. Sự cần thiết phải nghiên cứu học củng cố trong điều khiển

1.4.2. Tính cấp thiết của đề tài

1.4.3. Mục tiêu nghiên cứu

1.4.4. Nhiệm vụ nghiên cứu

1.5. Đối tượng, phạm vi và phương pháp nghiên cứu

1.5.1. Đối tượng và phạm vi nghiên cứu

1.5.2. Phương pháp nghiên cứu

1.6. Những đóng góp mới của luận án về mặt khoa học

1.6.1. Về mặt lý thuyết

1.6.2. Về mặt thực tiễn

1.7. Bố cục luận án

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Lý thuyết học củng cố

2.2. Các giải thuật học củng cố kinh điển

2.2.1. Giải thuật VI (Value Iteration)

2.2.2. Giải thuật PI (Policy Iteration)

2.2.3. Giải thuật Q-Learning

2.3. Xấp xỉ hàm trong RL

2.3.1. Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

2.3.2. Yêu cầu về xấp xỉ hàm trong RL

2.4. Các loại xấp xỉ hàm trong RL, so sánh và đánh giá

2.5. Thuộc tính của NN truyền thẳng một lớp

2.6. Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm

3. CHƯƠNG 3: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU

3.1. Học củng cố trong điều khiển tối ưu

3.1.1. Mô tả bài toán

3.1.2. Phương trình HJB (Hamilton-Jacobi-Bellman)

3.2. Phân tích và thiết kế giải thuật học củng cố OADP

3.2.1. Cấu trúc điều khiển và luật cập nhật tham số online

3.2.2. Giải thuật OADP

3.2.3. Phân tích ổn định và hội tụ của giải thuật OADP

3.3. Mô phỏng, so sánh và đánh giá

4. CHƯƠNG 4: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG

4.1. Học củng cố trong điều khiển thích nghi bền vững

4.1.1. Mô tả bài toán

4.1.2. Phương trình HJI (Hamilton-Jacobi-Isaacs)

4.1.3. Luật điều khiển học củng cố dựa vào nghiệm HJI

4.2. Giải thuật ORADP

4.2.1. Cấu trúc điều khiển và luật cập nhật tham số

4.2.2. Giải thuật ORADP

4.2.3. Phân tích ổn định và hội tụ của giải thuật ORADP

4.3. Mô phỏng, so sánh và đánh giá

5. CHƯƠNG 5: ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG

5.1. Mô hình phi tuyến của WMR

5.2. Mô hình WMR thực nghiệm

5.3. Giải thuật ORADP áp dụng cho WMR

5.3.1. Quỹ đạo tham chiếu

5.3.2. Thiết lập tham số học

5.3.3. Kết quả mô phỏng

6. CHƯƠNG 6: GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO

6.1. Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO

6.1.1. Đồ thị truyền thông phân tán

6.1.2. Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP

6.1.2.1. Học củng cố trong điều khiển hợp tác

6.1.2.2. Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng

6.1.2.3. Giải thuật ORADP mở rộng

6.1.2.4. Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng

6.1.3. Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng

6.1.3.1. Mô hình hệ thống robot bầy đàn

6.1.3.2. Áp dụng giải thuật và kết quả mô phỏng

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL

PHỤ LỤC B: CHỨNG MINH ĐỊNH LÝ 3.1

PHỤ LỤC C: CHỨNG MINH BỔ ĐỀ 4.4

PHỤ LỤC D: CHỨNG MINH ĐỊNH LÝ 4.1

PHỤ LỤC E: MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT

PHỤ LỤC F: CHỨNG MINH BỔ ĐỀ 6.1

I. Giới thiệu

Luận án nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến. Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và Hamilton-Jacobi-Isaacs (HJI). Học củng cố (Reinforcement Learning - RL) phát triển từ qui hoạch động (Dynamic Programming - DP) thành qui hoạch động thích nghi (Adaptive Dynamic Programming - ADP), trở thành phương pháp hiệu quả để xấp xỉ nghiệm HJB và HJI. Luận án tập trung vào hai giải thuật chính: Online Adaptive Dynamic Programming (OADP) và Online Robust Adaptive Dynamic Programming (ORADP).

1.1. Tổng quan về đề tài

Học củng cố là phương pháp học máy dựa trên việc tối ưu hóa hành động thông qua phần thưởng. Trong điều khiển tự động, RL được ứng dụng để giải quyết các bài toán phức tạp như điều khiển tối ưu và thích nghi. Hệ phi tuyến đòi hỏi các giải thuật điều khiển linh hoạt và bền vững. Luận án đề xuất các giải thuật RL online để xấp xỉ nghiệm HJB và HJI, giúp cải thiện hiệu suất điều khiển.

1.2. Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu chính của luận án là phát triển các giải thuật RL để điều khiển hệ phi tuyến một cách bền vững. Nhiệm vụ bao gồm thiết kế giải thuật OADP và ORADP, phân tích tính ổn định và hội tụ, và ứng dụng vào điều khiển robot di động. Kết quả nghiên cứu hướng đến việc tối ưu hóa hiệu suất điều khiển và giảm thiểu tài nguyên tính toán.

II. Cơ sở lý thuyết

Chương này trình bày các khái niệm cơ bản về học củng cố, bao gồm các giải thuật kinh điển như Value Iteration (VI), Policy Iteration (PI) và Q-Learning. Xấp xỉ hàm là yếu tố quan trọng trong RL, giúp giảm độ phức tạp tính toán. Các loại xấp xỉ hàm như mạng thần kinh nhân tạo (NN) được phân tích và so sánh. Qui hoạch động thích nghi (ADP) là phương pháp chính để xấp xỉ nghiệm HJB và HJI.

2.1. Giải thuật học củng cố kinh điển

Các giải thuật RL kinh điển như VI, PI và Q-Learning là nền tảng cho các nghiên cứu hiện đại. VI tập trung vào việc cập nhật giá trị hàm mục tiêu, trong khi PI cải thiện chính sách điều khiển. Q-Learning là giải thuật không cần mô hình, phù hợp cho các hệ thống phức tạp.

2.2. Xấp xỉ hàm trong RL

Xấp xỉ hàm giúp giảm độ phức tạp tính toán trong RL bằng cách thay thế các hàm phức tạp bằng các mô hình đơn giản hơn. Các loại xấp xỉ hàm như mạng MLP, RBF và CMAC được sử dụng rộng rãi. Mỗi loại có ưu nhược điểm riêng, phù hợp với các bài toán khác nhau.

III. Giải thuật học củng cố trong điều khiển tối ưu

Chương này tập trung vào giải thuật OADP để xấp xỉ nghiệm HJB cho hệ phi tuyến với mô hình xác định. Giải thuật sử dụng cấu trúc điều khiển với một xấp xỉ hàm, giúp giảm độ phức tạp tính toán. Các luật cập nhật tham số được đồng bộ hóa để tăng tốc độ hội tụ. Kết quả mô phỏng cho thấy hiệu quả của OADP so với các phương pháp truyền thống.

3.1. Cấu trúc điều khiển OADP

Giải thuật OADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.

3.2. Phân tích ổn định và hội tụ

Giải thuật OADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy OADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.

IV. Giải thuật học củng cố trong điều khiển thích nghi bền vững

Chương này trình bày giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến không có thông tin về động học nội. Giải thuật ORADP được thiết kế để đảm bảo tính bền vững và ổn định trong điều khiển. Kết quả mô phỏng và thực nghiệm trên robot di động cho thấy hiệu quả của ORADP trong việc điều khiển hệ thống phức tạp.

4.1. Cấu trúc điều khiển ORADP

Giải thuật ORADP sử dụng một mạng NN để xấp xỉ hàm đánh giá tối ưu. Cấu trúc điều khiển đơn giản hóa quá trình tính toán và giảm thiểu tài nguyên. Các luật cập nhật tham số được thiết kế để đảm bảo tính ổn định và hội tụ của giải thuật.

4.2. Phân tích ổn định và hội tụ

Giải thuật ORADP đảm bảo rằng hàm chi phí được tối thiểu hóa, các tham số xấp xỉ và luật điều khiển hội tụ về giá trị cận tối ưu. Kết quả mô phỏng cho thấy ORADP có tốc độ hội tụ nhanh hơn so với các phương pháp sử dụng hai hoặc ba xấp xỉ hàm.

V. Ứng dụng giải thuật ORADP cho robot di động

Chương này trình bày ứng dụng giải thuật ORADP trong điều khiển robot di động (WMR). Giải thuật ORADP được thiết kế để điều khiển WMR mà không cần chia tách bộ điều khiển động học và động lực học. Kết quả mô phỏng và thực nghiệm cho thấy ORADP có ưu điểm vượt trội so với các phương pháp điều khiển thích nghi truyền thống.

5.1. Mô hình robot di động

Mô hình WMR được sử dụng để kiểm tra hiệu quả của giải thuật ORADP. Robot di động là hệ thống phi tuyến phức tạp, đòi hỏi các giải thuật điều khiển linh hoạt và bền vững.

5.2. Kết quả mô phỏng và thực nghiệm

Kết quả mô phỏng cho thấy ORADP có khả năng điều khiển WMR một cách hiệu quả, đảm bảo tính bền vững và ổn định. Thực nghiệm trên robot thực tế cũng xác nhận tính khả thi của giải thuật ORADP trong các ứng dụng thực tế.

VI. Giải thuật học củng cố điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO

Chương này mở rộng giải thuật ORADP để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán. Giải thuật ORADP mở rộng được thiết kế để đảm bảo tính đồng bộ và ổn định trong điều khiển nhiều hệ thống. Kết quả mô phỏng cho thấy hiệu quả của giải thuật trong điều khiển hệ thống robot bầy đàn.

6.1. Lý thuyết đồ thị và mô hình hợp tác

Lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác. Mô hình hợp tác nhiều hệ phi tuyến MIMO được phân tích để thiết kế giải thuật điều khiển.

6.2. Giải thuật ORADP mở rộng

Giải thuật ORADP mở rộng được thiết kế để điều khiển hợp tác nhiều hệ phi tuyến MIMO. Giải thuật đảm bảo tính đồng bộ và ổn định trong điều khiển, giúp cải thiện hiệu suất của hệ thống robot bầy đàn.

Luận án tiến sĩ: Giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Tổng quan về đề tài

1.2. Khái niệm về học củng cố

1.3. Lịch sử phát triển của RL trong điều khiển

1.4. Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.4.1. Sự cần thiết phải nghiên cứu học củng cố trong điều khiển

1.4.2. Tính cấp thiết của đề tài

1.4.3. Mục tiêu nghiên cứu

1.4.4. Nhiệm vụ nghiên cứu

1.5. Đối tượng, phạm vi và phương pháp nghiên cứu

1.5.1. Đối tượng và phạm vi nghiên cứu

1.5.2. Phương pháp nghiên cứu

1.6. Những đóng góp mới của luận án về mặt khoa học

1.6.1. Về mặt lý thuyết

1.6.2. Về mặt thực tiễn

1.7. Bố cục luận án

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Lý thuyết học củng cố

2.2. Các giải thuật học củng cố kinh điển

2.2.1. Giải thuật VI (Value Iteration)

2.2.2. Giải thuật PI (Policy Iteration)

2.2.3. Giải thuật Q-Learning

2.3. Xấp xỉ hàm trong RL

2.3.1. Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

2.3.2. Yêu cầu về xấp xỉ hàm trong RL

2.4. Các loại xấp xỉ hàm trong RL, so sánh và đánh giá

2.5. Thuộc tính của NN truyền thẳng một lớp

2.6. Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm

3. CHƯƠNG 3: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU

3.1. Học củng cố trong điều khiển tối ưu

3.1.1. Mô tả bài toán

3.1.2. Phương trình HJB (Hamilton-Jacobi-Bellman)

3.2. Phân tích và thiết kế giải thuật học củng cố OADP

3.2.1. Cấu trúc điều khiển và luật cập nhật tham số online

3.2.2. Giải thuật OADP

3.2.3. Phân tích ổn định và hội tụ của giải thuật OADP

3.3. Mô phỏng, so sánh và đánh giá

4. CHƯƠNG 4: GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG

4.1. Học củng cố trong điều khiển thích nghi bền vững

4.1.1. Mô tả bài toán

4.1.2. Phương trình HJI (Hamilton-Jacobi-Isaacs)

4.1.3. Luật điều khiển học củng cố dựa vào nghiệm HJI

4.2. Giải thuật ORADP

4.2.1. Cấu trúc điều khiển và luật cập nhật tham số

4.2.2. Giải thuật ORADP

4.2.3. Phân tích ổn định và hội tụ của giải thuật ORADP

4.3. Mô phỏng, so sánh và đánh giá

5. CHƯƠNG 5: ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG

5.1. Mô hình phi tuyến của WMR

5.2. Mô hình WMR thực nghiệm

5.3. Giải thuật ORADP áp dụng cho WMR

5.3.1. Quỹ đạo tham chiếu

5.3.2. Thiết lập tham số học

5.3.3. Kết quả mô phỏng

6. CHƯƠNG 6: GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO

6.1. Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO

6.1.1. Đồ thị truyền thông phân tán

6.1.2. Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP

6.1.2.1. Học củng cố trong điều khiển hợp tác

6.1.2.2. Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng

6.1.2.3. Giải thuật ORADP mở rộng

6.1.2.4. Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng

6.1.3. Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng

6.1.3.1. Mô hình hệ thống robot bầy đàn

6.1.3.2. Áp dụng giải thuật và kết quả mô phỏng

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL

PHỤ LỤC B: CHỨNG MINH ĐỊNH LÝ 3.1

PHỤ LỤC C: CHỨNG MINH BỔ ĐỀ 4.4

PHỤ LỤC D: CHỨNG MINH ĐỊNH LÝ 4.1

PHỤ LỤC E: MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT

PHỤ LỤC F: CHỨNG MINH BỔ ĐỀ 6.1

I. Giới thiệu

1.1. Tổng quan về đề tài

1.2. Mục tiêu và nhiệm vụ nghiên cứu

II. Cơ sở lý thuyết