I. Cách điều khiển ổn định hệ Acrobot Tổng quan và thách thức
Hệ Acrobot là một hệ thống cơ điện tử under-actuated (thiếu cơ cấu truyền động) gồm hai thanh nối quay quanh khớp, trong đó chỉ khớp dưới được truyền động. Việc điều khiển ổn định hệ Acrobot tại vị trí cân bằng thẳng đứng (vị trí TOP) là một bài toán phức tạp trong lĩnh vực điều khiển tự động. Thách thức lớn nhất đến từ tính phi tuyến mạnh, không ổn định nội tại, và bậc tự do dư thừa so với số cơ cấu truyền động. Theo báo cáo nghiên cứu của Trường Đại học Sư phạm Kỹ thuật TP.HCM (2022), hệ Acrobot không thể được điều khiển bằng các phương pháp tuyến tính cổ điển nếu không có sự hỗ trợ của các giải thuật điều khiển hiện đại. Đặc biệt, hệ thống này không thỏa mãn điều kiện điều khiển được tuyến tính hóa quanh điểm cân bằng, khiến việc thiết kế bộ điều khiển trở nên khó khăn. Các nghiên cứu trước đây (Hà Mạnh Quân, 2014; Nguyễn Nguyên Hoàng Minh, 2020) đã chỉ ra rằng, để ổn định hệ Acrobot, cần kết hợp giữa mô hình động lực học chính xác và chiến lược điều khiển thích nghi. Chính vì vậy, việc lựa chọn giải thuật điều khiển ổn định hệ Acrobot phù hợp không chỉ là vấn đề kỹ thuật mà còn là bài toán tối ưu hóa hiệu suất và độ bền vững trước nhiễu.
1.1. Cấu trúc và đặc điểm động lực học của hệ Acrobot
Hệ Acrobot gồm hai liên kết (link) nối tiếp nhau qua khớp quay, với chỉ khớp đầu tiên được truyền động mô-men. Mô hình toán học của hệ được mô tả bởi hệ phương trình vi phân phi tuyến bậc hai, dựa trên nguyên lý Lagrange. Đặc điểm nổi bật là hệ under-actuated, nghĩa là số biến trạng thái (4: hai góc và hai vận tốc góc) lớn hơn số đầu vào điều khiển (1). Điều này khiến hệ không thể đạt được điều khiển độc lập trên mọi trạng thái, đặc biệt tại vùng lân cận điểm cân bằng không ổn định.
1.2. Các thách thức chính trong điều khiển ổn định Acrobot
Ba thách thức lớn nhất bao gồm: (1) Tính phi tuyến mạnh của phương trình động lực học, (2) Điểm cân bằng không ổn định (vị trí thẳng đứng ngược), và (3) Khả năng chịu nhiễu kém nếu không có cơ chế phản hồi thích nghi. Theo nghiên cứu của SV Dương Trường Giang (2022), hệ Acrobot không thỏa mãn điều kiện điều khiển được tuyến tính hóa tại điểm TOP, do đó các phương pháp như PID cổ điển thường thất bại. Điều này đòi hỏi các giải thuật điều khiển phi tuyến hoặc thông minh để đạt được độ ổn định mong muốn.
II. Phương pháp giải thuật tuyến tính LQR cho hệ Acrobot
Giải thuật LQR (Linear Quadratic Regulator) là một trong những phương pháp đầu tiên được áp dụng để điều khiển ổn định hệ Acrobot, dù hệ thống vốn phi tuyến. Để sử dụng LQR, hệ Acrobot cần được tuyến tính hóa quanh điểm cân bằng (thường là vị trí TOP). Quá trình này tạo ra mô hình trạng thái tuyến tính dạng ẋ = Ax + Bu, từ đó thiết kế luật điều khiển u = -Kx nhằm tối thiểu hóa chỉ tiêu chi phí J = ∫(xᵀQx + uᵀRu)dt. Trong nghiên cứu của Trường ĐH SPKT TP.HCM (2022), bộ điều khiển LQR đã được xây dựng thành công và cho kết quả ổn định ban đầu. Tuy nhiên, hiệu suất của LQR phụ thuộc rất lớn vào việc lựa chọn ma trận trọng số Q và R. Nếu Q quá nhỏ, hệ đáp ứng chậm; nếu R quá nhỏ, tín hiệu điều khiển có thể bão hòa. Nghiên cứu cũng chỉ ra rằng, khi Q(3,3) = 300 (trọng số cho góc link 2), sai số ổn định giảm đáng kể so với ma trận đơn vị. Dù LQR đơn giản và dễ triển khai, nhược điểm lớn là không bền vững trước nhiễu lớn và chỉ hiệu quả trong vùng lân cận điểm tuyến tính hóa.
2.1. Tuyến tính hóa hệ Acrobot quanh điểm cân bằng
Quá trình tuyến tính hóa sử dụng khai triển Taylor bậc nhất quanh điểm cân bằng (θ₁=0, θ₂=π). Kết quả là ma trận A và B mô tả động lực học tuyến tính. Tuy nhiên, do hệ under-actuated, ma trận A thường có giá trị riêng dương, chứng tỏ điểm cân bằng nội tại không ổn định — đây là lý do bắt buộc phải có bộ điều khiển phản hồi.
2.2. Tối ưu hóa ma trận Q và R trong LQR
Việc chọn ma trận Q và R ảnh hưởng trực tiếp đến đáp ứng hệ thống. Nghiên cứu SV2022-130 cho thấy: tăng trọng số cho trạng thái góc (Q(1,1), Q(3,3)) giúp giảm dao động, trong khi tăng R làm giảm biên độ tín hiệu điều khiển nhưng có thể làm chậm thời gian đáp ứng. Cân bằng giữa hai yếu tố này là chìa khóa để đạt hiệu suất tối ưu.
III. Giải thuật điều khiển mờ Fuzzy kết hợp ANFIS cho Acrobot
Để khắc phục hạn chế của LQR trong vùng phi tuyến rộng, giải thuật Fuzzy (mờ) đã được áp dụng. Trong nghiên cứu SV2022-130, một bộ điều khiển Fuzzy được xây dựng dựa trên dữ liệu đầu ra từ bộ LQR, sau đó huấn luyện bằng công cụ ANFIS (Adaptive Neuro-Fuzzy Inference System) trong MATLAB. ANFIS kết hợp mạng nơ-ron và logic mờ để tự động điều chỉnh các hàm liên thuộc và luật suy diễn. Kết quả mô phỏng cho thấy, bộ điều khiển Fuzzy học được hành vi của LQR nhưng mềm dẻo hơn trước nhiễu và có khả năng ngoại suy tốt hơn trong vùng trạng thái chưa từng gặp. Đặc biệt, khi so sánh góc lệch của link 1 và link 2 giữa LQR và Fuzzy, bộ điều khiển mờ cho thấy sai số ổn định thấp hơn sau 3–7 chu kỳ huấn luyện. Số lượng hàm liên thuộc (3–5 cho mỗi đầu vào) ảnh hưởng lớn đến độ chính xác: quá ít gây xấp xỉ thô, quá nhiều dẫn đến quá khớp. Đây là minh chứng cho tiềm năng của giải thuật thông minh trong điều khiển ổn định hệ Acrobot.
3.1. Xây dựng bộ điều khiển Fuzzy từ dữ liệu LQR
Dữ liệu đầu vào cho ANFIS bao gồm 4 trạng thái (góc và vận tốc góc của hai link), đầu ra là tín hiệu điều khiển u. Bộ LQR hoạt động như “chuyên gia” cung cấp cặp (trạng thái, điều khiển) để huấn luyện mạng Fuzzy. Quá trình này giúp Fuzzy kế thừa ưu điểm của LQR nhưng không phụ thuộc vào mô hình tuyến tính.
3.2. Đánh giá hiệu suất Fuzzy qua mô phỏng
Kết quả mô phỏng cho thấy, sau 3 chu kỳ huấn luyện với cấu hình hàm liên thuộc [3 3 3 3], bộ Fuzzy đạt sai số ổn định dưới 0.02 rad. Khi tăng lên [4 3 5 3], độ chính xác cải thiện rõ rệt, đặc biệt ở link 2 — thành phần khó điều khiển nhất do không có truyền động trực tiếp.
IV. Giải thuật điều khiển trượt Sliding Mode cho độ bền vững cao
Giải thuật Sliding Mode Control (SMC) là phương pháp phi tuyến mạnh, nổi bật nhờ khả năng bền vững trước nhiễu và bất định mô hình. Trong nghiên cứu SV2022-130, SMC được thiết kế với mặt trượt s = c₁e₁ + c₂e₂ + ė, trong đó e là sai số so với quỹ đạo mong muốn. Luật điều khiển gồm phần tương đương (u_eq) và phần chuyển mạch (u_sw), thường có dạng u = u_eq – K·sign(s). Nhờ thành phần chuyển mạch, hệ thống “trượt” dọc theo mặt trượt về điểm cân bằng, bất chấp nhiễu bên ngoài. Tuy nhiên, hiện tượng chattering (dao động tần số cao) là nhược điểm cần xử lý — có thể giảm bằng cách thay hàm sign(s) bằng hàm sat(s) hoặc sử dụng điều khiển trượt bậc cao. Theo Wang et al. (2011), SMC cho hệ Acrobot đạt thời gian ổn định nhanh và khả năng chống nhiễu vượt trội so với LQR và Fuzzy. Trong mô phỏng, SMC đưa hệ về vị trí TOP trong vòng 2–3 giây, ngay cả khi có nhiễu ngẫu nhiên tác động.
4.1. Thiết kế mặt trượt và luật điều khiển
Mặt trượt được chọn sao cho hệ thống có tính ổn định Lyapunov. Thành phần u_eq được tính từ mô hình động lực học, trong khi u_sw đảm bảo hệ luôn hướng về mặt trượt. Việc chọn hệ số K và c₁, c₂ ảnh hưởng trực tiếp đến tốc độ hội tụ và mức độ chattering.
4.2. Xử lý hiện tượng chattering trong thực tế
Chattering có thể làm mòn cơ khí và tiêu hao năng lượng. Giải pháp phổ biến là sử dụng hàm bão hòa thay cho hàm sign, hoặc áp dụng điều khiển trượt bậc hai (Super-Twisting). Nghiên cứu của Nguyễn Đức Minh (2020) đề xuất SMC thích nghi để tự điều chỉnh K theo mức nhiễu, giúp giảm chattering mà không làm mất độ bền vững.
V. So sánh hiệu suất các giải thuật điều khiển Acrobot
Ba giải thuật điều khiển ổn định hệ Acrobot — LQR, Fuzzy, và Sliding Mode — có ưu nhược điểm rõ rệt. LQR đơn giản, dễ triển khai nhưng chỉ hiệu quả trong vùng lân cận điểm cân bằng và nhạy với nhiễu. Fuzzy/ANFIS linh hoạt, học được hành vi điều khiển từ dữ liệu, phù hợp cho hệ phi tuyến, nhưng cần quá trình huấn luyện và có thể gặp quá khớp. Sliding Mode cho độ bền vững cao, thời gian đáp ứng nhanh, nhưng gây chattering và đòi hỏi kiến thức sâu về mô hình phi tuyến. Theo kết quả mô phỏng trong báo cáo SV2022-130, Fuzzy và SMC vượt trội LQR về độ chính xác góc link 2 (thành phần không truyền động). Đặc biệt, SMC duy trì hiệu suất ngay cả khi có nhiễu ngẫu nhiên mạnh, trong khi LQR dễ mất ổn định. Tuy nhiên, Fuzzy lại tiêu tốn ít năng lượng hơn SMC do không có chuyển mạch tần số cao. Lựa chọn giải thuật phù hợp phụ thuộc vào yêu cầu ứng dụng: độ chính xác, độ bền vững, hay hiệu quả năng lượng.
5.1. Đánh giá qua sai số ổn định và thời gian đáp ứng
Trong điều kiện lý tưởng, LQR mất ~4s để ổn định; Fuzzy ~3.5s; SMC ~2.5s. Sai số góc cuối cùng: LQR ~0.05 rad, Fuzzy ~0.015 rad, SMC ~0.01 rad. SMC và Fuzzy vượt trội rõ rệt ở link 2 — nơi không có truyền động trực tiếp.
5.2. Khả năng chống nhiễu và tiêu thụ năng lượng
Khi thêm nhiễu ngẫu nhiên, LQR dao động mạnh và có thể mất ổn định. Fuzzy duy trì ổn định nhờ khả năng xấp xỉ phi tuyến. SMC gần như không bị ảnh hưởng nhưng tiêu thụ năng lượng cao do chattering. Đây là yếu tố then chốt khi triển khai trên hệ Acrobot thực tế.
VI. Ứng dụng thực tiễn và hướng phát triển tương lai
Việc điều khiển ổn định hệ Acrobot không chỉ mang tính học thuật mà còn có giá trị ứng dụng cao trong robotics, như cánh tay robot thiếu truyền động, hệ thống cân bằng cho drone, hoặc mô hình huấn luyện điều khiển phi tuyến. Các giải thuật điều khiển đã được kiểm chứng qua mô phỏng có tiềm năng triển khai trên phần cứng nếu giải quyết được vấn đề chattering (SMC) và thời gian huấn luyện (Fuzzy). Hướng phát triển tương lai bao gồm: (1) Kết hợp giải thuật lai (ví dụ: SMC + Fuzzy để giảm chattering), (2) Tối ưu tham số bằng thuật toán di truyền (GA) như trong nghiên cứu của Tran Hoang Chinh (2021), và (3) Triển khai trên FPGA hoặc vi điều khiển thời gian thực. Ngoài ra, việc mở rộng sang hệ Acrobot 3D hoặc tích hợp với học tăng cường (Reinforcement Learning) cũng là xu hướng nổi bật. Như kết luận trong báo cáo SV2022-130, thành công trong điều khiển Acrobot mở ra khả năng áp dụng các giải thuật này cho nhiều hệ under-actuated khác như con lắc ngược, cần cẩu, hay robot đi bộ.
6.1. Triển khai trên hệ thống thực tế
Hệ Acrobot thực tế (Hình 2.6 trong báo cáo) đòi hỏi bộ điều khiển có độ trễ thấp và tiêu thụ năng lượng tối ưu. Fuzzy và LQR phù hợp hơn SMC do không gây chattering cơ học. Tuy nhiên, cần hiệu chỉnh lại tham số để bù sai số mô hình.
6.2. Xu hướng nghiên cứu tương lai
Các hướng nghiên cứu mới bao gồm: sử dụng học sâu để xấp xỉ động lực học, điều khiển dự báo mô hình (MPC) cho Acrobot, và tích hợp cảm biến IMU để ước lượng trạng thái khi encoder không đủ chính xác. Điều này sẽ nâng cao độ tin cậy trong ứng dụng công nghiệp.