本文基于普林斯顿大学2024年的AA 203: Optimal and Learning-Based Control课程笔记
第八周:Intro to learning, sys ID, adaptive control
一。背景介绍
适用问题:应对系统不确定性
在控制系统存在不确定性(如环境扰动时、系统建模不全面等)
- 不确定性影响较小:反馈控制即可解决
- 不确定习惯影响较大:鲁棒控制(最小值最大值控制策略)或者(在线分析状态转移矩阵修改控制模式)
处理不确定性的策略
总结起来,利用在线测量提高控制系统性能可以通过:
- 直接利用测量结果改善控制器
- 直接的自适应控制
- 无模型强化学习
- 通过测量结果矫正系统模型,利用新模型改善控制器
- 系统辨识
- 间接自适应控制
- 基于模型的强化学习
怎么进行模型学习
有三种可能的学习设置
- “零”回合:利用系统辨识(System Identification,System ID),在真正的运行之前就完成所有参数的学习。
- 单回合:利用自适应控制(Adaptive Control),不断的在线重新优化控制器
- 多回合:利用强化学习(Reinforcement Learning),与环境进行多回合互动,系统参数在开始回合中不断的进行优化,学习过程与策略优化可能跨回合地完成。
二。系统辨识
适用条件
- 所面对的控制问题不需要在线学习
- 适用的标准的流程:通过实验提前构建一个 数据驱动(data-driven) 的动力学模型,这个模型可以被用来规划与控制,而不需要进一步的在线学习
- (需要一个工程师来学习、设计实验、重新设定系统等等)
- (线性回归 是用来完成系统识别的一个主要方法)
最小均方误差
假设系统方程: y = θ T z + ϵ y = \boldsymbol{\theta }^ {T} \boldsymbol{z}+ \epsilon y=θTz+ϵ