优化控制与基于学习的控制

本文基于普林斯顿大学2024年的AA 203: Optimal and Learning-Based Control课程笔记

第八周:Intro to learning, sys ID, adaptive control

一。背景介绍

适用问题:应对系统不确定性

在控制系统存在不确定性(如环境扰动时、系统建模不全面等)

  1. 不确定性影响较小:反馈控制即可解决
  2. 不确定习惯影响较大:鲁棒控制(最小值最大值控制策略)或者(在线分析状态转移矩阵修改控制模式)

处理不确定性的策略

总结起来,利用在线测量提高控制系统性能可以通过:

  1. 直接利用测量结果改善控制器
  • 直接的自适应控制
  • 无模型强化学习
  1. 通过测量结果矫正系统模型,利用新模型改善控制器
  • 系统辨识
  • 间接自适应控制
  • 基于模型的强化学习

怎么进行模型学习

有三种可能的学习设置

  1. “零”回合:利用系统辨识(System Identification,System ID),在真正的运行之前就完成所有参数的学习。
  2. 单回合:利用自适应控制(Adaptive Control),不断的在线重新优化控制器
  3. 多回合:利用强化学习(Reinforcement Learning),与环境进行多回合互动,系统参数在开始回合中不断的进行优化,学习过程与策略优化可能跨回合地完成。

二。系统辨识

适用条件

  • 所面对的控制问题不需要在线学习
  • 适用的标准的流程:通过实验提前构建一个 数据驱动(data-driven) 的动力学模型,这个模型可以被用来规划与控制,而不需要进一步的在线学习
  • (需要一个工程师来学习、设计实验、重新设定系统等等)
  • 线性回归 是用来完成系统识别的一个主要方法)

最小均方误差

假设系统方程: y = θ T z + ϵ y = \boldsymbol{\theta }^ {T} \boldsymbol{z}+ \epsilon y=θTz+ϵ

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值