数据驱动控制(1)

本文介绍了数据驱动控制的基本概念,包括其原理、分类(基于数据模型和无模型控制),以及常见的控制算法如PID、学习控制、无模型自适应控制和强化学习。作者分享了自己作为科研新手对这一领域的初步理解和未来研究计划。
摘要由CSDN通过智能技术生成

前言

  第一次在csdn上面写文章,之前大学时期都是在上面抄作业,没想到有一天也成为了众多博主的一员,刚刚入学研究生,开始了苦逼的看论文阶段,但是光这么看也很没意思,索性把笔记写成博客的形式发表在csdn上面,希望有大佬来看的时候能够指出我的不足。由于跟导师说了读博,其实心里压根没底,所以导师给了我一个比较新的方向——数据驱动控制。说实话我压根不懂这个东西,导师啥也没说,扔给我一篇文章,是他刚发表在automatica上面的,看着很厉害。作为科研小白的我,看文章着实费劲,但没办法,硬着头皮看呗。

数据驱动控制是什么?

        首先数据驱动控制是一种控制理论和方法,它不依赖于被控对象的数学模型,而是利用被控对象的输入输出数据或从数据中提取的知识来设计控制器。也就是说,数据驱动控制不需要知道控制系统的传递函数或者说是系统矩阵,只需要输入输出数据,然后对数据进行处理,根据这些数据对系统状态进行调整,使得系统保持稳定。所以,数据驱动控制的优点是可以处理模型未知或不确定的系统,或者模型复杂或难以建立的系统。但是显而易见,由于不通过传统的控制方法的话,很难保证数据驱动控制器的稳定性、收敛性和鲁棒性,以及如何选择合适的数据驱动建模和控制方法也是一大难题。

        数据驱动控制可以分为两大类:基于数据模型的控制和基于无模型的控制。基于数据模型的控制是指先用数据驱动的方法对系统进行建模,然后再基于这个数据模型去设计控制器。这种方法可以利用一些已有的控制理论和技术,比如自适应控制、预测控制、滑模控制等。基于无模型的控制是指直接从数据到控制器设计,不经过任何中间模型。这种方法可以避免建模误差和复杂度,但需要更多的数据和计算资源,比如迭代学习控制、重复控制、无模型自适应控制、强化学习等。

相关算法

1、PID控制:这是最古老也最广泛应用的一种数据驱动控制算法,它只需要调节三个参数(比例、积分、微分)来实现对系统的闭环反馈控制。PID控制的优点是简单易用,但缺点是不能很好地处理强非线性、时变性和周期性扰动的系统,也不具备学习能力和自适应能力。


2、学习控制:这是一种基于无模型的数据驱动控制算法,它利用系统在重复执行相同任务时产生的历史输入输出数据,通过迭代学习算法,逐步改善控制器性能。学习控制的优点是能够处理强非线性、时变性和周期性系统,但缺点是需要系统具有重复性和可重置性,也需要较多的学习次数和计算资源。学习控制包括迭代学习控制(Iterative Learning Control, ILC)和重复控制(Repetitive Control, RC)两种主要形式。


3、无模型自适应控制(Model-Free Adaptive Control, MFAC):这是一种基于无模型的数据驱动控制算法,它利用一个新引入的伪梯度向量(或伪Jacobi矩阵)和伪阶数的概念,在受控系统轨线附近用一系列的动态线性时变模型来替代一般离散时间非线性系统,并仅用受控系统的输入输出数据来在线估计系统的伪梯度向量,从而实现非线性系统的无模型自适应控制。MFAC的优点是可以处理模型未知或不确定的系统,或者模型复杂或难以建立的系统,但缺点是需要选择合适的线性化格式、伪阶数和水平常数等参数,并保证伪梯度向量的符号特征和保号条件。


4、迭代无模型控制优化方法(Iterative Model Free Control Optimization Method, IMFCOM):这是一种基于无模型的数据驱动控制算法,它利用一个在受控系统工作点附近的线性时变模型的辨识来替代整个非线性系统模型的辨识,然后此时变线性模型被用来计算系统输出关于控制器参数的梯度信息,该梯度信息是由迭代算法来实现其估计,以此来实现非线性系统的无模型控制4。IMFCOM的优点是可以避免建模误差和复杂度,但缺点是需要选择合适的辨识方法和优化算法,并保证迭代收敛条件。


5、去伪控制(Unifalsified Control, UC):这是一种基于无模型的数据驱动控制算法,它首先构造一个满足性能规格的可行控制器参数几何,然后基于测量到的新数据迭代地判别是否满足此性能规格。当新测量到的数据否定掉目前使用的控制器之后,则控制器便会自动地切换到新的控制器。当所使用控制器未被所测量到的数据否定掉,则设计一个优化算法缩小可行控制器的可行区域。此类无模型控制方法本质上是一种切换控制。UC的优点是可以处理模型不确定性和扰动,但缺点是需要选择合适的性能规格和优化算法,并保证切换稳定性。


6、强化学习控制(Reinforcement Learning Control, RLC):这是一种基于无模型的数据驱动控制算法,它通过与环境交互产生的奖励信号,学习最优的策略或行为,以最大化累积奖励1。RLC的优点是可以处理复杂、随机、部分可观测的系统,但缺点是需要大量的数据和计算资源,并保证学习收敛和安全性。RLC包括基于值函数(Value Function Based, VFB)和基于策略(Policy Based, PB)两种主要形式。

(上述内容基本都是知乎上看来的,一知半解的。这么多算法,我也没遇到过,后面如果论文中有涉及,我再回来修改和补充。)

小结

        目前来说,我也就了解了那么多,后面的文章基本就是围绕数据驱动相关的论文展开了,尤其是第一篇文章,是我导师的文章,我会详细解释其中的内容和中心思想,如果运气好的话,我也会复现文末的仿真。

(话说,为什么csdn没有控制领域的相关标签啊!?没有搜到合适的标签,先用人工智能这个标签,等后面等级够了再改)

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值