总体最优控制

总体最优控制

目录

总体最优控制

建筑物和地区的能源管理

种群系统

研究

引用文献

参与人员

报告

赞助商


控制理论研究的是能够被控制的动态系统,也就是说,它的演化会受到一些外部因素影响。最优控制的目的是寻找一个动态系统在一段时间内的控制策略,使相关的收益最大化。尽管最优控制的理论和应用都取得了广泛进步,但将现有方法应用于大系统时仍然面临着相当大的挑战。为了应对这些挑战,使用优化工具和方法来开发一个最优控制的近似框架:1)建筑物和地区的能源管理;2) 种群系统。

最优控制是一门成熟的数学学科,在科学和工程中有着广泛的应用。尽管半个多世纪以来,最优控制的理论和应用都取得了广泛的进展,但将现有的方法应用于大系统仍然面临着巨大的挑战。当人们从基于模型的最优控制的经典领域转向模型推导时,困难就更大了-​​直接从数据中获得自由控制策略,或者宏观行为从大量代理的微观交互中产生。

为了解决这些问题,我们首先将最优控制问题描述为无穷维线性规划。然后,利用最新的优化技术,通过数据近似地解决无限线性问题-​​驱动方法,承认与统计学习理论有密切的联系,使我们能够为获得的策略构造明确的准确性保证。更具体地说,我们开发了最优控制问题的随机LP近似,具有理论性能保证。我们的方法适合于“批量”公式。如果一个数据-​​采用驱动的观点,然后我们提出逐步解决更大的优化问题,所开发的方法依次实现,这使得部署在“大数据”环境中成为可能。该框架的有效性和效率在以下两个应用中得到了验证。

建筑物和地区的能源管理

通过有效地开发相互连接的建筑物,我们使用我们开发的方法来计算大型能源管理系统的最优控制策略,以减少建筑物的环境足迹。这里的主要挑战是相应系统的高维性,部分原因是系统中包含了天气和其他预报信息以及相关的不确定性。

本课题的研究与Empa的城市能源系统实验室密切合作【链接】,部分还得到了NCCR自动化【链接】下的SCCER(瑞士能源研究能力中心)未来节能建筑和地区【链接】和SNSF(瑞士国家科学基金会)的支持。

种群系统

种群系统涉及到许多个体与局部决策的相互作用-​​通过使用公共资源使能力相互耦合。为了获得期望的全局系统行为,我们使用所发展的方法来寻找一个协调代理行为的最优控制策略。我们在这里要解决的主要挑战有两个:1)定义适当的“特征”来抽象各个状态;2) 缺乏非合作智能体的不确定性整合。

研究

我们学习无限-​​离散系统的时域最优控制问题-​​动力学和/或阶段成本未知的时间系统。我们考虑的一般方法包括探索环境,以强化学习的方式收集输入/输出数据以及成本。然后,我们将获得的信息转换成一个LP公式,该公式返回近似的最优Q-​函数和/或策略。更具体地说,在[6]中,我们为Q引入了Bellman算子的一个放松弛版本-​并证明了它仍然是一个具有唯一不动点的单调压缩映射。在近似动态规划的线性规划方法的理论下,利用新的算子构造了一个Q的简化线性规划(LP)-​函数。对于具有无穷状态空间和作用空间的离散随机线性系统,线性规划问题的解保持了最优Q的极小值函数。因此,即使LP的解与最优Q函数不一致​,我们检索的策略依然是最优策略。LP的决策变量比现有方法少,并且我们展示了如何在动态未知的情况下将其与强化学习方法结合使用。此外,在许多应用程序中,不能简单地指定任务的成本,而是可以观察专家的行为。在文献[4]中,我们考虑了具有未知代价函数的Markov决策过程,并利用随机凸优化工具来解决模仿学习问题,即从一组有限的专家演示中学习一个策略。当然还有其他好处,所提出的近似方案为恢复解的质量证明了明确的概率性能界限。

在[2,9]中,我们提出了模型的最新技术-​​基于控制的问题。在[9]中,我们导出了一系列数据-​​基于LP方法的驱动迭代优化算法-策略Q-​学习和随机的经验回放-​​最优反馈策略。在文献[2]中,我们提出了一种新的值函数和Q的逼近方案-​函数的线性规划近似动态规划方法。该方法在受限函数空间上进行优化,以逼近值函数或Q-函数。在离散时间、连续空间环境下工作,为策略的拟合误差和在线性能提供了保证。这些保证补充了文献中出现的现有界限。

在数值上,处理数据中出现的大型优化问题-​​驱动最优控制,我们提出以下两种方法。在[8]中,我们利用图形处理单元的并行计算架构来加速状态-​​的-​解决数据的艺术方法-​​驱动最优控制问题,以及许多大型-​​在规模问题上,我们的实现比传统的CPU实现快两个数量级。对于不能有效并行化的问题,在[1]中,我们首先解决所有数据样本子集的控制问题,只保留与绑定约束相关联的数据样本,然后在生成的问题中添加与新数据样本相对应的约束,并重复该过程。这种序贯格式保证了所得到的解收敛到最优解。

在文献[3,5,7]中,我们分别应用最优化和机器学习技术来解决水电调度问题、网络动态系统和混合控制问题。在文献[3]中,提出了一种在长时间范围内求解非线性控制问题的近似方法,在这个方法中,整个非线性模型保留在时间范围的初始部分,而时间范围的剩余部分则用线性松弛法建模。我们提出了Benders分解-​​基于求解算法,证明了即使在非线性初始问题求解不精确的情况下,该算法经过有限次迭代后仍然收敛。我们还绑了潜艇-​​分裂的最优性-​​关于原非线性问题的horizon方法。然后,我们将此方法应用于一个多水库的水力系统,并证明了它比现有方法的数值优势。在[5]中,我们考虑一个子一类混合时间系统-​​不变量,无二进制状态或控制输入。对于这样的系统,我们开发了一个学习扩展Q的算法-​函数。数值实验表明,在不需要选择终端成本或约束条件的情况下,我们的控制器性能优于混合MPC的简单实现。在文献[7]中,我们引入了一个新的聚类测度,即网络化动态系统在干扰抑制下的自由度。自由度测度反映了簇内局部受限扰动的网络结构能力。由于这一措施,我们能够产生最佳的图分区,以尽量减少来自于突然干扰的系统故障风险。

引用文献

[1] G. Banjac and J. Lygeros. A data-​​driven policy iteration scheme based on linear programming. IEEE Conference on Decision and Control (CDC), 2019.

[2] P.N. Beuchat, A. Georghiou and J. Lygeros. Performance Guarantees for Model-​​Based Approximate Dynamic Programming in Continuous Spaces. IEEE Transactions on Automatic Control, 65(1):143-​​158, 2019.

[3] B. Flamm, J. Warrington and J. Lygeros. Two-​​Stage Dual Dynamic Programming with Application to Nonlinear Hydro Scheduling. IEEE Transactions on Control Systems Technology, 2020, in press.

[4] A. Kamoutsi, G. Banjac and J. Lygeros. Stochastic convex optimization for provably efficient apprenticeship learning. NeurIPS 2019 Optimization Foundations for Reinforcement Learning Workshop, 2019.

[5] A. Martinelli and J. Lygeros.Control of networked systems by clustering: the degree of freedom concept. 21st IFAC World Congress, 2020, in press.

[6] A. Martinelli and J. Lygeros.Learning Optimal Control Policies for Stochastic Systems with a Relaxed Bellman Operator. Submitted, 2020.

[7] S. Menta, J. Warrington, J. Lygeros, and M. Morari.Learning solutions to hybrid control problems using Benders cuts. Proceedings of Machine Learning Research, 120:1-9, 2020.

[8] M. Schubiger, G. Banjac, and J. Lygeros. GPU acceleration of ADMM for large-​​scale quadratic programming. Journal of Parallel and Distributed Computing, 14:55-​67, 2020.

[9] A. Tanzanakis and J. Lygeros. Data-​​driven control of unknown systems: a linear programming approach. 21st IFAC World Congress, 2020, in press.

参与人员

教授,自动控制实验室主任

-​John Lygeros
博士后
-​Goran Banjac
-​Jianzhe Zhen
博士生
-​Angeliki Kamoutsi
-​Andrea Martinelli
-​Sandeep Menta
-​Alexandros Tazanakis

校友

-​Joe Warrington,高级科学家,现任英国HomeX公司研究工程师

报告

• Goran Banjac, “Operator splitting methods for convex optimization", invited talk at the Carnegie Mellon University, Pittsburgh, PA, USA, March 2020. Joint work with B. Stellato, P. Goulart, A. Bemporad and S. Boyd.
• Angeliki Kamoutsi, “Stochastic convex optimization for provably efficient apprenticeship learning", poster presentation at the NeurIPS Optimization Foundations for Reinforcement Learning Workshop, Vancouver, Canada, December 2019. Joint work with G. Banjac and J. Lygeros.
• Goran Banjac, “A data-​​driven policy iteration scheme based on linear programming", presentation at the IEEE Conference on Decision and Control (CDC), Nice, France, December 2019. Joint work with J. Lygeros.
• Angeliki Kamoutsi, “Randomized algorithms and PAC bounds for data-​​driven inverse stochastic optimal control", presentation at the International Conference of Continuous Optimization (ICCOPT), Berlin, Germany, August 2019. Joint work with Tobias Sutter.
• Goran Banjac, “Decentralized resource allocation via dual consensus ADMM", presentation at the American Control Conference (ACC), Philadelphia, PA, USA, July 2019. Joint work with F. Rey, P. Goulart and J. Lygeros.
• John Lygeros, “Optimal control at large", DREAM/CPAR Seminar, U.C. Berkeley, August 2019.
• John Lygeros, “Optimal control at large", Plenary Lecture at the European Control Conference (ECC), Naples, Italy, June 2019. [Video]
• Goran Banjac, “Decentralized resource allocation via dual consensus ADMM", presentation at the ABB Corporate Research Center, Baden-​​Dättwil, Switzerland, January 2019. Joint work with F. Rey, P. Goulart and J. Lygeros.
• John Lygeros, “Approximate dynamic programming through finite dimensional linear programs", invited talk at the Innovation in Predictive Control workshop, IIT Bombay, India, November 2018.

赞助商

 

  

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值