基于博弈论的智能网联汽车关键技术研究综述

摘要:博弈论是一种在平等对局中依据对方的策略来决定自身策略,以达到取胜的一种数学理论方法,所有参与者的收益都与各个参与者自身决策和对方决策相关。近年来,在汽车电子、网络、信息技术的快速发展下,智能网联汽车已成为汽车技术发展的大势,将引领未来汽车新一轮革命。其中,诸如人机共驾、换道控制、网络安全控制等智能网联汽车关键技术均属于典型的博弈问题,控制目标、执行器、约束条件等存在强耦合关联和对立博弈。在智能网联汽车研究关键技术中引入博弈论的思想,能够实现对相关控制系统的协调优化,实现多目标下的“共赢控制”。本文分析已有研究成果,综述博弈论在智能网联汽车关键技术应用情况,并依据自己博士期间研究方向,探讨博弈论在电动汽车能量管理系统应用的可行性,设计基于博弈论的能量分配协调方法。

关键词:智能网联汽车;博弈论;Nash均衡;人机共驾;换道控制;网络安全;能量优化;

1 前言

1.1 博弈论基础

博弈论是研究个体在互相对抗及冲突时怎样获得各自最佳策略的理论。1944年冯·诺伊曼和摩根斯特在其著作《博弈论与经济行为》中将博弈论作为一门理论提出[1]。20世纪50年代涌现了一批与博弈论相关的成果,其中包括Tucker提出的“囚徒困境”、纳什和夏普里提出的“讨价还价”模型、纳什提出的“Nash均衡”概念等;20世纪50年代中后期至70年代产生了许多优秀成果,如泽尔腾提出的“多步对策”和“子博弈完美Nash均衡”以及“颤抖均衡”的概念、豪尔绍尼提出的“贝叶斯Nash均衡”的概念等;20世纪80年代至今,博弈论的相关理论逐步完善并成熟,现已成为主流经济学中不可分割的一部分[2]。

通常,博弈论一般指的是非合作博弈论,参与人在相互博弈的过程中,一方获利的同时会损害其它方的收益。但在同样的情况下,合作博弈论中双方都是获利的,或者一方在获利的情况下,不会损害另一方的利益[3]。合作博弈就是研究参与人在其各自利益彼此制约和冲突时,如何获得各自的最佳决策以实现最大收益。博弈论的研究建立在以下三点基本假设的前提下:

(1)所有决策的行为主体都是理性的。即所有的决策行为主体在知道自己的选择内容、对未知的事物形成预期判断和明确自身的偏好的基础上,选择使自己利益最大化的决策。一般也将这样的理性的决策行为主体称为理性人。

(2)每一个决策的行为主体是理性的,这一点是所有决策的行为主体的共识。所以,每一个决策行为主体不存在侥幸心理,不会期望利用其他人的决策失来扩大自身的利益预期值。

(3)每一个参与博弈的理性人都了解博弈的规则。

因此,博弈论研究的是怎样用数学模型模拟相互作用的理性人之间的冲突与合作[4]。为解决这一博弈问题,一般需要建立包含参与人、行动、信息、策略、支付、均衡、结果等七个元素的博弈论模型。在这七个元素中,参与人、策略和支付是能够描述一个博弈问题的最基本的元素[5]:

(1)参与人,是指一个博弈中选择决策的行为主体。依据博弈论的基本假设可知,每一个参与人都是理性人,都以最大化自身效用为目的。

(2)行动,即参与人的决策变量。

(3)信息,即博弈方对彼此相关信息了解程度(如他人行动、支付、策略)。

(4)策略,是指每一个参与人可以采取的行动。

(5)支付,也可以称为收益,是参与人在博弈中选择行动实施后所获结果。

(6)均衡,所有参与人的最优策略的组合。

(7)结果,是指一个博弈论问题的分析者所关心的均衡情况下的所有内容,包括均衡情况下,参与人的最优策略组合、最优行动组合和最优策略组合下的支付组合等。

依据参与人在博弈中行动先后次序的不同,将博弈论划分为静态博弈和动态博弈[6]。所谓静态博弈是指参与人在同一时刻行动或者不是在同一时刻行动但是后行动者并不了解前行动者的行动[7]。所谓动态博弈指的是参与人的行动有先后次序并且后行动者能知晓先行动者的行动。依据参与人对彼此相关信息(如其他人行动、收益、策略)知晓程度的不同,可将博弈论划分为完全信息博弈和不完全信息博弈[8]。完全信息博弈指的是博弈中参与人对彼此的相关信息(行动、支付、策略等)完全知晓,反之则是不完全信息博弈[9]。博弈的分类及对应的均衡概念如表1所示,博弈论的主要划分如图1所示。

表1 博弈的分类及对应的均衡概念 静态动态完全信息Nash均衡子博弈完美Nash均衡Nash(1950)泽尔滕(1965)不完全信息贝叶斯Nash均衡精炼贝叶斯Nash均衡海萨妮(1967-1968)Kreps. Wilson(1982)Fudenberg. Tirole(1991)

在这里插入图片描述
图1 博弈论划分

1.2 博弈论在工程领域应用

博弈论虽源于经济学,但作为一种先进的分析工具,其应用早已不限于经济学领域,在军事、社会甚至电气工程等领域中的决策也可采用博弈论的思想进行建模。现代智能电网已逐步演变为由风力发电、光伏发电、常规电厂和电网调度中心等多决策主体组成的复杂电力系统,众多决策体之间存在复杂的合作竞争关系,传统的确定性优化调度方法难以适应现代智能电网运行的需求,需要建立能更好实现多主体协同智能调度的新的决策体系,以满足电网和用户的多样化要求。而智能电网所面临的这些实际中的工程决策问题在也极大地丰富博弈论的基本内涵,其中所包涵的竞争、合作等决策问题也拓展了传统博弈的研究范围。因此,工程博弈论,这种新的理论体系应运而生,根据钱学森先生关于工程控制论的阐述[10],我们将工程设计与实验中应用博弈基本理论建模及其求解方法并考虑工程实际技术条件进而决策的理论称为工程博弈论。工程博弈基于博弈基本理论,可以很好地解决工程设计与实验中的优化决策问题。工程博弈论的一大特征为,其属于多目标、多主体引导的优化决策,各个目标具有竞争关系,

传统的多目标优化问题往往只有一个决策主体。在传统的多目标优化中,常采用将多个目标函数线性组合或分层分组转化为单目标优化问题的方法进行求解,前者在选择合适权重上有一定难度,后者在确定目标优化顺序上有一定局限性,两种方法得到的最优策略多少都受到主观随意性的影响[11],即得到的最优解是Pareto意义下的解集,只有在强约束下,该策略才具有可行性,而博弈论因其在解决对立冲突问题上的良好性能而应用于多目标优化问题中。工程博弈利用多人静态博弈解决多目标优化问题,求得其Nash均衡解作为原多目标优化问题的最优解。除此类基础科学问题外,工程博弈也可解决鲁棒优化、多层优化等关键基础问题。

本文主要包括5部分内容。第1部分介绍博弈论基础及在工程领域应用情况;第2、3、4部分,分别综述博弈论在人机共享驾驶、换道控制、车联网安全方面的研究现状;最后,依据自己研究方向,在第5部分中提出了博弈论在智能网联汽车能量优化管理方面的应用思路,并提出简单的应用方案。

2 人机共享驾驶博弈控制研究

1.1 问题描述

无人驾驶汽车的普及能够大幅减少驾驶员因醉驾、超速、疲劳驾驶、操作不当等人为因素造成的事故。据统计,超过90%的交通事故是由上述不当人为操作造成的[12]。根据智能化程度,可以将智能网联汽车划分为5个等级:驾驶辅助、部分自动驾驶、有条件自动驾驶、高度自动驾驶、完全自动驾驶[13]。完全自动驾驶要求在所有行驶工况实现车辆控制、监视和失效应对的全系统操作。现阶段无人驾驶处于起步阶段,实现了人与系统共同控制汽车,但行驶监视和失效应对缺乏足够的自治能力,人类因素仍然会长期存在。即使未来实现完全自动驾驶,由于个人兴趣、驾车乐趣等因素影响,人类驾驶汽车也不会完全消失。因此,在未来很长时间内,将会处于无人驾驶与人类驾驶并存的混合人机共享驾驶环境。

人机共享驾驶的车辆系统中,如何决定自动控制器干预车辆操纵的时机,以及如何分配驾驶员和自动控制器对车辆的操纵权以实现安全驾驶,一直是智能汽车研究的热点。现有研究表明,如果共享控制中驾驶员要干预驾驶并且从自主控制中重新夺回控制权,一定程度上使得驾驶员对紧急情况的反应时间变得更长,这可能会恶化共享控制的效果。因此,怎样在充分考虑驾驶员的目的、意图和主观感受的情况下,协调驾驶员和自动控制转换控制权(Nash均衡)以及调节双方对车辆操纵干预的程度(即控制权重),实现驾驶员和自动控制系统之间的合作共享控制以达到最好的综合效果将是一个挑战。

1.2 研究现状

Na X等[14][15]提出了基于博弈论模型的主动前轮转向控制或轨迹跟踪时的避障控制和驾驶员操纵交互的算法。通过对驾驶员反应的预测。比较了四种控制泛型:分散控制、不合作纳什算法、不合作Stackelberg 算法与合作Pareto算法。其中分散控制算法基于最优控制理论,与驾驶员操纵交互的碰撞避免控制方法完全不考虑驾驶员对方向盘的操纵;不合作纳什算法与不合作Stackelberg算法用于预测驾驶员的驾驶行为对碰撞避免控制的反应,并对驾驶员的操纵行为做出主动补偿控制,这两种方法都基于不合作博弈论的平衡理论,其中不合作纳什平衡算法如图2所示。合作Pareto算法考虑驾驶员的目标路径,基于合作博弈论来建立驾驶员与碰撞避免控制系统的交互模型。并且分别采用分布式模型预测控制和线性二次型动态优化方法来求解以上的优化问题。Flad M等[16][17]基于博弈论的方法设计了驾驶员和自动控制系统相互合作的控制策略,分析了其系统稳定性问题,提出了“合作共享控制”的理念将驾驶员和控制器的交互转化为纳什平衡问题,然后在所有满足纳什平衡的解集中寻求满足设计者需求的总体控制目标的最优解。并且将该合作共享控制方法应用于驾驶员辅助转向系统,认为在一定的情景中驾驶员的驾驶行为是已知的,在人−车系统中通过力矩辅助模式加入主动转向的辅助驾驶控制,会产生一个纳什平衡问题,可以利用剩下的设计自由度来实现总体控制目标的最优解,实现总体控制的性能最佳。汪洪波等[18]基于功能分配原理对车辆底盘的转向、制动和悬架子系统控制功能进行分配,采用博弈论对子系统控制功能指标进行博弈,设计上层协调控制器以实现期望的控制效果,但未考虑驾驶员和自动控制器之间的交互。Wand JX等[19]在网联车辆协同路径规划中,单个人−车系统的约束条件包括应该满足系统动力学方程、与其它车辆的安全距离、车道限制以及轮胎力的非线性约束,将这些约束条件转化成可用模型预测或者LQR方法描述的标准约束条件;根据驾驶员的特性、驾驶习惯和驾驶意图等信息,建立单个人−车辆系统期望达到的目标函数,从而构建博弈双方的主体。另一方面,构建实现碰撞避免的安全性和权衡博弈双方目标的总体性能指标的全局目标函数。将路径规划问题转化为纳什平衡问题或者 Pareto 合作全局规划问题求解。Zhang KR等[20]通过分析无自动控制干预的人−车系统的动力学特性(潜能),建立只由驾驶员操纵的车辆系统动力学约束条件;另一方面,分析只由自动控制器(包括转向、驱动/制动主动控制)控制的车辆动力学特性,并同样建立该主体的动力学约束。根据驾驶员与自动控制各自的参考路径,建立两个主体各自的目标函数以及全局目标函数,从而将驾驶员−自动控制器共享控制权的路径跟踪问题转化为博弈问题求解。

图2 驾驶员+AFS不合作纳什平衡转向控制算法

3 基于博弈论的换道控制研究

3.1 问题描述

车辆变道行为的研究己经取得一系列丰富的研巧成果,也有部分学者采用经济学的理念去描化研巧车辆变道行为,但目前针对车辆变道决策行为的研巧并不充分和透彻,也缺乏实际数据的支撐,对驾驶人之间究竟有着怎样的交互行为还没有达到共识。因此有必要基于实际车辆轨迹数据对车辆变道特性进行提取和验证。采用博弈模型对变道决策行为进行对比分析,有利于加强人们对变道过程中决策斤为的理解,同时,利用博弈模型对车辆变道决策进行机理性分析,可对特定运行状态下,车辆变道成功与否的概率进巧预测。另外,通过对变道执斤阶段微观特性的分析,结合变道时间和横向移动轨迹的影响因素,也可实现对车辆变道时间和横向移动轨迹预测的效果

3.2 研究现状

薛春铭等[21]基于博弈论的思想,针对车辆在行驶过程中的主要行为之一换道,提出一种包含车辆协同机制的换道策略:车辆换道被视为一种非合作博弈行为,车辆为自身利益选择行驶策略;换道需求判断综合考虑多种换道场景,车辆随时寻求更优的行驶路线;根据换道行为特点,支付函数不仅依赖于安全前提下可能获得的加速空间,还依赖于后车对前车的影响;策略使用收益再调整方案,通过量化分析车辆的行驶风格,赋予可能影响换道的车辆不同权重参与收益计算。此外,为使道路资源利用率尽可能高,策略鼓励车辆为尽快通行而与其他车辆竞争道路。薛春铭等[22]还引入智能网联汽车的设计思想,针对车辆在行驶过程中的换道行为,基于博弈论构建一种包含车辆协同机制的换道模型。考虑驾驶员实施换道的行为特征,车辆在做出换道决策后观察分析其他车辆的驾驶风格,其结果会影响最终决策。根据安全前提下可能获得的加速空间决定支付函数,同时加入表征驾驶风格的参数,并量化得到驾驶风格分数。在SUMO仿真软件上的测试结果显示,使用博弈换道模型的车辆在不同车流密度环境下平均通行数量提高5.6% ,平均通行时间减少8.4% ,测试中未发生事故,表明模型具有感知、判断人类驾驶风格的能力,可在保证安全的前提下提高通行效率。

Kita等[23]提出基于博弈的并道-让路交互模型,Kita认为在换道行为中待换道车辆与它选择的目标车道的车辆之间不是单边影响关系,而是相互影响、相互作用。Kita使用两人非合作博弈建模它们之间的关系,目标车道车辆有两种纯策略,让路或不让路,让路有两种动机:一是避免与确定的换道车辆发生碰撞事故;二是减小与不确定或看不到的换道车辆发生潜在碰撞风险的可能性。换道车辆可以选择换道或放弃。模型以避免碰撞时间为基础建立博弈收益,通过寻找博弈模型的Nash均衡得到车辆的最优策略,执行该策略将使待换道车辆与跟驰车辆收益达到平衡。Kim等[24]提出适用于自治汽车的博弈换道模型,该模型基于混合动机博弈论,以参与车辆的策略组合的安全性定义收益矩阵,根据收益结合它们的意愿选择留在原车道或换道,Nash均衡是一个确定的纯策略或不确定的混合概率策略,自治汽车通过车道变换操纵和自适应巡航控制确保安全。该策略可以有效发挥自治汽车的优势,但仅适用于没有人驾车干扰的理想环境,因此具有一定局限性。Wang M等[25]利用微分博弈方法预测和控制车辆的跟驰、换道行为,提出一种适用于自动驾驶汽车的滚动时域控制法,将战术层面的换道决策与控制层面的加速决策在一个中心数学框架下进行联合评估,核心思想是通过预先控制确定车辆期望车道序列和控制持续加速从而避免在未来发生不利于自身收益的状况。换道问题被描述为微分博弈,决策使用有关控制车辆和周边车辆的最新状态信息,并以稳定频率更新。对原问题降维分解为有限数量的子问题和迭代算法,基于Pontryagin最大值原理进行求解。该方法能够使车辆遵从安全和舒适的原则进行换道,通过预测生成最优的未来行驶策略,包括超车、并道和选择安全空间等。其优点在于可以根据场景的不同实现灵活控制,既可以是车辆仅最大化自身收益的非合作控制系统,也可以应用于车辆协同其他车辆实现联合最优的合作控制系统。

Cortésberrueco等[26]通过博弈论对高速公路交通进行建模研究,目的是研究驾驶员策略对交通流的影响。通过一个双车道模型开发出博弈论形式的驾驶员交互模型,模型实现了换道行为对交通流的影响分析及跟驰行为的运动性能分析。通过对驾驶员不同行为决策的研究,Cortésberrueco认为交通流运动优化过程是通过加强驾驶员之间的交互实现的。Talebpour等[27]基于非零和博弈对强连通环境下的换道行为进行建模,重点关注了车联网强通信环境下信息流对车辆换道决策的作用。相比弱连通环境,强连通环境下的车辆可以通过通信技术、传感技术等从周围车辆获取实时信息,这些在弱连通环境无法获取的实时数据作为重要信息可能影响车辆下一步的行动。Talebpour提出了一个简单版本的服务框架及一种基于模拟矩量法标定的校正方法,使用真实车流数据校正,所提出的框架具备预测换道行为的能力,并且博弈模型实时性明显优于传统的间隙接受阈值模型。

4 车联网安全博弈研究

4.1 问题描述

车联网时代,汽车厂商为了实现汽车互联,通常通过Win、移动通信网络等无线通信手段与其他车辆、互联网等进行互联,而这种无线通信方式等于将汽车的网络系统暴露在互联网上,黑客很容易通过无线通信的漏洞,攻击车联网系统,给车联网带来安全威胁。车联网涉及汽车传感器、车载用户、车载移动终端、车联网基站和服务器等多个网络实体,网络拓扑规模大且移动性强,通过WiFi或移动通信网络实现互联。敌意用户利用无线通信的漏洞,可以发动虚假感知攻击,敌意干扰和电子欺骗攻击等。车载用户为了骗取服务器报酬,实施虚假感知攻击,严重影响群智感知质量。敌意干扰机发送干扰信号,旨在阻碍车联网的正常通信,导致车联网服务瘫痪。电子欺骗攻击者伪造合法用户的身份,骗取非法用户权限,从而实施进一步的攻击如拒绝服务攻击。因此,车联网安全问题成为制约其未来发展的重要因素。

4.2 研究现状

博弈论为研究多人战略决策提供了数学建模和分析工具,能够有效地解决博弈参与者之间的资源竞争问题。博弈论也被广泛应用于解决无线网络中的安全问题,研究攻击者和防御者之间的行为[28]。根据参与者的行为集合和目标的不同,博弈论既能够解决简单的无线网络攻防问题,也可以用来预测复杂的无线网络中攻击者的行为,并为合法用户提供有效的防御措施。此外,博弈论也被广泛用于解决无线网络、车联网或是计算机网络中的入侵检测、隐私保护等安全问题。博弈论的优势在于能够根据每一阶段恶意节点的攻击方式选定合适的安全策略,从而降低恶意节点对网络造成的危害。

E. Altman等[29]提出无线网络中抗干扰攻击博弈模型,并围绕接收端的SINR和用户的传输损耗,给出Nash均衡作为用户和干扰机在信道上分配功率的策略。E. Altman等将抗干扰攻击问题扩展至存在多个干扰机的情况,并将SINR作为用户的效益,推导了Nash均衡策略。Y. E. Sagduyu等[30]研究无线网络中自私用户和恶意攻击者之间的博弈,并将参与者的吞吐率和能量损耗作为博弈的效益函数。此外,Y. E. Sagduyu等考虑参与者未知对方身份的情况,构建贝叶斯博弈并推导了Nash均衡作为参与者的最佳策略。K. C. Nguyen等[31]将攻击者和防御者之间的行为模拟成一个非零和博弈,其中每个参与者通过感知系统估计对方的效益函数。此外,K. C. Nguyen等[32]给出了存在估计误差的情况下,抗干扰攻击博弈的Nash均衡策略,并分析了估计误差对抗敌意干扰性能的影响。A. Gupta等[33]研究了信息不对称情况下的抗干扰攻击博弈,分析用户和干扰机获得信息的不对称性对参与者策略和系统抗干扰攻击性能的影响。D. Yang等[34]分析无线网络中用户和干扰机之间的先后行为,并基于Stackelberg博弈模型提出抗干扰攻击博弈。此外,D. Yang等给出抗干扰攻击博弈的Stackelberg均衡的闭合表达式及其存在条件,并验证了Stackelberg均衡的唯一性。L. Xiao等[35]将无线网络中用户和智能干扰机之间的行为模拟成一个基于Stackelberg博弈模型的抗干扰攻击博弈,并推导博弈的Stackelberg均衡,讨论智能干扰机的估计误差对系统抗干扰攻击性能的影响。

董文远等[36]针对车联网内部存在的虚假信息攻击,以及节点动态变化快及密集程度不同造成的恶意车辆节点检测机制效率低下,提出一种基于重复博弈的恶意车辆节点检测机制。首先,根据车辆在信息交互中的行为建立重复博弈模型,并利用生成的节点收益计算出信任值与动态阈值,经二者比较,筛选出可疑的恶意车辆节点;其次,通过权值投票算法从可疑的恶意车辆节点中判定出恶意车辆节点;最后,从邻居列表中选取信任值最高的下一跳车辆节点进行合作。仿真和分析表明,与现有的相关机制相比,该机制提高了对虚假信息攻击的检测率,降低了误检率。陈天花[37]研究车辆和干扰机之间的博弈,其中车辆先选择发射功率,而干扰机估计车辆的发射功率后调整干扰功率。给出抗干扰攻击博弈的Stackelberg均衡和Nash均衡,并对比车辆在两种均衡下抗干扰攻击的性能。结果表明,干扰机采取Stackelberg均衡策略时攻击能力更强,能明显降低信干比,但是当其估计车辆发射功率的误差增大时,攻击能力下降。例如,估计误差从0增大至0.5时,车辆的信干比和效益分别提高了12%和20%。

5 基于博弈论的能量优化控制策略设计

本人博士期间从事智能网联汽车(纯电动汽车)能量优化管理方面的研究,在完成博弈论课程学习后,考虑电动汽车能量流、能耗特性、零部件特性、动力学特性等,采用多Agent理论,设计面向智能网联汽车多Agent能量管理系统框架(如图3所示),并拟采用博弈论设计能量分配优化算法。

多Agent系统指由多个能力、知识有限且状态不同的Agent所组成的Agent联盟,这些成员Agent在同一个大的目标之下,通过任务分解、协商和协作共同完成任务。多Agent系统通过分散控制和并行处理实现更加迅速的问题求解。基于多Agent的能量管理体系框架,以现有的底盘能量管理系统中单个控制系统为一个Agent,制定多Agent协调机制标准,建立基于多Agent架构的汽车底盘能量最优控制系统。图3中,多Agent能量管理系统框架分为外部信息层、决策规划层、底层能量控制层和执行层共4个层级。依据纯电动汽车结构特点,底层控制层设计为复合电源Agent(电池系统、电容系统)、电机驱动Agent(单电机驱动、多电机驱动)、能量回收Agent(再生制动能量回收系统、馈能悬架系统)、低压电气Agent(空调、车载信息娱乐设备等)等4个子系统Agent,利用车辆CAN总线实现各Agent主体的信息交互共享。电动汽车在道路行驶时,多Agent框架能够根据动力需求、环境变化和道路信息等外部知识,通过上层决策规划机制(动态交通环境下电动汽车安全节能的协同优化)和能量分配策略(策略型博弈能量协调控制策略),合理配置各耗能Agent的能量供给,充分回收并贮能量回收Agent所产生的能量以实现提高能量效率的目标,同时协调复合电源Agent与耗能Agent、能量回收Agent,保证各Agent系统部件工作在最佳状态。

在这里插入图片描述

图3 纯电动汽车能量管理多Agent体系框架

多Agent能量管理系统框架具备较好通用性、灵活性和扩展性的能量管理系统的基础,同时能量协调控制策略是决定能量管理系统性能优劣的关键。博弈论是研究理性主体之间冲突及合作的理论,研究主体行为是如何相互影响,主体是如何在相互作用中做出自己的行为选择和行为决策。对于课题来说,博弈论的优势在于能使能量优化不仅局限于某个Agent主体,即以某一个Agent主体的目标找出针对全局目标的控制策略。更重要的是,在各Agent主体决策过程中,能够发现各Agent主体相互制约、相互作用的规律,从而导出合理协调控制结果,并用以解决在诸多约束和子Agent间如何提高整车能量利用率这一问题。采用博弈论来协调控制能量管理系统各Agent主体,在车辆安全性和动力性等约束下,可以让所有Agent主体之间能够实现整车控制目标的均衡,高效完成当前系统操作任务,从而达到全局优化控制的目的。

依据课题研究内容特点,便于控制策略的在线应用,将博弈问题离散化,协调控制策略一次策略型博弈协调可以定义为:

G = {A, I, S, U}

式中:A表示博弈协调中的行为和决策主体,它的目的是通过选择行动策略以使自己的控制目标水平最大化,是所有Agent的集合,A = {Agent 1(复合电源),Agent 2(电机驱动),Agent 3(能量回收),Agent 4(低压电气)};I 表示每个Agent主体拥有的信息,包括其他Agent主体的特征和行动策略的信息;S表示主体的所有可能的策略或行动的集合;U为目标函数,指在既定控制策略组合条件下Agent主体的控制目标达成情况,即在一个特定的策略组合下主体得到的效用水平。

如果策略型博弈G={A, I, S, U}的一个策略剖面s* =(s1, s2, …, s*n)满足以下条件:

ui(sn, s-n) ≥ ui(sn, s*-n)

上式即为定义的Nash均衡,则策略剖面s*是博弈G的纳什均衡点,其中 s-n指除了参与者n之外所有参与者的策略。纳什均衡是每个参与者对其它参与者给定策略的最佳反应,最佳反应函数的定义为:

博弈G={A, I, S, U}的最佳反应函数为:

B(s) = [B1(s), B2 (s), …, Bn(s)]

根据著名的不动点定理,对于策略型博G={A, I, S, U},当且仅当策略剖面s* =(s1, s2, …, sn)是最佳反应函数B(s) 的不动点,即B(s) = s*时,它是博弈G的纳什均衡。

各Agent的决策会影响其他Agent的决策,同时也受其他Agent 决策的影响。因此,各Agent在做决策时,应考虑其他Agent可能采取的控制策略来决定自己的策略。通过各Agent间的通信,每个Agent对其他Agent的特征(策略空间、目标函数)有完全的了解,这决定了Agent间的协调过程是基于完全信息的博弈过程。每个Agent依据它所拥有的信息I,在S中选择合适的策略,通过不断地协调,达到Nash均衡,以实现整车控制目标。

参考文献

[1] 黄华伟. 社会历史的博弈论解读[D]. 湘潭:湘潭大学, 2009.

[2] 韩冬. 博弈论与纳什均衡[D]. 南京:南京大学, 2015.

[3] Brunetti I, Altman E. Revisiting evolutionary game theory[C]. Florence, Italy: Institute ofElectrical and Electronics Engineers Inc., 2013.

[4] Chertkoff J M . A Primer on Game Theory and Experimental Games.[M]// Game theory and experimental games : Pergamon Press, 1983.

[5] 李厚甫. 基于博弈策略的多目标进化算法研究[D]. 长沙:湖南大学, 2011.

[6] 谌忠瑞. 多目标优化设计博弈分析方法的研究与应用[D]. 杭州:浙江大学, 2013.

[7] 王文宾. 演化博弈论研究的现状与展望[J]. 统计与决策. 2009(03): 158-161.

[8] Chen J. Game theory analysis of farmers cooperation behavior in China[J]. Journal ofApplied Sciences. 2013, 13(17): 3411-3415.

[9] 邓晓衡,黄勉. 基于混合战略博弈的P2P激励机制[J]. 电子技术应用. 2010(06): 127-129.

[10] Ferrero R W, Shahidehpour S M, Ramesh V C. Transaction analysis in deregulatedpower systems using game theory[J]. IEEE Transactions on Power Systems, 1997,12(3): 1340-1347.

[11] 马小姝, 李宇龙, 严浪,等. 传统多目标优化方法和多目标遗传算法的比较综述[J].电气传动自动化, 2010, 32(3):48-50.

[12] Hartenstein H , Laberteaux K P . VANET车载网技术及应用[M]. 清华大学出版社, 2013.

[13] 李克强, 戴一凡, 李升波, 等. 智能网联汽车(ICV)技术的发展现状及趋势[J]. 汽车安全与节能学报, 2017(1).

[14] Na X, Cole D J. Game-theoretic modeling of the steering interaction between a human driver and a vehicle collision avoidance controller [J]. IEEE Transactions on Human-Machine Systems, 2015, 45(1): 25-38.

[15] Na X, Cole D J. Linear quadratic game and non-cooperative predictive methods for potential application to modelling driver–AFS interactive steering control [J]. Vehicle System Dynamics, 2013, 51(2): 165-198.

[16] Flad M, Otten J, Schwab S, et al. Necessary and sufficient conditions for the design of cooperative shared control[C]. 2014 IEEE International Conference on Systems, Man and Cybernetics (SMC), 2014: 1253-1259.

[17] Flad M, Otten J, Schwab S, et al. Steering driver assistance system: A systematic cooperative shared control design approach[C]. 2014 IEEE International Conference on Systems, Man and Cybernetics (SMC), 2014: 3585-3592.

[18] 汪洪波, 陈无畏, 杨柳青, 等. 基于博弈论和功能分配的汽车底盘系统协调控制[J]. 机械工程学报, 2012, 48(22): 105-112.

[19] Wang J, Dai M, Yin G, et al. Output-feedback robust control for vehicle path tracking considering different human drivers’ characteristics[J]. Mechatronics, 2018, 50: 402-412.

[20] Zhang K, Wang J, Chen N, et al. A non-cooperative vehicle-to-vehicle trajectory-planning algorithm with consideration of driver’s characteristics[J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2018: 1-16.

[21] 薛春铭. 基于博弈的车辆协作换道策略研究[D].大连:大连理工大学, 2017

[22] 薛春铭, 谭国真, 丁男, 等. 基于博弈论的人类驾驶与无人驾驶协作换道模型[J]. 计算机工程, 2017(12):267-272.

[23] Kita H. A merging giveway interaction model of cars in a merging section: a game theoretic analysis[J]. Transportation Research Part A Policy & Practice, 1999, 33(3–4):305-312

[24] Kim C, Langari R. Game theory based autonomous vehicles operation[J]. International Journal of Vehicle Design, 2014, 65(4):360-383.

[25] Wang M, Hoogendoorn S P, Daamen W, et al. Game theoretic approach for predictive lane-changing and car-following control[J]. Transportation Research Part C Emerging Technologies, 2015, 58(Part A):73-92.

[26] Cortés-Berrueco L E, Gershenson C, Stephens C R. Traffic Games: Modeling Freeway Traffic with Game Theory[J]. Plos One, 2016, 11(11):e0165381.

[27] Talebpour A, Mahmassani H S, Hamdar S H. Modeling Lane-Changing Behavior in a Connected Environment: A Game Theory Approach[J]. Transportation Research Part C Emerging Technologies, 2015, 59:216-232.

[28] Liang Xiannuan, Xiao Yang. Game theory for network security [J]. IEEE Communications Surveys&Tutorials, 2013, 15 (1): 472-486.

[29] Altman E, Avrachenkov K, Garnaev A. Jamming in wireless networks: The case of several jammers[C]//2009 International Conference on Game Theory for Networks. IEEE, 2009: 585-592.

[30] Sagduyu Y E, Berry R, Ephremides A. MAC games for distributed wireless network security with incomplete information of selfish and malicious user types[C]//2009 International Conference on Game Theory for Networks. IEEE, 2009: 130-139.

[31] Nguyen K C, Alpcan T, Basar T. Security games with incomplete information[C]//2009 IEEE International Conference on Communications. IEEE, 2009: 1-6.

[32] Nguyen K C, Alpcan T, Başar T. Security games with decision and observation errors[C]//Proceedings of the 2010 American Control Conference. IEEE, 2010: 510-515.

[33] Gupta A, Nayyar A, Langbort C, et al. A dynamic transmitter-jammer game with asymmetric information[C]//2012 IEEE 51st IEEE Conference on Decision and Control (CDC). IEEE, 2012: 6477-6482.

[34] Yang D, Xue G, Zhang J, et al. Coping with a smart jammer in wireless networks: A Stackelberg game approach[J]. IEEE Transactions on Wireless Communications, 2013, 12(8): 4038-4047.

[35] Yang D, Xue G, Zhang J, et al. Coping with a smart jammer in wireless networks: A Stackelberg game approach[J]. IEEE Transactions on Wireless Communications, 2013, 12(8): 4038-4047.

[36] 董文远, 朱研, 王永红, 等.车联网环境下基于重复博弈的恶意车辆节点检测机制[J/OL].计算机应用研究. https://doi.org/10.19734/j.issn.1001-3695.

2018.11.0829

[37] 陈天花. 车联网安全博弈研究[D].厦门: 厦门大学,2017.

发布于 2020-06-22

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值