第七章 人工智能博弈

博弈行为:带有互相竞争性质的主体,为了达到各自目标和利益,采取的带有对抗性质的行为。

参与者:参与博弈的决策主体。

策略:参与者可以采取的行动方案,是一整套在爱去行动之前就已经准备好的完整方案。

  • 某个参与者可采纳策略的全体集合形成策略集;
  • 所有参与者各自采取行动后形成的状态被称为局势;
  • 如果参与者可以通过一定概率分布来选择若干个不同的策略,这样的策略称为混合策略。弱参与者每次行动都选择某个确定的策略,这样的策略称为纯策略;

收益:各个参与者在不同局势下得到的利益(混合策略下的收益为期望收益)

规则:对参与者行动的先后排序、参与者获得信息多少等内容的规定。

博弈的分类

合作博弈:部分参与者可以组成联盟以获得更大收益。

非合作博弈:参与者在决策中都彼此独立,不是先达成合作意向。

静态博弈:所有参与者同时决策,或参与者互相不知道对方的决策。

动态博弈:参与者所采取行为的先后顺序由规则决定,且后行动者知道先行动者所采取的行为。

完全信息博弈:所有参与者均了解其他参与者的策略集、收益等信息。

不完全信息博弈:并非所有参与者均掌握了所有信息。

nash定理:若参与者有限,每位参与者的策略集有限,收益函数为实值函数,则博弈比存在混合策略意义下的nash均衡。

遗憾最小化算法

策略选择:

虚拟遗憾最小化算法

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值