RLChina2022暑期学习-博弈论基础

最新推荐文章于 2025-03-19 13:33:04 发布

修行僧yicen

最新推荐文章于 2025-03-19 13:33:04 发布

阅读量2.5k

点赞数 5

分类专栏：强化学习文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44769214/article/details/126358665

版权

强化学习专栏收录该内容

6 篇文章

订阅专栏

该博客探讨了博弈论在人工智能，特别是决策智能中的应用。从石头剪刀布的简单例子出发，解释了博弈的元素：玩家、策略集合和效用矩阵。介绍了理性玩家、纯策略和混合策略的概念，并区分了零和博弈、合作博弈和协同博弈。进一步讨论了扩展式博弈、非完美信息博弈，包括马尔科夫博弈和贝叶斯博弈。最后，阐述了纳什均衡和重复博弈在策略制定中的重要性，为理解智能体在不确定环境中的决策提供了理论框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RLChina2022暑期学习-博弈论基础Game theory

大纲Outline

在这里插入图片描述

Motivation and Normal-form Game

人工智能的发展

在这里插入图片描述
感知智能(DL)-决策智能(RL)-多智能体决策（RL+博弈论）

生活中的博弈

在这里插入图片描述

博弈论发展历程

在这里插入图片描述

博弈要素

玩家
玩家策略集合，最简单的石头剪刀布，每个玩家有三个动作
博弈的效用，奖赏：每个玩家都有各自的矩阵。函数的输入是每个玩家的动作，输出的是奖赏

把上面的这种石头剪刀布表示成下面表格的形式，就是标准形式的博弈

博弈里面有一个假设

每一个玩家都是理性的。1.比较自私，更看重自己的利益；2.
在这里插入图片描述
公共知识：所有玩家都知道的事情。游戏规则都知道。都知道对方是理性的。

纯策略：非此即彼
Mixed 策略就是对动作分配了一个概率分布。这样让对手就不好猜。这种情况下，用期望效用来表表示受益
在这里插入图片描述

博弈的分类

零和博弈：游戏的场景中，两个玩家所得到受益，相加永远为0。只要有一个不是0,都不是零和博弈。表1（横纵轴分别表示两个玩家的动作，抛硬币游戏）
合作博弈：两个玩家的效用相等。表2
协同博弈：有多个纳什均衡
社会困境：囚徒困境。两个人都抵赖，其实是最好的收益。但是从玩家的角度，他们为了获得期望最大，最后都会坦白。

扩展式博弈和非完美信息

博弈树

用树的结构来表示博弈的情况。叶子节点定义博弈结果。边是动作，node是玩家。这种树的结构表示的博弈就是扩展式博弈
在这里插入图片描述

扩展式博弈的策略

玩家1与前方normal(正则)博弈有相同的策略
玩家2：就要根据玩家1采取的动作，来分策略。其策略就变为多维

在这里插入图片描述

正则式博弈：是静态的博弈
扩展式博弈：动态博弈，可以有多个回合。

非完美信息

我做了一些动作，别人不知道
玩家1历史上做的一些动作，对于玩家2来说是不可知的。这就是非完美的。也就是下图中玩家2不知道自己是处在b还是c。
这两个状态对于玩家2来说，就是一个信息集

马尔科夫博弈（随机博弈）

RL中用的博弈基本上都是马尔科夫博弈。
这个也是属于动态博弈。
马尔科夫博弈是一个图结构

属性

定义状态空间
定义动作空间
定义状态转移
定义奖励函数
步骤：
智能体获得当前状态
每一个智能体确定执行动作
环境在告诉他们会转移到哪个状态
行为策略
玩家收到状态，决定采取什么动作。仅依赖状态

在这里插入图片描述

对比

在这里插入图片描述

贝叶斯博弈与非完全信息

例子：引入贝叶斯博弈

下面是拍卖的游戏

玩家都有一个隐藏信息。即内心的价格
玩家都出一个价格
出价高的玩家获得物品，他的奖励就是内心估值-实际出价。另一个玩家就是0
由于对方玩家可能有不同的内心价格，玩家1需要分情况猜测
玩家的出价信息也是有一个出价空间的。

非完全信息

玩家不知道对方的收益矩阵

在这里插入图片描述

贝叶斯博弈（静态）单步

描述有隐藏信息的博弈。
玩家对对方的收益矩阵建立一个概率分布
在这里插入图片描述

动态贝叶斯博弈

在这里插入图片描述

纳什均衡

了解完博弈的类型，现在开始考虑玩家的策略

最好的响应best response：假设给定别人的动作，我的动作可以根据策略表，选择最好的动作
占优策略DS：不管别人的动作怎么变，我的这个策略总是最好的。那就是占优策略。
举例：比如下方的表格，对于绿色玩家而言，D就是占优。不管蓝色玩家出C还是D,绿色玩家采取D得到的奖励都大于采取C 得到的奖励

联合动作：纳什均衡

纳什均衡下的每一个玩家，改变动作已经不能使自己的奖励变得更好，这个时候就达到了一种稳态，也就是纳什均衡。通俗一点：在这个状态下，每个人对自己的其他动作而言，都是占优的
在这里插入图片描述

帕累托最优与纳什均衡比较

纳什均衡是一个稳定点
帕累托最优是一个局部最好点，

混合策略纳什均衡

在这里插入图片描述

扩展式博弈下的纳什均衡

先将扩展式博弈写成正则博弈的表达式。
下面的例子有三个纳什均衡，但是只有(3,3)是最稳定的
在这里插入图片描述

Subgame perfect Nash 均衡（SPNE）

在所有的子树里面都最稳定的那个
在这里插入图片描述

贝叶斯博弈的纳什均衡

在这里插入图片描述
举例

在这里插入图片描述

纳什均衡的一些性质

重复博弈

一个陌生的玩家，我不知道你的策略，所以我要重复跟你玩游戏，然后学习。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。