博弈论-多智能体强化学习基础

最新推荐文章于 2024-06-21 23:47:13 发布

UC_Gundam

最新推荐文章于 2024-06-21 23:47:13 发布

阅读量1.1k

点赞数 2

分类专栏：强化学习文章标签：强化学习 python 学习 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44727682/article/details/128728466

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

博弈是多智能体强化学习中的常用理论。本文介绍几种基本的博弈游戏。

1 囚徒困境

在囚徒困境博弈中，两名犯罪的囚犯一起被警察盘问，每个罪犯都有两种选择：一种是与警察合作来对付同伙；另一种是与同伙串通而对警察撒谎。如果两名罪犯相互配合而不承认犯罪，则只会在监狱里呆几个月的时间。但如果他们中的一个为对付同伙而与警察合作，另一个却维护同伙而对警察撒谎，则这个与同伙合作并欺骗警察的罪犯将会做很长时间的牢。

（1）如果罪犯配合很好，欺瞒了警察，则会同时获得奖励5，并关几个月。

（2）如果一个罪犯向警察认罪，而另一个罪犯撒谎，则前者获得奖励10并释放，后者获得奖励0并获得终身监禁。

（3）如果都向警察认罪，则都会获得奖励1并关几年。

大多数理性的人都会选择（3）而尽量减少在监狱的时间。

选择坦白交代的行为称为纳什均衡（NE)。如果一个具有机器学习能力的智能体不断重复地玩该游戏,

那么会学习到在任何情况下都100%地选择坦白。这就是所谓的纯策略博弈。

2 猜硬币

两个小孩各有一枚硬币，然后各自选择显示硬币正面或反面。如果都同时显示两个正面或反面，则玩家1获胜并得到回报1，而玩家2输且回报为-1。若两枚硬币正反各不相同，则玩家2获胜。每玩一局都有一个玩家会赢而一个玩家会输，这就是所谓的零和矩阵博弈。

该游戏的最优策略，或其纳什均衡，是一种以50%概率选择硬币正面同时50%概率选择硬币反面的混合策略。这称为混合策略博弈。

3 剪刀石头布

剪刀石头布的规则是每次可以出石头（拳头)、剪刀或布的手势。而布能盖住（赢）石头，石头能击毁（赢）剪刀，剪刀能割开（赢）布。如果两个玩家出的一样，那么就是平局。这个游戏是一种混合策略的零和博弈。显然，解决方案应该是随机以33%的概率选择石头、剪刀或布的手势。唯不同的是该游戏可以选择3种行为。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UC_Gundam 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。