Superhuman AI for multiplayer poker

最新推荐文章于 2023-10-28 16:02:39 发布

xinxiang7

最新推荐文章于 2023-10-28 16:02:39 发布

阅读量926

点赞数

分类专栏：深度学习文章标签：德州扑克增强学习棋牌类游戏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xinxiang7/article/details/96998413

版权

深度学习专栏收录该内容

25 篇文章 0 订阅

订阅专栏

[Superhuman AI for multiplayer poker][https://science.sciencemag.org/content/early/2019/07/10/science.aay2400.full]

概要

以纳什均衡+追寻对方弱点的原理，利用蒙特卡洛+反事实遗憾值最小化的方法，进行自博弈，进而得到可以同时跟多人PK的智能体。

非完备信息游戏的两个难点：

对手策略的不确定性，即对手的出牌是对手的策略所决定的。
解决方式：对于这种不确定性，既不是采用单一策略，也不是将所有的策略都考虑进去，而是针对每个玩家，采用k种不同的策略，文章k=4。
一个玩家针对特定环境的最佳策略取决于从他对手的角度观察他采取的策略所对应的情况。
解决方式：Pluribus跟踪当前情况下他的策略每一手的可能性

两种CFR（根据复杂度）

根据子对局和部分对局的大小，Pluribus从两种不同形式的CFR中选取一种进行计算策略。如果子对局较复杂或者是对局的早期，则采用蒙特卡洛线性反事实遗憾最小化作为蓝图策略；否则采用线性反事实遗憾最小化的基于向量的最优化形式进行采样可能事件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Superhuman AI for multiplayer poker

[Superhuman AI for multiplayer poker][https://science.sciencemag.org/content/early/2019/07/10/science.aay2400.full]概要以纳什均衡+追寻对方弱点的原理，利用蒙特卡洛+反事实遗憾值最小化的方法，进行自博弈，进而得到可以同时跟多人PK的智能体。非完备信息游戏的两个难点：对手策略的...
复制链接

扫一扫

专栏目录

xinxiang7 CSDN认证博客专家 CSDN认证企业博客

码龄7年

88: 原创

5万+: 周排名

155万+: 总排名

14万+: 访问

: 等级

1803: 积分

30: 粉丝

80: 获赞

60: 评论

343: 收藏

私信

关注

热门文章

分类专栏

pytorch 2篇
目标检测 1篇
cuda 7篇
nvidia 7篇
Linux 13篇
C++ 6篇
算法与数据结构 4篇
anaconda 2篇
Leetcode 12篇
numpy 1篇
window 1篇
vae 1篇
大数据 2篇
opencv 1篇
tensorflow 15篇
mac 2篇
mysql 1篇
python 9篇
深度学习 25篇
GAN 3篇
paper阅读 14篇
图片标注 1篇
lstm 1篇

最新评论

keras与h5py版本不兼容
weixin_46320263: 问题终于解决了！！！！感谢，有用
mmdetection3d的安装和使用
Cindy0725: 博主你好，请问你有没有遇到mmcv和mmdet3d版本不兼容的问题呀，我用git clone安装的都是最新版本的mmdet3d，要求mmcv 2.0以上，但是我想用mmcv-full == 1.7.0跑代码，谢谢！
VAE系列之KL散度推导和理解
FC.: 没写完能不能别发出来误导人。
CloCs
qq_46211067: 请问这里3D检测的输入张量表示是以哪个点的坐标为准呢？3D框的中心点吗？
Superhuman AI for multiplayer poker
m0_69933784: 弄个出来打线上

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。