多智能体强化学习与博弈论-博弈论基础

最新推荐文章于 2024-03-21 12:59:37 发布

Serendipity-Wu

最新推荐文章于 2024-03-21 12:59:37 发布

阅读量2.2k

点赞数 1

分类专栏：深度强化学习文章标签：强化学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44077955/article/details/125248391

版权

深度强化学习专栏收录该内容

12 篇文章

订阅专栏

多智能体强化学习与博弈论-博弈论基础

最近开始学习一些多智能体强化学习相关的内容，因此我打算写一些多智能体强化学习和博弈论相关的学习记录😃。这篇博客主要介绍博弈论的一些基础示例和基础知识。

优势策略

举个例子：

假设有一门课程，你需要在准备期末考试和期末报告中做出选择（两部分权重相同）来最大化你的期末分数。你的同学也需要做出决定来最大化他的分数。两个人之间不能交流。

准备考试在这个部分可以获得92分，不准备可以获得80分
准备报告，加入你和你的同学都准备你们能在这部分获得100分，如果一个人准备了，你们获得92分，都不准备你们获得84分。

在这里插入图片描述

我们可以得出这样的一个图，假设要你做决定，你会怎么做呢？

假设你的同学选择作报告，那么你选择准备考试能得到更多的分。假设你的同学选择准备考试，那么你也要选择准备考试来获得更高的分。很巧的是你的同学也会有同样的想法，于是你们都选择了准备考试，两个人拿到了88分。如果两个人都选择了做presentation则大家都能拿到更高的分数。在这个例子中选择准备考试的策略被称为dominant strategy(优势策略)。

优势策略：优势策略是对其他参与人每种策略的最佳对策

纳什均衡

纳什均衡由John Nash在1950年提出。

纳什均衡：For strategy S by player 1 and T by player 2, the pair (S,T) is a Nash equilibrium if S is a best response to T, and T is a best response to S

在纳什均衡中没有智能体希望单方面的选择一个其它的策略，在上述的例子中两个人都选择准备报告或者两个人都选择准备考试这两种情况就是纳什均衡。

用更数学的表达方法就是:

$s_{i}^{*}=\arg \max _{s_{i} \in S_{i}} u_{i}\left(s_{1}^{*}, \ldots, s_{i-1}^{*}, s_{i}, s_{i+1}^{*}, \ldots, s_{n}^{*}\right)$

其中 $s_i\in S_i$ 代表可能的策略， $s_i^*$ 代表第i个智能体的最优策略。

混合策略（Mixed strategies)

前面的智能体采取的策略都是确定性的策略，假设智能体以不同的概率执行不同的动作，那么它的策略被称为混合策略。

纳什在1951年的时候提出任何有限博弈都有一个混合策略的纳什均衡。下面用一个简单的例子来学习一下混合策略中的纳什均衡。

在这里插入图片描述

在这个例子中player1（左），player2（上）。假设player1采取U的概率为 $\pi_1$ ，D的概率为 $(1-\pi_1)$ 。假设player2采取L的概率为 $\pi_2$ ，R的概率为 $(1-\pi_2)$ 。

对于player1而言选择U和选择D对于player2来说收益一样，可以得到

$\begin{aligned} 2\pi_2 &= 1- \pi_2 \\ \pi_2 &= 1/3 \end{aligned}$

对于player2而言选择L和选择R对于player1来说收益一样，可以得到

$\begin{aligned} \pi_1 &= 5(1-\pi_1) \\ \pi_1 &=5/6 \end{aligned}$

从而我们可以得到纳什均衡平衡点: {(5/6)U+(1/6)D,(1/3)L+(2/3)R}

参考：

汪军老师UCL多智能体强化学习网课

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。