多智能体强化学习与博弈论-博弈论基础

多智能体强化学习与博弈论-博弈论基础

最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录😃。这篇博客主要介绍博弈论的一些基础示例和基础知识。

优势策略

举个例子:

假设有一门课程,你需要在准备期末考试和期末报告中做出选择(两部分权重相同)来最大化你的期末分数。你的同学也需要做出决定来最大化他的分数。两个人之间不能交流。

  • 准备考试在这个部分可以获得92分,不准备可以获得80分

  • 准备报告,加入你和你的同学都准备你们能在这部分获得100分,如果一个人准备了,你们获得92分,都不准备你们获得84分。

在这里插入图片描述

我们可以得出这样的一个图,假设要你做决定,你会怎么做呢?

假设你的同学选择作报告,那么你选择准备考试能得到更多的分。假设你的同学选择准备考试,那么你也要选择准备考试来获得更高的分。很巧的是你的同学也会有同样的想法,于是你们都选择了准备考试,两个人拿到了88分。如果两个人都选择了做presentation则大家都能拿到更高的分数。在这个例子中选择准备考试的策略被称为dominant strategy(优势策略)

优势策略:优势策略是对其他参与人每种策略的最佳对策

纳什均衡

纳什均衡由John Nash在1950年提出。

纳什均衡:For strategy S by player 1 and T by player 2, the pair (S,T) is a Nash equilibrium if S is a best response to T, and T is a best response to S

在纳什均衡中没有智能体希望单方面的选择一个其它的策略,在上述的例子中两个人都选择准备报告或者两个人都选择准备考试这两种情况就是纳什均衡。

用更数学的表达方法就是:

s i ∗ = arg ⁡ max ⁡ s i ∈ S i u i ( s 1 ∗ , … , s i − 1 ∗ , s i , s i + 1 ∗ , … , s n ∗ ) s_{i}^{*}=\arg \max _{s_{i} \in S_{i}} u_{i}\left(s_{1}^{*}, \ldots, s_{i-1}^{*}, s_{i}, s_{i+1}^{*}, \ldots, s_{n}^{*}\right) si=argsiSimaxui(s1,,si1,si,si+1,,sn)

其中 s i ∈ S i s_i\in S_i siSi代表可能的策略, s i ∗ s_i^* si代表第i个智能体的最优策略。

混合策略(Mixed strategies)

前面的智能体采取的策略都是确定性的策略,假设智能体以不同的概率执行不同的动作,那么它的策略被称为混合策略。

纳什在1951年的时候提出任何有限博弈都有一个混合策略的纳什均衡。下面用一个简单的例子来学习一下混合策略中的纳什均衡。

在这里插入图片描述

在这个例子中player1(左),player2(上)。假设player1采取U的概率为 π 1 \pi_1 π1,D的概率为 ( 1 − π 1 ) (1-\pi_1) (1π1)。假设player2采取L的概率为 π 2 \pi_2 π2,R的概率为 ( 1 − π 2 ) (1-\pi_2) (1π2)

对于player1而言选择U和选择D对于player2来说收益一样,可以得到

2 π 2 = 1 − π 2 π 2 = 1 / 3 \begin{aligned} 2\pi_2 &= 1- \pi_2 \\ \pi_2 &= 1/3 \end{aligned} 2π2π2=1π2=1/3

对于player2而言选择L和选择R对于player1来说收益一样,可以得到

π 1 = 5 ( 1 − π 1 ) π 1 = 5 / 6 \begin{aligned} \pi_1 &= 5(1-\pi_1) \\ \pi_1 &=5/6 \end{aligned} π1π1=5(1π1)=5/6

从而我们可以得到纳什均衡平衡点: {(5/6)U+(1/6)D,(1/3)L+(2/3)R}

参考:

汪军老师UCL多智能体强化学习网课

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多智能体强化学习代码的实现可以基于不同的算法和框架。以下是一些常见的多智能体强化学习代码的示例: 1. Nash-Q Learning: Nash-Q Learning是一种基于博弈论多智能体强化学习算法。可以使用Python编程语言和强化学习库(如TensorFlow或PyTorch)来实现该算法。你需要创建一个矩阵环境,并使用策略迭代的方法来训练智能体。 2. WoLF-PHC: WoLF-PHC(Policy hill-climbing algorithm)是另一种多智能体强化学习算法,它可以通过提供一种自适应的学习速率来实现策略的收敛。同样,你可以使用Python和强化学习库来实现该算法,并创建一个矩阵环境来进行训练。 3. Minimax-Q Learning: Minimax-Q Learning是一种基于博弈论多智能体强化学习算法,它通过博弈树搜索来进行策略的更新。你可以使用Python和强化学习库来实现该算法,并创建一个矩阵环境来进行训练。 除了以上算法外,还可以基于多智能体的深度强化学习(RL)进行代码实现。在这种情况下,你可以使用深度学习框架(如TensorFlow或PyTorch)来构建神经网络模型,并使用强化学习算法(如Deep Q-Networks或Proximal Policy Optimization)来进行训练。同时,你可能需要进行一些针对多智能体场景的修改和调整。 如果你需要更具体的代码示例和实现细节,我建议你参考相关的研究论文和开源项目,如论文《Markov games as a framework for multi-agent reinforcement learning》。在该论文中,作者提供了多智能体强化学习的理论基础算法框架,并给出了一些代码实例供参考。 请注意,多智能体强化学习是一个复杂而广泛的领域,具体的代码实现取决于你所选择的算法和框架,以及应用场景的特定要求。因此,你可能需要进一步的研究和学习来完成你的具体任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值