多智能体强化学习与博弈论-博弈论基础4
本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。
贝叶斯博弈
首先举一个贝叶斯博弈的简单例子
假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。
我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会选择B(当她想要遇到参与人1时),而在状态2时,参与人2会选择F (当她想要避开玩家1时)。
假如player1选择了B,那么他的平均收益为:1/2 * 2 + 1/2 * 0 = 1
假如player1选择了F,那么他的平均收益为:1/2 * 0 + 1/2 * 1 = 1/2
说明(B,(B,F))这个策略达到了纳什均衡。
一个贝叶斯博弈包含了:
-
A set of players I;
-
A set of actions (pure strategies) for each player $ i: S_i$ ;
-
A set of types for each player i : ϑ i ∈ Θ i \mathrm{i}: \vartheta_{\mathrm{i}} \in \Theta_{\mathrm{i}} i:ϑi∈Θi;
-
A payoff function for each player i : u i ( s 1 , … , s 1 , ϑ 1 , … , ϑ 1 ) \mathrm{i}: \mathrm{u}_{\mathrm{i}}\left(\mathrm{s}_{1}, \ldots, \mathrm{s}_{1}, \vartheta_{1}, \ldots, \vartheta_{1}\right) i:ui(s1,…,s1,ϑ1,…,ϑ1);
-
A (joint) probability distribution p ( ϑ 1 , … , ϑ 1 ) p\left(\vartheta_{1}, \ldots, \vartheta_{1}\right) p(ϑ1,…,ϑ1)over types.
在贝叶斯博弈中,决策空间,收益函数,智能体可能的类型和概率分布都是common knowledge(所有智能体都知道)。
双寡头贝叶斯博弈
假设player1的出货量为q1,player2的出货量为q2,Q=q1+q2。市场价格为P,P=a-Q。单位商品消耗为c1,c2。player2的类型有p的概率是low,(1-p)的概率是high。即c2为 c L c^L cL的概率为p,为 c H c^H cH的概率为(1-p)。
我们可以计算出player2的收益为
π 2 = [ a − ( q 1 + q 2 ) ] q 2 − c 2 q 2 \pi_2=[a-(q1+q2)]q2-c2q2 π2=[a−(q1+q2)]q2−c2q2
对其求一阶导我们可以知道 q 2 = ( a − c 2 − q 1 ) / 2 q2=(a-c_2-q_1)/2 q2=(a−c2−q1)/2时,player2有最优解。
当player2的类型为high的时候 q 2 H = ( a − c H − q 1 ) / 2 − ① q_2^H=(a-c^H-q_1)/2-① q2H=(a−cH−q1)/2−①,
当player2的类型为low的时候 q 2 L = ( a − c L − q 1 ) / 2 − ② q_2^L=(a-c^L-q_1)/2-② q2L=(a−cL−q1)/2−②。
我们可以进一步算出player1的收益为
π = p [ a − ( q 1 + q 2 H ) ] q 1 + ( 1 − p ) [ a − ( q 1 + q 2 L ) ] q 1 − c 1 q 1 \pi=p[a-(q_1+q^H_2)]q_1+(1-p)[a-(q_1+q_2^L)]q_1-c_1q_1 π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1
令其一阶导=0可以得到
q 1 = p ( a − c 1 − q 2 H ) / 2 + ( 1 − p ) ( a − c 1 − q 2 L ) / 2 − ③ q_1=p(a-c_1-q^H_2)/2+(1-p)(a-c_1-q^L_2)/2-③ q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③
结合①②③我们可以算出
q 1 = ( a − 2 c 1 + p c H + ( 1 − p ) c L ) / 3 q 2 H = ( a − 2 c H + c 1 ) / 3 + ( 1 − p ) ( c H − c L ) / 6 q 2 L = ( a − 2 c L + c 1 ) / 3 − p ( c H − c L ) / 6 \begin{array}{l} \mathrm{q}_{1}=\left(\mathrm{a}-2 \mathrm{c}_{1}+\mathrm{p} \mathrm{c}^{\mathrm{H}}+(1-\mathrm{p}) \mathrm{c}^{\mathrm{L}}\right) / 3 \\ \mathrm{q}_{2}^{\mathrm{H}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{H}}+\mathrm{c}_{1}\right) / 3+(1-\mathrm{p})\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \\ \mathrm{q}_{2}^{\mathrm{L}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{L}}+\mathrm{c}_{1}\right) / 3-\mathrm{p}\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \end{array} q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6
拍卖(Auction)理论
English auctions
这种拍卖是一种拍卖价格逐渐上升的拍卖,所有人都知道其他人的出价,最终出价最高的人得到物品
Dutch Auctions
这种拍卖是一种拍卖价格逐渐降低的拍卖,一开始有一个起始价,然后逐渐降低,直到有人选择把物品买下来。
1st -price auctions
在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。
2nd -price auctions
又称作Vickrey actions。在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。
在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单,只需要分类讨论不同的情况即可。
当拍卖为1st -price auctions的时候,假设有n个player,bid的策略为
b i ( v i ) = n − 1 n v i b_i(v_i)=\frac{n-1}{n}v_i bi(vi)=nn−1vi
时,达到纳什均衡。
参考:
汪军老师UCL多智能体强化学习网课