纳什均衡 (Nash Equilibrium)

概念

“纳什均衡“是由美国数学家小约翰·福布斯·纳什(John Forbes Nash Jr),在1950年获得美国普林斯顿大学的博士学位的只有28页的博士论文中提出的一个“博弈论”的概念,根据纳什的说法,“一个纳什平衡点是当其余参与者的策略保持不变时,能够令参与者的混合策略最大化其收益的一个n元组”。[1]

“纳什均衡“广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面。1994年,纳什和其他两位博弈论学家约翰·海萨尼和莱因哈德·泽尔腾共同获得了诺贝尔经济学奖。[2]

小约翰·福布斯·纳什

最为我们所熟知的纳什均衡问题就是囚徒困境,这是一个非零和博弈问题。

零和博弈

零和博弈

所谓零和博弈,即博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失,比如分蛋糕问题。[3]

有的人多必然有的人少,要达到平衡点或者说最公平的方案,就是让切蛋糕的人最后挑选,这样至少在两个人分蛋糕的时候他就会尽量让蛋糕均衡。

纳什均衡问题却是一个非零和博弈问题,如果双方合作是可以取得共赢的。

比如上面的囚徒困境,两个罪犯被警察抓住了,各自关押不能交流。如果双方都认罪,各自关押2年。如果一方认罪一方不认罪,则认罪的释放,不认罪的被关押3年。如果双方都不认罪,则各自关押1年,这就是“纳什平衡点”

如果从第三方看,两人都不认罪是最佳的,总共加起来只关押2年。但是从个人角度来看就有风险了,因为对方的背叛导致可能自己被关3年,所以最后很有可能两者选择了加起来被关押年数最差的结果,即各自关2年,互相不配合。

这就是困境,它反应出难以达到“纳什平衡点”

生成网络GAN

由于在图像处理领域,所以再举一个图像领域的例子,最近几年被广泛研究的生成对抗网络,就要求解一个纳什均衡问题。

上面是生成对抗网络的损失,关于生成对抗网络如果不懂,可以自行查找资料或者移步我们的文章

判别器D的学习目标:D(x)大,D(G(z))小,故要最大化上式

生成器G的学习目标:D(G(z))大,故要最小化上式

两者相互对抗,共同学习。训练的过程是一个交替进行的过程。

先更新判别器,再更新生成器,然后往复循环。

上面的图展示了这个过程,黑色虚线是真实分布,绿色实线是生成模型的学习过程,蓝色虚线是判别模型的学习过程。

一开始的时候两者都很挫,判别器先学习,但是不能太好,太好一下子就优化完了(loss变得很低),生成器就没有了梯度的指导了,反之亦然。

正是在判别器慢慢学,生成器也慢慢学,两者一起变好的美好愿望下才有可能优化地比较好,但是谁能保证对方乖乖配合呢?

如上面的这个问题,x的学习要最小化xy,y的学习要最小化-xy,但是x和y两者不配合,各自有各自的变化方向,导致这个目标始终不能实现,这也是GAN面临的一个重要问题。

此篇文章是转载,转载为了保存和分享,附上原文地址

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值