acm中的一些博弈论知识

最新推荐文章于 2022-01-01 17:30:36 发布

Havenoidea

最新推荐文章于 2022-01-01 17:30:36 发布

阅读量8.2k

点赞数 4

分类专栏：博弈论

本文链接：https://blog.csdn.net/havenoidea/article/details/12719827

版权

本文探讨了博弈论在ACM（国际大学生程序设计竞赛）中的应用，包括零和与非零和博弈的概念，如囚徒困境、海盗分金币问题、旅行者的困境、猜均值的三分之二游戏等经典案例。文章通过分析这些博弈问题，展示了如何运用博弈论策略寻找最佳决策，并揭示了在某些情况下，合作可能优于竞争。同时，文章还介绍了如何通过SG函数和游戏图来分析和解决复杂博弈问题的方法。

摘要由CSDN通过智能技术生成

（基本覆盖了比赛中常用到的博弈论知识点，之前整理的，最近要开始系统的看博弈论，先找出来复习一下。）

零和与非零和博弈

先谈几个概念：

零和博弈：又称零和游戏，与非零和博弈相对，是博弈论的一个概念，指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”。双方不存在合作的可能。也可以说：自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而双方都想尽一切办法以实现“损人利己”。零和博弈的例子有：赌博、期货、股票投机等。非零和博弈：博弈中各方的收益或损失的总和不是零值，它区别于零和博弈。在经济学研究中很有用。在这种状况时，自己的所得并不与他人的所失的大小相等，连自己的幸福也未必建立在他人的痛苦之上，即使伤害他人也可能“损人不利己”，所以博弈双方存在“双赢”的可能，进而合作。非零和博弈的例子：譬如，在恋爱中一方受伤的时候，对方并不是一定得到满足。也有可能双方一起能得精神的满足。也有可能双方一起受伤。通常，彼此精神的损益不是零和的。比如目前的中美关系，就并非“非此即彼”，而是可以合作双赢。不过想想看在这样的利益交换之下，牺牲掉谁的利益？

帕累托最优：也称为帕累托效率，是经济学中的重要概念，并且在博弈论、工程学和社会科学中有着广泛的应用。与其密切相关的另一个概念是帕累托改善。帕累托最优是指资源分配的一种理想状态。假定固有的一群人和可分配的资源，如果从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改善。帕累托最优的状态就是不可能再有更多的帕累托改善的状态；换句话说，不可能再改善某些人的境况，而不使任何其他人受损。需要指出的是，帕累托最优只是各种理想态标准中的“最低标准”。也就是说，一种状态如果尚未达到帕累托最优，那么它一定是不理想的，因为还存在改进的余地，可以在不损害任何人的前提下使某一些人的福利得到提高。但是一种达到了帕累托最优的状态并不一定真的很“理想”。比如说，假设一个社会里只有一个百万富翁和一个快饿死的乞丐，如果这个百万富翁拿出自己财富的万分之一，就可以使后者免于死亡。但是因为这样无偿的财富转移损害了富翁的福利（假设这个乞丐没有什么可以用于回报富翁的资源或服务），所以进行这种财富转移并不是帕累托改进，而这个只有一个百万富翁和一个饿死乞丐的社会可以被认为是帕累托最优的。（这里可以与古典功利主义的标准做一比较。按功利主义的标准，理想的状态是使人们的福利的总和最大化的状态。如果一个富翁损失很少的福利，却能够极大地增加乞丐的福利，使其免于死亡，那么社会的福利总和就增加了，所以从功利主义的角度看，这样的财富转移是一种改善，而最初的极端不平等状态则是不理想的，因为它的福利总和较低。可以看到，帕累托改进要求在提高某些人福利的时候不能减少任何一个人的福利，而功利主义则允许为了提高福利总和而减少一些人的福利。）

经济学理论认为，如果市场是完备的和充分竞争的，市场交换的结果一定是帕累托最优的，并且会同时满足以下3个条件：1. 交换最优：即使再交易，个人也不能从中得到更大的利益。此时对任意两个消费者，任意两种商品的边际替代率是相同的，且两个消费者的效用同时得到最大化。2. 生产最优：这个经济体必须在自己的生产可能性边界上。此时对任意两个生产不同产品的生产者，需要投入的两种生产要素的边际技术替代率是相同的，且两个消费者的产量同时得到最大化。3. 产品混合最优：经济体产出产品的组合必须反映消费者的偏好。此时任意两种商品之间的边际替代率必须与任何生产者在这两种商品之间的边际产品转换率相同。

如果一个经济体不是帕累托最优，则存在一些人可以在不使其他人的境况变坏的情况下使自己的境况变好的情形。普遍认为这样低效的产出的情况是需要避免的，因此帕累托最优是评价一个经济体和政治方针的非常重要的标准。但是，如同上面指出的，一个帕累托最优的经济系统只是在“最低”的意义上是“理想”的，并不能保证其中没有贫困或严重的贫富差距。

帕累托最优是以提出这个概念的意大利经济学家维弗雷多·帕雷托的名字命名的，维弗雷多·帕雷托在他关于经济效率和收入分配的研究中使用了这个概念

囚徒困境

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

* 若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。* 若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。* 若二人都互相检举（互相“背叛”），则二人同样判监2年。

                甲沉默（合作） 	          甲认罪（背叛）
乙沉默（合作） 	二人同服刑半年 	          甲即时获释；乙服刑10年
乙认罪（背叛） 	甲服刑10年；乙即时获释 	  二人同服刑2年

囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

* 若对方沉默、我背叛会让我获释，所以会选择背叛。
* 若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

最低0.47元/天解锁文章

Havenoidea

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录