一报还一报：出来混迟早要还的（博弈论的诡计）

最新推荐文章于 2019-03-26 02:26:51 发布

zyp2671

最新推荐文章于 2019-03-26 02:26:51 发布

阅读量4.7k

点赞数

分类专栏：博弈论文章标签：电话游戏笑话优化

博弈论专栏收录该内容

28 篇文章 2 订阅

订阅专栏

一天半夜，某教授正在熟睡之际，电话铃突然响了起来。他睡跟惺忪拿起电话，听筒里传来女邻居怒气冲冲的声音：“麻烦你管一下你的狗，不要再让它叫了。”说完，电话就挂了。这位教授十分生气。第二天他定好闹钟，半夜两点钟准时起床，拿起电话拨通了这位女邻居家。过了半天，对方才拿起听筒，带着睡意恼怒地同：“哪一位?”这位教授彬彬有礼地告诉她：“夫人，昨天我忘记告诉你了。我们家没有养狗。”

在这个反映现实人际关系的小笑话中，我们可以发现在没有法规和道德的约束，也没有其他力量从外部对双方进行强制时，对自己最有利的一种策略：一报还一报。这一策略的提出，应归功于美国密西根大学的学者罗伯特·爱克斯罗德。他是一个政治科学家，研究方向是人与人之间的合作关系。

在开始研究合作之前，爱克斯罗德设定了两个前提：一，每个人都是自私的；二，没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的目标进行决策。在此前提下，要研究的问题是：第一，人为什么要合作；第二，人什么时候是合作的，什么时候又是不合作的；第三，如何使别人与你合作。

在研究的过程中，爱克斯罗德组织了一场计算机模拟竞赛。思路非常简单：任何参加这个竞赛的人都扮演囚徒困境案例中一个囚犯的角色，把自己的策略编成计算机程序，进行捉对博弈，在合作与背叛之间做出选择。但与囚徒困境案例有个不同之处：他们不止玩一次这个游戏，而是以单循环赛的方式玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”，它更逼真地反映了具有经常而长期性的人际关系。

这个游戏还允许程序在做出合作或背叛的抉择时，参考对手程序前几次的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次，则双方就建立了各自的历史档案，用以记录与对手的交往情况。同时，它们也通过多次的交手树立了或好或差的声誉。

虽然如此，下一步将会如何行动却仍然极难确定。实际上，这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一：一个程序能够总是不管对手做何种举动都采取合作的态度吗？或者，它能总是采取背叛行动吗，它是否应该对对手的举动报之以更为复杂的举动？如果是，那会是怎么样的举动呢?

第一轮游戏有14个程序参加，其中包含了各种复杂的策略。再加上爱克斯罗德自己的一个随机程序(即以50%的概率选取合作或背叛)。使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于一个被称为“一报还一报(TIT FOR TAT)”的策略，它是由多伦多大学的数学教授阿纳托·拉波波特提交上来的。有意思的是，在科学家们上交的14个程序中有8个是“善意的”，但正是这些永远不会首先背叛的善意程序，轻易地赢了6个非善意的程序。

因为参与竞赛的程序为数不多，一报还一报策略的胜利也许只是一种侥幸。为了进一步验证上述结论，爱克斯罗德决定举行第二轮竞赛，邀请更多的人再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改进的程序，其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗德自己的随机程序，63个程序又进行了一次竞赛。竞赛结果表明，在63个程序的前15名里，只有第8名的哈灵顿程序是“非善意的”；在最后15名中，只有1个总是合作的程序是“善意的”。而且，夺魁的仍然是一报还一报策略。

这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?

说起来很简单，简单到有些不可思议：第一步合作，此后每一步都重复对方上一步的行动：合作或背叛。如此简单的程序之所以反复获胜，是因为它奉行了以其人之道还治其人之身的原则，并且用如下特征最有效地鼓励其他程序同它长期合作：善良、可激怒、宽容、简单、不妒忌别人的成功。

善良，是指它第一步总是向对方表达善意。它坚持永远不首先背叛对方，开始总是选择合作，而不是一开始就选择背叛或主动作弊。
可激怒，是指对方出现背叛行动时，它能够及时识别并一定要采取背叛的行动来报复。不会让背叛者逍遥法外。
宽容，是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了地报复，而是在对方改过自新、重新回到合作轨道时，能既往不咎地恢复合作。
简单，是指它的逻辑清晰，易于识别，能让对方在很短时间内辨识出来其策略所在。
不妒忌，是指它不耍小聪明，不占对方便宜，不在任何双边关系中争强好胜。

其他各种策略输就输在上述五个方面做得不够好。在比赛结果中，所有恶意程序(第一步背叛)都未进前10名；而某些程序太过好脾气。被对方背叛之后不立即反应，结果鼓励那些狡猾的程序反复占它的便宜；某些程序对于过往关系的“好坏”太过执著，一旦被别人欺骗就很难宽容，结果使得很多本来可能恢复的合作关系永久性断绝；还有一些程序把自己搞得太复杂，总是试图通过某种机巧来占人便宜，尽管在与某些“傻”程序接触中得了高分，但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后的总分来看，它们的小聪明得不偿失。

在香港电影《无间道》有一句广为流传的台词：出来混，迟早要还的。就是这句台词决定了剧中不少人物的命运，无论是黑道还是白道，警还是匪，很多人物在以为自己胜券在握或进出生天时，猝不及防地死去，用一条命来还了。在博弈论中，“还”也是早晚的事，不过这不是什么宿命，而是“一报还一报”策略的出发点和立足点，也是它的胜利基点。

小注：就本人的理解，在囚徒困境中，大家都不招供（双方无罪释放）是双方利益最大化的选择，也就意味着双方合作。而从一方的个人利益最大化角度来看，选择招供是最优策略（5年或无罪释放），这也就意味着背叛对方。最终的结果就是双方招供。双方招供是博弈论中著名的纳什均衡，因为它是一次博弈中理性主体做出的最优选择，但并不意味它是全体最优选择。上文描述的“重复”囚徒困境，背叛不再是最优的策略，一报还一报成为理性主体的最优选择，有趣的是，个体的最优选择已经趋近于全体的最优选择。从上面的讨论可以得出这么一个结论，在社会的长期交往中，合作不但能达到个体利益的最优，也能达到全体利益的最优化。

zyp2671

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
一报还一报：出来混迟早要还的（博弈论的诡计）

一天半夜，某教授正在熟睡之际，电话铃突然响了起来。他睡跟惺忪拿起电话，听筒里传来女邻居怒气冲冲的声音：“麻烦你管一下你的狗，不要再让它叫了。”说完，电话就挂了。这位教授十分生气。第二天他定好闹钟，半夜两点钟准时起床，拿起电话拨通了这位女邻居家。过了半天，对方才拿起听筒，带着睡意恼怒地同：“哪一位?”这位教授彬彬有礼地告诉她：“夫人，昨天我忘记告诉你了。我们家没有养狗。” 在这个反映现
复制链接

扫一扫

专栏目录