人为什么要和其他人合作?人又为什么会背叛他人?这是因为人性本善还是人性本恶?
这样的问题看似是道德层面没有终局的讨论,但只要使用科学方法去分析,就能摸索出大致原因。其实,善恶都是人在事后对结果的价值判断,而合作和背叛的决策来源于演化过程和边界条件。
**也就是说,在某些边界条件成立的情况下,我们完全不需要假设人是善还是恶,也完全不需要假设人们之间是熟悉还是陌生。只要给足演化时间,他们之间就会出现大规模的合作行为,并且这些合作行为还是稳定的,而且越来越稳定。**哪怕人群中偶尔出现了一些背叛行为,也不会让人群的整体行为逐渐往大规模背叛和互害的方向演进。
囚徒困境
囚徒困境有一个这样的假设:
有 2 个罪犯某甲和某乙,他们是同伙,一起被抓了以后分别审讯,在审讯中,某甲和某乙都有 2 种策略,一种是供出对方罪行,一种是守口如瓶。
前者相当于背叛了同伙,后者相当于与同伙合作。而同时,审问也会出现几种不同的结果:
-
某甲和某乙都守口如瓶,最后的结果是证据不足以判重刑,俩人都被判 1 年;
-
某甲守口如瓶,某乙背叛了同伙,某甲被判 5 年,某乙释放;
反过来也是:
-
如果某乙守口如瓶,某甲背叛了同伙,某乙会被判 5 年,某甲释放;
-
双方都背叛了对方,结果是虽然罪行比警方掌握得多,但双方都有戴罪立功表现,各判 4 年。
囚徒困境中的“困境”指的是什么呢?并不是说某甲和某乙在审讯室很为难,不知道怎么选。
“困境”说的是,只要两个人听懂了判罚的规则,而且运用自己的理性做判断的话,他们都会毫不犹豫地选择背叛对方,最终结局就是各判 4 年。
可我们再从全局看看呢?原来理性分析后得出的终局,是一个对双方来说都双输的局面,只比最差的结果少判了 1 年而已。
重复囚徒困境
这里的本质区别就在于双方是博弈一次,还是博弈多次但却知道精确的次数,又或者是博弈多次但并不知道会有多少次。正是这个区别,让人们从背叛走向合作。
阿克塞尔罗德实验
具体受到什么因素影响,无关紧要,我们要看看最聪明的人都是怎么博弈的,从他们的经验或者教训里找到窍门。
这方面的研究汗牛充栋,其中一个最常被提起的是阿克塞尔罗德做的大规模分析。他把囚徒困境的四种不同状况里,当事人的收益用分数来表示:
-
双方都合作的情况下,都得 3 分;
-
双方都背叛的情况下,都得 1 分;
-
一方背叛,一方合作时,合作的人得 0 分,背叛的人得 5 分。
然后,他做了一次有奖征集。也就是,在这样的规则下重复不断地博弈,你认为应该采用什么策略,才能获得最高得分呢?
在这场计算机模拟中,有 8 种策略属于善良的,6 种属于邪恶的,邪恶策略的平均得分是 401 分,善良策略的平均得分是 488 分。你看,善良策略的平均得分比邪恶策略的平均分要多。
其中最善良的,相当于每次都选择合作,满分就是 600 分,但这要求对方也是这样的策略才行。而实际上,每种策略都要面对 14 种策略的博弈,于是 600 分的完美情况几乎是不可能出现的。
平均下来,在善良策略里,得分最高的是 504 分。这个策略是最值得注意的,它被总结成“一报还一报策略”。
但当博弈次数是大规模频繁博弈的时候,当博弈的次数积累得足够久,合作的策略还是更有利于获得生存资源的。相反,背叛的策略会因为收益明显少而受到资源惩罚,采用这样的行为策略的人的后代,整体而言会得到更少的资源,留下更少的后代。
而其中获得资源最多的,就是那个一报还一报的策略。经过足够久的时间,这些人的后代将占据地球上智能生物的绝大部分。
总结
1.人与人之间要达成互信合作的状态,不需要假设其中的个体拥有较高的素质、道德水平。只要某些边界条件成立,再给足演化时间,就会出现大规模的合作行为。
2. 囚徒困境和重复囚徒困境的本质区别在于,双方是博弈一次,还是博弈多次但知道精确的次数,又或者是博弈多次但不知道会有多少次。正是这个区别,让人们从背叛走向合作。
3.在阿克塞尔罗德实验中,善良策略的平均得分比邪恶策略要高,其中最高的被总结成“一报还一报策略”。