解读《博弈论与生活》1、明明有最佳选项,为何却不能选?

发布于 2021-10-11 07:08

能够聆听何须阅读

赞赏晓书童

       

我跨越山海的一路相伴,

望得到您用金钱的称赞。

解读《博弈论与生活》1、明明有最佳选项,为何却不能选?

您好,感谢您听到我,我是晓书童。

好久不见,我又回来了。

这一次,我们再开启一个全新的话题,博弈论,这应该是一个绝大多数同学都感兴趣的话题吧。

什么是博弈论

博弈论的英文直译是“游戏理论”,它所研究的是人们在游戏过程中如何做出最佳的决策。

我们把博弈这两个字拆开来看的话 ,赌博和对弈,一个需要运气,一个讲究实力,二者相互交织。游戏中每个人的决策,又都受到其他游戏参与者行为的影响,所有人都想在游戏中胜出,都想最大化自己的收益,理性决策的依据是什么呢?就是博弈论。

博弈论在生活中无处不在,它可以告诉我们为什么世界上有这么多的冲突、背叛与欺骗。更重要的是博弈论探讨人与人要如何才能达成合作与互助。因此,不管是心理学家、社会学家还是政治家,都要用到博弈论来探讨合作的问题。

从我们最近人人都在说的内卷,到热议的碳中和,甚至是全球变暖、恐怖主义乃至是战争,都需要使用博弈论来寻找合作的出路,人类也比历史上任何时候都更需要合作。

从上世纪40年代博弈论诞生以来,就深受大型企业与军方的追捧。美国国防部曾经聘请过5位获得过诺贝尔经济学奖的博弈论专家为自己出谋划策。当年美苏对峙关于核威慑的问题,双方都使用了激进的博弈策略。那是人类离热核战争最近的一次,关于古巴导弹危机,我们后面也会说到。

博弈论出身华贵,是现代数学的一个分支。创始人冯·诺依曼完成的那本《博弈论与经济行为》是博弈论的开山之作,薄薄的一小本书里就用到了3000多个数学公式。所以它诞生之初其实是一套精密的数学理论。

经济学家何帆说,他当年在哈佛听过一门精深的博弈论课程,用的全是数学。他的前面后面和左边坐着的同学全部都是数学系的博士,右边坐着的是意大利银行的访问学者。何帆问他说:“你听得懂吗?”他摇摇头,他也问何帆说:“那你听得懂吗?”何帆也摇摇头,两人相视一笑“那我俩还坐在这里干什么呢?”于是两人就一起去喝咖啡了。

即便高深的博弈论都需要用到数学模型,但是这一点都不妨碍我们了解它的思想。博弈论本身就要把真实世界中复杂的情况简化成各种各样的模型,以此来推演和论证其中的基本原理,其思想精华并不体现在数学之中。

虽然博弈论诞生于烧脑的数学,但是真正让博弈论发扬光大的是约翰·纳什,托马斯·谢林这些经济学家,他们让博弈论落地,用来解释具体的社会现象。

就像爱因斯坦所说的:“我想知道上帝是怎么创造这个世界的,我想知道的只是他的想法,至于其他的,那都是细枝末节的东西。”

化繁为简,用生活中的案例完全可以把博弈论的思想给说清楚。

举个最简单的例子:哥哥弟弟两个人分蛋糕,小孩子就喜欢争吃打闹的,蛋糕很难切得一样大小,谁多了谁少了肯定就要哭要闹。用博弈论的办法很简单:你切我选。一个人负责分,分完了另一个先选。如果哥哥负责切,他就会尽量切成一样大,因为他知道弟弟肯定会拿走更大的那块,这样两个人就都没啥怨言了。

在之后的节目里后面我们会说到很多好玩有趣的故事和案例。

接下来我们要细聊的这本书叫做《博弈论与生活》,作者是著名的英国物理学家兰·费雪。这本书中没有用到任何一个数学公式,把博弈论讲得妙趣横生。正如书名,作者教我们用博弈论思想在生活中做出更好的决策。

囚徒困境

要讲博弈论当然就要从著名的囚徒困境说起,应该很多同学都有听过。

话说张三和李四偷东西被警察叔叔抓住了,两个人被分别关押审讯。警察向张三交代了政策,坦白从宽,抗拒从严。

如果你和李四都招供了,两个人各判6年;

如果你招供,李四不招的话,那你算戴罪立功,我可以把你直接释放。李四要被判10年;

如果你们两个都不招供,证据不足各判2年。

同样的话,警察也和李四说了一遍。请问,如果你是张三你是招还是不招呢?从公布的规则来看,两个人最好的选择当然是都选择不招,各被判2年,加起来一共是4年。这对于整个集体来说,是利益最大化的选择。

但是现在两个人被分开审讯,我张三怎么做是受到李四选择的影响的,我需要考虑的是李四会怎么做。

如果李四选择招供,我招供的话被判6年,不招供的我要被判10年,6年和10年一比,那我肯定选择招供。

如果李四不招的话,我招供就能被释放,我抗拒还要被判2年,释放与2年,我还是要选择招供。

所以无论李四的选择是什么样的,我的选择一定都是招供。招供就是我的压倒性策略,意思就是说,无论对方怎么做,这个策略对我来说都是最好的。

那对于李四来说,情况是一模一样的,他的压倒性策略也是招供,所以最终的结果一定是两个人各被判6年,加起来一共12年。

很明显,这对于集体利益来说是非常糟糕的,甚至比一个人抗拒一个人招供,总共被判10年还要更加的糟糕。

但是这个结果却是必然的,稳定的,任何一方都不可能单独改变自己的策略。因此这是一个令人绝望的囚徒困境。

囚徒困境在我们的生活中可太多了。

作者兰·费雪说他年轻的时候就就深受其害。当年他和自己的弟弟,两个小伙子同时喜欢上了同一个小姐姐。两个人都争相去女生耳边说对方的坏话,想以此在人家心中抢占一席之地,结果弄得两败俱伤。没过多久,小姐姐就和别人男生出去约会了。

国家与国家之间的军备竞赛,也是典型的囚徒困境。

想想看我们中国古代的战国时期,齐楚燕韩赵魏秦都处在一个什么样的博弈局面里?邻国都在厉兵秣马,我该怎么办?难道施行“兴周礼,倡王道”用仁义去感化众生吗?当然不行。我除了实施“霸道”,富国强兵积极备战,甚至先下手为强主动发起战争之外,我又能怎么办呢?

最后战国的乱世是怎么终结的?是虎狼之秦用绝对的暴力荡平六国,一统华夏后新的游戏规则才得以建立。所以在张艺谋的电影《英雄》里,残剑就是看清了7国都深陷囚徒困境,才劝无名为了天下放弃刺杀秦王。因为只有让强大的秦国胜出,彻底改变整个游戏规则,天下人才能从中脱困。

纳什均衡

要深刻的理解囚徒困境,我们必须需要引入两个概念:帕累托最优和纳什均衡。

同学们有没有想过,为什么很多同类商家都会扎堆在一起,一家麦当劳旁边,通常都会有一家肯德基,像我们昆明,一家一心堂药店旁边一定会有另一家叫做健之佳的药店,这不是很奇怪吗?

我们想象有一条长长的海滩,如果我要在海滩上开一家奶茶店,我应该开在海滩的什么地方?如果只有我一家,那我开在什么地方都可以,整条海滩的顾客资源都是我的。

但是我要考虑可能张三那个小东西也会来开家奶茶店和我抢生意,那我先来我一定要把我的店开在海滩的正中间,这样一来无论他开在哪里我都不会吃亏。

没过几天,张三真的来了。他一看,我已经在正中间了,那他开在哪里?不管他是开在靠左还是靠右,就都等于是把另一边的顾客资源拱手让给了我。所以他的压倒性策略一定是紧挨着我也开在正中间。

那如果我和张三本来是好朋友,我们是约好了一起来海滩做奶茶生意的,那我们俩的摊应该怎么摆?就应该分别摆在海滩三分之一和三分之二的位置。

这样一来,我俩等于平分了所有顾客资源,而且任何一个位置的消费者想要买奶茶走的距离都是最短的。

在不伤害任何人利益的情况下,至少使得一个人的境遇变得更好,这叫做帕累托改进,如果一个局面已经完美了,就像是沙滩上的这两家奶茶店一样。那我们就把这个局面叫做帕累托最优。

理想中的世界总是帕累托最优的,但现实却不是。因为虽然完美,但却是一个极其不稳定的局面。

比方说,我和张三其实是塑料兄弟,等他把店开在了三分之一处,我却直接把店开在了正中间。我这么做当然对他对消费者来说都是一种伤害,但是对我自己是有利的。只要有利可图就一定会有人这么做。

只有我们两个都把店开在沙滩的正中间,任何一方改变策略他的处境都不会变得更好,只有这个时候他才不会变,这样的博弈结果才是稳定的,也才是我们在真实世界当中所看到的场景。这叫做纳什均衡。

约翰·纳什在21岁的博士论文中提出了纳什均衡的概念,他获得了1994年的诺贝尔经济学奖。当年推荐纳什的教授给他的推荐信上就一句话“这是一个天才!”

另一位诺奖得主评价说“纳什均衡对于经济学的意义,就如同发现了DNA双螺旋结构对生物学的意义一样重大!”

任何一方都没有意愿单方面改变自己策略的局面,就叫做纳什均衡。这个概念非常非常的重要。

回到囚徒困境的例子,张三和李四都抗拒各被判2年,这是帕累托最优,对于个人和集体来说都是最好的,但他是不稳定的。

任何一方选择被判都可以让自己获利,因此最终的结果一定是都招供,在此基础上谁单独改变策略谁就要吃亏,就谁都不会变,两人深陷困境。

如果一个现象是长期稳定存在的,那这一定是一个纳什均衡,对于一个结果,我们不能光看对于整体来说它是不是最好的,我们还要看他是不是稳定的。

因此,理想主义者当然喜欢帕累托最优,可是现实主义者能看到纳什均衡。

囚徒困境,合则两利,分则两害,单方面背叛对自己有利,那整个局面就一定会朝着两害的方向不断的发展。

兰·费雪在意大利的山路上开车,其中有一段路特别狭窄,双向的车流只能默契的依次轮流通过,互相谦让才走得了。如果遇到了两个互不相让的司机,彼此都按着喇叭往前冲,结果就是卡在中间,后面的车排成长龙。最后是一直等到警察上来疏通了三天三夜。

我们不做道德判断,经济学讲理性人假设,博弈论也接受自私自利是人们的主要动机。这样的道路设置,指望人们互相谦让,那堵车就是必然的。

再比方说离婚。有人不客气的说,离婚能看到人性最丑陋的一面。因为发展到最后往往都是财产的争夺。一开始大家都不这么认为的,毕竟相爱一场嘛,体面一点,钱我不在乎,都给你都行。结果发现对方真的就全拿走了,那凭什么?我不吃馒头也要争口气!

于是双方开始相互撕扯,都拿出决不退让的架势。其实如果双方各退一步,选择合作的话,就可以很好的解决。但是双方都选择背叛,相互激发出恶意,最后是大量的时间和精力都消耗在了离婚官司上。

我们看看怎么破除刚才那个两个小毛贼的囚徒困境,让他们能够达成合作呢?

惩罚背叛者

方法其实也不难,就是增加博弈次数,引入惩罚机制。

假如两个人都是惯犯,以后他们还要长期合作,或者两个人是恩爱的夫妻,宁愿一起坐牢也不会出卖对方,这样的话就容易形成攻守同盟,串通抗拒。因为对于他们来说眼下只是众多博弈中的一次,犯不上为了这一次的利益就背叛对方。

同样的道理,为什么旅游景点的饭菜都很难吃还贵?因为是单次博弈,就这一次,不会再有下次。一锤子买卖。那他还不得逮着蛤蟆攥出屎来?

小区旁边能够长期经营的餐馆一定是物美价廉的,因为他们的客户就是周围小区住户,靠的就是回头客。在这样的重复博弈之下,肯定选择合作。

就算是在景区,像是肯德基这一类的连锁店,我们还是可以放心购买的,因为不论他开在哪里,都要为自己的品牌声誉负责。他是重复博弈的。

我们在电影里看到的毒品交易,两队人找个隐秘的地方接头,一边出货,一边拿钱。这本来是一个公平交易对吧?可以总有一方背叛,发生火并。为什么?因为无论在哪里毒品交易都会受到法律的严厉打击,交易次数越多,被抓到的概率就越大。为了减少交易次数只能把每次交易的数额增大,把重复博弈变成单次博弈。可是这样一来,双方背叛的可能性也就增大,因为都想着干完这一票大的我就能金盆洗手了,于是铤而走险。

还有惩罚机制,让背叛的人付出代价也可以破处囚徒困境。其实把单次博弈变成重复博弈也是一种惩罚机制,这次你背叛,惩罚的代价就是以后也会遭到别人的背叛。更加严厉的就像是美国黑手党。

黑手党成员对组织是忠诚无比的,因为只要背叛,组织就会派你的亲人把你干掉。黑手党1980年代就有了,到了1920年代的时候势力已经扩大到了全美国。因为对外人根本就不透露组织的存在,所以美国社会一直到1940年代才知道它的存在。

而且因为组织严厉的惩罚机制,所以长达几十年的时间,竟然都没有一个人敢在法庭上承认黑手党的存在。是一直到1991年,黑手党内部的一个大佬叛变,美国反黑才得以有所突破。

好,今天我们说了囚徒困境、帕累托最优、纳什均衡,简单了说了两个破除囚徒困境的方法,重复博弈和引入惩罚机制,关于博弈论算是开了个头,之后我们再继续深入。

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材