解读《博弈论与生活》1、明明有最佳选项,为何却不能选?

发布于 2021-10-11 07:08

能够聆听何须阅读

◆◆◆

赞赏晓书童

我跨越山海的一路相伴，

望得到您用金钱的称赞。

解读《博弈论与生活》1、明明有最佳选项，为何却不能选？

您好，感谢您听到我，我是晓书童。

好久不见，我又回来了。

这一次，我们再开启一个全新的话题，博弈论，这应该是一个绝大多数同学都感兴趣的话题吧。

什么是博弈论

博弈论的英文直译是“游戏理论”，它所研究的是人们在游戏过程中如何做出最佳的决策。

我们把博弈这两个字拆开来看的话，赌博和对弈，一个需要运气，一个讲究实力，二者相互交织。游戏中每个人的决策，又都受到其他游戏参与者行为的影响，所有人都想在游戏中胜出，都想最大化自己的收益，理性决策的依据是什么呢？就是博弈论。

博弈论在生活中无处不在，它可以告诉我们为什么世界上有这么多的冲突、背叛与欺骗。更重要的是博弈论探讨人与人要如何才能达成合作与互助。因此，不管是心理学家、社会学家还是政治家，都要用到博弈论来探讨合作的问题。

从我们最近人人都在说的内卷，到热议的碳中和，甚至是全球变暖、恐怖主义乃至是战争，都需要使用博弈论来寻找合作的出路，人类也比历史上任何时候都更需要合作。

从上世纪40年代博弈论诞生以来，就深受大型企业与军方的追捧。美国国防部曾经聘请过5位获得过诺贝尔经济学奖的博弈论专家为自己出谋划策。当年美苏对峙关于核威慑的问题，双方都使用了激进的博弈策略。那是人类离热核战争最近的一次，关于古巴导弹危机，我们后面也会说到。

博弈论出身华贵，是现代数学的一个分支。创始人冯·诺依曼完成的那本《博弈论与经济行为》是博弈论的开山之作，薄薄的一小本书里就用到了3000多个数学公式。所以它诞生之初其实是一套精密的数学理论。

经济学家何帆说，他当年在哈佛听过一门精深的博弈论课程，用的全是数学。他的前面后面和左边坐着的同学全部都是数学系的博士，右边坐着的是意大利银行的访问学者。何帆问他说：“你听得懂吗？”他摇摇头，他也问何帆说：“那你听得懂吗？”何帆也摇摇头，两人相视一笑“那我俩还坐在这里干什么呢？”于是两人就一起去喝咖啡了。

即便高深的博弈论都需要用到数学模型，但是这一点都不妨碍我们了解它的思想。博弈论本身就要把真实世界中复杂的情况简化成各种各样的模型，以此来推演和论证其中的基本原理，其思想精华并不体现在数学之中。

虽然博弈论诞生于烧脑的数学，但是真正让博弈论发扬光大的是约翰·纳什，托马斯·谢林这些经济学家，他们让博弈论落地，用来解释具体的社会现象。

就像爱因斯坦所说的：“我想知道上帝是怎么创造这个世界的，我想知道的只是他的想法，至于其他的，那都是细枝末节的东西。”

化繁为简，用生活中的案例完全可以把博弈论的思想给说清楚。

举个最简单的例子：哥哥弟弟两个人分蛋糕，小孩子就喜欢争吃打闹的，蛋糕很难切得一样大小，谁多了谁少了肯定就要哭要闹。用博弈论的办法很简单：你切我选。一个人负责分，分完了另一个先选。如果哥哥负责切，他就会尽量切成一样大，因为他知道弟弟肯定会拿走更大的那块，这样两个人就都没啥怨言了。

在之后的节目里后面我们会说到很多好玩有趣的故事和案例。

接下来我们要细聊的这本书叫做《博弈论与生活》，作者是著名的英国物理学家兰·费雪。这本书中没有用到任何一个数学公式，把博弈论讲得妙趣横生。正如书名，作者教我们用博弈论思想在生活中做出更好的决策。

囚徒困境

要讲博弈论当然就要从著名的囚徒困境说起，应该很多同学都有听过。

话说张三和李四偷东西被警察叔叔抓住了，两个人被分别关押审讯。警察向张三交代了政策，坦白从宽，抗拒从严。

如果你和李四都招供了，两个人各判6年；

如果你招供，李四不招的话，那你算戴罪立功，我可以把你直接释放。李四要被判10年；

如果你们两个都不招供，证据不足各判2年。

同样的话，警察也和李四说了一遍。请问，如果你是张三你是招还是不招呢？从公布的规则来看，两个人最好的选择当然是都选择不招，各被判2年，加起来一共是4年。这对于整个集体来说，是利益最大化的选择。

但是现在两个人被分开审讯，我张三怎么做是受到李四选择的影响的，我需要考虑的是李四会怎么做。

如果李四选择招供，我招供的话被判6年，不招供的我要被判10年，6年和10年一比，那我肯定选择招供。

如果李四不招的话，我招供就能被释放，我抗拒还要被判2年，释放与2年，我还是要选择招供。

所以无论李四的选择是什么样的，我的选择一定都是招供。招供就是我的压倒性策略，意思就是说，无论对方怎么做，这个策略对我来说都是最好的。

那对于李四来说，情况是一模一样的，他的压倒性策略也是招供，所以最终的结果一定是两个人各被判6年，加起来一共12年。

很明显，这对于集体利益来说是非常糟糕的，甚至比一个人抗拒一个人招供，总共被判10年还要更加的糟糕。

但是这个结果却是必然的，稳定的，任何一方都不可能单独改变自己的策略。因此这是一个令人绝望的囚徒困境。

囚徒困境在我们的生活中可太多了。

作者兰·费雪说他年轻的时候就就深受其害。当年他和自己的弟弟，两个小伙子同时喜欢上了同一个小姐姐。两个人都争相去女生耳边说对方的坏话，想以此在人家心中抢占一席之地，结果弄得两败俱伤。没过多久，小姐姐就和别人男生出去约会了。

国家与国家之间的军备竞赛，也是典型的囚徒困境。

想想看我们中国古代的战国时期，齐楚燕韩赵魏秦都处在一个什么样的博弈局面里？邻国都在厉兵秣马，我该怎么办？难道施行“兴周礼，倡王道”用仁义去感化众生吗？当然不行。我除了实施“霸道”，富国强兵积极备战，甚至先下手为强主动发起战争之外，我又能怎么办呢？

最后战国的乱世是怎么终结的？是虎狼之秦用绝对的暴力荡平六国，一统华夏后新的游戏规则才得以建立。所以在张艺谋的电影《英雄》里，残剑就是看清了7国都深陷囚徒困境，才劝无名为了天下放弃刺杀秦王。因为只有让强大的秦国胜出，彻底改变整个游戏规则，天下人才能从中脱困。

纳什均衡

要深刻的理解囚徒困境，我们必须需要引入两个概念：帕累托最优和纳什均衡。

同学们有没有想过，为什么很多同类商家都会扎堆在一起，一家麦当劳旁边，通常都会有一家肯德基，像我们昆明，一家一心堂药店旁边一定会有另一家叫做健之佳的药店，这不是很奇怪吗？

我们想象有一条长长的海滩，如果我要在海滩上开一家奶茶店，我应该开在海滩的什么地方？如果只有我一家，那我开在什么地方都可以，整条海滩的顾客资源都是我的。

但是我要考虑可能张三那个小东西也会来开家奶茶店和我抢生意，那我先来我一定要把我的店开在海滩的正中间，这样一来无论他开在哪里我都不会吃亏。

没过几天，张三真的来了。他一看，我已经在正中间了，那他开在哪里？不管他是开在靠左还是靠右，就都等于是把另一边的顾客资源拱手让给了我。所以他的压倒性策略一定是紧挨着我也开在正中间。

那如果我和张三本来是好朋友，我们是约好了一起来海滩做奶茶生意的，那我们俩的摊应该怎么摆？就应该分别摆在海滩三分之一和三分之二的位置。

这样一来，我俩等于平分了所有顾客资源，而且任何一个位置的消费者想要买奶茶走的距离都是最短的。

在不伤害任何人利益的情况下，至少使得一个人的境遇变得更好，这叫做帕累托改进，如果一个局面已经完美了，就像是沙滩上的这两家奶茶店一样。那我们就把这个局面叫做帕累托最优。

理想中的世界总是帕累托最优的，但现实却不是。因为虽然完美，但却是一个极其不稳定的局面。

比方说，我和张三其实是塑料兄弟，等他把店开在了三分之一处，我却直接把店开在了正中间。我这么做当然对他对消费者来说都是一种伤害，但是对我自己是有利的。只要有利可图就一定会有人这么做。

只有我们两个都把店开在沙滩的正中间，任何一方改变策略他的处境都不会变得更好，只有这个时候他才不会变，这样的博弈结果才是稳定的，也才是我们在真实世界当中所看到的场景。这叫做纳什均衡。

约翰·纳什在21岁的博士论文中提出了纳什均衡的概念，他获得了1994年的诺贝尔经济学奖。当年推荐纳什的教授给他的推荐信上就一句话“这是一个天才！”

另一位诺奖得主评价说“纳什均衡对于经济学的意义，就如同发现了DNA双螺旋结构对生物学的意义一样重大！”

任何一方都没有意愿单方面改变自己策略的局面，就叫做纳什均衡。这个概念非常非常的重要。

回到囚徒困境的例子，张三和李四都抗拒各被判2年，这是帕累托最优，对于个人和集体来说都是最好的，但他是不稳定的。

任何一方选择被判都可以让自己获利，因此最终的结果一定是都招供，在此基础上谁单独改变策略谁就要吃亏，就谁都不会变，两人深陷困境。

如果一个现象是长期稳定存在的，那这一定是一个纳什均衡，对于一个结果，我们不能光看对于整体来说它是不是最好的，我们还要看他是不是稳定的。

因此，理想主义者当然喜欢帕累托最优，可是现实主义者能看到纳什均衡。

囚徒困境，合则两利，分则两害，单方面背叛对自己有利，那整个局面就一定会朝着两害的方向不断的发展。

兰·费雪在意大利的山路上开车，其中有一段路特别狭窄，双向的车流只能默契的依次轮流通过，互相谦让才走得了。如果遇到了两个互不相让的司机，彼此都按着喇叭往前冲，结果就是卡在中间，后面的车排成长龙。最后是一直等到警察上来疏通了三天三夜。

我们不做道德判断，经济学讲理性人假设，博弈论也接受自私自利是人们的主要动机。这样的道路设置，指望人们互相谦让，那堵车就是必然的。

再比方说离婚。有人不客气的说，离婚能看到人性最丑陋的一面。因为发展到最后往往都是财产的争夺。一开始大家都不这么认为的，毕竟相爱一场嘛，体面一点，钱我不在乎，都给你都行。结果发现对方真的就全拿走了，那凭什么？我不吃馒头也要争口气！

于是双方开始相互撕扯，都拿出决不退让的架势。其实如果双方各退一步，选择合作的话，就可以很好的解决。但是双方都选择背叛，相互激发出恶意，最后是大量的时间和精力都消耗在了离婚官司上。

我们看看怎么破除刚才那个两个小毛贼的囚徒困境，让他们能够达成合作呢？

惩罚背叛者

方法其实也不难，就是增加博弈次数，引入惩罚机制。

假如两个人都是惯犯，以后他们还要长期合作，或者两个人是恩爱的夫妻，宁愿一起坐牢也不会出卖对方，这样的话就容易形成攻守同盟，串通抗拒。因为对于他们来说眼下只是众多博弈中的一次，犯不上为了这一次的利益就背叛对方。

同样的道理，为什么旅游景点的饭菜都很难吃还贵？因为是单次博弈，就这一次，不会再有下次。一锤子买卖。那他还不得逮着蛤蟆攥出屎来？

小区旁边能够长期经营的餐馆一定是物美价廉的，因为他们的客户就是周围小区住户，靠的就是回头客。在这样的重复博弈之下，肯定选择合作。

就算是在景区，像是肯德基这一类的连锁店，我们还是可以放心购买的，因为不论他开在哪里，都要为自己的品牌声誉负责。他是重复博弈的。

我们在电影里看到的毒品交易，两队人找个隐秘的地方接头，一边出货，一边拿钱。这本来是一个公平交易对吧？可以总有一方背叛，发生火并。为什么？因为无论在哪里毒品交易都会受到法律的严厉打击，交易次数越多，被抓到的概率就越大。为了减少交易次数只能把每次交易的数额增大，把重复博弈变成单次博弈。可是这样一来，双方背叛的可能性也就增大，因为都想着干完这一票大的我就能金盆洗手了，于是铤而走险。

还有惩罚机制，让背叛的人付出代价也可以破处囚徒困境。其实把单次博弈变成重复博弈也是一种惩罚机制，这次你背叛，惩罚的代价就是以后也会遭到别人的背叛。更加严厉的就像是美国黑手党。

黑手党成员对组织是忠诚无比的，因为只要背叛，组织就会派你的亲人把你干掉。黑手党1980年代就有了，到了1920年代的时候势力已经扩大到了全美国。因为对外人根本就不透露组织的存在，所以美国社会一直到1940年代才知道它的存在。

而且因为组织严厉的惩罚机制，所以长达几十年的时间，竟然都没有一个人敢在法庭上承认黑手党的存在。是一直到1991年，黑手党内部的一个大佬叛变，美国反黑才得以有所突破。

好，今天我们说了囚徒困境、帕累托最优、纳什均衡，简单了说了两个破除囚徒困境的方法，重复博弈和引入惩罚机制，关于博弈论算是开了个头，之后我们再继续深入。

本文来自网络或网友投稿，如有侵犯您的权益，请发邮件至：aisoutu@outlook.com 我们将第一时间删除。

相关素材

js多组图片切换选项卡代码

js多组图片切换选项卡代码

情侣唯美意境QQ头像想象着爱你却不能跟你在一起

情侣唯美意境QQ头像想象着爱你却不能跟你在一起

长发女生捧花的意境唯美头像你是我抓却不能拥抱的风

长发女生捧花的意境唯美头像你是我抓却不能拥抱的风