发生在我们身边的博弈(2)

2019-06-17 15:26

能力，在具体策略选择时的目的是使自己的利益最大化。而现实生活中，人们再做决策时往往是有限理性。

所谓有限理性，也就是说人不是机器，人的理性是有限度的。比方说，某人要签署一份合同，有三种方法可供选择：一种是计划好，安排好一切，然后不动脑筋按部就班地照计划进行；另一种是做进度安排的时候都留一点余地，可供签订合同双方私下协商解决：最后一种是完全没有安排，凭着当时的感情与直觉任意为之，这种方法当然不可能是理性的。

后两种一眼就可看出完全不满足博弈论意义上的理性，即使是第一种方法也不是真正意义上的经济理性。这是因为人们很难对每个措施将要产生的结果具有完全的了解和正确的预测，常常要在缺乏完全了解的情况下，一定程度地根据主观意识进行决策，个人或企业的决策都是在有限理性的条件下进行的。完全理性，意味着对每个抉择的确切后果都有完完全全的了解。事实上，一个人对自己的行动条件的了解，从来都只能是零碎的；至于使他得以从对当前状况的了解去推想未来后果的那些规律和法则，他也是所知甚微的。

人类的精力和时间永远是有限的，人不可能具备完全理性，不可能掌握所有知识和信息。人类也不可能搜寻到所需的全部的信息。另一方面也要意识到信息的搜寻需要成本，而不是毫不费成本的，因为人类必须为此付出大量的时间、精力和财力等等。意图搜寻到所有信息，企图做出收益最优的决策行为有时反而是最不理性的行为。

但当我们退而求其次时，博弈论可以得到对现实的客观世界描述的近似。所以博弈论仍然是我们目前所能得到的最好但非唯一的工具。就像并不完美的力学是自然科学的哲学和数学一样，博弈论是社会科学的力学和数学。没有牛顿力学我们连最简单的物理现象都无法理解，马用了多大的力拉动一车货物？上帝说“让牛顿来做吧”，于是我们知道了马用的力相当于克服摩擦力。同样的道理，没有博弈论我们也无法解释分析很多现实的社会现象。著名的博弈论大师鲁宾斯坦（Rubinstein）说过，“一个博弈模型是我们关于现实的观念的近似，而不是现实的客观描述的近似”。看来“理论之树是灰色的，生命之树常青！”这句话，我们应该谨记于心。

第二章纳什均衡、纯策略与混和策略

1．从围棋定式谈纳什均衡

我们已经知道，博弈论的基本前提是，某人或某物的行为效果如何，有赖于他人或他物的行为。由于世上人间的事物很少不依赖于其他事物而存在。非合作博弈强调利益的冲突，即非合作甚至对抗状态。比如，“零和博弈”就是典型的非合作博弈，它是指博弈各方的所得之和为零，在特殊情况下如两人博弈时，一方所得与另一方所失相等。从严格的数学角度来看，围棋19?19的361个交叉点就是围棋对弈者所得的总和，因此围棋棋手非输即赢，可见围棋明显是数学意义上的严格的零和博弈。世事如棋局，而棋局是可以用博弈思维加以概括的。比如过分的“骗着”，“本手”与“缓着”之间，一般都会选择本手，着法过分如不遇反击，可能占到便宜，如遇反击则可能亏损，因此如果棋力相当，则应考虑到对手的反击手段。对手也同样考虑到在追求利益中不可能占尽便宜。这就导致双方都能接受的方案。

围棋定式从策略层面看，如一方的策略是抢占实地，另一方是获得外势，而结果相当，互有所得，双方就愿意那样下。抢占实地考虑现实利益，获得外势考虑将来发展，这便形成一个双方的“均衡”；另一方面，可以从具体行棋效果来看，如果一步棋能考虑到对手各种应手而依然成立，对手也运用同样法则找到应对，则可以说双方达成了“均衡”。

在经济学中，均衡(equilibrium)意即相关量处于稳定值。比如在经典的供需分析中，若某一商品的市场价格使得欲购买该商品的人均能买到，同时想卖的人均能将商品卖出去，此时该商品的供求达到了均衡。这个市场价格可称之为均衡价格，产量可称之为均衡产量。均衡分析是经典经济学中的重要方法。

在讲解纳什均衡之前，我们再来看这样一个例子。一般对博弈论稍微有些了解的人，都会知道“囚徒困境”这个名词。这个例子就是在“囚徒困境”的基础上所作的修改。

A和B是两个因盗窃而被抓的惯犯。警察局局长C正在调查该局管辖区域内的一宗悬而未决的银行抢劫案，并且他根据一系列的线索判定A和B是这桩案子的凶犯。因为该局管辖地区治安一向混乱不堪，C的上级对C非常恼火，直接威胁C如果银行案破不了，就要撤销C局长的职位，给予降级惩罚。C在上级的压力下不得不耗费大量时间、精力提审A和B。为了能够让两个囚犯认罪，C想让A和B明白，假如只有他们其中的一人坦白认罪则这个人可能受到的最严厉的惩罚是什么，但向他们遵守承诺，若两个人都坦白，则会从轻发落。

于是，这个警察局长C分别与A、B立下许诺：如果只有一个人坦白认罪，则认罪的一方会收到所有指控，会因银行抢劫而判无期徒刑，另一个人则不会再加刑罚。如果无人认罪，两个人都会因盗窃罪而判刑2年。如果两个人都坦白，则两个人都被判处有期徒刑5年。

这样，警察局长C给A和B构造了一个博弈。不妨假设，A和B都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人，同时A和B被分别审查不能够进行沟通。在这种情况下，A会在脑子里打小算盘，他会想：如果选择坦白，那么B选择坦白时将判刑5年，B选择不坦白时将判刑20年，因此选择坦白时最坏的打算就把牢底坐穿；若是选择不坦白，那么B选择坦白时将无罪释放获得自由，B选择不坦白时将判有期徒刑5年，因此选择不坦白时最坏的可能就是被囚禁5年。两害相权，取其轻。因此在这种情况下，A必然会选择不坦白，同样的道理，B也会选择不坦白。这个时候，博弈达到了这样一种局面，这

种局面就是纳什均衡（Nash Equilibrium）。

纳什均衡的思想其实并不复杂，在博弈达到纳什均衡时，局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益，于是各方为了自己利益的最大化而选择了某中最优策略，并与其他对手达成了某种暂时的平衡。这种平衡在外界环境没有变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实，那么这种平衡状况就能够长期保持稳定。

再简单一点说，一策略组合中，所有的参与者面临这样的一种情况：当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略，他的收益将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。由此可见，纳什均衡是一稳定的博弈结果。打一个比方，如果把一个乒乓球，放到一个光滑的铁锅里，不论其初始位置在何处，最终乒乓球都会稳定地停留在锅底，这时的锅底就可称为是一个纳什均衡点。相反，如果锅是扣在地上的，那么锅底部位是很难放稳一个乒乓球的，因为往任何方向的一点点移动，都会使球彻底离开锅底。这时的锅底部位就不是一个纳什均衡点了。

博弈的结果并不都能成为均衡。博弈的均衡是稳定的，则必然可以预测。纳什均衡的另一层含义是：在对方策略确定的情况下，每个参与者的策略是最好的，此时没有人愿意先改变或主动改变自己的策略。在上面的“囚徒困境”变形的博弈中，A和B都不坦白就是一个纳什均衡，这对双方来说都是最优选择。同时在这个博弈中，其均衡对双方来说是全局最优的。当然博弈达到纳什均衡，并不一定是对参与者最有利的结果，更不意味着是对整个社会作为一个整体而言最有利的结果，比如“囚徒困境”的例子导致了整体的不利。

围棋与这个博弈的例子是有所不同的。上面的这个例子是A和B双方没有信息交换下的博弈，这就是博弈论中的静态博弈概念。围棋则是对弈双方相继按照一先一后次序行动的博弈。对于一人一步的相继行动的博弈，每个参与者都必须向前展望或预期，估计对手的意图，从而倒后推理，决定自己这一步应该怎么走。这是一条线性的推理链：“假如我这么做，他就会那么做——若是那样，我会这么反击”，后面的步骤依此类推。也就是说，你怎么走棋，完全取决于对手的上一招。这在博弈论上叫做“倒推法”。在动态博弈中，存在明显的马太效应，也就是说凡是少的，连他仅有的也夺过来；凡是多的，就加给他，让他更多。比如在围棋上，就有“一招不慎，满盘皆输”的谚语，当然我们也要应用动态博弈的马太效应原理，在获得优势的情况能够保持优势扩大优势，直至最后成功。

而在同时行动的静态博弈里，没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。在这种情况下，互动推理不是通过观察对方的策略进行，而是必须通过看穿对手的策略才能展开。要想做到这一点，单单假设自己处于对手的位置会怎么做还不够。即便你那样做了，你只会发现，你的对手也在做同样的事情，即他也在假设自己处于你的位置会怎么做。因此，每一个人不得不同时担任两个角色，一个是自己，一个是对手，从而找出双方的最佳行动方式。与一条线性的推理链不同，这是一个循环，即“假如我认为对方认为我认为??”。

这样来看，定式是一系列纳什均衡的累计直至局部达到稳定的一种变化，直到一方认为可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被验证并长期积累而成。

因此在动态博弈中，纳什均衡的要义在于：即使在对抗条件下，双方可以通过向对方提出威胁和要求，找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥协，甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominant?strategy)，即无论对方作何选择，这一策略优于其他策略。 2．从爱情故事谈起：优势策略与房地产开发博弈

“原地高天，堪叹古今情难尽；痴男怨女，可怜风月债难偿。”我们来先看欧·亨利的小说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的MM和GG，很是穷困潦倒。除了MM那一头美丽的金色长发，GG那一只祖传的金怀表，便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦，他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利益，他们愿意奉献和牺牲自己的一切。

话说明天就是圣诞节了，小两口都是身无余钱。为了让爱人过得好一点，每个人还是想悄悄儿准备一份礼物给对方。GG卖掉了心爱的怀表，买了一套漂亮发卡，去配MM那一头金色长发。MM剪掉心爱的长发，拿去卖钱，为GG的怀表买了表链和表袋。

最后，到了交换礼物的时刻，他们无可奈何地发现，自己如此珍视的东西，对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西，竟成了无用之物。出于无私爱心的利他主义行为，结果却使得双方的利益同时受损。欧·亨利在小说中写道：“聪明的人，送礼自然也很聪明。大约都是用自己有余的物事，来交换送礼的好处。然而，我讲的这个平平淡淡的故事里，两个住公寓的傻孩子，却是笨到极点，彼此为了对方，白白牺牲了他们屋檐下最珍贵的财富。”从这段文字看，欧亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨，单从利益的角度来解读。我们假定，他们每个人，有一个“毫不利己专门利人”的偏好系统，毫不考虑自身利益，专门谋求别人的幸福。这样，个人选择付出还是不付出，只看对方能不能得益，与自己是否受损无关。以这样的偏好来衡量，最好的结果自然是自己付出而对方不付出，对方收益增大；次好的结果是大家都不付出，对方不得益也不牺牲；再次的结果是大家都付出；最坏的结果是别人付出而自己不付出，靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结果的评价：第一种结果给3分，第二种结果给1分，第三种结果

给1分，最后那种给0分。

不难看出，无论对方选择付出，还是选择不付出，个人自己的最佳选择都是付出。然而这并不是对大家都有利的选择。事实上，大家都选择不付出，明显优于大家都选择付出的境况，这就达到了上文提到的纳什均衡。

实际上，这里的例子是一个博弈论中所说的占优策略均衡。通俗地说，在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此，占优策略均衡一定是纳什均衡。在这个例子中，MM选择不付出，也就是不剪掉金发对于MM来说是一个优势策略，也就是说MM不付出，GG不管选择什么策略，MM所得的结果都好于GG。同理，GG不卖掉怀表对于GG来说也是一个优势策略。

再举个简单的例子：一名篮球前锋和队友在蓝下面对着对方的一个后卫时，形成了二打一的局面，该前锋可以选择直接投篮，也可以选择传球给队友，根据经验，传球过人的成功率更大，那么传球就是该前锋的优势策略。即某些时候它胜于其他策略，且任何时候都不会比其他策略差。如果一个球员具有这样一种策略，无论其他球员怎么做，这个策略都会高出一筹，那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略，他的决策就会变得非常简单，只要直接采用该策略而完全不必考虑对手的应对策略。

还有一个要注意的问题是，采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好，这是很多博弈论普及书中容易出错的一个问题。应该说，对局者采用优势策略在对方采取任何策略时，总能够显示出优势。比如就这个例子来说，就MM来说，她采用不付出的策略，无论GG付出或不付出，MM的不付出策略总是占有优势。GG的优势策略也是一样。但是，MM选择不付出的最坏结果是1，二选择付出的最好结果是3，很明显，MM的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出一筹。

反之，劣势策略则是指在博弈中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略，劣势策略是我们在日常生活中不可以选择的行动。劣势策略是与优势策略相对应的概念，笔者这里就不多做介绍。 3．房地产博弈、警察捉小偷博弈与纳什均衡

实际上，在上一小节，每个参与人都有优势策略的情况下，优势策略均衡是非常合乎逻辑的。一个优势策略优于其他任何策略，同样，一个劣势策略则劣于其他任何策略。假如你有一个优势策略，你可以选择采用，并且知道你的对手若是有一个优势策略他也会照办；同样，假如你有一个劣势策略，你应该避免采用，并且知道你的对手若是有一个劣势策略他也会规避。但遗憾的是不是所有博弈都有优势策略，哪怕这个博弈只有两个个参与者。实际上，优势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则，但这些规则却并不适用于大多数现实生活中的博弈。

来看这样一个房地产开发博弈的例子。假定北京市的房地产市场需求有限，Ａ、Ｂ两个开发商都想开发一定规模的房地产，但是市场对房地产的需求只能满足一个房地产的开发量，而且，每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下，无论是对开发商Ａ还是开发商Ｂ，都不存在一种策略完全优于另一种策略，也不存在一个策略完全劣于另一个策略。因为，如果Ａ选择开发，则Ｂ的最优策略是不开发；如果Ａ选择不开发，则Ｂ的最优策略是开发；类似地，如果Ｂ选择开发，则Ａ的最优策略是不开发；如果Ｂ选择不开发，则Ａ的最优策略是开发。这样就形成了一个循环选择。

根据纳什均衡含义就是：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。这个博弈的纳什均衡点不止一个，而是两个：要么A选择开发，B不开发；要么A选择不开发，B选择开发。在这种情况下，A与B都不存在优势策略，也就是A和B不可能只要选择某一个策略而不考虑对方的所选择的策略。实际上，在有两个或两个以上纳什均衡点的博弈中，其最后结果难以预测。在房地产博弈中，我们无法知道，最后结果是A开发，B不开发还是A不开发，B开发。

再来看这样一个警察捉小偷博弈的例子。某个村庄上只有一名警察，他要负责整个村的治安。小村的两头住着两个全村最富有的村民A和B，A、B分别需要保护的财产为2万元、1万元。整个小村某一天来了个小偷，要在村中偷盗A和B的财产，这个消息被警察得知。因为分身乏术，警察一次只能在一个地方巡逻；而小偷也只能偷盗其中一家。若警察在某家看守财产，而小偷也选择了去该富户家，就会被警察抓住；若警察没有看守财产的富户家而小偷去了，则小偷偷盗成功。

一般人会凭着感觉认为，警察当然应该看守富户A家财产，因为A2万元的财产而B只有1万元的财产。实际上，对于警察的一个最好的做法是，警察抽签决定去A还是B家。因为A家的财产是B家的2倍，所以用两个签代表A家，比如如果抽到1、2号签去A家，抽到3号签去B家。这样警察有2／3的机会去A家进行做看守，1／3的机会去B家做看守。而小偷的最优选择是：以同样抽签的办法决定去A家还是去B家实施偷盗，只是抽到1、2号签去A家，抽到3号签去B家，那么，小偷有l／3的机会去A家，2／3的机会去B家。这些数值是可以通过联立方程准确计算出的，笔者这里就不给出具体的数学计算过程。

细心的读者会发现，警察捉小偷博弈与前面所举的两个博弈案例有一个很大的差别，就是用到了概率的知识，警察与小偷没有一个一定要选择某个策略的纳什均衡，而只有选择某个策略是多少几率的纳什均衡。

在博弈论中，可以选择出某个策略的纳什均衡，这个策略叫做纯策略，凡是用到概率（并且几率不能为0和1，否则就退化

为纯策略，可以想见，纯策略的纳什均衡只是博弈的一种特例）的纳什均衡。用专业的话来说，所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略均衡点。所谓混合策略是指参与者采取的不是惟一的策略，而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。而这个博弈没有纯策略纳什均衡点，而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的混合策略选择。

最常见混和策略就是猜硬币游戏。比如在足球比较开场，裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的，概率应该都是1/2。那么，猜硬币游戏的参与者都是1/2的概率选择正与反，这时博弈达到混和策略纳什均衡。再比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡，对每个小孩来说，自己采取出“剪”、“布”还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大，那么这个对弈者在游戏中输的可能性就增大。因此，每个小孩的最优混合策略是采取每个策略的可能性是l／3。在这样的博弈中，每个小孩各取三个策略的1／3是纳什均衡。由此可见：纯策略是参与者一次性选取的，并且坚持他选取的策略；而混合策略是参与者在各种备选策略中采取随机方式选取的。在博弈中，参与者可以改变他的策略，而使得他的策略选取满足一定的概率。当博弈是零和博弈时，即一方所得是另外一方的所失时，此时只有混合策略均衡。对于任何一方来说，此时不可能有纯策略的占优策略。 4．位置博弈与商家策略

有这么一个大家都很熟悉的现象，那就是在每个大大小小的城市街道上，经常见到一些地段上的商店十分拥挤，构成一个繁荣的商业中心区，但另一些地段却十分冷僻，没什么商店。更有意思的是，往往在一个同类型的商家总是聚集在比较近的地方，比如在任何城市肯德基、麦当劳之间总是津津相邻。再如超市现象，前两年有很多人对超市的布局发表了一些议论。因为有人注意到，如果在一条街上有2～3家超市的话，这几家超市经常性地会“相依为邻”，选址离得很近，倘若它们稍微分散地布置于街上，无疑对市民的购物提供相当的便利，因此他们认为超市“拥挤”在一起属于资源浪费。

类似的事情发生于电视台的节目播放。很多电视迷会发现，大部分电视台总是将最精彩的节目放在相同的时间段，甚至有些时候是在相同时间段播放类似的节目，比如你播“快乐大本营”，我就播“超级总动员”；你播“玫瑰有约”，我就播“单身男女”。人都说文人相轻，电视台也是这么相煎太急。

博弈论能够对这个现象作出科学的解释。首先看一个简单的博弈模型进行叙述：

假设有条完全笔直的公路，连接城市A到城市B之间的交通。这条公路上每天行驶着大量的车辆，并且车流量在公路上是均匀分布的。假设有两家快餐店，我们不妨假设为靠高速公路起家的麦当劳与肯德基，它们要在这条公路上选择一个位置开设快餐，招揽来往车辆。为了能够更加清晰的说明这个博弈，我们不得不画一张图。

再对该模型作一个合乎逻辑的假定：通常情况下，车辆总是乐意到距自己最近的快餐店购买食物。根据这个原则，从资源的最佳配置来看，麦当劳、肯德基应该分别开在1/4、3/4处是最优。在这种均匀散布的情况下，每家快餐店所有拥有的客户从距离最近的城市到两家快餐店的中心为止，因此都拥有1/2的顾客量，同时对于开车的人们总体来说，这种策略的选择，车辆到快餐店的总的距离最短。然而，，天总不能遂人之愿。肯德基与麦当劳都是百年老店，自然是精明之至，从经济学上就是具有经济理性。他们只要手段合法，总是希望自己的生意尽可能地红火，至于其他人的生意的好坏则与己无关。出于这种理性，肯德基分店经理肯定会想到：如果我将店铺从3/4点处向左移一点，那麽1/4点之间的中点不在是1/2点处，而是位于1/2点的靠左边一点。这等于说，这一移位，肯德基将从麦当劳抢夺走部分顾客，这对于肯德基单方面来说无疑是一个好主意。当然麦当劳也不甘示弱，作为一个“理性人”，麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。不难想象，双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态，甲乙两人相依为邻且相安无事地做起快餐生意。如果我们放宽条件，不是两家快餐店，而是很多家快餐店，很容易分析得到结果：这些快餐店仍然会在1/2处设店达到纳什均衡。

同样的道理，如果地段的繁华等其他原因在一条路上上都可以认为到处相同的话，没有一个商家会将自己安置于某条路的一头，只要条件许可，超市将几乎趋向于相依为邻，这种现象完全可以看作公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理，在博弈论中称为位置博弈。

电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上，我们只要将时间设想为上述案例中的公路，就不难分析到它们都将得到大部分观众青睐的精彩节目放在同一黄金时段完全是市场竞争的结果。在这种情况下，电视台之间的竞争会更加激烈，为了获得收视率，电视台只能在制作质量上下功夫，获得真正实惠的依然是广大观众。 5．猎鹿模型的合作哲学

来看这样一个“狩猎”故事：设想在原始社会，人们靠狩猎为生。某一天有两个猎人围住了一头鹿，他们各卡住鹿可能逃跑的两个路口中的一个。只要他们齐心协力，鹿就会成为他们的猎物，不过仅凭一个人的力量是无法猎捕到鹿的。如果此时周围跑过一群兔子，两位猎人中的任何一个只要去抓兔子一定会获得成功，他会抓住4只兔子。从能够填饱肚子的角度来看，4只兔子可以供一个人吃4天，1只鹿如果被抓住将被两个猎人平分，可供每人吃10天。这里不妨假设两个猎人叫A和B。我们

引入一种矩阵式的对两人博弈的描述方法，见下图。

4 4

0 4 4 0

10 10

在这个矩阵图中，每一个格子都代表一种博弈的结果。具体说来，在左上角的格子表示，猎人A和B都抓兔子，结果是猎人A和B都能吃饱4天；在左下角的格子表示，猎人A抓兔子，猎人B打鹿，结果是猎人A可以吃饱4天，B则一无所获；在右上角，猎人A打鹿，猎人B抓兔子，结果是猎人A一无所获，猎人B可以吃饱4天；在右下角，猎人A和B合作抓捕鹿，结果是两人平分猎物，都可以吃饱10天。

在这个博弈中，根据纳什均衡的定义，应用博弈论中的“严格劣势删除法”（有兴趣的读者可以找本书参考文献中的相关书籍阅读，这里不做详细介绍。）可以得到该博弈有两个纳什均衡点，那就是：要么分别打兔子，每人吃饱4天；要么合作，每人吃饱10天。

两个纳什均衡，就是两个可能的结局。两种结局到底哪一个最终发生，这无法用纳什均衡本身来确定。比较[10，10]和[4，4]两个纳什均衡，明显的事实是，两人一起去猎鹿比各自去抓兔子可以让每个人多吃12天。按照经济学的说法，合作猎鹿的纳什均衡，分头抓打兔子的纳什均衡，具有帕累托优势。与[4，4]相比，[10，10]不仅有整体福利改进，而且每个人都得到福利改进。换一种更加严密的说法就是，[10，10]与[4，4]相比，其中一方收益增大，而其它各方的境况都不受损害。这就是[10，10]对于[4，4]具有帕累托优势的含义。

在经济学中，帕累托效率准则是：经济的效率体现于配置社会资源以改善人们的境况，主要看资源是否已经被充分利用。如果资源已经被充分利用，要想再改善我就必须损害你或别的什么人，要想再改善你就必须损害另外某个人，一句话，要想再改善任何人都必须损害别的人了，这时候就说一个经济已经实现了帕累托效率。相反，如果还可以在不损害别人的情况下改善任何人，就认为经济资源尚未充分利用，就不能说已经达到帕累托效率。

目前在世界上比比皆是的企业强强联合就很接近于猎鹿模型的帕累托改善，跨国汽车公司的联合、日本两大银行的联合等等均属此列，这种强强联合造成的结果是资金雄厚、生产技术先进、在世界上占有的竞争地位更优越，发挥的影响更显赫。总之，他们将蛋糕做得更大，双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好，最重要的就是将蛋糕做大。在宝钢与上钢的强强联合中，宝钢有着资金、效益、管理水平、规模等各方面的优势，上钢也有着生产技术与经验的优势。两个公司实施强强联合，充分发挥各方的优势，发掘更多更大的潜力，形成一个更大更有力的拳头，将蛋糕做得比原先两个蛋糕之和还要大。

猎鹿模型的讨论，我们的思路实际只停留在考虑整体效率最高这个角度，而没有考虑蛋糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。

我们不妨做这样一种假设，猎人A比猎人B狩猎的能力水平要略高一筹，但B猎人却是酋长的之子，拥有较高的分配权。可以设想，A猎人与B猎人合作猎鹿之后的分配不是两人平分成果，而是A猎人仅分到了够吃2天的鹿肉，B猎人却分到了够吃18天的鹿肉。在这种情况下，整体效率虽然提高，但却不是帕累托改善，因为整体的改善反而伤害到猎人A的利益。我们假想，具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎人A的狩猎热情遭到伤害，这必然会导致整体效率的下降。进一步推测，如果不是两个人进行狩猎，而是多人狩猎博弈，根据分配可以分成既得利益集团与弱势群体，这和我国的现状非常相似。

我国改革进程根据著名经济学家左大培先生的研究，在九十年代中期以前是一种帕累托改善的过程。但是随着国企改制失误、教育体制改革失误、医疗改革失误、腐败等因素的影响，逐渐是极少数既得利益集团获得最大的利益（中国千万富翁超过24万人），基尼指数接近0.6，社会极度不平等，贫富差距极度拉大，帕累托改善已不存在。很显然，这种情况如果继续下去，社会稳定和改革深化会受到决定性的冲击。

第三章 “囚徒困境”的启示

共8页:

发生在我们身边的博弈(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档