13. F 子博弈精炼纳什均衡一定是一个纳什均衡。
14.F零和博弈的无限次重复博弈中,所有阶段都不可能发生合作,局中人会一直重复原博弈的混合战略纳什均衡。
15.T 原博弈惟一的纳什均衡本身是帕雷托效率意义上最佳战略组合,因此不管是重复有限
次还是无限次,不会和一次性博弈有区别。
16.F 动态博弈是指各博弈方的选择和行动又先后次序的博弈。动态博弈的信息可以是不对
称的。所以策略分为先发制人和。斯塔克伯格博弈揭示“先发制人”更有利,而“后发制人”-----后行动的博弈方可以先观察对方行为后再选择行为反而处于不利境地。
三、计算与分析题
1、(1)
B 做广告 不做广告 25,2 30,6 A 做广告 不做广告 20,8 10,12 (2)纯策略纳什均衡为(做广告,做广告),(不做广告,不做广告)。 2、
百事可乐 不涨价 涨价 100,-30 140,35 可口可乐 不涨价 涨价 10,10 -20,30 纳什均衡(不涨价,不涨价),(涨价,涨价)。从帕累托均衡角度,为(涨价,涨价)
3、 (1)如果(上,左)是上策均衡,那么,a>e b>d, g
(2)如果(上,左)是纳什均衡,a>e b>d,不等式必须满足 4、
新华航空 11
合作 北方航空 竞争 0,90 6,6 合作 竞争 50,50 90,0 5、略 6、
按 按 大猪 等 9,-1 0,0 纳什均衡为(按,等)。
7、略
8、纯策略纳什均衡(B,甲),(A,丙) 9、
甲
U D
(1)不存在纯策略纳什均衡
(2)设甲选择“U”的概率为P1,则选择“D”的概率为1-P1 乙选择“L”的概率为P2,则选择“R”的概率为1-P2
对甲而言,最佳策略是按一定的概率选“上”和“下”,使乙选择“左”和“右”的期望值相等
即 P1*8+(1-P1)*0= P1*1+(1-P1)*5 解得 P1=5/12
即(5/12,7/12)按5/12概率选“上”、7/12概率选“下”为甲的混合策略Nash均衡 对乙而言,最佳策略是按一定的概率选“左”和“右”,使乙选择“上”和“下”的期望值相等
即 P2*5+(1-P2)*0= P2*2+(1-P2)*4 解得 P2=4/7
即(4/7,3/7)按4/7概率选“左”、3/7概率选“右”为乙的混合策略Nash均衡
12
小猪 等 4,4 5,1 乙 L 5,0 2,6 R 0,8 4,5 10、略。 11、见笔记 12、见笔记。 13.
首先,运用严格下策反复消去法的思想,不难发现在博弈方1的策略中,B是相对于T的严格下策。把博弈方1的B策略消去后又可以发现,博弈方2的策略中C是相对于R的严格下策,从而也可以消去。
两个博弈方各消去一个策略后的博弈是如下的两人2×2博弈,已经不存在任何严格下策。再运用划线或箭头法,很容易发现这个2×2博弈有两个纯策略纳什均衡(M,L)和(T,R)。
由于两个纯策略纳什均衡之间没有帕累托效率意义上的优劣关系,一次性静态博弈的结果不能肯定。由于双方在该博弈中可能采取混合策略,因此实际上该博弈的结果可以是4个纯策略组合中的任何一个。 14.
假设哥的方案是S1:1-S1,其中S1是自己的份额,弟的方案是S2:1-S2,S2是哥的份额,那么可用如下的扩展形表示该博弈:
13
运用逆推归纳法先分析最后一阶段哥的选择。由于只要接受的利益不少于不接受的利益哥就会接受,因此在这个阶段只要弟的方案满足S2/2≥0,也就是S2≥0,哥就会接受,否则不会接受。由于冰激凌的份额不可能是负数,也就是说因为哥不接受弟的方案冰激凌会全部化掉,因此任何方案哥都会接受。
现在回到前一阶段弟的选择。由于弟知道后一阶段哥的选择方法,因此知道如果不接受前一阶段哥提出的比例,自己可以取S2=0,独享此时还未化掉的1/2块冰激凌;如果选择接受前一阶段哥的提议,那么自己将得到1-S1,显然只要1-S1≥1/2,即S1≤1/2,弟就会接受哥的提议。
再回到第一阶段哥的选择。哥清楚后两个阶段双方的选择逻辑和结果,因此他在这一阶段选择S1=1/2,正是能够被弟接受的自己的最大限度份额,超过这个份额将什么都不能得到,因此S1=1/2是最佳选择。
综上,该博弈的子博弈完美纳什均衡是:哥哥开始时就提议按(1/2,1/2)分割,弟弟接受。
15.本题中老师的调控手段高分和低分的差距。该博弈的扩展形如下:
学生选择全面复习的期望得益是U1=0.9(Wh-200)+ 0.1 (Wl-200 ) 重点复习的期望得益是U2=0.5(Wh-40)+ 0.5(Wl-40 )
14
只有当U1》U2时学生才会选择全面复习。根据U1》U2我们可以算出Wh- Wl》400。这就是老师能有效全面复习需要满足的条件。其实在奖学金与成绩挂钩时,Wh- Wl也可以理解成不同等奖学金的差额。
16.没有纯策略均衡,只有混合策略均衡((0.25,0.75),(0.5,0.5)) 17.可以根据画线法求得有唯一纯策略均衡(上,左) 18.参见第15题
四、论述题
1、解释“囚犯困境”,并举商业案例说明。
(1)假设条件举例:两囚徒被指控是一宗罪案的同案犯。他们被分别关在不同的牢房无法
互通信息。各囚徒都被要求坦白罪行。如果两囚徒都坦白,各将被判入狱5年;如果两人都不坦白,两囚徒可以期望被从轻发落入狱2年;如果一个囚徒坦白而另一个囚徒不坦白,坦白的这个囚徒就只需入狱1年,而不坦白的囚徒将被判入狱10年。 (2)囚徒困境的策略矩阵表。每个囚徒都有两种策略:坦白或不坦白。表中的数字分别代
表囚徒甲和乙的得益。
囚徒乙 坦白 囚徒甲 坦白 -5,-5 不坦白 -1, -10 -2, -2 不坦白 -10,-1 (3)分析:通过划线法可知:在囚徒困境这个模型中,纳什均衡就是双方都“坦白”。给定
甲坦白的情况下,乙的最优策略是坦白;给定乙坦白的情况下,甲的最优策略也是坦白。这里双方都坦白不仅是纳什均衡,而且是一个上策均衡,即不论对方如何选择,个人的最优选择是坦白。其结果是双方都坦白。
(4)商业案例:寡头垄断厂商经常发现它们自己处于一种囚徒的困境。当寡头厂商选择产
量时,如果寡头厂商们联合起来形成卡特尔,选择垄断利润最大化产量,每个厂商都可以得到更多的利润。但卡特尔协定不是一个纳什均衡,因为给定双方遵守协议的情况下,每个厂商都想增加生产,结果是每个厂商都只得到纳什均衡产量的利润,它远小于卡特尔产量下的利润。
15
2、用“小偷与守卫的博弈”说明“激励(监管)悖论”。
(1)假设条件举例:偷窃和防止偷窃是小偷和门卫之间进行博弈的一场游戏。门卫可以不
睡觉,或者睡觉。小偷可以采取偷、不偷两种策略。如果小偷知道门卫睡觉,他的最佳选择就是偷;如果门卫不睡觉,他最好还是不偷。对于门卫,如果他知道小偷想偷,他的最佳选择是不睡觉,如果小偷采取不偷,自己最好去睡觉。
(2)小偷与门卫的支付矩阵表(假定小偷在门卫睡觉时一定偷成功,在门卫不睡觉时偷一
定会被抓住):
门卫 睡觉 小偷 偷 不睡觉 1,-1 -2, 0 不偷 0, 2 0, 0 (3)分析:通过划线法可知:这个博弈是没有纳什均衡的。门卫不睡觉,小偷不偷,双方
都没有收益也没有损失;门卫不睡觉,小偷偷,门卫因为是本职工作得不到奖励,小偷被判刑丧失效用2单位;门卫睡觉,小偷不偷,门卫睡觉的很愉快得到效用2单位,小偷没有收益也没有损失;门卫睡觉,小偷偷,门卫因失职被处分而丧失效用1单位,小偷偷窃成功获得效用1单位。
(4)“激励(监管)悖论”说明:现实中,我们看到,当门卫不睡觉时,偷窃分子便收敛一
阵;严打的时期一过,偷窃分子又开始兴风作浪,在不能容忍小偷过分猖狂的时候,门卫不得不再次开始认真。即偷的小偷越多,那么不睡觉的门卫将会越多,偷的小偷越少,不睡觉的门卫将越少;反过来,不睡觉的门卫越多,偷的小偷就越少,不睡觉的门卫越少,偷的小偷就越多。如果偷窃集团倾巢出动,那么门卫的选择也是全部不睡觉,但门卫一旦全部不睡觉,小偷最好选择全部不偷,小偷一旦选择全部不偷,门卫最好全部选择睡觉。
(5)结论:加重对小偷的处罚在长期中并不能抑制偷窃(而只能使门卫偷懒);加重处罚失
职门卫恰恰是会降低偷窃发生的概率。这种门卫和小偷的博弈所揭示的,政策目标和政策结果之间的这种意外关系,常被称为“激励的悖论”。
16