§6 博弈决策概要
博弈决策指以博弈理论为指导进行决策,其主要特点是决策时要考虑竞争对手的竞争策略。
阐述博弈理论的学科称博弈论(game theory),博弈论的思路在古诺(Cournot,Antoine Augustin,1801-1977)的双头垄断模型中最早提出,冯?诺伊曼(John von Neumann,1903-1957)和摩根斯坦恩(Oskar Margenstern, 1902-1977)在1944年出版了《博弈论与经济行为》(Theory of Games and Economic Behavior)一书,最早提出了博弈论的概念。
现代博弈论则是由纳什(Nash, John F.)、海萨尼(Harsany, John C.)、泽尔腾(Selten, Reinhard)、夏普利(Sharpley, Lloyd S.)等人发展起来的,1994年的诺贝尔经济学奖就授予了前三位经济学家。
现在,博弈论已经成为现代经济学的基本分析工具之一,并且应用到了政治、经济、军事、社会、自然科学等各个领域。
6.1博弈论基本概念
博弈是一种对抗性竞争行为,如下棋、打牌、比赛,等等,是我们政治、军事、经济和生活中常见的一种行为。
1博弈现象
例1:“齐王赛马”
春秋战国时期,齐王和田忌各有“上、中、下”三等级赛马,齐王的马比田忌的同等级马要略胜一筹,但齐王的“中、下”级马跑不过田忌的“上、中”级马。 问比赛双方采取何种策略为宜?
例2:“价格联盟”
2000年6月,国内九大彩电企业结盟深圳,约定共同提高彩电零售价格。之后,又有空调价格联盟、民航机票价格联盟、电脑价格联盟,证券佣金价格联盟等等。但这些“联盟”均先后解体。价格联盟能提升相关企业利润,为什么联盟策略不能持续?
例3:“搭便车”
中国股市“非流通股股改”过程中,大小股东对“对价”往往不能达成一致意见,影响股改进程,使自身利益受损。问大小股东的正确策略是什么?
注:“搭便车现象”是奥尔森教授(1965)在《集体行动的逻辑:公共利益和团体理论》一书中提出的,是指在集体行动中,个人支付成本获得的收益被集体中的其他成员免费分享的现象。由于个人支付全部成本而只享受较少的收益分额因而集体中的理性个人没有动力去提供公共物品。
1
2博弈概念
1)定义
博弈即一些个人或组织,在一定环境条件下,按一定规则,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。
例“囚徒困境”
A、B二犯罪嫌疑人因在超市盗窃被抓现行,法院调查确信A、B二人系合伙累犯,但无原来犯罪的定案证据不能定罪。二嫌犯是惯犯,知道这个法律规定,故只承认被抓现行的这次盗窃行为,这个盗窃罪依法只能判2年。为使二犯受到应有的惩罚,检方当二人面说:坦白从宽,抗拒从严!如坦白交待所有罪行,从宽判1年;如抗拒不交待,被另一人坦白检举,将重判10年;如二人都坦白将各判6年。然后将二人分开关押审讯。问二嫌疑人的合理选择是什么?
“囚徒困境”中二囚犯相互间构成一种博弈,即坦白还是抵赖的选择问题。
2)博弈的要素
构建一个博弈,需要以下基本要素: (1)局中人(参与者)(players):每局博弈至少有两个参与者,如二囚犯; (2)行动集(action set):规定每个参与者可以采取的行动的集合,如坦白,抵赖;
(3)时序(playing sequence):游戏规则中规定的每个参与者决策的先后次序。局中人共享信息同时行动称静态博弈;局中人一方在了解对方行动后再行动称动态博弈。例中二囚徒分开,不知对方选择,可认为是同时行动;
(4)策略(strategies):策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同,策略包括信息。比如囚徒困境,每个局中人的行动只有两种:坦白,抵赖。但策略就包括:(坦白,抵赖)、(抵赖,抵赖)、(抵赖,坦白)、(坦白,坦白)四种。尽管最后的均衡是(坦白,坦白),但策略有四种。
策略告诉局中人,在每一种可预见的情况下选择什么行动。如:在预见“一方宽判1年,对方判10年”的情况下,局中人选择的行动是:坦白(一方),抵赖(对方)。
(5)得益(payoffs):局中人在不同情况下所得到的效用。如局中人二囚犯A、B在选择“坦白、抵赖”行动情况下,A、B的得益是(-1 ,-10)。
(6)信息(information):局中人决策所依据的信息。如坦白和抵赖所导致的各种刑期。
信息分为完全信息和不完全信息。
在完全信息中,局中人在决策时知道在此之前的全部信息,并且局中人A知道局中人B知道全部信息,并且局中人A知道局中人B知道局中人A知道全部信息,如
2
此以至无穷。比如下棋。
在不完全信息中,局中人不知道与博弈有关的全部信息。比如猜“石头——剪刀——布”的游戏。
(7)均衡(equilibria):均衡是所有局中人选取的最佳策略所组成的策略组合。如(坦白、坦白)。
在上述要素中,局中人、行动集、时序、策略、得益和信息规定了一局博弈的游戏规则。
3)博弈论研究内容
参见图6-1 博弈论内容体系图
图6-1博弈论内容体系图
3
3博弈决策思想与经济学决策思想的区别
博弈决策与传统经济学决策不同,其主要区别如表6-1
表6-1博弈决策思想与经济学决策思想的主要区别 表6-1 博弈决策 行动、策略、得益与博弈对手的可能策略。 基于个体“理性”的行为主体利益最大化,寻求行为主体的最佳策略 经济学决策 如收益率、价格、成本、等等 基于个体“理性”的行为主体利益最大化,寻求行为主体的满意方案 比较各方案的综合经济效益 主要考察环境变量,考察对象具相对客观稳定性。 适用于面对客观环境问题的分析与解释。 自己决策能力 决策约束条件 决策目标 决策思路 主要特征 适用特点 成败关键 针对竞争对手策略的最佳策略 主要考察竞争对手策略及相互策略组合,考察对象具主观随机性。 适用于面向主观选择的竞争性、对抗性问题的分析与解释。 自己决策能力PK对手决策能力 6.2博弈矩阵
1博弈矩阵概念
用以描述博弈相关的局中人,策略和得益等决策属性的表格称博弈得益矩阵,简称博弈矩阵。例如:“囚徒困境”中的博弈矩阵可表示如表(6-2)。借助博弈矩阵可以方便地进行博弈决策分析。
表6-2 囚徒A 坦白 抵赖 囚徒B 坦白 -6,-6 -10,-1 抵赖 -1,-10 -2,-2 6.3有鞍点博弈决策
有鞍点博弈决策是二人有限零和博弈决策中,不论双方当初采取什么策略,当博弈双方经过充分研究,不断改进博弈策略之后,双方找到了一个都不能再改善的策略汇合点,该点称鞍点,鞍点所反映的双方策略都是最优策略。
二人有限零和博弈是指这样的一类博弈问题:参加博弈的“局中人”只有二个,每个局中人都备有有限个可供选择的策略,而且在任一次博弈对局中,一方所得为另一方所失,局中人总的得失和为“零”。
4
二人有限零和博弈,可一般地表达为表(6-3)。 甲方的支付表可用矩阵表示。
g11 g21 ┆ gi1 g12 g22 ┆ gi2 ┄ ┄ ┄ g1j g2j ┆ gij ┄ ┄ ┄ g1n g2n gin
表6-3甲乙方策略 方得失值 β1 β2 ┄ βj ┄ βn α1 g11 g12 ┄ g1j ┄ g1n g21 g22 ┄ g2j ┄ g2n ┆ ┆ ┆ gi1 gi2 ┄ gij ┄ gin α2 ┆ αi ┆ ┆ ┆ ┆ gm1 gm2 ┄ gmj ┄ gmn
简记为G =( g i j )
甲方策略 ┆ ┆ ┆ αm gm1 gm2 ┆ ┆ ┄ gmj ┄ gmn 其最优策略的一般解法是“线性规划法”,当存在鞍点时可用“小中求大法”求解最优策略。
1二人有限零和博弈(有鞍点时)
“小中求大法”确定鞍点步骤:
对甲方的支付矩阵而言,先求甲方矩阵各行最小值;再找出其中的最大值;方法原理是假设甲方在各策略最不利的情况下,选一个相对有利的策略,该策略对应的收益是最起码的收益;
对乙方而言,甲乙利益是相互冲突的,所以,甲方最小得益就是乙方最大得益,可用“大中求小法”找出乙方在不利情况下的相对有利策略,如果
行max(min)= 列min(max)= K 则K就是“鞍点”,K是甲方的收益,也是乙的损失。双方对应的策略称为最优纯策略的解。
具体方法原理与求甲方最优策略一样:先求出各列最大值(因为用的甲方支付表,甲方最大就是乙方最小),再选其中的最小值(甲方最小就是乙最大),该值对应的乙方策略就是乙方的最优策略。
表6-4 乙方策略 例如:
β设甲方支付矩阵如表(6-4) 甲方支付表 1 β 2 β 3 β 4 min max 甲方最优策略是α2 ,乙方最优
策略是β2 ,双方博弈的值是3,博弈值对应的点就是鞍点。
在这个博弈中,甲只要坚持
甲α1 方α2 13 16 -3 15 16 1 24 8 29 10 29 -9 10 0 6 10 -9 3 -3 -6
3 5
策α 3α2策略,收益最少是3个单位。
略 α4 乙只有坚持β2 策略,损失才不
max会超过3。
min
3 -1 -6 3 3