若用重心法将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。
6.Median cluster(中位数距离)
若用中位数距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
7.Ward method(离差平方和)
若用离差平方和法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。
经过比较,各种方法得到的结果又相似点也有不同点。笔者认为,其中最远距离法、中位数距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。
5.12 下表是我国1991-2003年的固定资产投资价格指数,试对这段时期进行分段,并据此对我国固定资产投资的价格变化情况进行分析。 年份 指数 年份 指数 1991 109.5 1998 99.8 1992 115.3 1999 99.6 1993 126.6 2000 101.1 1994 110.4 2001 100.4 1995 105.9 2002 100.2 1996 104.0 2003 100.2 1997 101.7
第六章
6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?
答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各
个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p个原始变量X1,X2,?,Xp的总方差tr(Σ)分解成了p个相互独立的变量
Y1,Y2,?,Yp的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们
pY?称?k??k??k 为第k个主成分k的贡献率。第一主成分的贡献率最大,这表明Y1?T1Xk?1??pkk?1综合原始变量X1,X2,?,Xp的能力最强,而Y2,Y3,?,Yp的综合能力依次递减。若只取
m(?p)个主成分,则称?m???kk?1m??k?1pk 为主成分Y1,?,Ym的累计贡献率,累计贡献率
表明Y1,?,Ym综合X1,X2,?,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。
6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。 答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
6.6 已知X=(
)’的协差阵为 试进行主成分分析。
解:=0
计算得
当
时
同理,计算得
时,
易知
相互正交
单位化向量得,
,
综上所述, 第一主成分为
第二主成分为
第三主成分为
,
6.7 设X=()’的协方差阵(p为
, 0
证明:为最大特征根,其对应的主成分为证明:
=
=
,
为最大特征根
当
时,
=
。