分别求出对应于特征值的特征向量ei=[ei1,ei2,?eij] ④计算主成分贡献率及累计贡献率 贡献率:
?ip(i?1,2,?,p)k??k?1 主成分分析把p 个原始变量x1,x2,?,xP的总方差分解为p 个不相关的变量z1,z2,,zP,方差之和= λ1 + λ2 + ? + λ p 。主成分分析的目的就是为了减少变量的个数,一般是不会使用所有p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。由此可进一步得到i主成分的方差占总方差的比例称此方差比例为主成分Zi 的贡献率。第一主成分的贡献率最大,这表明Zi综合原始变量x1,x2,?,xP的能力最强,而x2,?,xP的综合能力依次减弱。 累计贡献率:
若只取前m(m
i??k?1pk(i?1,2,?,p)k??k?1为主成分z1,z2,?,zm的累计贡献率,累计贡献率表明z1,z2,, zm综合x1,x2,?,xP的能力。通常取m,使得累计贡献率达到一个较高的百分数.一般取累计贡献率达85-95%的特征值λ1,λ2,?,λm所对应的第一,第二,??,第m(m≤p)个主成分。
lij?p(zi,xj)??ieij(i,j?1,2,?,p)⑤ 计算主成分载荷主成分Zi与变量X j的相关系数称为主成分负荷量.因此,第i 个特征向量 e i的第j 个分量eij描述了第j 个变量对第i 个主成分的重要性,它与Zi和X j之间的相关系数成比例。
⑥计算各主成分得分:
根据下列公式计算主成分得分 Z1 =l l1x1*+ l l2x2* +?+ l lpxp*
z2 = l 21x1*+ l 21x2* +?+ l p1xp* ???????? zm = lm1x1*+ lm2x2* +?+ l ppxp* xp*为标准化后的数据. 得到主成分得分矩阵:
?z11?z21?Z?????zn1z12z22?zn2????z1m??z2m????znm?
4、最短距离法进行聚类分析(见课件)
5、相关系数的性质有哪些? (1)相关系数可正可负;
(2)相关系数的区间是[-1,1];
(3)具有对称性;即X与Y之间的相关系数(rXY)和Y与X之间的相关系数(rYX); (4)相关系数与原点和尺度无关;
(5)如果X与Y统计上独立,则它们之间的相关系数为零;但是r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性; (6)相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;
(7)虽然相关系数是两个变量之间的线性关联的一个度量,却不一定有因果关系的含义;
6、地理数据的标准化原因和目的是什么? 常见标准化方法有哪些?
涉及到通过各种途径和手段所得到的有意义的地理数据。要素(或指标)的量纲、数量级和数量变化幅度的差异,有可能突出某些数量级特别大的变量对分类的作用,而压低甚至排除了某些数量级很小的变量对分类的作用。消除量纲的不同和使每一变量都统一在某种共同的、相对均匀化的数值范围内。
①标准差标准化:
在式中,
式中:
j为第
j个变量的平均数;Sj为第j个变量的标准差。
由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1。
②总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即
??xijxijm(i?1,2,?,m;j?1,2,?,n)ij?xi?1
③ 极大值标准化,即
??xijxijmax{xij}i(i?1,2,?,m;j?1,2,?,n)
经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
④ 极差的标准化,即
xij?xij?min?xij?max?xij??min?xij?iii(i?1,2,?,m;j?1,2,?,n)
经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
7、什么是随机型决策问题,①它可以进一步分为哪几类问题?②各类问题有什么异同点?③对各类问题分别有什么决策方法,并说明各决策方法的基本原理
随机型决策问题指决策者所面临的各种自然状态将是随机出现的。 随机型决策问题,必须具备以下几个条件:
① 存在着决策者希望达到的明确目标;
② 存在着不依决策者的主观意志为转移的两个以上的自然状态; ③ 存在着两个以上的可供选择的行动方案;
④ 不同行动方案在不同自然状态下的益损值可以计算出来。 ) 随机型决策问题可进一步分为风险型决策问题和非确定型决策问题。
1)风险型决策问题:每一种自然状态发生的概率是已知的或者可以预先估计的。 2)非确定型决策问题:各种自然状态发生的概率也是未知的和无法预先估计的。 解决风险型决策问题的方法有:
1)最大可能法——将大概率事件看成必然事件,小概率事件看成不可能事件的假设条件下,通过比较各行动方案在那个最大概率的自然状态下的益损值进行决策。
2)期望值决策法——计算各方案的期望益损值,并以它为依据,选择平均收益最大或者平均损失最小的方案作为最佳决策方案。
3)树型决策法——树型决策法的决策依据是各个方案的期望益损值。计算过程一般从每一个树梢开始,经树枝、树杆、逐渐向树根进行。决策的原则一般是选择期望收益值最大或期望损失(成本或代价)值最小的方案作为最佳决策方案。
4)灵敏度分析法——由于状态概率的预测会受到许多不可控因素的影响,因而基于状态概率预测结果的期望益损值也不可能同实际完全一致,会产生一定的误差。对可能产生的数据变动是否会影响最佳决策方案的选择进行分析,这就是灵敏度分析。
5)效用分析法——考虑决策者个人的主观因素对决策过程产生影响,即决策者的主观价值概念(效用值),并将其应用于决策过程的方法。 解决非确定型决策问题的方法有: 乐观法——其决策原则是“大中取大”。 悲观法——其决策原则是“小中取大”。 折衷法——特点是,既不乐观,也不悲观,而是通过一个系数
,表示决策者对客观条件估计的乐观程度。
等可能性法——以各状态发生的概率相等为假设的期望值决策分析方法。
后悔值法——后悔值,是后悔值法决策的主要依据。所谓后悔值,是指某状态下的最大效益值与各方案的效益值之差。后悔值法,也称最小最大后增值法。
8、“和积法”求最大特征根和对应特征向量(见课件)
~(S1)将矩阵A?(aij)nxm的每一列向量的归一化得:Wij?aijn
ij?ai?1~~(S2)对Wij按行求和得:Wi?~W?ij
j?1n~(S3)将Wi归一化,即有:Wi?~Wi?W1~?W,则有特征向量:???n~?W?Wi?ni?1??? ???W1?(S4)计算与特征向量W????W?n??1对应的最大特征根的近似值:????maxmaxn??n?i?1(AW)iWi
此方法:实际上是将A的列向量归一化后取平均值作为A的特征向量。