7.检验某产品的重量,抽了5个样品,每个样品只测了一个指标,分别为1,2,6,11,试用快速聚类法将样品分为两类。
三.简答题
1.判别分析与聚类分析有何区别?
判别分析是对于n个给定的样本,已知每个样本属于k个类别中的某一类,利用这些数据,找到一种判别方法,使得这种判别方法具有某种最优性质,能把属于不同种类的样本点尽可能的区别开来,并对测得同样指标数据的新样本,能够判别这个样本归属于哪一类。 聚类分析是在样品和类之间定义一种距离,按照距离的大小对样品进行聚类,距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类中。
聚类分析没有判别函数,对新的样品无法判别它应该归属哪一类,必须重新进行聚类过程,才能判别它属于哪类。系统聚类分析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,而判别分析没有这种功能,但判别分析的距离判别法与聚类分析非常相似,也是根据距离的远近判别样本的归属问题。 2.K均值法与系统聚类法的异同
(1) K均值法事先必须确定分类的个数,分类的个数确定,而系统聚类分析系统聚类分
析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,可以根据需要将样品分为几类。 (2) K均值法可以随意将样品分为K类,根据样品到类中心的距离远近重新进行分类,
而系统聚类中样品一旦划入某一类就不能更改。 (3) K均值法样品与不同类间的距离采用点到类中心的平方欧氏距离,而系统聚类中点
间距离有很多种定义方法。 3. 简述系统聚类法的思想。 4. 简述快速聚类法的思想。
第六章主成分分析
一.判断题
1.主成分分析数学模型中的正交变换,在几何上就是做一个坐标旋转。( )
2.假设X1,X2,...,Xp为某实际问题所涉及的p个变量,Y1,Y2,...,Yp是其p个主成分,
判断下列说法是否正确:
(1)由原始变量X1,X2,...,Xp的协方差矩阵和相关矩阵出发,求得的主成分是一致的。 ( )
(2)对变量做主成分分析之前,必须对原始数据进行标准化。( )
(3)由标准化数据的协方差矩阵出发求得的主成分与由原始数据的相关系数矩阵出发求得的主成分一致。( ) (4)Cov(Yi,Yj)?0,i?j。( )
(5)由于Y1,Y2,...,Yp包含原始变量的信息量递减,因而实际应用中选取前几个主成分代替原来的原始变量。( )
(6)当各个变量取值范围相差不大或者是度量单位相同的指标时,一般选择直接从协方差矩阵求解。( )
pp(7)?Var(Yi)?i?1?Var(Xi?1pi)。 ( )
(8)假设X1,X2,...,X的协方差矩阵为?,?1,?2,...,?m为?的非零特征根,
T则第i个主成分为Yi??iX,i?1,2,...,m。?i,i?1,2,...,m 为对应的单位化的特征向量,( )
(9)Yi是X1,X2,...,Xp的线性组合。 ( ) (10)D(Yi)??i,i?1,2,...,p。( )
(11)主成分的协方差矩阵是对角阵。( )
(12)方差贡献率表明了主成分综合原始变量的能力。( ) 3.主成分分析中的信息,是用变量期望的大小来表示的。( ) 二. 计算题
1.假设总体X?(X1,X2)T的协方差矩阵为???主成分Y1的累计贡献率。
?1?????T2.假设总体X?(X1,X2,X3)的相关矩阵为R??1?,(?1???1)求X的标准
??????1???5?22??,求X的主成分Y1,Y2,并计算第一2?化变量的主成分Y1,Y2,Y3,并计算各主成分的贡献率和累计贡献率。 (
?1?1?(p?1)?,?2??3?1??1p,1p,1p),t2?(12,?12,0),t3?(16,16,?26040,
t1?())
?2??0,求X的主成分?5???2?T3.假设总体X?(X1,X2,X3)的协方差矩阵为??0????2Y1,Y2,Y3,并计算各主成分的贡献率和累计贡献率,确定应取几个主成分。
4.设X?(X1,X2,?,Xp)的协方差矩阵为
T??11??22???????0的特征值。
00?pp???,其中????...??1122????pp,试求X的主成分及主成分具有
(yi?xi,方差为?ii)
三.简答题
1.试述主成分分析的基本思想及求解步骤。 2.简述主成分分析中累积贡献率的具体意义。
第七章因子分析
一.判断题
1.因子载荷矩阵经过旋转后,每个公因子对原始变量的贡献度gi2不变。( ) 2.因子分析模型中公共因子Fi是互不相关、不可测的变量,并且Var(Fi)?1。( ) 3.因子分析一般从变量的相关系数阵出发求因子模型。( ) 4.因子载荷矩阵经过旋转后,变量Xi的共同度hi2不变。( )
5.因子分析模型中特殊因子与公共因子是不相关的。( )
6.因子分析与主成分分析都是一种降维,简化数据的方法,都是通过把原变量转化为新变量的线性组合达到降维的目的。( )
7.主成分分析中,主成分是不唯一的,但在因子分析中,因子模型是唯一的。( ) 二. 计算题
?1?1.设标准化变量X1,X2,X3的协差阵(即相关阵)为 R??0.63?0.45?R的特征值和相应的单位正交化的特征向量分别为:
0.6310.350.45??0.35? 1???1?1.96,?2?0.68,?3?0.36l1?(0.63,0.59,0.51),l2?(?0.22,0.49,0.84),l3?(0.75,?0.64,?0.18),
要求:
1) 计算因子载荷矩阵A,并建立因子模型;
2)计算变量X3的共同度h3和公因子F2的方差贡献g2,并说明其各自的统计意义。
2. 为研究某一片树叶的叶片形态,选取50片叶测量其长度x1(mm)和宽度x2(mm),按样本数据求得其平均值和协差阵为x1?134,x2?92,S???90?4848??,求相关系数矩阵R,并由R45?22出发进行因子分析。 三.简答题
1.简述因子模型X?AY??中载荷矩阵A的统计意义。 2.因子分析与主成分分析的区别与联系 (1) 因子分析从变量的相关性出发,根据相关性的大小将变量进行分组,同组变量的相
关性较强,不同组变量的相关性较弱,每组代表一个结构,这个结构用一个公因子表示,将变量表示成公因子的线性组合和特殊因子的和。
主成分分析是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量。
(2) 因子分析是把变量表示成公因子的线性组合和特殊因子的和,主成分分析是把主成分表示成各变量的线性组合。
(3) 抽取因子的方法不仅有主成分法,还有主轴因子法,极大似然估计法等,主成分分
析只有主成分法抽取主成分。 (4) 主成分分析中当给定的协差阵或相关系数阵的特征值唯一时,主成分一般是固定
的,而因子分析中的因子不是固定的,可以旋转得到不同的因子。
四.下表是以学生六门考试成绩为变量,从相关系数阵出发,以主成分法抽取因子,进行因子分析的部分结果,根据表格回答下列问题:
表1 Total Variance Explained
Component 1 2 3 4 5 6
表2 Component Matrix(a) 表3 Rotated Component Matrix(a)
Component math phys chem literat history english 1 -.806 -.674 -.675 .893 .825 .836 2 .353 .531 .513 .306 .435 .425 Total 3.735 1.133 .457 .323 .199 .153 Initial Eigenvalues % of Variance 62.254 18.887 7.619 5.376 3.320 2.543 Cumulative % 62.254 81.142 88.761 94.137 97.457 100.000
math phys chem literat history english Component 1 -.387 -.172 -.184 .879 .911 .913 2 .790 .841 .827 -.343 -.201 -.216 5.
(1) 写出变量X1,X2的相关系数阵R的特征根 及 X1,X2,?,X6的方差和; (2) 假设用Yi表示主成分,写出前二个主成分的表达式及Y1的贡献率和前两个主成分的
累计贡献率并说明累计贡献率的统计意义;
(3) 写出旋转后的因子载荷矩阵A及因子模型;
(4) 求变量math的共同度h1及因子F2的方差贡献g2,并解释h1,g2的统计意义; (5) 对因子F1,F2进行合理的命名和解释。
2222第八章相应分析
一.判断题
1.相应分析中,行惯量与列惯量相同。( )
2.对变量进行相应分析时,应首先检验变量之间的独立性,只有当变量不独立时,进行相应分析才有意义。( ) 3.相应分析实际是对两组高维空间的点的二维投影进行分析,并且相应分析主要是建立在图形分析的基础上,因此,相应分析的结果带有一定的主观性。( )
二.计算题
1.假定有两个因素A,B,每个因素各有两个水平,随机考察100个样品,得到一个二维的列
联表如下,求:
(1)频率矩阵F;
(2)因素A的第一个水平的分布轮廓; (3)因素A两个水平之间的?2距离;
(4)检验因素A,B是否独立。(??0.05,?0.05(1)?3.841)
因素A 2因素B B1 B2 第九章典型相关分
A1 50 20 析
一.判断题
10 20 A2 1.典型相关分析是研究多组变量之间相关关系的一种
多元统计方法。( )
2.典型相关分析是识别并量化两组变量之间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合之间的相关关系的研究。( )
3.若U?a?X,V?b?Y是两组变量X,Y的第一对典型相关变量,则U,V是X,Y的所有线性组合对中相关系数最大的一对。( )
4.进行典型相关分析时,若变量的量纲不同时,需要对变量进行标准化或从相关阵出发求典型相关变量;而若变量的单位相同时,则不需要对数据进行标准化,直接分析即可。( ) 5.若Uk,Vk,k?1,2,?,r是变量X,Y的典型相关变量,则
D(Uk)?1,D(Vk)?1,k?1,2,?,r,并且Cov(Ui,Uj)?Cov(Vi,Vj)?0,i?j( )
6. 若Uk,Vk,k?1,2,?,r是变量X,Y的典型相关变量,?11,?22分别是变量X,Y的方差阵,?12是变量X,Y的协方差阵,?i,i?1,2,?,r是矩阵?11?12?22?21的特征根,则(1)Cov(Ui,Vj)??i?0,i?j,i?1,2,?,r.Cov(Ui,Vj)?0,i?j或j?r。其中r为矩阵?11?12?22?21的秩。( )
(2)若?1??2????r,则第一典型相关系数为?1。( ) (3)若?1??2????r,a应于?1的特征向量,则a22222222?1?12?1?1(1),b(1)(1)分别为矩阵?11?12?22?21,?22?21?11?12相
(2)?1?1?1?1(1)?X(1),b?X即为第一对典型相关变量。( )
7. 典型相关分析中,分别求出两组变量的第一主成分,两个第一主成分即构成第一对典型相关变量。( )