多元统计分析简答题(2)

2020-04-14 23:01

贝叶斯判别法的基本思想

基本思想是假定对所研究是对象（总体）在抽样前就有一定的认识，常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验概率做修正，得到后验概率分布，再基于后验概率分布做判别分析。

16.简述费歇尔准则下两类判别分析的基本思想。

答：费歇尔的判别方法，其基本思想是把p个变量x1,x2,...,xp综合成一个新变量y，y=c1x1+c2x2+...+cpxp=c’x ，也即产生一个综合判别指标，要求已知的g个类Gk，k=1,2,...,g在这个新变量下能最大程度地区分开，于是可用这个综合判别指标判别未知样品的归属。其中c=(c1,c2,cp)’为待定参数。判别方程除没有常数外，与回归方程非常相似，但两者有着本质的区别。在回归方程中，y为因变量，是一个已知的随机变量，有其样本测试值，回归分析的任务是选择一组参数，使得根据回归方程预测的因变量的值与实测值尽可能地接近；而判别模型中y只是一个综合变量，实际上并不存在这样一个变量，因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间（直线）上去，使各已知类在该直线上的投影尽可能分离。

17.比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项？

答：除没有常数项外，与回归方程非常相似，但两者有着本质的区别。在回归方程中，y为因变量，是一个已知的随机变量，有其样本测试值，回归分析的任务是选择一组参数，使得根据回归方程预测的因变量的值与实测值尽可能地接近；而判别模型中y只是一个综合变量，实际上并不存在这样一个变量，因而也没有实测值。

判别模型的几何意义是把p维空间的点投影到一维空间（直线）上去，使各已知类在该直线上的投影尽可能分离。

18.判别分析与聚类分析有何不同？

聚类分析和判别分析有相似的作用，都是起到分类的作用。但是判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类都不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。所以聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

19.简述聚类分析的基本思想。有哪两类聚类分析？各自的作用？

聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量，然后讨论根据相似性度量进行点群簇分的方法和应用。

聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于不相似。聚类分析根据对象不同分为Q型聚类分析（对样本进行聚类）和R型聚类（对变量进行聚类）。对样品或变量进行聚类时，我们常用距离和相似系数来对样品或变量之间的相似

性进行度量。距离用来度量样品之间的相似性，而相似系数常用来度量变量间的相似性。

20.距离系数需要满足的基本条件？答：点i和点j之间的距离dij可有各种不同的定义，只要其满足所谓的距离公理：

对一切是i,j，dij>=0；

dij=0等价于点i和点j为同一点，即X(i)=X(j)；对一切的i,j，dij=dji；

三角不等式成立，即对一切的i,j,k，有dij<=dik+dkj

21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法？基本思想：

（1）将聚类的n个样品（或者变量）各自看成一类，共有n类；

（2）按照事先选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n-1类；

（3）按前面的计算方法计算新类与其他类之间的距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n-2类；

（4）如此继续下去，直到最后所有样品（或者变量）归为一类为止。基本步骤：

（1）n个样品（或者变量）各自成一类，一共有n类。计算两两之间的距离，显然D（Gp,Gq）=dpq，构成一个对称矩阵D(0)=(dij)n×n，其对角线上的元素全为0.

（2）选择D(0)中对角线元素以外的上（或者下）三角部分中的最小元素，设其为D（Gp,Gq），与其下标相对应，将类Gp与Gq合并成一个新类，记为Gr。计算Gr与其他类Gk（k≠p,q）之间的距离。

（3）在D(0)中划去与Gp、Gq所对应的两行和两列，并加入由新类Gr与其他各类之间的距离所组成的一行和一列，得到一个新的n-1阶对称距离矩阵D(1)。（4）由D(1)出发，重复步骤（2）（3）得到对称矩阵D(2)；再由D(2)出发，重复步骤（2）（3）得到对称矩阵D(3),...，依次类推，直到n个样品（或者变量）聚为一个大类为止。

（5）在合并某两类的过程中记下两类样品（或者变量）的编号以及所对应的距离（或者相似系数），并绘制成果聚类图。（6）决定类的个数以及聚类结果。

常用的系统聚类法有：最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法

22.模糊聚类法的基本思想和步骤基本思想：

采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析，模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵，并在此基础上根据一定的隶属度来确定聚类关系，即用模糊数学的方法把样本之间的模糊关系定量的确定，从而客观且准确地进行聚类。模糊聚类分析所讨论的对象，

事先没有给定任何模式供分类参考，要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇，使得各个类之间的数据差别应尽可能大，类内之间的数据差别应尽可能小，即为“最小化类间相似性，最大化类内相似性”原则。

基本步骤：

（1）选定一种计算距离或相似系数的公式。（2）由观测数据矩阵计算样品间的距离dij(1≤i,j≤n)或变量间的相似系数rij(1≤i,j≤m)，形成距离矩阵D=(dij)n×n或相似系数矩阵R=(rij)m×m

（3）将距离矩阵D或相似系数矩阵R中的元素压缩到0与1之间，形成模糊矩阵A=(aij)

（4）将模糊矩阵A改造成为模糊等价矩阵

（5）选取截取水平λ(0<λ<1)，对样本进行模糊聚类（6）按λ的值画出聚类的谱系图。

23如何确定合理的聚类数目？

聚类数目的真正确定在于研究的问题是什么，以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中，可以根据方差分析理论，应用混合F统计量来确定最佳分类数。

24、在进行系统聚类分析时，不同的类间距离计算方法有何区别？请举例说明。设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。

（1）. 最短距离法

Dij

?Xi?Gi,Xj?Gjmindij Dkr?（2）最长距离法

Xi?Gk,Xj?Grmindij?min{Dkp,Dkq}

Dpq?Xi?Gp,Xj?Gqmaxdij

Dkr?（3）中间距离法

Xi?Gk,Xj?Grmaxdij?max{Dkp,Dkq}

121222 Dkr ?Dkp?Dkq??Dpq22其中

（4）重心法

2Dpq?(Xp?Xq)?(Xp?Xq) Xr?1(npXp?nqXq) nrD?2krnpnrD?2kpnqnrD?2kqnpnqnr22Dpq

（5）类平均法

2Dpq?1npnqXi?GpXj?Gj??22dij Dkr?1nknrXi?GkXj?Gr??2dij?npnr2Dkp?nqnr2Dkq

（6）可变类平均法

np2nq222 Dkp?Dkq)??Dpq Dkr?(1??)(nrnr

其中?是可变的且? <1 （7）可变法

2Dkr?1??222(Dkp?Dkq)??Dpq 其中?是可变的且? <1 2nt（8）离差平方和法

St??(Xit?Xt)?(Xit?Xt)

t?1

D?2krnk?npnr?nkD?2kpnk?nqnr?nk2Dkq?nk2Dpq

nr?nk

25.数据变换

由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位，所以有必要进行变换，得到无量纲数据，以消除其中的不合理现象，提高分类效果，常用的数据变换方法有：标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法

26.Q型聚类统计量

考虑对样品进行聚类，描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小，表示两者之间的共同点越多；距离越大，共同点越少。常用距离有：绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离

27.R型聚类统计量

考虑对样品进行聚类，描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于1，表示两者关系越密切；绝对值越接近于0，关系越疏远。常用相似距离有：夹角余弦和相似系数。

28.简述主成分分析的基本思想。答：主成分分析的基本思想是构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。

29.主成分的求取

首先，求其协方差矩阵Σ的各特征值及相应的正交单位化特征向量，然后，以特征值从大到小所对应的特征向量为组合系数所得到的X1,X2,...,Xp的线性组合分别取作X的第一、第二、直至第p个主成分，而各主成分的方差等于相应的特征值。

30.主成分分析的基本思想，可以做什么应用及在应用中要选几个主成分？主成分分析的基本思想：构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差（或样本方差）来度量，这是经典的信息量的表示方法。解决的问题：

（1）研究的问题当中，随机变量的个数比较大，将增大计算量和分析问题的复杂性；

（2）随机变量之间存在着一定的相关性，它们的观测样本所反映的信息在一定程度上存在着重叠的。

一般地，在约束条件①liTli=1②Cov(Yi,Yk)=liTΣlk=0,k=1,2,...,i-1之下，使得Var（Yi）达到最大，由此li确定的Yi=liTX称为X1,X2,...,Xp的第i个主成分。

31.比较主成分分析与判别分析的基本思想。

主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是：设法将原来众多具有一定相关性的指标（设为p个），重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来P个指标作线性组合，作为新的指标。第一个线性组合，即第一个综合指标记为Y1，为了使该线性组合具有唯一性，要求在所有线性组合中Y1的方差最大，即Var(Y1)越大，那么包含的信息越多。如果第一个主成分不足以代表原来p个指标的信息，再考虑选取第二个主成分Y2，并要求Y1已有的信息不出现在Y2中，即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。以便利用主成分描述数据集内部结构，实际上也起着数据降维作用。

聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析（对样本进行聚类）和R型聚类分析（对变量进行聚类）。对样本或变量进行聚类时，我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性，而相似系数常用来度量变量间的相似性。

共5页:

多元统计分析简答题(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档