朱建平：应用多元统计分析课后答案 -(5)

2020-02-21 01:01

表4.5 Bayes判别函数系数

将各样品的自变量值代入上述两个Bayes判别函数，得到两个函数值。比较这两个函数值，哪个函数值比较大就可以判断该样品该判入哪一类。

2) 在判别结果的Casewise Stastics表中容易查到该客户属于group0，信用好。

4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验：血清铜蛋白?X1?、蓝色反应?X2?、尿吲哚乙酸?X3?和中性硫化物?X4?，数据见下表。试用距离判别法建立判别函数，并根据此判别函数对原样本进行回判。

类别病人序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X1 228 245 200 170 100 225 130 150 120 160 185 170 165 135 100

X2 134 134 167 150 167 125 100 117 133 100 115 125 142 108 117 X3 20 10 12 7 20 7 6 7 10 5 5 6 5 2 7 X4 11 40 27 8 14 14 12 6 26 10 19 4 3 12 2 胃癌患者萎胃缩炎性患者非胃炎患者

解：令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3，由于此题中假设各类出现的先验概率相等且误判造成的损失也相等，所以距离判别法与bayes判别完全一致。用spss的解题步骤如下：

1.在SPSS窗口中选择Analyze→Classify→Discriminate，调出判别分析主界面，将左边的变量

列表中的“group”变量选入分组变量中，将X1、X2、X3、X4变量选入自变量中，并选择Enter independents together单选按钮，即使用所有自变量进行判别分析。

2.点击Define Range按钮，定义分组变量的取值范围。本例中分类变量的范围为1到3，所以在最小值和最大值中分别输入1和3。单击Continue按钮，返回主界面。

3.单击Statistics…按钮，指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s：给出Bayes判别函数的系数。

4.单击Classify…按钮，弹出classification子对话框，选中Display选项栏中的Summary table复选框，即要求输出错判矩阵，以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面，单击OK按钮，运行判别分析过程。

根据判别分析的结果建立Bayes判别函数：

Bayes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下：

?0.164X1?0.753X2?0.778X3?0.073X4 Group1： Y1??79.212Group2： Y2??46.721?0.130X1?0.595X2?0.317X3?0.012X4

?0.130X1?0.637X2?0.100X3?0.059X4 Group3： Y3??49.598

将各样品的自变量值代入上述三个Bayes判别函数，得到三个函数值。比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。

表4.6 Bayes判别函数系数

根据此判别函数对样本进行回判，结果如表4.7。从中可以看出在5个胃癌患者中，有4个被正确地判定，有1个被错误地判定为非胃炎患者，正确率为80%。在5个萎缩性胃炎患者中，有4个被正确判定，有1个被错误地判定为非胃炎患者，正确率为80%。在5个非胃炎患者中，有4个被正确判定，有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。

表4.7 错判矩阵

第五章

5.1 判别分析和聚类分析有何区别？

答：即根据一定的判别准则，判定一个样本归属于哪一类。具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。聚类分析是分析如何对样品（或变量）进行量化分类的问题。在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5.2 试述系统聚类的基本思想。

答：系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时，所构造的统计量分别是什么？简要说明为什么这样构造？

答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为（一）闵可夫斯基距离：dij(q)q取不同值，分为（1）绝对距离（q?1）

p?(?Xik?Xjk)k?1pq1/q

dij(1)??Xik?Xjkk?1

（2）欧氏距离（q?2）

dij(2)??(Xi?kXk?1p21/2jk

)

（3）切比雪夫距离（q??）

dij(?)?maxXik?Xjk1?k?p

1pXik?Xjk（二）马氏距离 dij(L)?k?jk p 1 X ik ? X

2（三）兰氏距离 dij(M)?(Xi?Xj)?Σ?1(Xi?Xj)

对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。

?将变量看作p维空间的向量，一般用

p（一）夹角余弦 XikXjkk?1 cos?? ijpp 2(Xik)(X2jk) k?1k?1

（二）相关系数

p (Xik?Xi)(Xjk?Xj)k?1 rij? pp (Xik?Xi)2(Xjk?Xj)2k?1k?1

??????5.4 在进行系统聚类时，不同类间距离计算方法有何区别？选择距离公式应遵循哪些原则？

答：设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。（1）. 最短距离法

Dij

?Xi?Gi,Xj?Gjmindij Dkr?

（2）最长距离法

Xi?Gk,Xj?Grmindij?min{Dkp,Dkq}

Dpq?Xi?Gp,Xj?Gqmaxdij

Dkr?Xi?Gk,Xj?Grmaxdij?max{Dkp,Dkq}

（3）中间距离法 121222 Dkr ?Dkp?Dkq??Dpq 22其中

（4）重心法

2Dpq?(Xp?Xq)?(Xp?Xq) Xr

?1(npXp?nqXq) nr2Dkr?npnr2Dkp?nqnr2Dkq?npnqnr22Dpq

（5）类平均法

1D?npnq2pq1dD? ??nknrXi?GpXj?Gj2ij2krXi?GkXj?Gr??d2ij?npnrD?2kpnqnr2Dkq

（6）可变类平均法

np2 Dkr ?(1??)(nr

2Dkp?nqnr22 Dkq)??Dpq其中?是可变的且? <1

（7）可变法

2Dkr?1??222(Dkp?Dkq)??Dpq 其中?是可变的且? <1 2nt（8）离差平方和法

St??(Xit?Xt)?(Xit?Xt)

t?1

D?2krnk?npnr?nkD?2kpnk?nqnr?nk2Dkq?nk2Dpq

nr?nk通常选择距离公式应注意遵循以下的基本原则：

（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

答：相同：K—均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。

5.6 试述K均值法与系统聚类有何区别？试述有序聚类法的基本思想。

共10页:

朱建平：应用多元统计分析课后答案 -(5).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档