实验报告八-SAS聚类分析与判别分析(3)

2019-04-10 10:02

Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为3.741657。 表8.6 Cluster History Number ClusterFreof s Joined q Clusters 5 4 3 2 1 OB1 OB2 2 OB4 OB6 2 OB3 OB5 2 CL5 CL4 4 CL2 CL3 6 Semipartial R-Square 0.0191 0.1168 0.1913 0.1930 0.4797 R-Square Pseudo F Pseudo Statistit-Squarec d 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 Tie .981 .864 .673 .480 .000 由表8.6聚类分析的完整过程(Cluster History)得出,类别数量(Number of Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类,例如第三行表示聚为3类,合并了Num为3与Num为5的两类,也就是3、4号铅弹头。 样品频数(FREQ)表示这次合并得到的类有多少个样品。 通过观察分类数的统计量半偏R2(Semipartial R-Square),R2(R-Square),伪F统计量(Pseudo F Statistic),伪t2统计量(Pseudot-Squared),分析出分类个数的结果: 半偏R2(Semipartial R-Square)最大值与次大值分别为类别数量(Number of Clusters)为1、2时的0.4797、0.1930,说明将铅弹头分为2类或3类较好;从表8.6中R2(R-Square)看出,数据是逐渐减小,但在类别数量(Number of Clusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(Pseudo F Statistic)数据减小,在类别数量(Number of Clusters)为2时突然增大,说明将铅弹头分为3类较好。;伪t2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(Number of Clusters)为1、2时的2.8、3.7,说明将铅弹头分为3类或2类较好。 距离最小的候选类对数(Tie),本题无数据。 图8.4 聚类谱系图 由表8.6、图8.4得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。 ⑶利用proc cluster过程步实现系统聚类分析中最长距离法聚类: libname Lmf \; proc cluster data=Lmf.p82 standard method = complete outtree=Lmf.tree3 pseudo; var Ag Al Cu Ca Sb Bi Sn; copy Num; run; 结果: 表8.7 Complete Linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.74048086 2.08236043 2 1.65812043 0.61144007 3 1.04668036 0.51883529 4 0.52784507 0.50097179 5 0.02687328 0.02687328 6 0.00000000 0.00000000 0.5344 0.2369 0.1495 0.0754 0.0038 0.0000 0.5344 0.7712 0.9208 0.9962 1.0000 1.0000 7 0.00000000 0.0000 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation 1 Mean Distance Between Observations 3.60714 由表8.7 Ward离差平方和法(Ward's Minimum Variance Method)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为3.60714。 表8.8 Cluster History Cluster History Number Clusters Joined Freq Pseudo F Pseudo Norm Tie of Statistic t-Squared Maximum Clusters Distance 5 4 3 2 1 OB1 OB4 OB3 CL5 CL2 OB2 OB6 OB5 CL4 CL3 2 2 2 4 6 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 0.3207 0.7927 1.0145 1.0208 1.4611 由表8.8聚类分析的完整过程(Cluster History)得出,类别数量(Number of Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类。 样品频数(FREQ)表示这次合并得到的类有多少个样品。 通过观察分类数的统计量伪F统计量(Pseudo F Statistic),伪t2统计量(Pseudot-Squared),得出的结果与Ward离差平方和法的结果一样。但在Norm Maximum Distance中类别数量(Number of Clusters)为4、3时增大的数值较小,说明将铅弹头分为4类或3类较好。 距离最小的候选类对数(Tie),本题无数据。 图8.5 聚类谱系图 由表8.8、图8.5得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。 通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,综合比较对6个铅弹头分为四类较合适。 ②利用proc varclus过程步实现变量聚类分析: proc varclus data=Lmf.p82 ourtree=Lmf.tree3; var Ag Al Cu Ca Sb Bi Sn; run; 表8.9 Oblique Principal Component Cluster Analysis Observations 6 Proportion 0 Variables 7 Maxeigen 1 Clustering algorithm converged. Cluster Summary for 1 Cluster Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 7 7 3.740481 0.5344 1.6581 Total variation explained = 3.740481 Proportion = 0.5344 Cluster 1 will be split because it has the largest second eigenvalue, 1.65812, which is greater than the MAXEIGEN=1 value. 表8.9分解法思想进行斜交主成分聚类(Oblique Principal Component Cluster Analysis),把全部7个变量聚成一类,能解释的方差为3.740481,占总方差的53.44%,第二特征值为1.6581>1,并预告这一类将被分裂。 表8.10 Cluster Summary for 2 Clusters: Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 2 4 3 4 3 2.925514 0.7314 2.1376 0.7125 0.9380 0.5903 Total variation explained = 5.063113 Proportion = 0.7233 由表8.10分为两类的聚类概要(Cluster Summary for 2 Clusters)得出,由类内变量个数(Cluster Variation)可知第一类有4个变量,第二类有3个变量,能解释的方差(Variation Explained)为5.063113,占总方差(Proportion Explained)的72.33%,第二特征值(Second Eigenvalue)分别为0.9380、0.5903。 表8.11 R-squared with: R-squared with 1-R**2 Variable Ratio Label Cluster Variable Own Next Cluster Closest Cluster 1 Cluster 2 Al Cu Ca Sb Ag Bi Sn 0.5188 0.0169 0.4895 Al 0.9805 0.1605 0.0232 Cu 0.9397 0.3572 0.0938 Ca 0.4865 0.0285 0.5286 Sb 0.7378 0.0179 0.2670 Ag 0.5823 0.0241 0.4281 Bi 0.8175 0.4918 0.3591 Sn 2 Clusters 由表8.11 相关系数的平方( R-squared with)可知 ,每个变量与所属类分量之间相关系数的平方R2(R-Squared With Own Cluster)例如变量Al在第1类中,它与第1类分量之间的R2是0.5188。每个变量与相邻类的类分量之间的相关系数的平方R2(R-squared with Next Closest),例如:Al与第2类分量之间的相关系数平方R2为0.0169,该值较小,说明分类较合理。由于


实验报告八-SAS聚类分析与判别分析(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:七年级数学寒假乐园试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: