实验报告八-SAS聚类分析与判别分析(3)

2019-04-10 10:02

Deviation）为1，样品间均方根距离（Root-Mean-Square Distance Between Observations）为3.741657。表8.6 Cluster History Number ClusterFreof s Joined q Clusters 5 4 3 2 1 OB1 OB2 2 OB4 OB6 2 OB3 OB5 2 CL5 CL4 4 CL2 CL3 6 Semipartial R-Square 0.0191 0.1168 0.1913 0.1930 0.4797 R-Square Pseudo F Pseudo Statistit-Squarec d 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 Tie .981 .864 .673 .480 .000 由表8.6聚类分析的完整过程（Cluster History）得出，类别数量（Number of Clusters）表示新类别形成后类别的总数；合并的类别（Clusters Joined）指明这一步合并了哪两个类，例如第三行表示聚为3类，合并了Num为3与Num为5的两类，也就是3、4号铅弹头。样品频数（FREQ）表示这次合并得到的类有多少个样品。通过观察分类数的统计量半偏R2（Semipartial R-Square），R2（R-Square），伪F统计量（Pseudo F Statistic），伪t2统计量（Pseudot-Squared），分析出分类个数的结果：半偏R2（Semipartial R-Square）最大值与次大值分别为类别数量（Number of Clusters）为1、2时的0.4797、0.1930，说明将铅弹头分为2类或3类较好；从表8.6中R2（R-Square）看出，数据是逐渐减小，但在类别数量（Number of Clusters）为3时，突然骤减，说明分为4个类合适；伪F统计量（Pseudo F Statistic）数据减小，在类别数量（Number of Clusters）为2时突然增大，说明将铅弹头分为3类较好。；伪t2统计量（Pseudot-Squared）最大值与次大值分别为类别数量（Number of Clusters）为1、2时的2.8、3.7，说明将铅弹头分为3类或2类较好。距离最小的候选类对数（Tie），本题无数据。图8.4 聚类谱系图由表8.6、图8.4得出，分为四类较合适，第一类为5号铅弹头，第二类为3号铅弹头，第三类为4、6号铅弹头，第四类为1、2号铅弹头。 ⑶利用proc cluster过程步实现系统聚类分析中最长距离法聚类： libname Lmf \; proc cluster data=Lmf.p82 standard method = complete outtree=Lmf.tree3 pseudo; var Ag Al Cu Ca Sb Bi Sn; copy Num; run; 结果：表8.7 Complete Linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.74048086 2.08236043 2 1.65812043 0.61144007 3 1.04668036 0.51883529 4 0.52784507 0.50097179 5 0.02687328 0.02687328 6 0.00000000 0.00000000 0.5344 0.2369 0.1495 0.0754 0.0038 0.0000 0.5344 0.7712 0.9208 0.9962 1.0000 1.0000 7 0.00000000 0.0000 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation 1 Mean Distance Between Observations 3.60714 由表8.7 Ward离差平方和法（Ward's Minimum Variance Method）得出相关系数的特征值，其中各列数据分别为特征值（Eigenvalue）、与相邻特征值之差（Difference）、占总方差的百分比（Proportion）、占总方差累计百分比（Cumulative）。本题数据经过标准化，样本均值（mean）为0，方差（variance）为1。其中样本均方根标准差（Root-Mean-Square Total-Sample Standard Deviation）为1，样品间均方根距离（Root-Mean-Square Distance Between Observations）为3.60714。表8.8 Cluster History Cluster History Number Clusters Joined Freq Pseudo F Pseudo Norm Tie of Statistic t-Squared Maximum Clusters Distance 5 4 3 2 1 OB1 OB4 OB3 CL5 CL2 OB2 OB6 OB5 CL4 CL3 2 2 2 4 6 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 0.3207 0.7927 1.0145 1.0208 1.4611 由表8.8聚类分析的完整过程（Cluster History）得出，类别数量（Number of Clusters）表示新类别形成后类别的总数；合并的类别（Clusters Joined）指明这一步合并了哪两个类。样品频数（FREQ）表示这次合并得到的类有多少个样品。通过观察分类数的统计量伪F统计量（Pseudo F Statistic），伪t2统计量（Pseudot-Squared），得出的结果与Ward离差平方和法的结果一样。但在Norm Maximum Distance中类别数量（Number of Clusters）为4、3时增大的数值较小，说明将铅弹头分为4类或3类较好。距离最小的候选类对数（Tie），本题无数据。图8.5 聚类谱系图由表8.8、图8.5得出，分为四类较合适，第一类为5号铅弹头，第二类为3号铅弹头，第三类为4、6号铅弹头，第四类为1、2号铅弹头。通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法，综合比较对6个铅弹头分为四类较合适。 ②利用proc varclus过程步实现变量聚类分析： proc varclus data=Lmf.p82 ourtree=Lmf.tree3; var Ag Al Cu Ca Sb Bi Sn; run; 表8.9 Oblique Principal Component Cluster Analysis Observations 6 Proportion 0 Variables 7 Maxeigen 1 Clustering algorithm converged. Cluster Summary for 1 Cluster Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 7 7 3.740481 0.5344 1.6581 Total variation explained = 3.740481 Proportion = 0.5344 Cluster 1 will be split because it has the largest second eigenvalue, 1.65812, which is greater than the MAXEIGEN=1 value. 表8.9分解法思想进行斜交主成分聚类（Oblique Principal Component Cluster Analysis），把全部7个变量聚成一类，能解释的方差为3.740481，占总方差的53.44%，第二特征值为1.6581>1，并预告这一类将被分裂。表8.10 Cluster Summary for 2 Clusters: Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 2 4 3 4 3 2.925514 0.7314 2.1376 0.7125 0.9380 0.5903 Total variation explained = 5.063113 Proportion = 0.7233 由表8.10分为两类的聚类概要（Cluster Summary for 2 Clusters）得出，由类内变量个数（Cluster Variation）可知第一类有4个变量，第二类有3个变量，能解释的方差（Variation Explained）为5.063113，占总方差（Proportion Explained）的72.33%，第二特征值（Second Eigenvalue）分别为0.9380、0.5903。表8.11 R-squared with： R-squared with 1-R**2 Variable Ratio Label Cluster Variable Own Next Cluster Closest Cluster 1 Cluster 2 Al Cu Ca Sb Ag Bi Sn 0.5188 0.0169 0.4895 Al 0.9805 0.1605 0.0232 Cu 0.9397 0.3572 0.0938 Ca 0.4865 0.0285 0.5286 Sb 0.7378 0.0179 0.2670 Ag 0.5823 0.0241 0.4281 Bi 0.8175 0.4918 0.3591 Sn 2 Clusters 由表8.11 相关系数的平方（ R-squared with）可知，每个变量与所属类分量之间相关系数的平方R2（R-Squared With Own Cluster）例如变量Al在第1类中，它与第1类分量之间的R2是0.5188。每个变量与相邻类的类分量之间的相关系数的平方R2(R-squared with Next Closest)，例如：Al与第2类分量之间的相关系数平方R2为0.0169，该值较小，说明分类较合理。由于

共8页:

实验报告八-SAS聚类分析与判别分析(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档