实验报告八-SAS聚类分析与判别分析(6)

2019-04-10 10:02

11 12 13 14 15 16 17 18 19 20 21 2 2 2 2 2 2 2 2 2 2 . 2 2 2 2 1 1 2 2 2 2 2 * * * 0.1009 0.8991 0.0779 0.9221 0.0859 0.9141 0.1609 0.8391 0.9269 0.0731 0.8183 0.1817 0.0574 0.9426 0.0786 0.9214 0.1718 0.8282 0.0779 0.9221 0.4090 0.5910 * Misclassified observation 由表8.30组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1781、0.8219;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0.1893、0.8107;第9个观测值被误判为第一类雨天,根据线性判别函数得出第9个观测值在第一、二类的后验概率分别为0.3289、0.6711;第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.2220、0.7780;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为0.9269、0.0731;第16个观测值被误判为第二类非雨天,根据线性判别函数得出第16个观测值在第一、二类的后验概率分别为0.8183、0.1817。并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。 表8.31 Number of Observations and Percent Classified into RaD: Classification Summary for Calibration Data: LMF.P84 Cross-validation Summary using Quadratic Discriminant Function From RaD . 1 0 0.00 2 1 Total 1 100.00 100.00 4 1 6 10 100.00 10 60.00 40.00 2 2 8 20.00 80.00 100.00 21 100.00 Total 8 13 38.10 61.90 Priors 0.3 0.7 利用交叉验证判别分类得出表8.31观察值频数及分类百分比(Number of Observations and Percent Classified into RaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为2、8,百分比分别为20%、80%。 表8.32 Error Count Estimates for RaD: 1 2 Total Rate 0.4000 0.2000 0.2600 Priors 0.3000 0.7000 利用交叉验证判别分类得出表8.32各类别的错误分类率( Error Count Estimates for RaD),由表知第一类的错分率高,为40%,各类别的总错分率为0.26=0.4*0.3+0.2*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.26。 与训练样本回带的判别分类结果相比,交叉验证的错分率明显增大,但交叉验证的分类结果更加真实和客观,在没有验证数据集时交叉验证的结果是评价判别函数的判别效能的重要指标。 ⑵由于错误分类率达到0.26,这可能与数据不符合参数法判别分析的条件有关,因此,接下来采用非参数法的判别分析方法:经过尝试,当k=4时,得出的错分率最低,效果最佳。 利用proc discrim过程步实现非参数判别: libname Lmf \; OPTIONS PS=500; proc discrim data=Lmf.p84 method=npar k=4 crosslist; class RaD; priors '1'=0.3 '2'=0.7; var Wet PesT; run; 表8.33 The DISCRIM Procedure Total Sample Size 20 DF Total 19 Variables Classes 2 DF Within Classes 18 2 DF Between Classes 1 由表8.33 判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。 表8.34 Class Level Information RaD Variable Frequency Weight Proportion Prior Name Probability 1 _1 2 _2 10 10 10.0000 0.500000 10.0000 0.500000 0.300000 0.700000 由表8.34各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(Prior Probability)为0.3、0.7。 表8.35 Number of Observations and Percent Classified into RaD Classification Summary for Calibration Data: LMF.P84 Resubstitution Summary using 4 Nearest Neighbors From RaD . 1 1 2 0 Total 1 100.00 10 100.00 0.00 1 6 60.00 4 40.00 100.00 9 2 1 10.00 10 90.00 100.00 13 Total 8 38.10 21 61.90 100.00 0.7 Priors 0.3 因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.35的结果,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。 表8.36 Error Count Estimates for RaD 1 2 Total Rate 0.4000 0.1000 0.1900 Priors 0.3000 0.7000 由表8.36各类别的错误分类率( Error Count Estimates for RaD)得出第一类的错分率高,为40%,各类别的总错分率为0.19=0.4*0.3+0.1*0.7。 表8.37 Posterior Probability of Membership in RaD Classification Results for Calibration Data: LMF.P84 Cross-validation Results using 4 Nearest Neighbors Obs From RaD Classified into RaD 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 1 1 1 2 1 2 1 2 2 2 2 2 1 2 2 * * * * * * 1 2 0.1370 0.8630 0.0000 1.0000 0.5882 0.4118 0.5882 0.4118 0.5882 0.4118 0.1370 0.8630 0.5882 0.4118 0.3226 0.6774 0.5882 0.4118 0.1370 0.8630 0.2784 0.7216 0.0000 1.0000 0.0000 1.0000 0.1139 0.8861 1.0000 0.0000 0.1139 0.8861 0.0000 1.0000 18 19 20 21 2 2 2 . 2 2 2 2 * 0.1139 0.8861 0.1139 0.8861 0.1139 0.8861 0.3913 0.6087 * Misclassified observation 由表8.37组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1370、0.8630;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0、1;第6个观测值被误判为第一类雨天,根据线性判别函数得出第6个观测值在第一、二类的后验概率分别为0.1370、0.8630;第8个观测值被误判为第一类雨天,根据线性判别函数得出第8个观测值在第一、二类的后验概率分别为0.3226、0.6774。第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.1370、0.8630;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为1、0;并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。 表8.38 Number of Observations and Percent Classified into RaD Classification Summary for Calibration Data: LMF.P84 Cross-validation Summary using 4 Nearest Neighbors From RaD . 1 0 0.00 2 1 Total 1 100.00 100.00 5 1 5 10 100.00 10 100.00 50.00 50.00 2 1 9 10.00 90.00 Total 6 15 21 100.00 28.57 71.43 Priors 0.3 0.7 利用交叉验证判别分类得出表8.38观察值频数及分类百分比(Number of


实验报告八-SAS聚类分析与判别分析(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:七年级数学寒假乐园试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: