Observations and Percent Classified into RaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为5、5,百分比分别为50%、50%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。 表8.39 Error Count Estimates for RaD: 1 2 Total Rate 0.5000 0.1000 0.2200 Priors 0.3000 0.7000 利用交叉验证判别分类得出表8.39各类别的错误分类率( Error Count Estimates for RaD),由表知第一类的错分率高,为50%,各类别的总错分率为0.22=0.5*0.3+0.1*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.22。 综上,利用Bayes判别分析,非参数法判别得出,明天不会下雨。 【练习8-5】对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练成绩:30m跑(x1)、投掷小球(x2)、挺举重量(x3)、抛实心球(x4)、前抛铅球(x5)、五级跳(x6),另14名未定级运动员也测试了6个项目,全部数据列于表中。 表 训练项目成绩 Num Group x1 x2 x3 x4 x5 x6 1 1 3.6 4.3 82.3 70 90 18.52 2 1 3.3 4.1 87.48 80 100 18.48 3 1 3.3 4.22 87.74 85 115 18.56 4 1 3.21 4.05 88.6 75 100 19.1 5 1 3.1 4.38 89.98 95 120 20.14 6 1 3.2 4.9 89.1 85 105 19.44 7 1 3.3 4.2 89 75 85 19.17 8 1 3.5 4.5 84.2 80 100 18.8 9 1 3.7 4.6 82.1 70 85 17.68 10 1 3.4 4.4 90.18 75 100 19.14 11 1 3.6 4.3 82.1 70 90 18.1 12 1 3.6 4.5 82 55 70 17.4 13 1 3.6 4.2 82.2 70 90 18.12 14 1 3.4 4.2 85.4 85 100 18.66 15 1 3.3 4.3 90.1 80 100 19.86 16 1 3.12 4.2 89 85 100 20 17 1 3.1 4.2 80.2 85 115 20.8 18 1 3.6 4.2 81.96 65 80 17.2 19 1 3.7 4.4 81 80 95 17 20 1 3.3 4.3 90 80 110 19.8 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3.8 3.7 3.5 3.4 3.3 3.7 3.6 3.2 3.4 3.3 3.1 3.8 3 3.9 3.5 3.1 3.3 3.1 3.14 3.6 3.12 3 3.4 3.63 3.3 3.3 3.5 3.4 3.6 3.1 3.12 3.6 3.5 3.5 3.4 3.6 3.6 3.2 3.4 3.6 3.1 3 3.2 4.09 4.3 4.2 4.1 4.1 4.1 4.3 4.2 4 4.5 4.5 4.1 4.2 3.7 4.1 3.9 3.9 3.95 3.9 4.3 3.9 3.9 3.91 3.78 3.98 4.4 4.1 4.2 4.1 4.4 4 4.1 4.3 4.1 4.4 4.3 4.1 4.1 4.15 4.2 4.1 4.1 4.3 80 83.9 85.4 86.7 88.1 84.1 82 89.2 103 118 105 104.53 112 98.2 98.7 98.2 109 98.4 95.3 93.6 95.8 93.8 96.3 98.56 97.4 112 107.7 92.1 99.48 116 102.7 115 97.8 85.3 85.4 85.36 8307 89.35 86.28 84.1 98 122 92.68 60 85 85 85 75 70 70 85 95 90 85 80 95 85 90 60 100 95 90 75 80 85 110 85 85 75 87.5 80 85 75 80 85 75 75 75 75 75 75 60 80 95 100 80 80 100 100 110 85 95 90 115 110 120 110 100 125 90 120 90 120 115 110 85 105 90 120 120 100 110 110 120 120 110 110 115 100 105 95 90 105 95 77.5 100 130 115 105 16.89 18.76 18.7 18.5 18.96 18.7 18.4 19.88 24.8 25.7 25.1 24.98 25.35 21.8 22.78 21.98 25.3 25.2 21.42 20.84 21.8 21.08 21.98 22.36 22.34 25.1 25.1 22.16 23.1 25.3 24.68 23.7 24.1 18.65 18.6 18.6 18.6 20.28 18.9 18.7 22.3 27.1 20.68 64 3.1 4.2 91.76 85 100 22.2 65 3.3 4.2 98.4 65 100 22.86 66 3.3 4.6 92 80 195 23.07 67 3.4 4.3 97.36 75 110 22.12 假定两组数据均来自于多元正态总体,且C(1|2)=C(2|1)(其中C(i|j)为假定本来属于Gi的样品被判为属于Gj时造成的损失)。 ①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别; ②试对①的误判概率作出估计; ③假设Σ1=Σ2=Σ,p1=0.8,p2=0.2,试对着14名未定级运动员的归属做Bayes判别。 【解答】 ①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别; ⑴当Σ1=Σ2=Σ时: 利用proc discrim过程步实现Bayes判别分析: libname Lmf \; proc discrim data=Lmf.p85 pool=yes crosslist; class Group; priors equal; var x1 x2 x3 x4 x5 x6; run; 结果: 表8.40 The DISCRIM Procedure: Total Sample Size 53 Variables Classes DF Total 52 6 DF Within Classes 51 2 DF Between Classes 1 由表8.40判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为53,变量(Variables)个数为6,分类(Classes)个数为2及自由度。 表8.41 Class Level Information: Group Variable Frequency Weight Proportion Prior Name Probability 1 2 _1 _2 28 25 28.0000 0.528302 25.0000 0.471698 0.500000 0.500000 由表8.41各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为28、25;两类别权重(Weight)分别为28、25;两类别分别占样本数(Proportion)的52.8302%、47.1698%,两类别的先验概率(Prior Probability)为0.5、0.5。 表8.42 Pooled Covariance Matrix Information Covariance Natural Log of the Matrix Rank Determinant of the Covariance Matrix 6 表8.42合并协方差矩阵信息(Pooled Covariance Matrix Information),协方差矩阵的秩(Covariance Matrix Rank)为6,协方差矩阵行列式的自然对数(Natural Log of the Determinant of the Covariance Matrix)为4.90654。 表8.43 Generalized Squared Distance to Group: From Group 1 2 由表8.43广义组间距离平方(Generalized Squared Distance to RaD)知,广义组间距离平方与组间的马氏距离平方相等,为21.81939。 表8.44 Linear Discriminant Function for Group: Variable Label Constant x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6 1 2 0 1 2 21.81939 4.90654 21.81939 0 -562.18224 -605.39869 110.73670 115.69677 99.27029 0.84309 1.53525 -0.10404 7.41196 85.61780 1.02903 1.54102 -0.23674 11.16207 由表8.44得出线性判别函数: y1?110.73670x1?99.27029x2?0.84309x3?1.53525x4?0.10404x5?7.41196x6?562.18224 y2?115.69677x1?85.61780x2?1.02903x3?1.54102x4?0.23674x5?11.16207x6?605.39869 表8.45 Number of Observations and Percent Classified into Group Classification Summary for Calibration Data: LMF.P85 Resubstitution Summary using Linear Discriminant Function From Group . 1 8 57.14 2 6 42.86 Total 14 100.00 28 100.00 1 28 0 100.00 0.00 2 0 0.00 25 25 100.00 100.00 31 46.27 Total 36 53.73 67 100.00 Priors 0.5 0.5 因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.45的结果,第一类一级的样本被判别函数归入第一、二类的频数分别为28、0,百分比分别为100%、0%;已知第二类健将级的样本被判别函数归入第一、二类的频数分别为0、25,百分比分别为0%、100%。 表8.46 Error Count Estimates for Group 1 2 Total Rate 0.0000 0.0000 0.0000 Priors 0.5000 0.5000 由表8.46各类别的错误分类率( Error Count Estimates for RaD)得知错误分类率为0。 表8.47 Posterior Probability of Membership in Group: Classification Results for Calibration Data: LMF.P85 Cross-validation Results using Linear Discriminant Function Obs From Group Classified into Group 1 2
实验报告八-SAS聚类分析与判别分析(7)
2019-04-10 10:02
实验报告八-SAS聚类分析与判别分析(7).doc
将本文的Word文档下载到电脑
下载失败或者文档不完整,请联系客服人员解决!