江苏 浙江 安徽 福建 湖南 广东 西藏 3 3 3 3 3 待判 待判 135.24 162.53 111.77 139.09 124 211.3 175.93 73.18 80.11 71.07 79.09 84.66 114 163.8 44.54 45.99 43.64 44.19 44.05 41.44 57.89 23.9 24.3 19.4 18.5 13.5 33.2 4.22 15.2 13.9 12.5 10.5 7.47 11.2 3.37 22.38 29.54 16.68 20.23 19.11 48.72 17.81 9.661 10.9 9.698 16.47 20.49 30.77 82.32 13.9 13 7.02 7.67 10.3 14.9 15.7 1.19 3.47 0.63 3.08 1.76 11.1 0 1、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。
2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。
2、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分3
类的结果;
2)快速聚类法聚类,并写出分3类的结果。 【实验前的预备知识】
1、1)距离判别的原理及判别准则的评价; 2)Bayes判别的原理; 3)逐步判别;
2、1)样品间的相似性度量——距离和变量间的相似性度量——相似系数; 2)谱系聚类法:最短距离法、最长距离法、类平均法、重心法、中间距离法和WARD最小方差法等; 3)快速聚类法:
【实验方法或步骤】
1、判别分析过程 ▲ 分类判别
PROC DISCRIM options; CLASS variable; VAR variables; PRIORS probabilies; TESTCLASS variable
(1)PROC DISCRIM options;
此语句中,“options”部分可包含下列内容: 1)待分析的数据集选择:
①DATA=SAS data set:指定用以建立判别函数的SAS数据集(即训练样本数据集).若省略此句,则最新建立的数据集被用于建立判别函数.
②TESTDATA:SAS data set:指定用以检验判别准则的SAS数据集名称,除分类变量外,该数据集中的变量应和训练样本数据集中的变量一致.
2)输出数据集的选择:
①OUTSTAT=SAS data set:定义一个输出SAS数据集名称,该数据集中包括原训练样本集中各变量的均值、标准差及相关系数等.若METHOD:NORMAL(见后)被使用,该数据集中还包括判别函数的系数.
②OUT=SAS data set:命名一个输出SAS数据集,其中包括训练样本集的数据及变量、后验概率及回判结果.
⑧OUTCROSS=SAS data set:定义一个输出的SAS数据集,其中包括训练样本数据及变量、后验概率以及由交叉确认法所得的回判结果等.
④TESTOUT=SAS data set:定义一个输出的SAS数据集,其中包括检验数据集中的变量和数据、后验概率以及利用所建立的判别准则对检验数据集的判别结果.此项当“options”中有“TESTDATA:SAS data set”时运用. 3)判别分析方法的选择:
①METHOD=NORMAL(或NPAR):指出建立判别函数的方法.当
“METHOD=NORMAL”被指定,则在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,并视各总体的协方差矩阵是否相等而分别建立线性及二次判别函数;当指定“METHOD=NPAR”,则使用非参数方法建立判别函数.前者是SAS系统默认的方法.
②POOL=YES(或NO,TEST):在选择\:NORMAL”的前提下,“POOL=YES”意味着假定各总体的协方差矩阵相等,而用各训练样本的样本协方差矩阵联合估计公共的协方差矩阵,这时建立的判别函数是线性的;若选择 “POOL=NO”,则意味着假定各总体的协方差矩阵不等而建立二次判别函数;“POOL=TEST\即要求首先利用修正的Bartlett似然比方法检验各总体的协方差矩阵是否相等,若检验结果在由语句“SLPOOL=p”(见后)所指定的显著水平p下显著,则建立二次判别函数,否则利用联合协方差矩阵估计建立线性判别函数.对线性判别函数,输出结果中才给出判别函数的系数.
③SLPOOL=p:指定检验协方差矩阵是否相等的显著水平.只有当选择 “POOL=TEST\时,才可出现此语句,若省去此语句,则SAS系统默认p:0.10,
4)回判结果输出选择:
①LIST:打印出每个样品的回判结果. ②LISTERR:仅打印出回判中判错的样品信息. ③NOCLASSIFY:不需要对训练样本数据作回判分析.
5)交叉确认法回判结果的输出选择:
当下列语句出现时,则交叉确认法被使用对训练样本作回判分析. ①CROSSVALIDATE:要求对训练样本数据集进行交叉确认回判分析. ②CROSSLISTERR:仅打印出使用交叉确认法判别而判错的样品信息. ⑧CROSSLIST:打印出每个样品的交叉确认法回判分析结果. 6)检验数据集判别结果的输出选择
①TESTLIST:列出对检验数据集的判别结果.
②TESTLISTERR:仅列出对检验数据集中判错的样品信息. 7)控制打印选择
①WCORR;打印各总体(组内)的训练样本相关矩阵.
②PCORR:打印由各总体的样本相关矩阵所得的联合相关矩阵估计.
类似地,WCOV,PCOV则要求打印出相应于①、②的训练样本协方差矩阵估计.
⑧ALL:打印出所有的相关结果. ④SHORT:只打印一些主要结果, (2)CLASS variable;
其中的“variable”即描述各类别的变量名称.该变量可以是数值化的变量,也可以是非数值变量.该语句是进行判别分析所必需的语句. (3)VAR variables;
其中“variables”即列出参与分析的描述各样品特征的变量名称,省略时即数据集中所有的数值变量. (4)PRIORS probabilities;
此语句的功能即指出总体的先验概率分布.其中的“probabilities”应是下列三种选择之一:
1)EQUAL,即各总体的先验概率相等.
2)PROPORTIONAL(或PROP):即各总体的先验概率与各总体的训练样 本容量成比例,设有三个总体G1,G2,G3,训练样本容量分别为n1,n2,n3,则各总体的先验概率分布为q1?nn1n,q2?2,q3?3,这里n?n1?n2?n3。 nnn 3)具体指定各总体的先验概率.通常有两种方式:
①若描述各总体类别的变量(即“CLASSvariable\中的变量)是非数值变量,则在各类取值后给出先验概率并用等号连起来.例如,描述各总体类别的变量 “GRADE”取A,B,C,D四个值(每个值代表一类总体),各总体先验概率分布为0.1,0.3,0.5和0.1,则“PRIORS”语句为
PRIORS A=0.1 B=0.3 C=0.5 D=0.1;
②若描述各总体类别的变量是数值化变量或者是小写字母时,这时要将这些值用“'”引起来写在上式等号前.例如,若前述变量“GRADE”取值为1,2,3,4,则指定先验概率的语句形式应为
PRIORS '1'=0.1 '2'=0.3 '3'=0.5 '4'=0.1
若“GRADE”的取值为a,b,c,d,则指定先验概率的语句应为 'a'?0. 1 'b'?0. 1 'c'?0. 1 'd'?0. 1 若指定的先验概率之和非1,则SAS系统自动用其和除各值而使各概率之和为1。
在以上三种指定总体出现的先验分布的形式中,“EQUAL”是SAS系统默认的形式。
(5)TESTCLASS variable;
其中“variable”是描述检验数据集中的各总体类别的变量名,它可以和原训练样本数据集中的类别变量相同,也可以不同,但二者必须是同类型的(即同为数值或非数值变量).若变量采用格式化输入,则二者的输入格式也应相同.
▲ 逐步判别——PROCSTEPDISC过程
PROCSTEPDISC过程用以逐步判别分析.逐步判别的思想和逐步回归类似,即通过逐个引入或剔除变量挑选判别力最强的变量.此过程用Wilks的A似然比统计量判断一个变量的判别能力的强弱.逐步判别包括向前选入,向后剔除和逐步选择三种方法,并且假定各总体均服从协方差矩阵相等的正态分布.该过程的主要语句形式为
PROC STEPDISC options; CLASS variable; VAR variables; ①DATA=SAS data set:指定被分析的SAS数据集名称.
②METHOD=name:指定逐步判别的方法,其中的“name”可以是下列三种之一,即FORWARD(或FW),BACKWARD(或BW)及STEPWISE(或SW),分别表示向前选入,向后剔除和逐步选择方法.若省略此句,则默认方法为STEP—WISE。
③SLENTRY=level(或SLE=level):在向前选入方法中,指定选入变量的显著水平。默认值为level=0.15
④SLSTAY=level(或SLS=level):在向后剔除方法中,指定保留变量的显著水平.默认值为level=0.15.对于STEPWISE方法,要同时指定SLENTRY和SLSTAY,通常取为相等。
⑤PR2ENTRY=level(或PR2E=level):在向前选择方法中,指定选入变量的R*R值。