⑥PR2STAY=level(或PR2S=level):在向后剔除方法中,指定保留变量的R’值。
除以上选项外还包括打印选项,如打印各总体的样本相关矩阵,联合样本相关矩阵及相应的样本协方差矩阵等等(与PROCDISCRIM过程相应选项基本相同)。
(2)CLASS variable;
这—语句和\AR variables”语句与PROC DISCRIM过程相应语句的用法完全相同。 2、聚类分析 ▲ 谱系聚类法
PROC CLUSTER过程的基本语句为:
PROC CLUSTER options; /启动SAS聚类分析过程/ VAR variables;/部分列出参与聚类分析大数值变量名称/ ID variable;/用以表征个样品的名称,通常是定性变量/
Options通常包括下面一些内容:
1) DATA=SAS data set:该语句指出要进行聚类分析的数据集名称,它可以是含个观测向量的原始数据集,也可以是“距离”矩阵(这时要在数据集名后加上(TYPE=DISTANCE).
2) OUTTREE=SAS data set;生成一个用于画聚类谱系图的输出数据集. 3) METHOD=name;指出具体使用的聚类方法.主要有: a. SINGLE(或SIN):最短距离法. b. COMPLETE(或COM): 最长距离法. c. AVERAGE(或AVE):类平均法. d. CENTROID(或CEN):重心法. e. MEDIAN(或MED):中间距离法. f. WARD(或WAR):WAR最小方差法.
4) NOSQUARE:阻止过程在METHOD=AVERAGE、CENTROID、MEDIAN或WARD方法中将输入的距离平方.
5) NONORM:阻止将距离规范化.
6) PSEUDO:要求打印伪F统计量及伪t2统计量的值.只有当输入数据是原始观测数据(但“METHOD”选项不能是SIN)或者“METHOD”选项为AVE、CEN或WAR时,才可选此项.
7) RSQUARE(或RSQ):要求打印出R2统计量和半偏相关统计量SPRSQ的值.当输入数据是原始观测数据且“METHED”选项是AVE或CEN时,才可选此项.
进一步若要画出聚类的谱系图,可用下列语句:
PROC TREE options; ID variable;
在“options”中除用DATA=SAS data set指定画图的SAS数据集名称外,可以是: a. HORIZONTAL:表示谱系图水平放置. b. VERTICAL:表示谱系图垂直放置.
c. SPACES=m:表示ID变量值的间隔单位,这里m是正整数. d. GRAPHICS:要求画高分辨率的聚类谱系图.
e. NCLUSTERS=m:指定在输出分类结果数据集中所分成的类的个数. f. OUT=SAS data set:按e中要求输出分类结果. ▲ 快速聚类法
PROC FASTCLUS options; VAR variables; ID variables; Options通常包括下面一些内容:
a. MAXCLUSTER(或MAXC)=n:指定所允许的最大分类个数. b. RADIUS=t:为选择新的“聚点”指定的最小距离准则.
c. DATA=SAS data set:指出用以分析的SAS数据集名称,要求数据性质是原始观测数据.
d. MEAS=SAS data set:生成一个输出数据集,其中包括每个类的均值和其他统计量的值.
e. OUT=SAS data set:生成一个输出数据集,其中包括原始数据及两个新变量CLUSTER(用以指示观测属于哪个类的变量)和距离DISTANCE.
f. CLUSTER=name:规定在d和f的输出数据集中用以指示观测属于哪一类的变量名称.
g. DISTANCE:要求打印类均值之间的距离.
h. LIST:要求列出所有观测的ID变量值,观测所归入类的类号及观测与最终“聚点”之间的距离。
i. LEAST=m:表明用Lm准则进行聚类,L1是绝对距离,LEAST=MAX是Chebyshev距离.
“VAR variables”和“ID variables”语句与PROC CLUSTER过程的相应语句用法相同。
1、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。 程序如下:
data dlxf1;
input d$ c x1 x2 x3 x4 x5 x6 x7 x8 x9; cards;
北京 1 170.03 110.2 59.76 8.38 0.41 天津 1 141.55 82.58 50.98 13.4 1.05 河北 1 0.7 上海 1 0.16
4.49 9.33
26.8 21.3 17.3
16.44 11.912.36 9.2111.79 12
119.4 83.33 53.39 11 7.52 194.53 107.8 60.24 15.6
15.9
8.88 10.5 8.44
31 21.01 11.820.61 12.14 9.6113.87 16.47 8.3821.49 26.12 13.618.67 29.49 11.816.14 10.18 14.519.41 21.2
12.6
山东 1 130.46 86.21 52.3 0.47
湖北 1 119.29 85.41 53.02 13.1 0.51 广西 1 4.56
134.46 98.61 48.18 8.9 4.34
6.3 1.56
9.62 5.87
海南 1 143.79 99.97 45.6 3.82 四川 1 1.21
128.05 74.96 50.13 13.9
云南 1 127.41 93.54 50.57 10.5 0.9
新疆 1 122.96 101.4 69.7 4.62
6.3 3.86
6.96 6.27 9.01 7.41 7.95 6.43 3.42 3.86 5.44 4.07 5.63 15.3 15.2 13.9 12.5 10.5
11.3 18.96 5.62
6.666.97
山西 2 102.49 71.72 47.72 9.42 0.61 内蒙古 2 106.14 76.27 46.19 9.65 0.96 吉林 2 104.93 72.99 44.6 1.68
13.7
13.12 7.9 9.655 20.1
9.435 20.61 6.658.342 10.19 6.4510.59 16.5
7.69
黑龙江 2 103.34 62.99 42.95 11.1 2.68 江西 2 98.089 69.45 43.04 11.4 1.08 河南 2 1.11
104.12 72.23 47.31 9.48
13.14 10.43 8.3 13.69 16.53 8.3712.94 9.492 6.7710.82 16.43 3.798.371 18.98 5.9513.95 22.65 4.7513.88 12.42 9.0122.38 9.661 13.929.54 10.9
13
贵州 2 108.49 80.79 47.52 6.06
2.85 陕西 2 1.27
113.99 75.6
50.88 5.21
甘肃 2 114.06 84.31 52.78 7.81 1.19 青海 2 0.83 宁夏 2 0.97
108.8 80.41 50.45 7.27 115.96 88.21 51.85 8.81
辽宁 3 128.46 68.91 43.41 22.4 1.41 江苏 3 135.24 73.18 44.54 23.9 1.19 浙江 3 3.47 安徽 3 0.63
162.53 80.11 45.99 24.3 111.77 71.07 43.64 19.4
16.68 9.698 7.0220.23 16.47 7.67
福建 3 139.09 79.09 44.19 18.5 3.08 湖南 1.76
3 124 84.66 44.05 13.5
7.47 19.11 20.49 10.3
;
proc print; run;
data dlxf0;
input d$ x1 x2 x3 x4 x5 x6 x7 x8 x9; cards; 广东 西藏
211.3 114 41.44 33.2 175.93 163.8 57.89 4.22
11.2 3.37
48.72 30.77 14.9 17.81 82.32 15.7
11.1 0
;
proc print; run;
proc discrim data=dlxf1 testdata=dlxf0 out=a1 outstat=a2 outcross=a3 testout=a4
method=normal list crosslist testlist wcov pcov; class c; id d; var x1-x9; priors equal; run;
用距离判别法,假定总体G1, G2,G3 的协方差矩阵?1=?2=?3=? 用proc discrim过程,算得如下结果: 各个总体之间的马氏平方距离
d(G,G)形成的矩阵为:
ij?2
T?2?1(i)(i)2(i)(i)(?其中d?d(Gi,Gj)?(?)sxx).从这一计算结果可以看
ijxx出,总体G1与G3的马氏平方距离最大,d2?31.82395,这说明总体G2与G3
ij的差异最大。事实上,总体G2属于低收入省区,总体G3属于高收入省区。