数据分析实验报告(8)

2019-04-09 19:54

⑥PR2STAY＝level(或PR2S＝level)：在向后剔除方法中，指定保留变量的R’值。

除以上选项外还包括打印选项，如打印各总体的样本相关矩阵，联合样本相关矩阵及相应的样本协方差矩阵等等(与PROCDISCRIM过程相应选项基本相同)。

(2)CLASS variable；

这—语句和\AR variables”语句与PROC DISCRIM过程相应语句的用法完全相同。 2、聚类分析 ▲ 谱系聚类法

PROC CLUSTER过程的基本语句为：

PROC CLUSTER options; /启动SAS聚类分析过程/ VAR variables;/部分列出参与聚类分析大数值变量名称/ ID variable;/用以表征个样品的名称,通常是定性变量/

Options通常包括下面一些内容:

1) DATA=SAS data set:该语句指出要进行聚类分析的数据集名称,它可以是含个观测向量的原始数据集,也可以是“距离”矩阵（这时要在数据集名后加上（TYPE=DISTANCE）.

2) OUTTREE=SAS data set;生成一个用于画聚类谱系图的输出数据集. 3) METHOD=name;指出具体使用的聚类方法.主要有: a. SINGLE(或SIN):最短距离法. b. COMPLETE(或COM): 最长距离法. c. AVERAGE(或AVE):类平均法. d. CENTROID(或CEN):重心法. e. MEDIAN(或MED):中间距离法. f. WARD(或WAR):WAR最小方差法.

4) NOSQUARE:阻止过程在METHOD=AVERAGE、CENTROID、MEDIAN或WARD方法中将输入的距离平方.

5) NONORM：阻止将距离规范化.

6) PSEUDO：要求打印伪F统计量及伪t2统计量的值.只有当输入数据是原始观测数据(但“METHOD”选项不能是SIN)或者“METHOD”选项为AVE、CEN或WAR时，才可选此项.

7) RSQUARE(或RSQ):要求打印出R2统计量和半偏相关统计量SPRSQ的值.当输入数据是原始观测数据且“METHED”选项是AVE或CEN时，才可选此项.

进一步若要画出聚类的谱系图,可用下列语句:

PROC TREE options; ID variable;

在“options”中除用DATA=SAS data set指定画图的SAS数据集名称外，可以是： a. HORIZONTAL:表示谱系图水平放置. b. VERTICAL:表示谱系图垂直放置.

c. SPACES=m:表示ID变量值的间隔单位,这里m是正整数. d. GRAPHICS:要求画高分辨率的聚类谱系图.

e. NCLUSTERS=m:指定在输出分类结果数据集中所分成的类的个数. f. OUT=SAS data set:按e中要求输出分类结果. ▲ 快速聚类法

PROC FASTCLUS options; VAR variables; ID variables; Options通常包括下面一些内容:

a. MAXCLUSTER(或MAXC)=n:指定所允许的最大分类个数. b. RADIUS=t:为选择新的“聚点”指定的最小距离准则.

c. DATA=SAS data set:指出用以分析的SAS数据集名称,要求数据性质是原始观测数据.

d. MEAS=SAS data set:生成一个输出数据集，其中包括每个类的均值和其他统计量的值.

e. OUT=SAS data set:生成一个输出数据集,其中包括原始数据及两个新变量CLUSTER(用以指示观测属于哪个类的变量)和距离DISTANCE.

f. CLUSTER=name:规定在d和f的输出数据集中用以指示观测属于哪一类的变量名称.

g. DISTANCE:要求打印类均值之间的距离.

h. LIST:要求列出所有观测的ID变量值,观测所归入类的类号及观测与最终“聚点”之间的距离。

i. LEAST=m：表明用Lm准则进行聚类，L1是绝对距离，LEAST=MAX是Chebyshev距离.

“VAR variables”和“ID variables”语句与PROC CLUSTER过程的相应语句用法相同。

1、1）判定广东、西藏两省区属于哪种收入类型，并用回代法及交叉确认法对误判率作出估计。程序如下：

data dlxf1;

input d$ c x1 x2 x3 x4 x5 x6 x7 x8 x9; cards;

北京 1 170.03 110.2 59.76 8.38 0.41 天津 1 141.55 82.58 50.98 13.4 1.05 河北 1 0.7 上海 1 0.16

4.49 9.33

26.8 21.3 17.3

16.44 11.912.36 9.2111.79 12

119.4 83.33 53.39 11 7.52 194.53 107.8 60.24 15.6

15.9

8.88 10.5 8.44

31 21.01 11.820.61 12.14 9.6113.87 16.47 8.3821.49 26.12 13.618.67 29.49 11.816.14 10.18 14.519.41 21.2

12.6

山东 1 130.46 86.21 52.3 0.47

湖北 1 119.29 85.41 53.02 13.1 0.51 广西 1 4.56

134.46 98.61 48.18 8.9 4.34

6.3 1.56

9.62 5.87

海南 1 143.79 99.97 45.6 3.82 四川 1 1.21

128.05 74.96 50.13 13.9

云南 1 127.41 93.54 50.57 10.5 0.9

新疆 1 122.96 101.4 69.7 4.62

6.3 3.86

6.96 6.27 9.01 7.41 7.95 6.43 3.42 3.86 5.44 4.07 5.63 15.3 15.2 13.9 12.5 10.5

11.3 18.96 5.62

6.666.97

山西 2 102.49 71.72 47.72 9.42 0.61 内蒙古 2 106.14 76.27 46.19 9.65 0.96 吉林 2 104.93 72.99 44.6 1.68

13.7

13.12 7.9 9.655 20.1

9.435 20.61 6.658.342 10.19 6.4510.59 16.5

7.69

黑龙江 2 103.34 62.99 42.95 11.1 2.68 江西 2 98.089 69.45 43.04 11.4 1.08 河南 2 1.11

104.12 72.23 47.31 9.48

13.14 10.43 8.3 13.69 16.53 8.3712.94 9.492 6.7710.82 16.43 3.798.371 18.98 5.9513.95 22.65 4.7513.88 12.42 9.0122.38 9.661 13.929.54 10.9

贵州 2 108.49 80.79 47.52 6.06

2.85 陕西 2 1.27

113.99 75.6

50.88 5.21

甘肃 2 114.06 84.31 52.78 7.81 1.19 青海 2 0.83 宁夏 2 0.97

108.8 80.41 50.45 7.27 115.96 88.21 51.85 8.81

辽宁 3 128.46 68.91 43.41 22.4 1.41 江苏 3 135.24 73.18 44.54 23.9 1.19 浙江 3 3.47 安徽 3 0.63

162.53 80.11 45.99 24.3 111.77 71.07 43.64 19.4

16.68 9.698 7.0220.23 16.47 7.67

福建 3 139.09 79.09 44.19 18.5 3.08 湖南 1.76

3 124 84.66 44.05 13.5

7.47 19.11 20.49 10.3

；

proc print; run;

data dlxf0;

input d$ x1 x2 x3 x4 x5 x6 x7 x8 x9; cards; 广东西藏

211.3 114 41.44 33.2 175.93 163.8 57.89 4.22

11.2 3.37

48.72 30.77 14.9 17.81 82.32 15.7

11.1 0

;

proc print; run;

proc discrim data=dlxf1 testdata=dlxf0 out=a1 outstat=a2 outcross=a3 testout=a4

method=normal list crosslist testlist wcov pcov; class c; id d; var x1-x9; priors equal; run;

用距离判别法，假定总体G1， G2，G3 的协方差矩阵?1=?2=?3=? 用proc discrim过程，算得如下结果：各个总体之间的马氏平方距离

d(G,G)形成的矩阵为：

ij?2

T?2?1(i)(i)2(i)(i)(?其中d?d(Gi,Gj)?(?)sxx).从这一计算结果可以看

ijxx出，总体G1与G3的马氏平方距离最大，d2?31.82395，这说明总体G2与G3

ij的差异最大。事实上，总体G2属于低收入省区，总体G3属于高收入省区。

共8页:

数据分析实验报告(8).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档