多元统计分析课程设计
1.打开相关数据文件,选择菜单“Analyze?Classify?Hierarchical
Cluster”,如图图1所示,弹出“系统聚类”对话框,如图2 所示
图1
图2
2.选择参与系统聚类分析的变量及其他相关设置。
- 7 -
多元统计分析课程设计
(1)“Variable(s):”类表框:从左侧选入参与聚类分析的变量。从对话框左侧的变量列表中选入“粮食产量”、“农作物总的播种面积”、“有效灌溉面积”、“化肥施用量”4个变量,单击按钮使之进入“Variable(s)”列表框。 (2)“Label Case by”编辑框:选入标签变量。若未选入任何变量,则分析结果中以记录号的形式出现,若选入标签变量,则会以标签变量的取值取代记录号。变量选择变量地区进入“Label Case by”编辑框。
(3)“Cluster”框:包含两个单选钮用户选择样品聚类(Case)还是变量聚类(Variables)。默认为样品聚类(Case),本例选用默认设置。
(4)“Display”框:包含两个复选框,选择输出结果,包含统计量表(Satistics)和统计图(Plot)。如果不选择“Satistic”复选钮,则不输出有关统计量表,按钮“Satistics...”呈灰色显示;如果不选择“Plot”复选钮,则不输出有关统计图,按钮“Plot...”呈灰色显示。默认两者都选中,本题选用默认。 3.系统聚类分析的有关方法参数设置。单击“系统聚类”对话框中的“Method...”按钮,弹出一个“系统聚类方法”对话框,如图3所示,具体的系统聚类分析的有关方法参数设置如下。
(1)“Cluster Method”下拉框:系统提出七种系统聚类方法供用户选择。本题选择类间平均连接法(系统默认方法) ◆ Between-groups linkage:类间平均连接法;
- 8 -
多元统计分析课程设计
◆ Within-groups linkage:类内平均连锁法; ◆ Nearest neighbor:最短距离法; ◆ Furthest neighbor:最长距离法; ◆ Centroid clustering:重心法; ◆ Median clustering:中间距离法;◆ Ward method:离差平方和法。
Xi?(x1i,...,xni)LabelCaseby'
(2)“Measure”框:根据3种不同变量类型,选择样品距离方法。 (3)“Transform value”框:选择进行变量的转换,使其标准化。
(4)“Transform Measures”框:距离测量结果的转换方法,具体包含3个复选框。
(5)完成设置后,单击“Continue”按钮,返回系统距离对话框。
4.系统聚类的统计输出。单击“Statistics...”按钮,弹出一个“系统量输出”对话框,如图4所示。具体相关设置如下:
(1)“Agglomeration schedule”复选框:凝聚过程表,显示聚类过程中每一步合并的类或观测量以及被合并的类或观测量之间的距离。
(2)“Proximity matrix”复选框:选择是否输出观察单位或变量间的相似性矩阵。本题选择输出比例。
(3)“Cluster Membership”框:选择是否输出样品或变的所属的类别,即类成员表。
(4)完成统计量输出的设置后,单击“Continue”按钮,返回“系统距离”对话框。
图4
5.系统聚类的统计图输出。单击“Plots...”按钮,弹出“统计图输出”对话框,如图5所示。下面具体介绍其相关设置。
(1)“Dendrogram”复选框:输出聚类结果的树状图,能够直观的反映聚类进程。
- 9 -
多元统计分析课程设计
(2)“Icicle”框:选择输出聚类结果的冰柱图,包括垂直冰柱图和水平冰柱图。 (3)“Orientation”框:该项是用来选择冰柱图的排列方向,垂直方向(Vertical)还是水平方向(Horizon)。默认输出是垂直方向。
图5
6.系统聚类输出到数据编辑窗口的设置。单击“Save...”按钮,弹出一个“结果保存”对话框,如图6所示,选择是否在数据编辑窗口创建新变量,输出有关统计结果。“Cluster Membership”框:选择是否输出样品或变量的所属类别,即类成员表。
图6
7.单击“OK”按钮,输出系统聚类的结果。 4.2结果解读
1.图一给出了参加系统聚类分析的5个变量的记录数统计表结果。共31个有效数据(Valid)参加分析,无缺失记录(Missing),总记录数为31个(Total)。
- 10 -
多元统计分析课程设计
图一
2.图二给出了样品的距离矩阵,由于数据量较大,只给出了部分距离矩阵的结果。本题每个省份的粮食产量为一个记录或一个样品,不同省份的粮食产量的因素结构越相近,计算得到的距离越小。
图二
3.下图三给出了反映聚类过程的凝聚过程表(Agglomeration schedule)。下面具体介绍表中各列数据的含义。
Stage:聚类步骤。
Cluster1,cluster2:该步被合并的两类中的样品号或类号,合并结果取小的序码。
Coefficients:距离测度值。
Stage cluster first appears:非零数值表示合并两项前一次出现的聚类步序号,而0表示第一次出现。
- 11 -