答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2),?,X(n)表示
n个有序的样品,则每一类必须是这样的形式,即X(i),X(i?1),?,X(j),其中1?i?n,且
j?n,简记为Gi?{i,i?1,?,j}。在同一类中的样品是次序相邻的。一般的步骤是(1)
计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。
5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。 (1)用最短距离法进行聚类分析。 采用绝对值距离,计算样品间距离阵 0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0 由上表易知
中最小元素是
于是将
,
,
聚为一类,记为
计算距离阵
0
3 0 6 3 0 8 5 2 0 中最小元素是
=2 于是将
,
聚为一类,记为
计算样本距离阵
0
3 0 6 3 0 中最小元素是因此,
于是将
,
聚为一类,记为
(2)用重心法进行聚类分析 计算样品间平方距离阵
0
1 0 4 1 0
25 16 9 0 64 49 36 9 0 100 81 64 25 4 0 易知
中最小元素是
于是将
,
,
聚为一类,记为
计算距离阵 0
16 0 49 9 0 81 25 4 0
注:计算方法
中最小元素是
=4 于是将
,
,其他以此类推。
聚为一类,记为
计算样本距离阵 0 16 0
64 16 0
中最小元素是
于是将
,
聚为一类,记为
因此,
5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。
公司 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 净资产收益率 11.09 11.96 0 11.58 -6.19 10 10.49 11.12 3.41 1.16 30.22 8.19 95.79 16.55 每股净利润 0.21 0.59 0.03 0.13 -0.09 0.47 0.11 -1.69 0.04 0.01 0.16 0.22 -5.2 0.35 -1.16 总资产周转率 0.05 0.74 0.03 0.17 0.03 0.48 0.35 0.12 0.2 0.54 0.4 0.38 0.5 0.93 0.79 资产负债率 96.98 51.78 181.99 46.07 43.3 68.4 82.98 132.14 67.86 43.7 87.36 30.31 252.34 72.31 56.26 流动负债比率 70.53 90.73 100 92.18 82.24 86 99.87 100 98.51 100 94.88 100 99.34 84.05 97.8 每股净资产 1.86 4.95 -2.98 1.14 1.52 4.7 1.02 -0.66 1.25 1.03 0.53 2.73 -5.42 2.14 4.81 净利润增长率 -44.04 7.02 103.33 6.55 -1713.5 -11.56 100.23 -4454.39 -11.25 -87.18 729.41 -12.31 -9816.52 115.95 -533.89 总资产增长率 81.99 16.11 21.18 -56.32 -3.36 0.85 30.32 -62.75 -11.43 -7.41 -9.97 -2.77 -46.82 123.41 -27.74 15 -24.18
解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下: a) 系统聚类法:
1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出系统聚类分析主界
面,并将变量X1-X8移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1 系统分析法主界面
2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择
Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。
(其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。)
3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram
复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。
图5.2 Statistics子对话框 图5.3 Plots子对话框
4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定
聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。