火龙果?整理 uml.org.cn
合并类
?7与?6成一新类?8={?7,?6},最后计算?8与?3的距离为5,并合
1 2 3 4 5
并为一大类。并化出相应的谱系图:
1 4 2 5 3
五个样品的最小距离的谱系图 5个股票样品的聚类顺序表
合并次序 合并的类 合并后类的元素 合并水平(距离) 1 ?1,?4
?6={?1,?4} 1 2 ?2,?5 ?7={?2,?5} 3 3 ?6,?7 ?8={?1,?2,?4,?5} 4 4 ?3,?8 ?9={?1,?2,?3,?4,?5} 5 最小距离法也可以对变量进行系统聚类,仍通过例子来说明 案例2:对某地超基性岩的一批样品,测试六个与矿化有关的元素: x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6==砷,并假设它们的相关系数如矩阵 R(0)所示。
相关系数定义:设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk的相关系数为:
rik=
?[(xj?1nij?xi)((xkj?xk)]/
?(xj?1nij?xi)2?((xj?1nkj?xk)2
xi??xj?1nij/n
第A类与第B类的距离可以定义为:
dAB?min{rijX(i)?A,X(j)?B}
11
火龙果?整理 uml.org.cn
?1 ?2 ?3 ?4 ?5?6
?1 1 ?2 0.8462 1 ?3 0.7579 0.9802 1 ?4 0.6431 0.2419 0.1811 1 ?5 0.5039 0.7370 0.7210 -0.3075 1 ?60.5603 0.4241 0.3920 0.1998 0.6802 1
其中?i?Xi, i=1,2,?,6,试用系统聚类的最大距离法对六个变量进行聚类(负相关系数
采用绝对值)。
由于采用的是相关系数矩阵,所以应找最大元素并类。其中最大的元素为0.9802,因此将
?2与?3合并为?7。计算它与其它剩下的类的相关系数,相应地得到R
(1)
:
?7 ?1 ?4 ?5?6
?7 1 ?1 0.7579 1 ?4 0.1811 0.6431 1
?5 0.7210 0.5039 -0.3057 1 ?6 0.3920 0.5603 0.1998 0.6802 1 ?7与?1合并为?8,并计算它与其它剩下的类的相
R(1)中最大的元素为0.7579,因此将关系数,相应的得到R(2):
?8 ?4 ?5?6 ?8 1 ?4 0.1811 1
?5 0.5039 -0.3075 1
?6 0.3920 0.1998 0.6802 1
12
火龙果?整理 uml.org.cn
R(2)中的最大的元素为0.6802,因此将相关系数,相应地得到R(3):
?5
与
?6合并为?9,并计算它与其它剩下的类的
?9 ?8 ?4
?9 1 ?8 0.3920 1 ?4 -0.3075 0.1811 1 R(3)中最大的元素为0.3920,因此将六个变量的并类顺序表
?9与?8合并为?10。
并次序 合并的类 合并后类的元素 合并的水平(相关系数) 1 ?2,?3 ?7={x2,x3} 0.9802 2 ?1,?7 ?8={x2,x3,x1} 0.7579 3 ?5,?6 ?9={x5,x6} 0.6802 4 ?8,?9 ?10={x2,x3,x1,x5,x6} 0.3930 5 ?10,?4 ?11={x2,x3,x1,x5,x6,x4} 0.1811 1 0.8 0.6 0.4 0.2 0 x2 x3 x1 x5 x6 x4
横坐标是并类的相关系数。 2)K均值聚类法
K均值聚类法是一种已知类数的数据聚类和分类方法。过程如下: ① 选取聚类数K;
② 从训练样本中任意选择K个向量C1,C2,?CK作为聚类中心,Ci=(Ci1,Ci2?Cin); ③ 将每个样本Xl=(Xl1,Xl2, ?,Xln)按距离: DP??(XK?1nlk?CPk)2
P=1,2,3?k, 归入距离最小的中心为Ci的类;
13
火龙果?整理 uml.org.cn
④ 设属于Ci类的样本为Xj(j=1,2, ?q),计算新的聚类中心
Ci=((C
其中:
‘
’i1
,C
‘
i2
?C
‘
in
)
C’im??Xj?1qjm/q
⑤ 若④中的聚类中心不再变化,就终止,否则转③。 思考问题:(1)如果分两类,谱系图如何? (2)如果分三类,谱系图如何?
(3)如何确定适合的聚类数?
(4)分析客户购买手机的数据,通过聚类分析客户流失情况。
作业: 在城市医疗能力评价中,评价指标为五个,即X=(X1,X2,X3,X4,X5),每一指标取值四个(v,g,a,b),则Xi取值的各种可能为4,则可能有4的评价指标情况,要求通过聚类,从中选出15个有代表性的样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络的不同。 3、主成分分析
主成分分析是一种多变量分析方法,通过变量变换把相关的变量变为不相关的、比原来少的若干个新变量。
问题引入:为了找出影响顾客购买手机的主要因素,抽查一部分人按性别和年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎的手机给予9分,最不受欢迎的手机给1分。设10组顾客对100类手机的评分数据为:
指标 样本 手机1 手机2 ?? 手机100 X1(男20岁以下) X11 X21 ?? X1001 X2(男21—30岁) X12 X22 ?? X1002 X3(男31—40岁) ?? X4(男41—50岁) X5(男50岁以上) X6(女20岁以下) X7(女21—30岁) X8(女31—40岁) X9(女41—50岁)
X10(女50岁以上) X110 X2 10 ?? X 100 10
Xij表示第j个顾客对第i款手机的偏好评分,记A=(Xij)。设想通过主成分分析确定手机类型的主要影响因素。
14
5
5
火龙果?整理 uml.org.cn
主成分分析步骤:
1)
rik?求A的相关系数矩阵R,R=R(rik), ik的定义为:
r?(xj?1nij?xi)(xkj?xk)/?(xj?1nij?xi)2?(xj?1nkj?xk)2 ,
rik=rki rii?1
2) 3) 4)
m求特征方程det(R-?E)=0的特征根?i(i =1,2,?n);
通过非零向量B满足(R-?E)B=0,计算相应的特征向量Bi=(Bi1,B i2, ?Bin); 从大到小排列
n?i,不妨设
?1>
?2> ??>
?n ,由累计贡献率
??/??ii?1i?1i≥95%确定m个特征根?1>?2> ??>?m,对应的特征向量为
Bi=(Bi1,B i2, ?Bin),i=1,2,?m;
5)
计算主分量Z k,Z k=
?Bi?1nki,即Z k是原影响因素XiXi(k=1,2, ?m( m 的线性组合。 Z k 的应用:1)通过Zi与Zj的对应取值变化,了解主要影响因素之间的关系和变化趋势;2)可以通过Z k对X1,X2,?X100的贡献率vi?Xi为Z k影响最大的指标。 r(Zk,Xi)的定义: 令Xij 与 Zij的关系为: 组号\\指标 X1,X2, ?? X n Z 1,Z 2 ?? Z m 1 X11 X21 ?? X n 1 Z11 Z21 Z m1 2 X12 X22 ?? X n 2 Z12 Z22 Z m2 ?? 10 X110 X210?? X n 10 Z110 Z210 Z m10 ?rk?1m2(Zk,Xi),找出 vi最大的指标Xi,视 r(Zi,Xj)??Zk?110ikX10jk?Zk?110 2jk2ik?Xk?1i=1,2, ??m, j=1,2, ?? n 案例分析: 1):A(Xij)的相关系数矩阵R为: 15