SPSS数据挖掘方法概述(3)

2019-02-15 13:44

火龙果?整理 uml.org.cn

合并类

?7与?6成一新类?8={?7,?6},最后计算?8与?3的距离为5,并合

1 2 3 4 5

并为一大类。并化出相应的谱系图:

1 4 2 5 3

五个样品的最小距离的谱系图 5个股票样品的聚类顺序表

合并次序 合并的类 合并后类的元素 合并水平(距离) 1 ?1,?4

?6={?1,?4} 1 2 ?2,?5 ?7={?2,?5} 3 3 ?6,?7 ?8={?1,?2,?4,?5} 4 4 ?3,?8 ?9={?1,?2,?3,?4,?5} 5 最小距离法也可以对变量进行系统聚类,仍通过例子来说明 案例2:对某地超基性岩的一批样品,测试六个与矿化有关的元素: x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6==砷,并假设它们的相关系数如矩阵 R(0)所示。

相关系数定义:设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk的相关系数为:

rik=

?[(xj?1nij?xi)((xkj?xk)]/

?(xj?1nij?xi)2?((xj?1nkj?xk)2

xi??xj?1nij/n

第A类与第B类的距离可以定义为:

dAB?min{rijX(i)?A,X(j)?B}

11

火龙果?整理 uml.org.cn

?1 ?2 ?3 ?4 ?5?6

?1 1 ?2 0.8462 1 ?3 0.7579 0.9802 1 ?4 0.6431 0.2419 0.1811 1 ?5 0.5039 0.7370 0.7210 -0.3075 1 ?60.5603 0.4241 0.3920 0.1998 0.6802 1

其中?i?Xi, i=1,2,?,6,试用系统聚类的最大距离法对六个变量进行聚类(负相关系数

采用绝对值)。

由于采用的是相关系数矩阵,所以应找最大元素并类。其中最大的元素为0.9802,因此将

?2与?3合并为?7。计算它与其它剩下的类的相关系数,相应地得到R

(1)

:

?7 ?1 ?4 ?5?6

?7 1 ?1 0.7579 1 ?4 0.1811 0.6431 1

?5 0.7210 0.5039 -0.3057 1 ?6 0.3920 0.5603 0.1998 0.6802 1 ?7与?1合并为?8,并计算它与其它剩下的类的相

R(1)中最大的元素为0.7579,因此将关系数,相应的得到R(2):

?8 ?4 ?5?6 ?8 1 ?4 0.1811 1

?5 0.5039 -0.3075 1

?6 0.3920 0.1998 0.6802 1

12

火龙果?整理 uml.org.cn

R(2)中的最大的元素为0.6802,因此将相关系数,相应地得到R(3):

?5

?6合并为?9,并计算它与其它剩下的类的

?9 ?8 ?4

?9 1 ?8 0.3920 1 ?4 -0.3075 0.1811 1 R(3)中最大的元素为0.3920,因此将六个变量的并类顺序表

?9与?8合并为?10。

并次序 合并的类 合并后类的元素 合并的水平(相关系数) 1 ?2,?3 ?7={x2,x3} 0.9802 2 ?1,?7 ?8={x2,x3,x1} 0.7579 3 ?5,?6 ?9={x5,x6} 0.6802 4 ?8,?9 ?10={x2,x3,x1,x5,x6} 0.3930 5 ?10,?4 ?11={x2,x3,x1,x5,x6,x4} 0.1811 1 0.8 0.6 0.4 0.2 0 x2 x3 x1 x5 x6 x4

横坐标是并类的相关系数。 2)K均值聚类法

K均值聚类法是一种已知类数的数据聚类和分类方法。过程如下: ① 选取聚类数K;

② 从训练样本中任意选择K个向量C1,C2,?CK作为聚类中心,Ci=(Ci1,Ci2?Cin); ③ 将每个样本Xl=(Xl1,Xl2, ?,Xln)按距离: DP??(XK?1nlk?CPk)2

P=1,2,3?k, 归入距离最小的中心为Ci的类;

13

火龙果?整理 uml.org.cn

④ 设属于Ci类的样本为Xj(j=1,2, ?q),计算新的聚类中心

Ci=((C

其中:

’i1

,C

i2

?C

in

C’im??Xj?1qjm/q

⑤ 若④中的聚类中心不再变化,就终止,否则转③。 思考问题:(1)如果分两类,谱系图如何? (2)如果分三类,谱系图如何?

(3)如何确定适合的聚类数?

(4)分析客户购买手机的数据,通过聚类分析客户流失情况。

作业: 在城市医疗能力评价中,评价指标为五个,即X=(X1,X2,X3,X4,X5),每一指标取值四个(v,g,a,b),则Xi取值的各种可能为4,则可能有4的评价指标情况,要求通过聚类,从中选出15个有代表性的样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络的不同。 3、主成分分析

主成分分析是一种多变量分析方法,通过变量变换把相关的变量变为不相关的、比原来少的若干个新变量。

问题引入:为了找出影响顾客购买手机的主要因素,抽查一部分人按性别和年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎的手机给予9分,最不受欢迎的手机给1分。设10组顾客对100类手机的评分数据为:

指标 样本 手机1 手机2 ?? 手机100 X1(男20岁以下) X11 X21 ?? X1001 X2(男21—30岁) X12 X22 ?? X1002 X3(男31—40岁) ?? X4(男41—50岁) X5(男50岁以上) X6(女20岁以下) X7(女21—30岁) X8(女31—40岁) X9(女41—50岁)

X10(女50岁以上) X110 X2 10 ?? X 100 10

Xij表示第j个顾客对第i款手机的偏好评分,记A=(Xij)。设想通过主成分分析确定手机类型的主要影响因素。

14

5

5

火龙果?整理 uml.org.cn

主成分分析步骤:

1)

rik?求A的相关系数矩阵R,R=R(rik), ik的定义为:

r?(xj?1nij?xi)(xkj?xk)/?(xj?1nij?xi)2?(xj?1nkj?xk)2 ,

rik=rki rii?1

2) 3) 4)

m求特征方程det(R-?E)=0的特征根?i(i =1,2,?n);

通过非零向量B满足(R-?E)B=0,计算相应的特征向量Bi=(Bi1,B i2, ?Bin); 从大到小排列

n?i,不妨设

?1>

?2> ??>

?n ,由累计贡献率

??/??ii?1i?1i≥95%确定m个特征根?1>?2> ??>?m,对应的特征向量为

Bi=(Bi1,B i2, ?Bin),i=1,2,?m;

5)

计算主分量Z k,Z k=

?Bi?1nki,即Z k是原影响因素XiXi(k=1,2, ?m( m

的线性组合。

Z k 的应用:1)通过Zi与Zj的对应取值变化,了解主要影响因素之间的关系和变化趋势;2)可以通过Z k对X1,X2,?X100的贡献率vi?Xi为Z k影响最大的指标。 r(Zk,Xi)的定义:

令Xij 与 Zij的关系为:

组号\\指标 X1,X2, ?? X n Z 1,Z 2 ?? Z m 1 X11 X21 ?? X n 1 Z11 Z21 Z m1 2 X12 X22 ?? X n 2 Z12 Z22 Z m2 ??

10 X110 X210?? X n 10 Z110 Z210 Z m10

?rk?1m2(Zk,Xi),找出

vi最大的指标Xi,视

r(Zi,Xj)??Zk?110ikX10jk?Zk?110

2jk2ik?Xk?1i=1,2, ??m, j=1,2, ?? n 案例分析:

1):A(Xij)的相关系数矩阵R为:

15


SPSS数据挖掘方法概述(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:高压电工模拟试卷

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: