目录
第一节 摘要 ............................................................................................................................. 2 第二节 介绍 ............................................................................................................................. 2 第三节 统计方法 ..................................................................................................................... 3 第四节 两步聚类方法的分析 ................................................................................................. 3 第五节 案例研究 ..................................................................................................................... 7 第六节 输入 ............................................................................................................................. 7 第七节 输出 ............................................................................................................................. 8 第八节 讨论 ........................................................................................................................... 10 第九节 结论 ........................................................................................................................... 11
第一节 摘要
本文利用SPSS两步聚类的方法将现有的数据分为三个集群以分析银行客户的信息。对于我们的案例研究,这个方法是完美的,因为与其他经典聚类方法相比,两步聚类方法采用混合数据(包括连续和分类变量),它也发现了最优数量的集群。两步聚类方法创建三个客户的配置文件,最大的一组包括最有资历(与银行合作时间悠久)的客户,其信用卡申请的目的是教育或者公司业务。第二组主要包括拥有房产的客户,但主要是失业,他们信用卡申请的目的在于再培训或者添置家庭用品。第三组主要是包括那些拥有未知属性的人,他们申请额度的目的在于购买汽车、添置电视或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加强公司的利润空间。
第二节 介绍
在不同的领域中,不同的应用程都序可以使用聚类算法。然而,大多数的这些算法只处理数值数据和分类数据。然而,现实世界的数据可能包含数值和分类属性。两步聚类的方法是SPSS中解决这个问题的一个途径之一。
在本文中,我们打算从一个银行提供的公共数据集中使用两部聚类的方法来确定银行客户的资料。该方法的优势在于可以确定适当数量的集群,所以我们的目标是找到这个概要文件的数量,有效地管理现有的和可能存在的客户。
在下面几节中,我们介绍两步聚类的方法和案例研究中的输入、输出和结果的分析。
第三节 统计方法
数据分组(或数据集群)是一种方法,可以形成具有类似特征的类的对象。集群通常是与分类混淆,但有一个主要的区别,即分类时,对象被分配到预定义的类,而在集群的情况下,必须定义这些类。
我们预计数据时使用集群技术自然得分组到不同的类别。集群类别的物品有很多共同的特点,例如,客户、事件等等。如果问题是复杂的,在聚类数据前,其他数据挖掘技术也可以应用(如神经网络和决策树)。
经典的聚类方法使用分层或分区算法。分层算法在集群的基础之上建立集群,而分区算法在同一时间确定所有的集群,建立不同的分区,然后评估他们某些标准。在SPSS中,聚类分析可以使用两步聚类、分层集群或k - means聚类,每个方法都依赖不同的算法来创建集群。最后两个经典的分类方法是基于分层、分区的算法,而二步聚类方法在SPSS 中是特别设计和实现的方法。
对于应用程序而言,考虑到不同的数据类型这种情况,分层集群方法是有限的小数据集,k - means仅限于连续值,而两步聚类方法基于连续和分类变量的情况下可以创建集群模型。
接下来,我们将探讨两步聚类方法,突出其优势之处。
第四节 两步聚类方法的分析
两步聚类方法是设计用来分析大型数据集的算法。这个算法会用标准方法将不同的观察结果分组到不同的集群之中。这个过程会使用一个凝聚的层次聚类方法。与经典的聚类分析方法相比,两步聚类分析方法使用连续的分类属性。此外,该方法可以自动确定最优数量的集群。
两步聚类分析方法的实现主要包括下面几个步骤: o 预聚类
o 解决处理非典型值(异常值)-- 噪声处理,可选 o 聚类
在预聚类步骤中,它会扫描数据记录,基于标准的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群。测距的方法使用了两个类型:欧式距离和对
数似然距离。
预聚类过程的实现通过构建一个数据结构(称为CF(集群特性)树),其中包含集群中心。CF树有水平的节点,每个节点有一个条目的数量。叶子节点是最后的子类。对于每一个记录,从根节点开始,找到最近的子节点递归,沿着CF树下行。一旦到达一个叶子节点,该算法找到最近的叶子节点中的叶条目。如果记录的数量在一个阈值距离之内,就会记录添加到叶子节点并且CF树更新。否则,它会创建一个新的叶子节点的值。
在构建CF树的过程中,该算法实现了一个可选的步骤:可以解决非典型值(异常值)。离群值被认为并不能很好的适合任何集群的一个记录。在SPSS,在一片叶子中如果记录的数量小于一定比例的规模最大的CF树中的叶子条目就会被认为是离群值;默认情况下,这个比例是25%。在重建CF树之前,会搜索潜在的典型值,将他们放在一边。CF树重建后,程序检查这些值是否恰当,是否可以不增加树的大小。最后,值不恰当会被认为是离群值。
如果CF树超过允许的最大尺寸,它会基于现有的CF树,通过增加阈值距离重建CF树,。新的CF树会小很多,也允许输入新的记录。
预聚类作为输入的一个步骤会产生有子类的聚类(没有噪声,如果你选择了处理非典型值这个选项)并且组成有价值的聚类的数量。因为子类的数量远小于初始时的记录数量,因此经典的聚类方法可以成功地使用。两步聚类方法使用一个凝结的自动分层方法决定了集群的数量。
层次聚类方法是指集群不断融合的过程,直到一个集群组包括所有的记录。这个过程始于为每个子集定义一个初始集群。然后,所有集群进行比较并且集群之间的距离是最小的两个集群会合并成一个集群。这个过程会一直重复直到所有集群已经合并。因此,它是相当简单的比较不同数量的集群解决方案。
计算集群之间的距离,可以使用欧式距离和对数似然距离。
欧式距离只有所有变量是连续的情况下可以使用。欧式距离是在m维空间中两个点的真实距离。对于集群来说,两个集群之间中心之间的距离被定义为欧式距离。集群中心被定义为集群中变量的容器。
可以使用对数似然距离来分析连续和分类变量。两个集群之间的距离与似然函数的自然对数的减少是相关的,因此他们会被分组到一个集群。计算对数似然距离,假定连续变量正态分布和分类变量的多项式分布,以及变量是相互独立的。
定义i和j两个集群之间的距离为:
其中
在公式(2)中
是i和j两个集群之间的距离;
新的集群;变量的数量;分成了l个分组;
是所有连续变量的总数;
索引代表通过集群i和j的结合后生成的是所有分组变量的总数;
是第k个分类
是S集群中所有数据记录的数量;是S集群的数量,分类变量k
对整个数据集来说,
是分组变量k分成l个分组的记录的数量;
是对连续变量k的方差(离散)的估计,在集群j中,对于连续变量k的方差估计。
为了自动确定集群的数量,该方法使用两个阶段。在第一个阶段,指示器BIC(施瓦兹-贝叶斯准则)或AIC(Akaike准则)计算为每个集群从一个指定范围中计算数量;然后这个指示器用于寻找一个初始估计集群的数量。
对于J集群,两个指示器通过公式(4)和(5)计算得出,过程如下
其中
变量的相对贡献形成了集群计算的两种类型的变量(连续和分类)。