连续变量的重要性的衡量标准是基于:
在这个公式中:值。
在H0(零假设),重要性衡量中学生分布呈Nk-1的自由度分布。显著性水平是双侧的。 对于分组变量,重要性衡量是建立在X2的基础上的:
是连续变量估计值的意思,并且
是集群j中连续变量k的估计
在零假设中,作为一个X2和LK的自由度。
对于项目的集群成员,记录被分配用于解决非典型值的规范(噪声)和选择测量的距离。
如果解决非典型值的选择不使用,根据距离测量的方法,值会分配给最近的集群中。否则,该值是区别对待的,如下:
1) 在欧几里得的方法的情况下,一个项目被分配到最近的集群,如果它们之间的距离小于临界值:
否则,该项目被声明为噪声(异常)
2) 如果选择对数似然方法,它假定噪声均匀分布,并且计算对数似然对应于一个有噪声项目且分配到最近的无噪声集群。然后,项目分配给集群获得对数的最高价值。这相当于将一个项目分配给最近的集群,如果它们之间的距离小于临界值。否则,项目被指定为噪音。
总之,该方法的一个重要优点是它与混合数据操作(包括连续和分类数据)。另一个优势是,尽管两步聚类方法处理大型数据集,就所需处理这些数据的时间而言,这种方法比其他方法需要更短的时间。缺点是两步聚类方法不允许丢失值且缺失值的项目不考虑分析
第五节 案例研究
自从两步聚类方法开始成为大型数据集和处理混合数据的首选后,我们应用此方法并使用一些从银行获取的的公共数据聚类数据。(另一方面,这些数据被用在另一个应用程序来减少维度应用PCA(主成分分析)。并在下文给出了该方法的输入和输出。
第六节 输入
供给我们研究的数据集是从一家银行提供的公共数据库中的信息,数据真实可靠,在SPSS中,大致有14000条记录。这个表包含信用卡还款的的持续时间信息,信用历史,信用卡申请用途,信贷金额,储蓄账户,工龄,还款周期,个人状态、居住权、财产、年龄、住房、银行信用额度,工作,家属和信用批准状态等等。表1中给出这个数据的一部分。
数据库包含3个分类变量和4个连续变量。默认情况下,连续变量被标准化。因为我们使用混合数据,我们在距离度量上只有对数似然的选择。
在第一次运行,我们选择BIC确定聚类的数量,虽然我们可以重写此步骤并指定一个固定的数字。但是结果使用AIC运行是和BIC运行结果是一致的,所以目前我们使用BIC指标。
关于对于我们数据集的噪声处理方面,我们决定不检查噪声。异常值定义为在CF树的情况下,其他的叶子不超过规定的最大叶大小的百分比。
通过SPSS软件的一个重要选择是XML格式的CF树或整个模型的导出。这允许模型进行更新,以增加额外的数据集。
第七节 输出
1.点击“分析|分类|两步聚类”命令,弹出“二阶聚类分析”对话框,如下所示
2.将个人税前年收入,申请人申请信用额度和工龄拖入分类变量中,并且将如下变量拖入连续变量中,账户信用额度、教育程度、申请日年龄、卡片最高卡种等级。
3.在距离变量对话框中选择“对数相似值” 4.在聚类数量中选择“指定固定值”
5.在聚类准备中,选择“施瓦兹贝叶斯准则”。 6.本案例不选择噪声处理
7.点击确定,出现如下多个图表。
在SPSS中,自动聚类统计表可以用来评估我们的分析中最佳聚类的数量,如表2所示
表2
在表2中,虽然最低的BIC系数是四簇,根据统计算法,最佳聚类数是三,因为距离最大的比率是三簇。集群分布如表3所示。
表3
图1所示的群集饼图显示了我们三个集群解决方案的相对大小。
图1
对于分类变量,集群内的百分比图显示了每个变量在每个集群内是如何分裂。在图2中,它显示了三个簇中每个变量的占比。
图2
第八节 讨论:
经过两步聚类的方法,我们得出以下结论。
第一集群,其中占比19.4%,其中包含的主要是单一的男性客户,占据管理职位(34.5%)或失业(27.3%),他们有未知的属性并且他们的信用卡申请通过率是一个小百分比(11.9%)。
集群2占比24.9%,包含女性或已婚男性客户(54.6%),主要是失业(54.5%)或非技术(47.5%),而他们申请信用卡的目的是购置设备,再培训(因为失业所以再培训以寻找新的工作)和购买家具。
最重要的集群是第三集群。这是最大的集群(55.7%),其中大部分是单身男性或离婚的男性客户,拥有最大的储蓄账户,占管理职位(54.7%)或技术工人(50.6%),有良好的
信用的历史,信用卡申请的目的是为业务,汽车(新的或二手的),或教育;他们有自己的住房(65.1%),故他们的信用卡申请的通过率是在一个大的百分比(55.9%)。
第九节 结论
聚类方法可以使用大量的数据来应用于各种领域,只是为了寻找隐藏的模式。由于大多数来自现实世界的数据(如在银行领域,本文所涉及的分析案例)包含的数值和分类属性,经典的聚类算法不能在大量数据的情况下有效地分析。为了解决这个问题,我们表明,两步聚类方法可以很方便的使用,这也自动决定了最佳聚类的数量。
对于我们的数据应用这种方法,我们确定了三个客户群体的配置文件。最重要的资料包含的客户,没有不良的信用记录,其目的是获得教育或业务资金。二是中产阶级的客户,失业,但有房地产,申请信用卡是再培训或购置家庭用品。第三资料组的人有未知的属性,大多是失业,他们想要申请信用卡以购买些新的东西,如新的或二手汽车或电视,然后为教育。
本案例研究的目的是为本行通过信用卡的发放来更好的管理现有或可能的客户,以巩固和丰富既有的利润。