2.2聚类分析方法的原理
本文采用的K-means聚类分析算法是麦奎因提出,算法的要点先确定K值,然后将数据集划分成K类,然后进行反复迭代,把每一个样本重新分配到距离最近的中心类别中。
2.3聚类分析分类数的确定
K-均值聚类分析方法能够将数据群体迅速、合理地划分成K个子群体,比较适合解决大量数据信息的问题。对于K-均值聚类分析算法,需要着重考虑K值。这是本算法的关键步骤,对聚类产生的结果有很大的影响。
K-均值法具体分类数的确定,离不开实践经验的积累,可以反复进行多次的初值选择,根据各个产生的聚类结果中找出最优的分类。但我们这里借助系统聚类法以一部分样本为对象进行聚类,其结果作为K-均值聚类分析法确定类数的参考。
2.4主成分聚类分析的计算步骤
设有n个样品,每个样品观测p个指标,将原始数据写成矩阵
(1)将原始数据标准化。这里不妨设上述矩阵已标准化了。
(2)建立变量的相关系数阵:
(3)求R的特征根
λ1≥λ2≥…≥λn>0
及相应的单位特征向量:
(4)计算写出主要成分
Fi=a1X1+a2X2+…+aPxP
计算主成分贡献率及累计贡献率
√贡献率
√累计贡献率
一般取累计贡献率达85%~95%的特征值λ1,λ2,…,λm所对应的第1,第2,…,第m(m≤p)个主成分。