3.1.1数据的缩放(data-scaling)
因为PCA一种突出发生最大变化的变量的一种方法,所以在最终的模型中发生大的变化的变量比发生小的变化的变量占有更大的比重。但是一个均值较大而方差较小的变量会掩盖一个均值较小方差较大的变量。所以,需要对数据进行缩放。最常见最客观的数据缩放方式是单位方差缩放(UV)。具体的操作方式是:首先计算每一变量的标准方差(sk);然后计算出标准方差的倒数并以此为数据缩放的比例;最终将每一变量乘以缩放比例,得到的每一变量都具有相同单位的变化。8
3.1.2数据的中心化
数据的中心化即为计算出每个变量的均值,然后将每个变量都减去相应的均值。
3.1.3 主元分析
假设有一矩阵X拥有K个变量(此处为了做图方便假设K=3)和N个观察值。为此矩阵我们建立一个变量空间(空间的维度等于变量的个数),每个维度的长度都根据UV规则进行缩放。然后将每个观察值(X矩阵的每一行)都对应到此K维空间中,如下图。其中红点的坐标对应于X每个维度的平均值。8
上图经过数据中心化处理后,得到下图:
最终对处理后的数据进行主元分析(PCA)。
下面将以两个主元来示意主元分析的结果图。利用两个主元对以上数据进行分析。
用此两个主元定义一个平面就会在K维空间中创建一个窗口。然后将所有的观察值都投影到此低维子空间并画出结果图,我能就能够很清晰的看到数据变化的规律。观察值在此低纬空间的坐标乘坐scores,
相应的结果图为score plot。下面以一个示意score plot来讲解score plot的含义。
如上图所示,在此score plot中每个欧洲国家(16个国家)都被两个值所表示:一个为第一主元,另一个为第二主元。在score plot中两个距离较近的国家具有相似的性质,而相距较远的国家的性质相差较大。那些北欧国家(Finland,Norway,Denmark和Sweden)都处在右上角,因此代表一组具有相似性质的国家。Belgium和Germany都靠近中心,说明这两个国家比较接近欧洲的平均水平。
在多元分析当中,我们想了解在原来的X中哪个变量更具有影响力,以及这些变量如何相关。这些信息会在principal component loading plot中给出,以下面的loading plot为例讲解。8
上图同时展示了20个变量之间的相互关
系。携带相似信息的在component loading plot会处的位置相近,并且它们是相关的。Crisp bread(Crisp_Br)和frozen fish(Fro_Fish)拥有正相关的关系。当其中的一个变量增加或减小时,另外一个变量也会相应的增加或减小。当两个变量处在相近的位置而且又处在原点的两侧时(例如garlic和sweetener),这两者是负相关的关系,即当一个变量增加或减小时,另外一个变量相应地减小或增加。变量到原点的距离也会承载着一些信息。距离原点越远的变量对此模型的影响越大。 用几何语言来讲,principal component loading表达的是这个模型平面在原变量空间中的曲线。主元的方向与这些α的cosine值相关。这些值表面了原变量如何组装模型窗口中的主元。8