加唯一性条件A?DA?对角阵,再用迭代方法可求得极大似然估计的A和D的值。
?1因子旋转
因子模型被估计后,还必须对得到的公因子f进行解释。进行解释通常意味着对每个公共因子给出一种意义明确的名称,它用来反映在预测每个可观察变量中这个公因子的重要性,这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有时侯,通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。
设p维可观察变量X满足因子模型X?Af?e。设是?任一正交阵,则因子模型可改写为
X?A???f?e??A*f*?e
其中,A?A?,f*???f。
根据我们前面假定:每个公因子的均值为0,即E(f)?0,每个公因子的方差为1,即
*D(f)?I,各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即
Cov(ei,ej)?0,i?j及Cov(e,f)?0。可以证明
E(f*)?E(??f)???E(f)?0 D(f*)?D(??f)???D(f)????I??I Cov(e,f*)?Cov(e,??f)???Cov(e,f)?0 D(X)?D(A*f*?e)?D(A*f*)?D(e)?A*(A*)??D
因此,X?AA??D?A(A)??D。这说明,若A和D是一个因子解,任给正交阵?,**
A*?A?和D也是因子解。由于正交阵?是任给的,所以因子解不是唯一的。在实际工作中,
为了使载荷矩阵有更好的实际意义,在求出因子载荷矩阵A后,再右乘一个正交阵?,这样就变换了因子载荷矩阵,这种方法称为因子轴的正交旋转。
我们知道,一个所有系数接近0或±1的旋转模型矩阵比系数多数为0与±1之间的模型容易解释。因此,大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后,这些公因子是互不相关的。如果这些因子用正交变换(orthogonal transformation)进行旋转,旋转后的因子也是不相关的。如果因子用斜交变换(oblique transformation)进行旋转,则旋转后的因子变为相关的。但斜交旋转常常产生比正交旋转更有用的模型。
旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释,
这两种解释不能认为是矛盾的。倒不如说,是看待相同事物的两种不同方法。从统计观点看,不能说一些旋转比另一些旋转好。在统计意义上,所有旋转都是一样的。因此在不同的旋转之间进行选择必须根据非统计观点。在多数应用中,我们选择最容易解释的旋转模型。
应注意的几个问题
? 因子分析是主成分分析的推广,它也是一种降维技术,其目的是用有限个不可观测
的隐变量来解释原始变量之间的相关关系。
? 因子模型在形式上与线性回归模型很相似,但两者有着本质的区别:回归模型中的
自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量。而且,两个模型的参数意义很不相同。
? 因子载荷矩阵不是唯一的,利用这一点通过因子的旋转,可以使得旋转后的因子有
更鲜明的实际意义。
? 因子载荷矩阵的元素及一些元素组合有很明确的统计意义。
? 因子模型中常用的参数估计方法主要有:主成分法,主因子法和极大似然法。 ? 在实际应用中,常从相关矩阵R出发进行因子模型分析。
常用的因子得分估计方法有:巴特莱特因子得分和汤姆森因子得分两种方法。
多元曲线分辨
引言:概念,模型和相关方法
多元曲线分辨是对一系列分析混合物方法的统称。对一套光谱分析是多元曲线分析的一个范例。例如一套HPLC-DAD分离的数据D。其行代表流出时间,列代表的是光谱通道。在D中每行为在一个流出时间记录的光谱,而每一列为每一个波长的光谱值。(例如Fig.1)多元曲线分析将每套数据描述成每一淋洗组分对波普贡献的加和(公式1)。每种淋洗组分对波普的贡献可以写成这种组分的光谱SiT和淋洗权重Ci的乘积(公式2)。最后,这种双线性加和的模型可以表达成一个压缩的形式(公式3)。其中C包含了所有组分的淋洗曲线,ST为每种
组分的光谱。而矩阵E则包含了噪音以及不能够被双线性模型表达的部分。尽管多元曲线分析不仅仅局限于光谱数据的分析,公式3经常被用来表达双线性多元曲线分析模型。在很多多元曲线分析中,ST与体系中组分的定性信息有关,而C则表达了每种组分的含量。
D?D?Di?i?E(1) ?E(2)
TCiSi?iD?CST?E(3)
多元曲线分析的突出点在于其提供了有实际意义的模型。因为多元曲线分析中的C代表了化学组分的自然性质,所以这种模型可以提供化学家或者科学家可以识别的组分曲线。这一特点在很大程度上帮助我们对实验结果的解释,并且解释的结果也很容易被别人理解。这是多元曲线分析与其他分析放大最大的区别。
多元曲线分析适用的场合
习惯上,多元曲线分析是为分析一个过程或者以个分析测试的衍化分析数据而设计的。很多分析测试,特别是所有的基于光谱方法的测试
特别适合多元曲线分析,因为其中潜在的分析模型(Beer-Lambert 定律)是一双线性模型。如今,不仅多元曲线分析的用途越来越多,而且应用的领域也越来越广。从结构上来说,浓度的变化已经不是必须的了。这就使得对高光谱图像分析称为可能。这种高光谱图像具有两个空间维度(x-和y-)和一个光谱维度。为了不使数据混合,我们首先要将三维数据展开成一个数据矩阵。此数据矩阵的行代表像素光谱而列代表测量的光谱通道。在进行完多元曲线分析后,要将浓度轮廓还原成三维分布结构。
多元曲线分析的算法
多元曲线分析的算法有很多种,大体可以分为两种即为迭代法和非迭代法。大多数的非迭代方法,如Heuristic Evolving Projections (HELP)法,Window Factor Analysis (WFA)法和Subwindow Factor Analysis (SFA)在多变量分析用来分析但过程数据时出现了。在这些方法中,浓度曲线用来定义存在不同成分的窗口。然后,子空间合适地结合不同的条件来修饰浓度曲线或者光谱,而与双线性模型想对应的可以通
过一部最小二乘拟合得到。因为设置这种组分较多,不连续或者无固定浓度方向的浓度窗口妨碍了这些方法的使用,所以这些程序如今很少使用。
迭代多元曲线分析方法(MCR-ALS):运算程序
用这种方法时,首先要对浓度曲线和光谱有一初步的估计,在每次迭代循环中在合适的限制条件下对初始估计进行优化直到达到收敛条件。收敛条件可以是预先设定的迭代次数或者两次优化差值的阀值。一旦优化完成,多元曲线分析的结果是一组浓度曲线和光谱曲线和拟合模型的质量参数,如方差或者欠合度(LOF)
%LOF?100eij?ijeij?ij2,2,
其中dij是数据矩阵D的元素,eij是相关的残差。为了得到令人满意的结果,我们应该注意初始值的估计和限制条件。初始值估计是优化进程的起点,明智的估计是合理优化的开始。相反地,限制条件是浓度曲线必须遵守的性质。所以选择合适地限制条件并且知道如何利用它们为了保证得到有意义和可靠解的最重要的部分。 a、 初始估计
MCR-ALS的初始估计可以使浓度曲线或者光谱。初始估计的黄金原则是在限制条件下做出明智的从猜测。另外也有方法来帮助我们做初始估计。在所有为类似过程数据设计的方法中,渐进因子分析9(evolving factor analysis)是最为出名的。EFA是一种本地排名分析方法,这种方法可以探测数据表中一个组分的出现和衰减并且为此系