E?AX??AE?X?, E?AXB??AE?X?B D?AX??A?DX?A?
COV?AX,BY??ACOV?X,Y?B? D?X???是对称非负定阵
这里X,Y为随机向量,A、B为大小适合运算的常数矩阵。 (四)随机向量X的相关阵
称随机向量X的相关阵为
R??corr?Xi,Xj??, i,j?1,2,?p??rij?p?p
rij?D?Xi?D?Xj?cov?Xi,Xj?, i,j?1,2,?p
需要说明的是,经过标准化处理后的数据的协差阵正好是原来数据的相关阵
R?*?1X*X* n?1 X代表经过标准化处理后的数据。
第二节 多元正态分布及其参数估计
用来刻画多维随机向量统计特性的常见的多元分布有很多,除了多元正态分布还有多元对数正态分布、多项式分布、多元超几何分布、多元?分布、多元?分布、多元指数分布等。这里主要介绍多元正态分布,其原因是多元统计分析的主要方法是建立在多元正态分布的假设之上的。尽管实际分析数据可能不会严格服从多元正态分布的,但有三个原因使多元正态分布在实际中有着广泛的应用:一是,正态分布在许多情况下确实能作为真实总体的一个近似;二是,根据中心极限定理,不论总体的分布如何,许多统计量的分布是近似正态分布的;三是,很多检验统计量的分布对正态分布条件是稳健的,即原始资料对正态的偏离对检验结果影响不大。
一、多元正态分布密度函数
若p维随机向量X?X1,X2?Xp的概率密度函数为
2???f?x1,?xp??1?2??p?1???1????exp?X???X???? 12???2其中?是p维向量,?是p阶正定矩阵,则称X?X1,X2?Xp服从p维正态分布,简记为X~Np??,??
多元正态随机向量具有以下的性质:
1、若X~Np??,??,其协差阵?是对角阵,则X?X1,X2?Xp的各分量是相互独立的随机变量。
2、多元正态分布随机向量的任何一个分量子集的分布仍然服从正态分布。
3、多元正态分布随机向量X?X1,X2?Xp的任意线性变换仍然是服从多元正态分布。若X~Np??,??,令Y?AX,A为p阶方阵,则Y~Np?A?,A?A??
二、多元正态分布的数字特征
根据证明,若X~Np??,??,则E?X????????????D?X???,即?恰好是多维随机向量
X的均值向量,?恰好是多维随机向量X的协差阵。
??1?????2?其中???????????p?三、多元正态分布的参数估计
在实际应用中,多元正态分布中的均值向量?和协差阵?通常是未知的,需要由样本资料来估计,而参数估计的方法很多,这里用最常见的最大似然估计法给出估计量,用样本均值向量估计总体均值向量,用样本协差阵估计总体协差阵。
一般情况下,从多元正态总体中按照随机原则,抽取容量为n的样本,则资料阵为
??11?12??1p????????21222p? ??????????????p1?p2??pp??x11??x21X?????x?n1x12x22?xn2?x1p??X??1???????x2p?X??2?????X,X,?,X?12p??? ??????????xnp??X??n??设每个样品是相互独立的,则利用最大似然估计可求出
1n??X??X?i??ni?1?n???xi1??i?1?n?1??xi2?? ?i?1n????n??x???ip??i?1?1n?????? ??X?XX?X??i??i?n?1i?1?n2???xi1?X1??i?1?1??n?1????????xi?1ni2?X2?2?????Xx?Xi11ipp?i?1?n????xi2?X2??xip?Xp?? i?1????n2???x?X?ipp?i?1????xn?分别是?,?的无偏估计。 ?,?根据数理统计的证明?第三节 多元正态分布的假设检验
类似于一元统计分析中的各种均值和方差的假设检验,多元统计分析中也需要对各种均值向量和协差阵进行假设检验。基本步骤均可归纳为四步:第一步,提出待检验的假设H0和H1。第二步,给出检验的统计量及它服从的分布。第三步,给定检验水平?,查统计量的分布表,确定临界值??,从而得到否定域。第四步,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设检验做出决策(拒绝或接受)。
一、对多元正态总体均值向量和协差阵进行假设检验时常用的三个重要的抽样分布 (一)Wishart(维希特)分布——?分布在多维变量情况下的推广 设X????X?1,X?2?X?p成的随机矩阵
2???~N??,??p??1,2,?n,且相互独立,则由X???组
Wp?p??X???X????
??1n该随机矩阵的分布称为非中心参数为Z,自由度为n的维希特(Wishart)分布,记为
Wp?n,?,Z?,其中Z????;当??0时称为中心Wishart分布,记为Wp?n,??。
这里需要说明的是:
1、所谓随机矩阵的分布,一般是指该矩阵的列向量一个接一个地组成一个长向量的分布。若是对角矩阵,则只取上三角部分的向量。
2、当p?1时,X???为一维正态分布,Wp则为?分布。 3、维希特(Wishart)分布具有以下重要性质: (1)若X????X?1,X?2?X?pn2???~N??,??(??1,2,?n)且相互独立,则离差阵
pS???X????X??X????X?~Wp?n?1,??。
??1?(2)若Si~Wp?ni,??,?i?1,2?k?,且相互独立,则
S?S1?S2???Sk~Wp?n1?n2???nk,??。
(3)若Xp?p~Wp?n,??,Cp?p为非奇异阵,则
CXC??Wp?n,C?C??
(二)T(Hotelling)分布——t分布在多维变量情况下的推广
设X~Np??,??,S~Wp?n,??,且X与S相互独立,n?p,则称统计量
2T2?nX?S?1X
2的分布为自由度为n的非中心参数为?的T分布,记为T~T22?p,n,??,
?p,n,?。
这里需要说明的是:
221、当??0时,称T服从自由度为n的中心T分布,记为T~T222、T分布具有以下重要性质: (1)当p?1时,T22??t?n??,这里的t?n?是一元的自由度为n的t分布。
22S?1X则 (2)若X~Np?0,??,S~Wp?n,??,且X与S相互独立,令T?nX?n?p?12T~F?p,n?p?1? np(三)威尔克斯(Wilks)分布
在一元变量的情况,方差用来刻画随机变量取值的分散程度,在多元统计的条件下方差发展演变为协差阵。那么,在多元统计条件下,如何使用一个数量指标来反映协差阵所体现的分散程度呢?对此有的用行列式,有的用迹的方法,常用的是用行列式的方法,即广义方差的概念。
广义方差。若X~Np??,??,则称协差阵的行列式?为广义方差,称广义方差,这里S表示样本协差阵。
威尔克斯(Wilks)统计量。两个广义方差之比所构成的统计量称为威尔克斯(Wilks)统计量。
威尔克斯(Wilks)分布。若X???~Np?0,??,(??1,2,?n)相互独立,??0,且n?n1?n2,n1?p,则
1S为样本n?1S1??X???X????~Wp?n1,??
??1nn1S2?S1S1?S2X???X????~W?n??p?n1?12,??
称统计量??的分布为自由度为n1,n2的威尔克斯(Wilks)分布,简记为
?~??p,n1,n2?。
这里需要说明的是,威尔克斯(Wilks)分布具有以下重要性质:
1、?~??p,n1,n2?,如果n2?p,则分布??p,n1,n2?与分布??n2,n1?n2?p,p?相同。
22、当n2?1时,分布??p,n1,n2?退化为T分布,即设n1?p,T~T(p,n1),
22?~??p,n1,1?,则T2与n11??具有相同的分布。 ?3、威尔克斯(Wilks)分布与F有如下的关系: (1)当n2?1时,
n1?p?11???p,n1,1?~F?p,n1?p?1? n1p??p,n1,1?n1?p?1???p,n1,2?~F?2p,2?n1?p?1??
p??p,n1,2?(2)当n2?2时,