n?m2?Σ?1X(X?Y)(?Y)?~2p( ) T02???
n?m(n?m?2)?p?12T~F(p,?nm??p1有共同未知协差阵 F? ) F?F?
(n?m?2)p2有共同已知协差阵 T0??n?m???1?n?m?(其中 T?(n?m?2)? (X?Y)?S?(X?Y)?)
?n?m??n?m?(n?p)nZ?S-1Z~F(p,n?p) F?F? 协差阵不等n?m F?p2协差阵不等n?m F? (n?p)nZ?S-1Z~F(p,n?p) F?F? p多个正态总体H0:?1??2????k 单因素方差 F?SSA(k?1)~F(k?1,n?k) F?F?
SSE(n?k)多因素方差 ?? 协差阵的检验 检验Σ?Σ0
ET?EA?E~?(p,n?k,k?1)
?1?n/2?e?H0:Σ?Ip ??exp??trS?S???2??n?np/2
np/2?1?n/2?e?H0:Σ?Σ0?Ip ??exp??trS*?S*???2??n?检验Σ1?Σ2???ΣkH0:Σ1?Σ2???Σk
统计量?k?n
3.2 试述多元统计中霍特林系。
答:(1)霍特林
分布是t分布对于多元变量的推广。
np/2
?Si?1kni/2iSn/2?ni?1kipni/2
分布和威尔克斯分布分别与一元统计中t分布和F分布的关
n(X??)22?1?t??n(X??)(S)(X??)而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S2S2相互独立,n?p,则称统计量的分布为非中心霍特林T2分布。
2?1若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令T?nX?SX,则
n?p?12T~F(p,n?p?1) 。 np(2)威尔克斯分布在实际应用中经常把统计量化为T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。
?与F统计量的关系 2
p n1 任意 n2 1 F统计量及分别 任意 n1?p?11??(p,n1,1)?~F(p,n1?p?1) p?(p,n1,1)n1?p1??(p,n1,2)?~F(2p,2(n1?p)) p?(p,n1,2)任意 任意 2 1 任意 任意 n11??(1,n1,n2)?~F(n2,n1) n2?(1,n1,n2)n1?11??(2,n1,n2)?~F(2n2,2(n1?1)) n2?(2,n1,n2)2 任意 任意
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。
答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
H0:μ1?μ2???μk H1:至少存在i?j使μi?μj
用似然比原则构成的检验统计量为 ??EE?~TA?E 1 )给定检验水?(p,n?k,k?平?,查Wilks分布表,确定临界值,然后作出统计判断。
第四章
4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设p维欧几里得空间离为
中的两点X=
和Y=
。则欧几里得距
。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到
实际问题中量纲的影响。
设X,Y是来自均值向量为
,协方差为
的总体G中的p维样本。则马氏距离为
D(X,Y)=D(X,Y)=
=
。当
即欧几里得距离。
即单位阵时,
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,?,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为
,则称
为
的一个
划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划
分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是?1和? 2,对于一个新的样品X,
22要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则 X X
,D(X,G1)D(X,G2) ,D(X,G1)> D(X,G2,
2222
具体分析,
D2(X,G1)?D2(X,G2)
?(X?μ1)?Σ?1(X?μ1)?(X?μ2)?Σ?1(X?μ2)?1?Σ?1μ1?(X?Σ?1X?2X?Σ?1μ2?μ??X?Σ?1X?2X?Σ?1μ1?μ12Σμ2)?1?Σ?1μ1?μ??2X?Σ?1(μ2?μ1)?μ12Σμ2?2X?Σ?1(μ2?μ1)?(μ1?μ2)?Σ?1(μ1?μ2)?μ1?μ2??1? ??2?X??Σ(μ1?μ2)2????2(X?μ)?α??2α?(X?μ)记W(X)?α?(X?μ) 则判别规则为
X X
,W(X)
,W(X)<0
②多个总体的判别问题。
设有k个总体G1,G2,?,Gk,其均值和协方差矩阵分别是μ1,μ2,?,μk和Σ1,Σ2,?,Σk,且Σ1?Σ2???Σk?Σ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,D2(X,G?)?(X?μ?)?Σ?1(X?μ?)
?Σ?1X?μ??Σ?1μ??X?Σ?1X?2μ??1?X?C?)?X?ΣX?2(I?1?1Σμ?,??1,2,?,k。 取I??Σ?1μ?,C???μ??2可以取线性判别函数为
?X?C?, ??1,2,?,k W?(X)?I??X?C?) 相应的判别规则为X?Gi 若 Wi(X)?max(I?1???k
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k个总体G1,G2,?,Gk,其各自的分布密度函数f1(x),f2(x),?,fk(x),假设k个总体各自出现的概率分别为q1,q2,?,qk,qi?0,
k?qi?1i?1。设将本来属于Gi总体的样品
错判到总体Gj时造成的损失为C(j|i),i,j?1,2,?,k。
设k个总体G1,G2,?,Gk相应的p维样本空间为 R?(R1,R2,?,Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为
P(j|i,R)??fi(x)dx i,j?1,2,?,kRji?j
则这种判别规则下样品错判后所造成的平均损失为
r(i|R)??[C(j|i)P(j|i,R)] i?1,2,?,k
j?1k则用规则R来进行判别所造成的总平均损失为
g(R)??qir(i,R)
k??qi?C(j|i)P(j|i,R)
i?1j?1i?1kk贝叶斯判别法则,就是要选择一种划分R1,R2,?,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)?kk?q?C(j|i)P(j|i,R)
ii?1j?1Rjkk??qi?C(j|i)?fi(x)dx
i?1j?1k
???(?qiC(j|i)fi(x))dx
j?1Rji?1k令
?qC(j|i)f(x)?h(x),则 g(R)???iiji?1kkj?1Rjkhj(x)dx
R*j若有另一划分R?(R,R,?,R),g(R)?则在两种划分下的总平均损失之差为
**1*2*k*??j?1hj(x)dx
g(R)?g(R)????*i?1j?1kkRi?R*j[hi(x)?hj(x)]dx
因为在Ri上hi(x)?hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。
Ri?{x|hi(x)?minhj(x)}R?(R,R,?,R)1?j?k12k从而得到的划分为 i?1,2,?,k
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
U(X)?u1X1?u2X2???upXp?u?X 系数u?(u1,u2,?,up)?可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若
二者与贝叶斯判别也等价。 ③ 当
时,费希尔判别用
作为共同协差阵,实际看成等协差阵,此与距离判
则费希尔判别与距离判别等价。当判别变量服从正态分布时,
别、贝叶斯判别不同。