1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
协差阵的检验
检验Σ?Σ0
?1?n/2?e?H0:Σ?Ip ??exp??trS?S???2??n?np/2
np/2?1?n/2?e?H0:Σ?Σ0?Ip ??exp??trS*?S*???2??n?检验Σ1?Σ2???ΣkH0:Σ1?Σ2???Σk
统计量?k?n
np/2
?Si?1kni/2iSn/2?ni?1kipni/2
2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?
3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。
多元线性回归分析的线性关系指的是随机变量间的关系,因变量y与回归系数βi间存在线性关系。
多元线性回归的条件是:
(1)各自变量间不存在多重共线性; (2)各自变量与残差独立;
(3)各残差间相互独立并服从正态分布; (4)Y与每一自变量X有线性关系。
4.回归分析的基本思想与步骤 基本思想:
所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。 步骤:
1)确定回归方程中的解释变量和被解释变量。 2)确定回归模型
根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。 3)建立回归方程
根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。 4)对回归方程进行各种检验
由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。 5)利用回归方程进行预测
5.多重共线性问题、不良后果、解决方法
多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2, ?,Cp使得C1Xi1+C2Xi2+…+CpXip≈0,i=1,2,?n
不良后果:模型存在完全的多重共线性,则资料阵X的秩
检验方法:方差扩大因子(VIF)法和特征根判定法
方差扩大因子表达式为:VIFi=1/(1-Ri2),其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。
解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。
6.为什么要进行回归方程的显著性检验? 答:对于任意给定的一组观测数据(xi1,xi2,...,xip;yi),(i=1,2,...,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的
值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。
7.统计性的依据是什么?给出一个回归方程如何做显著性检验? 统计性的依据是方差分析。
对于多元线性回归方程作显著性检验就是要看自变量x1,x2,...xp从整体上对随机变量y是否有明显的影响,即检验假设H0:β1=β2=...=βp=0 H1:至少有某个βi≠0,1<=i<=p
如果H0被接受,则表明y与x1,x2,...xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。 在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。F统计量是:F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]
当H0为真时,F~F(p,n-p-1)。给定显著性水平α,查F分布表得临界值F1-α(p,n-p-1),计算F的观测值,若F0<= F1-α(p,n-p-1),则接受H0,即认为在显著性水平α之下,认为y与x1,x2,...xp之间线性关系不显著。
利用P值法做显著性检验十分方便,这里的P值是P(F>F0),定显著性水平α,若p<α,则拒绝H0,反之接受H0。
回归系数的显著性检验
回归方程通过了显著性检验并不意味着每个自变量xi都对y有显著影响。而回归系数的显著性检验的目的就是从回归方程中剔除那些对y的影响不显著的自变量,从而建立一个较为有效的回归方程。如果自变量xi对y无影响,则在线性模型中,βi=0
检验xi的影响是否显著等价于检验假设 H0:βi=0,H1:βi≠0
对给定的显著性水平α,当|ti|>tα/2(n-p-1)时,拒绝H0。反之,则接受H0。
数据的中心化和标准化
目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。 数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。
通过对残差进行分析,可以在一定程度上回答下列问题: 1)回归函数线性假定的可行性; 2)误差项的等方差假设的合理性; 3)误差项独立性假设的合理性; 4)误差项是否符合正态分布; 5)观测值中是否存在异常值;
6)是否在模型中遗漏了某些重要的自变量。
8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?
标准化回归方程 就是将自变量因变量都标准化后的方程。在spss输出的回归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有常数项了。
对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系数。
一般情况下的回归,并不必须标准化,直接回归即可。在做主成分分析包括因子分析时,则必须标准化。
9.回归分析和相关分析的区别和联系
相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:
(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相联系,并可由回归方程进行控制和预测
(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位
(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量也可以是非随机变量。一般来说,只有存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。
10.回归方程的基本假定? (1)回归函数的线性假设 (2)误差项的等方差假设 (3)误差项的独立性假设 (4)误差项的正态分布假设
11.运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量时应注意哪些问题?
(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则 准则1:修正的复相关系数Ra2达到最大。因为:
Ra2=1-MSE/(SST/(n-1))从这个关系式容易看出,Ra2达到最大时,MSE达到最小。 (2)从预测的角度考虑,可以采用预测平方和达到最小的准则及Cp准则 准则2:预测平方和PRESSp达到最小 准则3:(Cp准则)
(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则) 准则4:赤池信息量达到最小
AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程
自变量的选择问题可以看成是应该采用全模型还是选模型的问题
全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。 选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。
12.逐步回归方法的基本思想与步骤
基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。 基本步骤:
(1)对于每个自变量xi(1≤i≤m),拟合m个一元线性回归模型,若Fi1(1)>FE,则所选择含有自变量xi1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。 (2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1
(2)
个二元回归方程,若若Fi1>FE则将自变量xi2引入模型,进一步考察xi2引入模
(2)
型后,xi1对y的影响是否仍显著,若Fi1≤FD,则剔除xi。
(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。 重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程。
13.在作判别分析时,如何检验判别效果的优良性?
当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。 (1)误判率回代估计法
回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n21表示将本属于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。 (2)误判率的交叉确认估计 每次剔除训练样本中的一个样本,利用其余容量为n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别,对训练样本中的每个样本做上述分析,以其误判的比例作为误判概率的估计。
14、简述费希尔判别法的基本思想。
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
15.Fisher判别法的基本思想 基本思想是投影。将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。这个函数可以是线性的,也可以是其他类型的函数。