《多元统计分析思考题》
第一章 回归分析
1、回归分析是怎样的一种统计方法,用来解决什么问题? 回归分析是基于观测数据建立变量之间的某种依赖关系,分析数据的内在规律,并可用于预报、控制等方面。
2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?
线性关系指的是自变量与因变量之间的关系。不一定,
3、实际应用中,如何设定回归方程的形式?
4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?
回归系数是在回归方程中表示自变量x 对因变量y 影响大小的参数。回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增大,负回归系数表示y 随x增大而减小。
5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题? 参数的确定:
评判参数估计的标准:
最小二乘估计的统计性质: (1) (2) (3) (4) (5) (6)
获得理想参数应注意:
6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?
7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么? 不是。 8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的? 为了检验所确定的线性回归方程是否有意义。
原理:
显著性检验步骤:
(1)提出统计假设H;
(2)选取适当的统计量U,并在假设H成立的条件下确定该统计量的分布; (3)按问题的要求选取一个显著水平a(一般为0.05、0.10、0.01),并根据统计量的分布查表,求出能使P{|U|>u0}
(4)由样本观测值计算出统计量U的观测值u,并与临界值u0比较,如果|u|>u0,则拒绝假设H,如果|u| 9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法? (1)回归诊断可以回答的问题: ①回归函数线性嘉定的可行性; ②误差项的等方差假设的合理性; ③误差项独立性假设的合理性; ④误差项是否符合正态分布; ⑤观测值中是否存在异常值; ⑥是否在模型中遗漏了某些重要的自变量。 (2)原基本假定H0: ①假设回归方程不显著 ②假设回归系数不显著 (3)后果和改进方法: 方程:与模型的误差相比,自变量对因变量的影响是不重要的这有两种情况:a、各种误差太大,即使回归自变量x对因变量y有一定影响,但相比于误差也不算大,这种情况要想办法缩小误差,检查是否漏掉了重要的自变量,或检查某些自变量与y是否有非线性关系等;b、自变量对y的影响确实很小,这时建立y与各自变量的回归方程没有意义。 系数:某个自变量对y的影响不显著,应该剔除 (4)如何检验是否满足: 方程:用F统计量或者P值法检验回归方程的显著性,F?MSRSSR/p?。 MSESSE/(n?p?1)p值是P(F?F0),表示第一、第二自由度分别为p、(n-p-1)的F变量大于F0的概率(即接受H0、线性关系不显著的概率) 系数:SSE 10、回归分析中的R2有何意义?它能用来衡量模型优劣吗? R?回归平方和与总离差平方和之比: 2SSRSSE?1?作为评判一个模型拟合优度的标准,SSTSST成为样本决定系数。模型拟合优度并不是评判模型质量的唯一标准,R方越大,代表y接受 变化的能力越强,不确定性和模型复杂程度较小,并不足以表明模型的真是可靠性,不能说明模型接近真实情况的程度,还要考虑真实情况的不确定性和复杂程度,不确定性和复杂程度较大的时候,R方小范儿更有意义。有时为了追求模型的实际意义,可以在一定程度上房款对拟合优度的要求。 11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?为什么? 12、有哪些确定最优回归模型的准则?如何选择回归变量?(P55) 自变量选择准则: 2①(拟合)修正的复相关系数Ra达到最大,等价于:均方残差MSE达到最小; MSE2Ra?1?SST n?1②预测平方和PRESSp达到最小(偏差平方和) ③Cp准则 Cp?SSEpMSE(x1,x2,?,xm)?(n?2p?2) 其中SSEp是包含p个自变量的回归方程的残差平方和,MSE(x1,x2,?,xm)表示含有所有m个自变量的回归方程的均方残差。该准则要求选择Cp最小,且|Cp?p|小的回归方程。 ④(极大似然估计)ACI准则,赤池信息量达到最小 13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关系?形式有否不同?(P42) 在多元线性回归分析中,所涉及到的诸多自变量往往量纲不同,甚至差别很大,这时就需要对变量进行中心化或标准化,数据的中心化处理相当于将坐标原点移至样本中心,而坐标系的平移不改变斜率,只改变了截距;标准化处理后建立的回归方程相比非标准化的回归方程少了一个常数项,系数之间的关系为: 14、利用回归方法解决实际问题的大致步骤是怎样的? 15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果? 第二章 判别分析 1、判别分析的目的是什么? 在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新的样品数据,要确定该样品属于已知类型中的哪一类,这就是判别分析的目的。 2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处? 判别方法 距离判别法 基本原理 根据已知分类的数据,分别计算各类的重心,即分类的均值;判别准则是:对任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类。 基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数(可以是线性的也可以是非线性的) 假设对所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。 逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果他们的判别能力随着引入新变量而变得不显著了,则将它从判别式中剔除,直至没有新变量能够进入,依然没有旧变量需要剔除为止。 特点 优:对各类(或总体)的分布并无特定的要求; Fisher判别法 优:该方法对总体的分布并未提出特定要求,是处理概率分布未知的一种方法; Bayes判别法 该判别考虑了总体的先验概率分布和误判损失 逐步判别法 3、判别分析与回归分析有何异同之处? 同: 异: 4、判别分析对变量与样本规模有何要求? 5、如何度量判别效果?有哪些影响判别效果的因素? 通过评价判别准则来度量判别效果,方法有(1)误判率回代估计法;(2)误判率的交叉确认估计;(P75) 影响因素: 6、逐步判别是如何选择判别变量的?基本思想或步骤是什么? 在判别分析中,并非观测变量越多越好,而应该选取主要变量进行判别分析,因为每一个变量在判别式中所起的作用一般来说不相同,有的起重要作用,有的起低微作用,,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,还会产生干扰,影响判别效果;同样的,如果主要变量被忽略了,产生的判别效果也不会好。 基本思想(步骤):与“逐步回归”相似,采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果他们的判别能力随着引入新变量而变得不显著了,则将它从判别式中剔除,直至没有新变量能够进入,依然没有旧变量需要剔除为止。 步骤: 7、判别分析有哪些现实应用?举例说明。 第三章 聚类分析 1、 聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺? 目的:把某些方面相似的东西归成类,以便从中发现规律性,进而达到认识和改变世界的目的; 异:是否事先已知研究对象分类; 同:都是分类(分组)的问题; 局限: 2、 有哪些常用的聚类统计量? Q型聚类统计量,用“距离”度量样品之间的接近程度;距离小表示共同点多; R型聚类统计量,用“相似系数”描述变量之间的近似程度;“相似系数”绝对值接近1表示关系密切; 3、 系统(谱系)聚类法的基本思想是怎样的?它包含哪些具体方法? 基本思想:先将待聚类的n个样品各自看成一类,共有n类;然后按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;在按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;如此继续下去,每次重复都少一类,直到最后所有样品(变量)都归为一类为止。 方法:最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法; 4、 聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因