多元统计分析思考题

2018-11-30 19:55

《多元统计分析思考题》

第一章回归分析

1、回归分析是怎样的一种统计方法，用来解决什么问题？回归分析是统计学的一个重要分支，它基于观测数据建立变量之间的某种依赖关系，分析数据的内在规律，并可用于预报、控制等方面。当自变量的个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

2、线性回归模型中线性关系指的是什么变量之间的关系？自变量与因变量之间一定是线性关系形式才能做线性回归吗？为什么？线性关系指的是自变量和因变量之间的关系。多重线性回归中要求前提条件是线性——自变量和因变量之间的关系是线性的、独立性——各观测值之间是独立的、正态性——指自变量取不同值时，因变量服从正态分布、方差齐性——指自变量取不同值时，因变量的方差相同 3、实际应用中，如何设定回归方程的形式？（P36） ①假设方程的线性关系为：

y??0??1x1????pxp??，其中?是未知参数，?是不可

观测的随机误差且服从正态分布?~N0,?②估计未知参数

?2?

?0???p，需要进行n次独立观测，得到n组样本数据

?xi1,xi2,??xip;yi?,i?1,2??n4、多元线性回归理论模型中，每个系数（偏回归系数）的含义是什么？

?i称为（偏）回归系数，随机因变量对各个自变量的回归系数，表示各自变量对随机变量

的影响程度。

5、经验回归模型中，参数是如何确定的？有哪些评判参数估计的统计标准？最小二乘估计两有哪些统计性质（P37）？要想获得理想的参数估计值，需要注意一些什么问题？

y??0??1x1?????pxp称为经验回归方程，这里?i是

?^^^^^?i的最小二乘估计。评判参数

估计的统计标准有无偏性、有效性、一致性。想要获得理想的参数估计值，需要尽量分散的取自变量，另外，样本数据个数n越大Var(

?0)越小。

6、理论回归模型中的随机误差项的实际意义是什么？为什么要在回归模型中加入随机误差项？建立回归模型时，对随机误差项作了哪些假定？这些假定的实际意义是什么？

随机误差又称为偶然误差(accidental error)。由于测试过程中诸多因素随机作用而形成的具有抵偿性的误差。它是不可避免的，可以设法将其减少，但又不能完全消除。随机误差具有统计性，在多次重复测量中，绝对值相同的正、负误差出现的机会大致相同，大误差出现的机会比小误差出现的机会少。由于随机误差中正、负误差相互抵偿的特性，多次测量平均值的随机误差要比单次测量值的随机误差小，多次测量的随机误差的平均值趋向于零，因此

不影响测量的准确度。

2??正态分布，因为有大数定理在，残差一般服从正态分布，正?~N0,?假定随机误差符合

态分布能描述大多数实验中的随机测量值和随机误差的分布

7、建立自变量与因变量的回归模型，是否意味着他们之间存在因果关系？为什么？只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。

8、回归分析中，为什么要作假设检验？检验依据的统计原理是什么？检验的过程是怎样

的？

它是根据原资料作出一个总体指标是否等于某一个数值，某一随机变量是否服从某种概率分布的假设，然后利用样本资料采用一定的统计方法计算出有关检验的统计量，依据一定的概率原则，以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异，是否应当接受原假设选择的一种检验方法。

假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件（P<0.01或P<0.05）在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0)，再用适当的统计方法确定假设成立的可能性大小，如可能性小，则认为假设不成立，若可能性大，则还不能认为假设成立。

1提出检验假设又称无效假设，符号是H0；备择假设的符号是H1。

2选定统计方法，由样本观察值按相应的公式计算出统计量的大小，如X2值、t值等。根据资料的类型和特点，可分别选用Z检验，T检验，秩和检验和卡方检验等。 3根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。

9、回归诊断可以大致确定哪些问题？回归分析有哪些基本假定？如果实际应用中不满足这些假定，将可能引起怎样的后果？如何检验实际应用问题是否满足这些假定？对于各种不满足假定的情形，分别采用哪些改进方法？

回归诊断能回答以下问题：回归函数回归函数线性假定的可行性，误差项的等方差假设的合理性，误差项独立性假设的合理性，误差项是否符合正态分布，观测值中是否存在异常值，是否在模型中遗漏了某些重要的自变量，多重共线性诊断。

基本假定：回归模型的线性假定、误差的正态性、同方差性假定[若存在方差非齐性，参数估值仍然是无偏的，但不具有有效性，导致检验结果不可靠]、误差独立性假定等。[看残差项是否有明显规律]频率检验法回归散点图来判断正态概率图检验法采用残差图可以检验 DW检验不满足基本假定时将导致模型错误。参数的估计量不再具有最小方差线性无偏性变量显著性检验失去意义

改进方法；模型的预测失效考虑是否可以将y和某些自变量做变换，再建立相应的线性回归模型；若模型存在自相关，如果是回归模型选用不当，则应改用合适的回归模型；若缺少重要自变量则应加入相应的自变量；若以上方法都不能消除自相关性，则需要采用新的方法估计模型，如广义最小二乘法、差分法、迭代法、移动平均法。采用加权最小二乘法估计模型参数；Box-Cox变换法；方差稳定性变换

10、回归分析中的R2有何意义？它能用来衡量模型优劣吗？（P41）

R2即样本决定系数（复相关系数）是评判一个模型拟合优度的标准。R2越接近1，模型的拟合优度越高。

11、如何确定回归分析中变量之间的交互作用？存在交互作用时，偏回归系数的意义与

不存在交互作用的情形下是否相同？为什么？

一个实验中有两个或两个以上的自变量，当一个自变量的效果在另一个自变量的每一个水平上不一样时，我们就说存在着自变量的交互作用。交互作用指当两个因素都存在时，它们的作用大于（协同）或小于（拮抗）各自作用的和。交互作用检验有两种方法，一是对交互作用项回归系数的检验（Wald test）,二是比较两个回归模型，一个有交互作用项，另一个没有交互作用项，用似然比检验。

13、在怎样的情况下需要建立标准化的回归模型？标准化回归模型与非标准化模型有何

关系？形式有否不同？(P42) 需不需要标准化处理要看你的需要。如果你只是为了预测或者分析变量间的关系，可以不用标准化，系数直接解释为x变化1单位y的平均变化；如果你要比较两个因素对y的影响程度大小，就需要对数据进行标准化，系数解释为x变化一个标准差，y变化多少个标准差。你所说的模型好坏评价可以点击SPSS回归对话框的统计量按钮，进入选择拟合优度等评价指标

14、利用回归方法解决实际问题的大致步骤是怎样的？ 1 确定变量

明确预测的具体目标，也就确定了因变量。如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。 2 建立预测模型

依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归分析预测模型。 3 进行相关分析

回归分析是对具有因果关系的影响因素（自变量）和预测对象（因变量）所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。 4 计算预测误差

回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。 5 确定预测值

利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。

15、你能够利用哪些软件实现进行回归分析？能否解释全部的软件输出结果？ eviews spss Excel R matlab

第二章判别分析

1、判别分析的目的是什么？判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类

型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。

2、有哪些常用的判别分析方法？这些方法的基本原理或步骤是怎样的？它们各有什么特点或优劣之处？

距离判别法、fisher判别法、bayes判别法、逐步判别法。

距离判别法：根据已经分类的数据，分别计算各类的重心，即分类的均值。判别准则是：对任意的一个样品，若它与第i类的重心距离最近，就认为它来自第i类。距离判别法对各类的分布并无特别的要求。

Fisher判别法的基本思想是投影。将K组m元数据投影到某一个方向，使得投影后组与组之间尽可能分开，其中利用了意愿方差分析的思想导出判别函数，这个函数可以是线性的，也可以是其他类型的函数。该法对总体的分布并未提出特定的要求，他是处理分布未知的判别问题的一种重要方法。

Bayes判别法：假定对多研究的对象在抽样前已有一定的认识，常用先验概率分布来描述这种认识，然后给予抽取的样本再对先验认识做修正，得到后验概率分布，再给予后验概率分布做各种统计推断。尤其适合小样本。

逐步判别法：筛选具有显著判别能力的变量。

3、判别分析与回归分析有何异同之处？相似处：

差异处：回归模型普及性的基础在于用它去预测和解释度量变量。但是对于非度量变量，多元回归不适合解决此类问题。样本量不同，回归分析（p元）则个数为6-10P，判别分析中n>=20

4、判别分析对变量与样本规模有何要求？

判别分析对样本量与预测变量个数的比率很敏感。建议最小的样本量是每个变量有5个观测。除总的样本量以外，研究者还必须考虑每组的样本容量。至少，最小的组的大小必须超过解释变量的个数。作为实际的指导，每组应至少有20个观测。但即使所有的组大小都超过了20，研究者还应注意组的相对大小。如果组的大小相差很大，这可能影响到判别函数的估计和观测的分类。在分类阶段，大的组有不相称的高的分类机会。 5、如何度量判别效果？有哪些影响判别效果的因素？判别准则评价：（1）误判率的回代估计法（2）交叉确认误判率（刀切法） 6、逐步判别是如何选择判别变量的？基本思想或步骤是什么？ 7、判别分析有哪些现实应用？举例说明。

判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。在每种情况下，将对象进行分组，并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。

8、Fisher判别法和贝叶斯判别法的基本原理。

Fisher判别法是一种先投影的方法。使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。进行投影后，再根据距离判别思想由距离的远近得到判别准则，从而进行判别分析。

贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作

出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果

第三章聚类分析

1、聚类分析的目的是什么？与判别分析有何异同？这种方法有哪些局限或欠缺？聚类分析是把研究目标分割成为具有相同属性的小的群体。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。它们在数学上是无区别的。聚类的基本想法：根据某种距离，把最近的聚在一起。这里的距离含义很广，如欧氏距离、马氏距离等距离，相似系数也可看作为距离。

判别分析的基本思路是：设有G1、G2、?GK个总体，从不同的总体中抽出不同的样本，根据样本→建立判别法则→判别新的样品属于哪一个总体。当然，根据不同的方法，建立的判别法则也是不同的。常用的判别方法有：距离判别、Fisher判别、Bayes判别。

判别分析和聚类分析都是分类。其主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。可以先聚类以得知类型,再进行判别. 2、有哪些常用的聚类统计量？

Q型聚类统计量（用距离来度量变量之间的接近程度）常用距离：

绝对值距离；欧氏距离；闵可夫斯基距离；切比雪夫距离；马哈拉诺比斯距离和R型聚类统计量（用相似系数来度量变量之间的接近程度）常用相似距离：夹角余弦；相似系数

3、系统（谱系）聚类法的基本思想是怎样的？它包含哪些具体方法？

系统聚类法的基本思想：先将待聚类的n个样品（或者变量）各自看成一类，共有n类；然后按照事先选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n-1类；再按前面的计算方法计算新类与其他类之间的距离（或者相似系数），再将关系最密切的两类并为一类，其余不变，则得n-2类；如此继续下去，每次重复都减少一类，直到最后所有样品（或者变量）归为一类为止。

其包含的方法有：最短距离法；最长距离法；中间距离法；重心法；类平均法；离差平方和法。

4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果？要想减少不利

因素的影响，可以采取哪些改进方法？聚类分析

5、实际应用问题，如何确定分类数目？

1.给定一个适当的阈值T。给出一个你认为合适的阈值T，要求类与类之间的距离要大于T，有些样品可能会因此而归不了类或只能自成一类。这种方法有较强的主观性，这是它的不足之处。

2.根据数据点的散布图直观地确定类的个数。如果样品只有两个或三个变量，则可通过观测数据的散点图来确定类的个数。如果变量个数超过三个，则可对每一可能考虑的聚类结果分别使用费希尔判别法进行降维，将所有样品的前两个或三个判别式得分制作成散点图，观测类之间是否分离得较好以决定分几类较为合适。

共2页:

多元统计分析思考题.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档