感谢在校统招的同学帮忙把绝大多数都做了,但可能还是落下了少数题目。如有高手能够补完,还请与其他同学分享。
卷1
一、
直方图:直观的给出原始数据(电池寿命)的分布情况
箱线图:直观的识别出原始数据(电池寿命)的异常值,并展示出分布的峰度和偏态。 二、
(1)方差分析中有三个基本的假定。
1、正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本; 2、方差齐性:各个总体的方差必须相同;
3、独立性:每个样本数据是来自因子各水平的独立样本。
(2)在上述3个假定中,对独立性的要求比较严格,若该假设得不到满足时,方差分析的结果往往会受到较大影响。而对正态性和方差齐性的要求相对比较宽松。 三、
(1)拒绝的结论是:该食品每袋的平均重量不是100克;不拒绝的结论是:样本提供的证据不能证明该食品每袋的平均重量不是100克。 (2)不能。样本得出的结论只能用于拒绝原假设,而不能证明原假设为真。
(3)结论:若该食品每袋的平均重量是100克,则得到的样本会像现在观测到的结果这样极端或者更极端的概率仅为0.03。解释P值:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设。 四、
(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性。
(2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下。 向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为止。
1
向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致SSE显著减小为止。
逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除之。如此反复,直到增加变量不能导致SSE显著减少为止。
五、
有季节性多元回归模型、时间序列分解法等方法。
季节性多元回归模型引入虚拟变量来表示季节,对于以季度记录的数据,引入3个虚拟变量Q1、Q2、Q3,其中Q1=1(第1季度)或0(其他季度),Q2=1(第2季度)或0(其他季度),Q3=1(第3季度)或0(其他季度),则季节性多元回归模型表示为:
其中b0是时间序列平均值,b1是去市场分的洗漱,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第4季度的平均差值。
时间序列分解法分3步:
第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。
第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。
第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。
2
卷2
一、
平均数:用于表示统计对象的一般水平,常为算术平均数。
中位数:也可用于表示统计对象的一般情况,而且不受极值的影响。 方差:用于描述数据的离散程度,越大说明数据的分布越分散。 偏态系数:用于描述数据分布的不对称性。
峰度系数:用于描述数据分布的尖峰或平峰程度。 二、
t分布:描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。
F分布:应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。 三、
P值是当原假设为真时,得到的样本会像现在观测到的结果这样极端或者更极端的概率。
若要证明原假设不正确,则由样本得到的P值应小于给定的显著性水平。 四、
(1) 差异源 SS 组间 组内 总计 420 df MS 2 210 F P-value — — 1.478 0.245946 — 3836 27 142.074 — 4256 29 — (2)
从P值来看,组装方法与组装产品数量之间的关系强度较弱。 (3)
若显著性水平为0.05,则P>0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。 五、
时间序列分解法分3步:
3
第一步,确定并分离季节成分。计算季节指数,确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。
第二步,建立预测模型并进行预测。对消除了集结成分的时间序列建立适当的预测模型,饼干局这一模型进行预测。
第三步,计算出最后的预测值。用预测值乘以相应的季节之术,得到最终的预测值。
考题卷号:3
一、 (20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表: 要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。 有, 平均数、众数和中位数、方差、离散系数、偏态和峰态 其中平均数、众数和中位数是评价数据的集中趋势的,可以座位数的平均水平或代表值,三者略有差异。三者特点和差异如下 众 数 不受极端值影响 具有不惟一性 数据较多时有意义,且有明显峰值时应用 中位数 4
不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 利用了全部数据信息,数学性质优良 数据对称分布或接近对称分布时应用较好 当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性 方差、离散系数都是可以评价数据的离散程度的。: 二、 (20分)为什么说假设检验不能证明原假设正确? 1.假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据 2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论 3. 假设检验中通常是先确定显著性水平,这就等于控制了第Ι类错误的概率,但犯第Ⅱ类错误的概率却是不确定的。 三、 (20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。 (1) 说明样本均值服从什么分布?依据是什么? (2) 计算平均行驶时间95%的置信区间。 (3) 解释95%的置信水平的含义。 5