复习前,记住这些符号的意思 σ-总体标准差 σ2-总体方差
-均值
一、简答题(12选6,6做5)
1、 什么是统计学,什么是描述统计、什么是推断统计
答:统计学是一门收集、整理、展示和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
描述统计:统计数据的搜集、整理、显示和分析等
推断统计:利用样本信息和概率论对总体的数据特征进行估计和检验等。
2、请阐述描述统计与推断统计的关系
答:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的方法。
关系:描述统计学和推断统计学是现代统计学的两个组成部分呢,相辅相成、缺一不可,描述统计学是现代统计学的基础和前提,推断统计学是现代统计学的核心和关键。
3、什么是偏态,什么是峰度,如何对偏态和峰度情况进行判定。
答:偏态:数据分布偏斜程度的测度,偏态系数等于0为对称分布;偏态系数大于0为右偏分布;偏态系数小于0为左偏分布。
峰度:数据分布扁平程度的测度,峰度系数等于3扁平程度适中;偏态系数小于3为扁平分布;偏态系数大于3为尖峰分布。
4、什么是随机现象,对随机现象进行试验应该具备什么特征?
答:在一定条件下进行试验或观察会出现不同的结果,而且在每次试验之前都无法预言会出现哪一个结果,这种现象称为随机现象。 应该具备:(1)可重复性(在相同试验条件下);
(2)可观察性(试验结果是可观察的,且所有可能结果是明确的); (3)随机性(试验结果不确定,但知道结果范围随机试验可表为E)
5、什么是3倍标准差原则,在生产管理中它有什么应用。
答:3σ原则:在工程应用中,通常认为P{|X|<=3σ}≈1,忽略{|X|>3σ}的值。
如在质量控制中,常用标准指标值±3σ作两条线,当生产过程的指标观察值落在两条线之外时发出警报,表明生产出现异常。
6、请阐述总体分布,样本分布,抽样分布的区别与联系
答:总体分布:统计学中称随机变量(或向量)X为总体,并把X的分布称为总体分布。
样本分布:选择的样本在随机变量上的对应的频次分布,样本分布实际上也在趋向总体分布。 抽样分布:统计量的分布称为抽样分布。
总体是指考察的对象的全体, 个体是总体中的每一个考察的对象, 样本是总体中所抽取的一部分个体, 而样本容量则是指样本中个体的数目。样本分布是用来估计总体分布的。样本分布有区别于总体分布,它是从总体中按一定的分组标志选出来的部分样本容量。随机样本的任何一种统计数都可以是一个变量。
7、什么是点估计,什么是区间估计?抽样估计中为什么要引入可靠度的概念
答:点估计:就是用实际样本指标数值作为总体参数的估计值。设X1, X2, X3….. Xn是总体X的一个样
1
本,其分布函数为F(X,θ),若统计量g(X1, X2, X3….. Xn )可作为θ的一个估计,把这种估计为点估计。
区间估计:参数估计的一种形式。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
8、区间估计中,可靠度与精确度是什么关系?如何控制他们。 答:精确性指的是置信区间的宽度,而可靠性指的是1-a的值。在其他条件不变的情况下,可靠性越高,区间宽度越大,因为这样才能更可靠的保证参数在区间内,不过精确性就下降了。
9、假设检验中有两类错误,它们是什么有关系,如何控制
答:当原假设为正确时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称为弃真错误,犯第Ⅰ类错误的概率通常记为α 。当原假设为错误时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称为取伪错误。犯第Ⅱ类错误的概率通常记为β 。) 关系:(1)α+β不一定等于1。(2)在样本容量确定的情况下,α与β不能同时增加或减少。(3)统计检验力。(1-β)
控制:扩大样本容量,这样就可以使两类错误都减小,可是在样本容量确定的时候减小一种错误会增大另外一种错误,比较好的处理原则是在控制犯弃真错误概率的条件下,尽可能使犯取伪错误的概率小点。
10、在方差分析中,为什么不做两两均值检验的比较,方差分析的基本原理是什么 答:因为(1)首先工作量太大;(2)无统一的误差,试验误差估计的精确度和检验的灵敏度低;(3)容易犯Ⅰ型错误,推断的可靠性低。
原理:方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
11、在一元线性回归模型中,有哪些基本假定(讲义P106) 答:(1)因变量y与自变量x之间具有线性关系
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的
(3)误差项ε 是一个期望值为0的随机变量,即E(ε )=0。对于一个给定的x值,y的期望值 为E(y)= β0+β1 x
(4)对于所有的x值,ε的方差σ2都相同
(5)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε∽N(0, σ2)
12、在一元线性回归模型中,需要进行哪些检验才能够使用模型进行解释和预测 答:模型检验(回归标准差检验),回归系数的显著性检验,经济意义检验和拟合优度检验
二、分析题(1必考,再4选2,共3题) (必考)技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为μ=406克,标准差为σ=10.1克。监控这一过程的技术人每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量描述
。描述
的抽样分布,并给出UX和σX的值,以及频率分布的形状;
的抽样分布,并给出μ和σ的值,以及概率分 布的形状;
2
(2)求P(≤ 400.8)
=400.8,这是否意味着装袋过程出现问题了呢,为什么?
(3) 假设某一天技术人员观察到
答案:⑴ 406, 1.68, 正态分布; ⑵ 0.001; ⑶是,因为小概率出现了。
1、统计分布的四种主要分布形式?在图中标出概率与分位数的关系?写了统计抽样中,哪些属于这种分布。
(自行解决) 2、(2选1考)(1)描述总体(2)描述研究变量(3)描述样本(4)描述推断 题一:“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费进进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标识),请每一个被测试者说出A中或B品牌中哪个口味更好。要求: (1)描述总体(2)描述研究变量(3)描述样本(4)描述推断
3
答案:
(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称
(3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好
题二:一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨,因此,他们开始检查了供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了其中50罐油漆,装满的油漆罐应为4.536KG,请:(1)描述总体(2)描述研究变量(3)描述样本(4)描述推断 答案:
(1)总体:最近一个集装箱内的全部油漆 (2)研究变量:装满的油漆的质量
(3)样本:最近一个集装箱内的50罐油漆
(4)推断:50罐油漆的质量应为4.536*50=226.8KG
3、在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类投票和200种高科技类投票的收益率分布。在股票市场上,高收益率往往伴随着高分队。但投资于哪类股票,往往与投资者的类型有一定关系。 (1)你认为该用什么样的统计量来反映投资的风险
(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票 (3)如果你进行投票投资,你会选择商业类股票还是高科技类股票。
答案:(1)方差或标准差 (2)商业类股票 (3)(用自己的观点来选择)考虑高收益,则选择高科技股票,考虑风险,则选择商业股票。
4、美国汽车会(AAA)是一个拥有90个俱乐部的非营利组织,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查 可知一个4口之家出游中平均每日餐饮和住宿费用大概是213美元 。假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4口之家,并对其在199年6月期间的旅行费用进行记录。
(1)描述 (样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明X、服从怎样的分布及X、
4
的均值和方差是什么?证明你的回答。
(2)对于样本家庭来说平均每日大于213美元的概率是多少,大于217美元的概念呢?在209美元和217美元之间和概率呢?
答:正态分布, 213, 4.5918; ⑵ 0.5, 0.031, 0.938。
三、计算题(1必考,10选5,共6题)
(必考,要注意单位的换算,未能算出后面)
已知某企业过去八个月时间内,不同生产费用下的企业产量数据如下表。 Y生产费用(万元)
62
86
115 5.0 80 3.1 110 3.8 160 8.0 132 6.1 135 7.2 X产量(千吨) 1. 2 2.0
(1)请建立它们的直线回归方程 (2)解释回归系数的经济意义
(3)若生产费用增加1元,估计企业产量如何变化 参考答案:
5