在于它将一组数据一分为二,在中位数之上有一半的数据,在中位数之下有另一半的数据。 中位数的计算:(1)原始数据存在时,对数据按从小到大排序,若样本容量为奇数,则中间一个即为中位数;若样本容量为偶数,则中间两个的算术平均数即为中位数。
n?Fbf?i,其中Lb表示中位数所在组的下限值,n(2)数据已经归组,则Md?Lb?2表示样本容量,Fb表示在中位数所在组下限以下的累计频数,f表示中位数所在组的次数,
i表示组距。
nMd?La?2?Faf?i,其中La表示中位数所在组的上限值,Fa表示在中位数所在组上
限以上的累计频数,其他符号同上。 6、方差与标准差
方差又称作为均方,一群数据的方差等于它们的离均差平方之和除以它们的次数之和所得的商。容量为n的样本方差S?2?(X?X)n2。标准差是方差的算术平方根,用S表示。
7、作为总体标准差估计值的样本标准差
统计学方法的核心任务是由样本推断总体。以后在未做专门说明的情况下,我们所提及的样本标准差都是指作为总体标准差估计值的样本标准差,所以提及的样本方差都是指作为总体方差估计值的样本方差。
标准差计算:S??X2?(?X)n2n?1 8、百分位数与百分位距(差)
百分位数本身并不是差异量数,而是一种“地位量数”。百分位数一般记作为Pp,它表示在该群数据中有百分之p的数据分布在其下。百分位距又称为百分位差,它是两个百分位数的差。
百分位数的计算:
(1)原始数据存在时,此情形没有深入分析,可以直接根据定义求;
n?p100f?Fb?i,其中Lb表示百分位数Pp所在组的下限
(2)数据以归组时,Pp?Lb?值,n表示样本容量,Fb表示在百分位数Pp所在组下限以下的累计频数,f表示百分位数
Pp所在组的次数,i表示组距。
四分位差Q?Q3?Q12?P75?P252。
第三章 概率分布与统计推断
1、随机事件
随机现象的各种可能的结果,又被称作为随机事件。换句话说,在一定条件下可能发生也可能不发生的事件,我们称之为随机事件。 2、事件之和与事件之积
(1)事件之和:若干个事件的和依然是一个事件,它表示这若干个事件中至少有一个发生。 (2)事件之积:若干个事件的积也是一个事件,它表示这若干个事件同时发生。 3、互不相容与相互独立
互不相容:一组(k个)事件A1,A2,?,Ak,如果其中任何两个或两个以上的事件都不可能同时发生,那么这一组事件之间的关系就是互不相容的,这一组事件又称作为互不相容事件。
相互独立: 一组(k个)事件A1,A2,?,Ak,如果其中任何一个事件发生与否都与其他事件是否发生毫无关系,那么这一组事件之间的关系就是相互独立的。这一组事件又称作为相互独立事件。
4、概率与频率
概率是随机事件发生可能性大小的客观指标。频率是实际观察的结果。事件A的概率与试验次数无关,而频率与试验次数有关。概率是频率的稳定值,频率是概率的近似值。 5、概率的基本性质
(1)P(?)?1;(2)0?P(A)?1;(3)P(A)?P(B)?P(AB)。
性质(1)中的?表示某一随机现象所有可能的结果之总和。 性质(2)是指随机事件的概率一定大于等于0,小于等于1。
性质(3)是指两个随机事件之和(至少有一个发生)的概率等于它们各自概率的和减去它们之积(同时发生)的概率。 6、概率的加法与乘法
概率的加法:互不相容的k个事件A1,A2,?,Ak,它们之和的概率等于它们各自概率的和,即P(A1?A2???Ak)?P(A1)?P(A2)???P(Ak)。
概率的乘法:相互独立的k个事件A1,A2,?,Ak,它们之积的概率等于它们各自概率的乘积,即P(A1?A2???Ak)?P(A1)?P(A2)???P(Ak)。 7、概率分布
“概率分布”是统计学中用来描述随机变量的变化规律的理论模型。离散型变量的概率分布描述出随机变量各种取值出现的可能性。连续型变量的概率分布则描述出随机变量的取值在某一范围内出现的可能性。
8、二项分布
二项分布是一种离散型随机变量的概率分布。二项分布适用于“二项独立试验”问题。二项独立试验是指(1)试验只有两种结果:A和A;(2)每一次试验都是在相同的条件下进行的,P(A)?p,P(A)?1?p保持不变;(3)试验总次数n事先确定;(4)每次试验是相互独立的。
若X服从二项分布,则P(X?k)?Cnkpk(1?p)n?k。 9、正态分布
正态分布是最常用的一种连续变量的概率分布。正态分布又称作常态分布。正态分布曲线的性质:(1)分布曲线在X??处最高;(2)X??,Y?0曲线向两侧无限延伸越来越靠近x轴;(3)关于直线X??对称;(4)?不变,?增大时曲线越来越矮胖,反之则越来越高瘦; ?不变,?增大时曲线向右平移,反之则向左平移。 10、标准分Z与正态分布表
标准分Z是原始分X的线性转换形式Z?X???。标准分的总体平均数?Z?0,标
准分的总体标准差?Z?1。标准分Z又被称作为相对地位量数。当总体平均数?和标准差
X?XS?未知时标准分可用Z?来计算。正态分布表是依据正态分布的有关概率编制成的
一张数表。表中标准分每一个取值对应的一个P值,这个P值表示标准分Z的取值介于0和这个取值z之间的概率,即P?P(0?Z?z),也就是总体平均数?到该标准分取值所对应的X值之间正态分布曲线下的面积。 11、抽样分布与标准误
所谓抽样分布,就是样本统计量的概率分布。样本统计量在抽样分布中标准差,为了有别于原始数据的标准差,就称作为该统计量的标准误差,简称标准误。 12、关于样本平均数X抽样分布的几点结论 (1)X的抽样分布渐近正态;
(2)样本平均数X在抽样分布中的平均数,就等于原始数据的总体平均数(这就是样本平均数的无偏性),即?X??;
(3) 样本平均数X在抽样分布中的标准差,也就是样本均数的标准误,等于原始数据的总体标准差除以样本容量的算术平方根,即?X??n。
13、总体参数的点估计
所谓参数,是总体的特征量数。所谓总体参数的点估计,就是用样本统计量直接去代替对应的总体参数。
14、置信区间及其置信度
置信度即为把握程度,通常用1??表示,其中?就是作为小概率界限的显著性水平。 置信区间是一个随机区间,它表示有1??的把握度用此区间来覆盖未知参数。 15、统计检验的研究假设与虚无假设
统计假设检验涉及两种假设:研究假设和虚无假设。研究假设是指当前样本所属的总体与原设总体不一样的假设,虚无假设是指当前样本所属的总体与原设总体一样的假设。 16、统计假设检验的基本思路
统计假设检验是一种“概率性质的反证法”。统计假设检验的基本思路:从无差异的虚无假设出发,即首先假定实验研究中的“差异”是由于抽样的偶然误差所造成的,然后借助于抽样分布的概率模型来把握,如果差异仅是抽样的偶然误差,那么出现如此或更大差异的概率究竟有多大,并且根据这一概率在研究假设和虚无假设之间作出抉择。
17、显著性水平
一是观察到的显著性水平。所谓观察到的显著性水平是指在“ 无差异”的虚无假设成立的情况下,由于抽样误差而能够观察到如此之大或更大的差异的概率。二是作为“实际不可能”的小概率界限的显著性水平。 18、统假设检验的两类错误
一、因为观察到的显著性水平小于等于某一小概率界限就“否定虚无假设,反证研究假设成立”,这样的结论存在着犯错误的可能。 二、如果统计假设检验的结果表明,“在样本中观察到的差异由抽样的偶然误差造成”的可能性比较大,不是一个实际不可能的小概率,从而就认定“无差异”的虚无假设是成立的,这样的结论也存在着犯错误的可能。
第四章 总体平均数的统计推断
1、统计量的自由度
统计量的自由度记作为df(degree of freedom),它等于在计算该统计量时可以自由取值的数据数目。
2、统计量T与t分布表
T?X??SX?X??Sn,自由度df?n?1。t分布表中的值t?表示P(T?t?)??,
dfdf其中统计量T是自由度为df的t分布。 3、总体平均数的区间估计
总体方差?已知时,总体平均数?的置信度为1??的置信区间为
2
(X?z???n,X?z???n);
总体方差?2未知时,总体平均数?的置信度为1??的置信区间为
SnSn)。
(X?t??,X?t??4、样本容量n与置信区间的长度?的关系
dfn与置信度为1??的置信区间长度?的关系:??2?t??Sndf或n?(2?t??S?),
2当n充分大时近似地有n?(2?z??5.样本平均数X的显著性检验 ①总体标准差?已知时 (1)提出假设:H0:???0, H1:???0; (2)计算检验统计量的值
S?)。
2Z?X??0?n
(3)把握观察到的显著性水平
查z值表得z?,将z与z?比较大小,若z>z?便可得观察到的显著性水平P??。反之则P??。
(4)统计决断
当P??时,否定虚无假设H0,从而认为两者存在(极其)显著的差异。反之,则只能保留虚无假设H0,从而认为两者不存在显著的差异。 ②总体标准差未知但样本标准差S已知时 (1)提出假设:H0:???0, H1:???0; (2)计算检验统计量的值
T?X??0Sn (3)把握观察到的显著性水平
计算自由度df?n?1,查t值表得t?,将t与t?比较大小,若t>t?便可得观察到的显著性水平P??。反之则P??。
dfdfdf