(1)偏态系数(偏度):数据分布不对称性的度量值 (xi?x)3nbs??s3 (n?1)(n?2)
正偏(右偏)偏态系数为正,负偏(左偏)偏态系数为负 (2)峰态系数(峰度):对数据分布峰态的度量值。
n (Xi?x)4n(n?1)3(n?1)2bk??S4?(n?2)(n?3) (n?1)(n?2)(n?3)i?1
5.2.3 数学期望、均值及方差 1、数学期望
可以看做各种可能结果的加权平均。
均值、方差与标准差都是重要的数学期望。 2、离散型随机变量的数学期望
离散型随机变量的数学期望:离散型随机变量的数学期望是X所有可能取值xi(i=1,2,,…)与其相应的概率pi(i=1,2,…)的乘积之和,用μ或E(X)表示。数学期望又称均值。 ??E(X)??xipii
方差:离散型随机变量的方差等于(xi-μ)2与其相应的概率pi的乘积之和,用σ2或D(X)表示。 ?2?D(X)?V(x)?var(x)??(xi??)2pii
5.2.4常用的离散分布 1、两点分布
只有两种可能结果的试验,称为伯努利试验。若定义一次伯努利试验成功的次数为离散型随机变量X,它的概率分布就是简单的一个分布类型,即两点分布,也称为伯努利分布。
两点分布:如果随机变量X只可能取0或1两个数值,它们的概率分布为: P(X=1)=p, P(X=0)=1-p
或P(X=x)=pxq1-x,0
两点分布实际上是二项分布的一个特例。即B(1,ρ),它只有一个参数p。 2、二项分布
n重伯努利试验满足下列条件:
(1)一次试验只有两种可能结果,“成功”“失败”
(2)一次试验“成功”的概率为p,“失败”的概率为q=1-p (3)试验相互独立
(4)试验可重复进行n次
(5)在n次试验中,“成功”的次数对应一个离散型随机变量。 在n次试验中,出现“成功”的次数的概率分布就是二项分布。 在n次试验中,出现x次成功的概率为:
xxn?x P(X?x)?Cnpq,x?0,1,2,...,n称随机变量X服从参数为(n,p)的二项分布,记作X~B(n,p)。
μ=E(X)=np V(X)=var(x)=npq=np(1-p),??X??np(1?p) 当抽样的样本量小于有限总体其个体总数的10%时,二项分布可以作为超几何分布的近似。
二项分布的参数n足够大(比如超过100),参数p不是太大或太小(0.1
如果随机变量X的概率分布的一般表达式为: ?x??P(X?x)?e,x?0,1,2,...??0 x!则称X服从参数为λ的泊松分布,记作X~P(λ)
泊松分布的数学期望和方差相等,均为λ,λ一定是没有量纲的常数。
E(X)??,var(x)??,?(x)??
二项分布当n较大(超过100),如p很小(p<0.05且np<30),则二项分布B(n,p)可以用Poisson分布P(np)近似。
例:一条高速公路每天车流量为10000,发生车祸的概率p=0.0003。np=3,笼统说“每天在此高速公路上平均发生3次车祸”,就变成泊松分布P(3),二者数值非常接近。 均值“可分性”:在单位换算时,Poisson分布的性质不变,限于被分割或被合并成的总份数很少的情况下成立。 4、超几何分布
有限总体的无放回抽样(与二项分布的区别)产生超几何分布。总体中有N个个体,其中M个具有特征A,从中无放回抽取n个,得到超几何分布。 如果随机变量X的概率分布为:
xn?x CMCN?MP(X?x)?,x?0,1,2,...ln CN则称X服从参数为n、N、M的超几何分布,记为X~H(n,N,M)。超几何分布有三个参数n,N,M。
超几何分布的数学期望和方差分别为:
N?nM
E(X)?npV(X)?var(X)?np(1?p),p? N?1N?n?如果总体中元素个数N很大,使得M的有限变化相对于N影响轻微(???5%时),
?N?则超几何分布趋向于二项分布。
xn?xN?? CMCNMxxn?x?M?Cpq,其中p?nn CNN
5.2.5常用的连续分布 1、正态分布
如果随机变量X的概率密度函数为:
(x??)2 ?12?2f(x)?e,???x?? 22??
则称X为正态随机变量,或称服从参数为μ,σ2的正态分布,记作X~N(μ,σ2)。 正态分布的概率密度函数f(x)具有下述特点: (1)曲线的图形是一个单峰钟型曲线,,它是关于直线x=μ对称的;
(2)曲线在x=μ处达到最高点,从这个最高点出发,向正负两个方向下降,无限逼近横轴(x轴),这条曲线与横轴质检的面积等于1。而且,曲线下在μ-σ与μ+σ之间的面积为0.6826,在μ-2σ与μ+2σ之间的面积为0.9545,在μ-3σ与μ+3σ之间的面积为0.9973。
(3)正态分布由参数μ和σ完全确定。μ反映了正态分布的中心位置和相应随机变量取值的集中位置。σ反映了分布的分散程度。 2、标准正态分布
μ=0,σ=1的正态分布称为标准正态分布
2 1?x2f(x)?e,???x?? 2?
标准正态分布的μ= 0,σ= 1。 2、均匀分布
如果随机变量X的概率密度函数为:
?1 ?,a?x?b,a?bf(x)??b?a
??0,其他
则称X服从区间[a,b]上的均匀分布,记作X~U(a,b)
随机变量X在区间[a,b]服从均匀分布,意味着X落在区间[a,b]中任意等长度的子区间内的可能性相同,X落在子区间内的概率只依赖于子区间的长度。 a?b(b?a)2E(X)?V(X)? 2123、指数分布
如果随机变量X的概率密度函数为:
t?1?b?f(t)??be,t?0,??0??0,其他
则称X参数为λ的指数分布,记作X~E(λ)
λ代表瞬时失效率,b称为“尺度参数”, λ =1/b
11
E(X)?V(X)?2????e??x,x?0,??0f(x)???0,其他
4、对数正态分布
某数据的对数服从正态分布,则称该数据服从对数正态分布。如针刺麻醉的镇痛效果、英语单词的长度、流行病的蔓延时间、电器寿命、化学反应事件、绝缘材料的被击穿事件、产品维修事件等。 5、威布尔分布
瑞典科学家威布尔1939年提出,寿命试验和可靠性理论的基础。
(x??)? ????(x??)??1e?,x?? p(x)??? ?0,x???
式中??0称为形状参数,??0称为位置参数(,??0称为尺
度参数,记为X~W(?,?,?) 当??0,??1时,简化为: x?1????e??x,x?01?e,x?? p(x)???令??,得p(x)???x?0 ?0,?0,x???
5.2.6中心极限定理
1、随机变量独立同分布的概念
随机变量X1与X2独立,是指X1的取值与X2的取值互不影响。
随机变量X1与X2同分布,是指X1与X2具有相同的分布形状和相同的分布参数,对离散型随机变量具有相同的概率函数,对连续型随机变量具有相同的概率密度函数。 一般来说,在相同条件下,进行两次独立试验,则这两次试验结果对对应的随机变量是独立同分布的。
独立同分布的特性可以推广到三个或更多个随机变量。 2、独立同正态分布随机变量的重要性质
定理1:设X1,X2,……Xn是n个独立同正态分布的随机变量, Xi~N(μ,σ2),则: X1?X2?...?Xn1nX???Xi仍为正态分布,其均值不变, nni?1 ?2?222方差缩小n倍,若把X的方差记为?X,则?X?,即X~N(?,)
nn3、中心极限定理 n (1)X1?X2?...?Xn??Xi近似服从均值为n?,方差为n?2的正态分布N(n?,n?2)i?1
n?2?2 (2)X?X1?X2?...?Xn?1Xi近似服从均值为?,方差为的正态分布N(?,)?nni?1nn
当Xi的分布对称时,只要n?5近似效果比较理想; 当X的分布非对称时,一般n?30近似效果比较理想。i
准误,记为?X或SEM,无论正态还是非正态 统计学上把X的标准差称为均值的标 ???Xn
5.2.7统计量与抽样分布 1、三种不同性质的分布
(1)总体分布:总体中各元素的观测值所形成的相对频数分布称为总体分布。
(2)样本分布:从总体中抽取一个容量为n的样本,由这n个观测值形成的相对频数分布,称为样本分布。
(3)抽样分布:某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n 的样本时,由该统计量的所有可能取值形成的相对频数分布。 2、抽样分布的概念 3、样本均值的抽样分布
定义:在重复选取容量为n的样本时,由样本均值 X 的所有可能取值形成的相对频数分布称为样本均值的抽样分布。
?22(1)总体服从正态分布 N ( ? , ? ) 时,样本均值服从正态分布 N ( ? , ) ,转
n换为标准正态分布,则:
X??Z?~N(0,1) ?/n当总体标准差σ已知,样本均值 X 进行标准化转换后,可以得到标准正态分布。 (2)当总体标准差未知,用样本标准差S代替总体标准差,样本均值的抽样分布服从自由度为n-1的t分布。即: X??1n2t?~t(n?1)式中S?(X?X)?i n?1i?1S/n
由于总体标准差σ常常是未知的,因此t统计量常被用来进行有关单个正态总体均值和两个正态总体均值之差等问题的参数估计和假设检验。 4、正态样本方差的S2的分布——卡方分布
若X1,X2,...Xn是从样本量为n的N(?,?2)正态总体中抽出的
1n1n 2一组独立随机样本,记X??Xi,S?(Xi?X)2。?ni?1n?1i?1
n(Xi??)2 2则当?已知时,???~?2(n)2?i?1
n(Xi??)2(n?1)S2 2当?未知时,????~?2(n?1)22??i?1
卡方分布的概率密度函数在正半轴上呈正偏分布。
卡方分布的性质:
(1)卡方分布的变量值始终为正。
(2)卡方分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称。
(3)卡方分布的可加性:设X和Y彼此独立,且都服从卡方分布,其自由度分别为n1、n2,若令Z=X+Y,则Z服从自由度n1+n2的卡方分布。
2X~?(n),则E(X)?n,V(X)?2n (4)若
5、两个独立的正态样本方差之比的分布——F分布