概率分布统计学复习资料(6)

2019-03-16 20:53

高两边低，图像是一条位于x轴上方的钟形曲线。当μ＝0，σ2 ＝1时，称为标准正态分布，记为N（0，1）。μ维随机向量具有类似的概率规律时，称此随机向量遵从多维正态分布。多元正态分布有很好的性质，例如，多元正态分布的边缘分布仍为正态分布，它经任何线性变换得到的随机向量仍为多维正态分布，特别它的线性组合为一元正态分布。

正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。

生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；同一种生物体的身长、体重等指标；同一种种子的重量；测量同一物体的误差；弹着点沿某一方向的偏差；某个地区的年降水量；以及理想气体分子的速度分量，等等。一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布（见中心极限定理）。从理论上看，正态分布具有很多良好的性质，许多概率分布可以用它来近似；还有一些常用的概率分布是由它直接导出的，例如对数正态分布、t分布、F分布等。

随机变量

random variable

表示随机现象各种结果的变量。例如某一时间内公共汽车站等车乘客的人数，电话交换台在一定时间内收到的呼叫次数，等等，都是随机变量的实例。

一个随机试验的可能结果（称为基本事件）的全体组成一个基本空间Ω。随机变量X是定义在基本空间Ω上的取值为实数的函数，即基本空间Ω中每一个点，也就是每个基本事件都有实轴上的点与之对应。例如，随机投掷一枚硬币，可能的结果有正面朝上，反面朝上两种，若定义X为投掷一枚硬币时正面朝上的次数，则X为一随机变量，当正面朝上时，X取值1；当反面朝上时，X取值0。又如，掷一颗骰子，它的所有可能结果是出现1点、2点、3点、4点、5点和6点，若定义X为掷一颗骰子时出现的点数，则X为一随机变量，出现1，2，3，4，5，6点时X分别取值1，2，3，4，5，6。

要全面了解一个随机变量，不但要知道它取哪些值，而且要知道它取这些值的规律，即要掌握它的概率分布。概率分布可以由分布函数刻画。若知道一个随机变量的分布函数，则它取任何值和它落入某个数值区间内的概率都可以求出。

有些随机现象需要同时用多个随机变量来描述。例如，弹着点的位置需要两个坐标才能确定，它是一个二维随机变量。类似地，需要n个随机变量来描述的随机现象中，这n个随机变量组成n维随机向量。描述随机向量的取值规律，用联合分布函数。随机向量中每个随机变量的分布函数，称为边缘分布函数。若联合分布函数等于边缘分布函数的乘积，则称这些单个随机变量之间是相互独立的。独立性是概率论所独有的一个重要概念。

第三部分应用统计方法

大数定律

马尔可夫大数定律n1随机变量X满足2Var(?Xi)?0

ni?11n1n则limP{?Xi??E(Xi)??}?0ni?1ni?1n??另有切比雪夫、辛钦、伯努利、

泊松等都有类似的大数定律。 ?泊松中心极限定理

–fn(A)为事件A在n次试验中发生的次数，pi为事件A第i次试验中发生的概率，x为任一实数，若发散，则有：

n?1???Pf(A)?p?x??lim??ni?n???Bn?i?1???12????ex?x22dx式中，Bn2=Σpi(1-pi)

1.假设检验

一、假设检验的基本原理和基本概念

一般的几个要素：原假设（零假设，null hypothesis）、对立假设（备择假设alternative hypothesis）、检验统计量、拒绝域

理论的最初探索：1710年，阿布兹诺特在英国皇家学会宣读论文《从两性出生数观察的规律性所得关于神的意旨存在的一个论据》。他研究了1629-1710年伦敦出生的男女数，全是男多于女，推理：有两种可能：⑴生男或生女纯属偶然；⑵由于“神的意旨”，生男的机会大于生女。如果⑴成立，则一年内生男的机会大于生女机会的概率不大于0.5，连续82年出现这情况的概率不应超过(1/2)82<10-24。一亿亿亿分之一，这不合情理。他首先提出用统计数据去验证一种说法的问题。 20世纪的R.A. Fisher：一女士说她能分辨奶茶中先倒进杯子的是奶还是茶。设计试验：8杯奶茶，先倒奶的4杯，请她品尝。设她挑出了

!这4杯。假设她无分辨能力，则8中选4共有70种方法（4!(88?）。4)!全选对的概率仅为1/70，有假设：

1.无鉴别能力，纯属偶然 2.有鉴别能力

问题：某餐厅以前营业额8000元/天，标准差640元，改了菜单，观察了9天，平均营业额8300/天，标准差640元。这300元的差异是改菜单导致的吗？

猜测：营业额的提高有可能真的是“改了菜单”所带来的，也可能因为最近这9天“恰好”是偏高的。（如果经过30天，从中选出9天，问题的实质是一样的。用30天的均值当然更准确，但现实中，要么没进行每天的统计，要么是无法统计，只能用9个数字去“估计”）营业额服从正态分布。第一步，建立假设。

假设：没变化。它的对立面是“有变化”，“有变化”又可分为“大于”和“小于”，即：

原假设：新旧菜单的平均营业额没有差异。记为H0。

对立假设或备择假设：新>旧，新<旧，新≠旧。显然，这里关心的是“新>旧”是否成立，备择假设就是：新菜单的平均营业额大于旧菜单。记为H1。

用符号表示：

H0：μ=8000 H1：μ>8000

如果拒绝原假设H0，就可以认为H1正确。H1只说明μ>8000，它可以是8001，8100，8200??。现在由样本给出的8300，仅仅是μ的

一个估计。

第二步，寻找检验统计量。寻找一个特定的统计方法

假设检验的任务是要确认原假设H0是否为真。先假定它成立，然后用样本去判断真伪，需要构造一个统计量来做判断，此统计量称为“检验统计量”。这里可用样本均值X作为检验统计量。

在H0为真时，新菜单挂出后，每天的营业额仍然服从正态分布N~(8000,6402)，如今我们获得了一个容量为9的样本，样本的均值仍服从正态分布，但各样本均值的方差将变为6402的1/9。即213.32。所以X~(8000,213.32)。

在H0为真时，X应接近8000，如果它远离8000，就有理由怀疑H0为真（即拒绝该假设，认为这个假设是错的）。8300够不够远？或者，远到多少才拒绝H0？所拒绝的区域就是拒绝域（通常用W表示）。第三步，显著性水平与临界值

显著性水平α：H0事实上为真，但被拒绝的概率（因为使用样本值估计，这又可能发生）。这不可能完全避免，需要把这事情发生的概率控制在比较小的范围里，如5%，即α=0.05。或表述为：

P(H0为真, 但被拒绝)=0.05 P(拒绝|H0为真)=0.05

在这里，“显著性水平”可视为一个冒险程度，即：我只能冒5％的风险去拒绝一个正确的判断。

用统计思维来考虑这问题。“H0为真”表示样本来自服从正态分布的总体N~(8000,6402)，“被拒绝” 表示由样本求得的均值超过了临界值。

可以设法决定临界值c，使得在H0为真时，X≥c的概率为5%，这便是用H0为真时X~(8000,213.32)去计算X≥c的概率，使

P(X≥c)=0.05 由于在H0为真时，有1-φ

????c?8000??=1.645，则临界值640????3???????c?8000?=0.05，从而由正态分布表可知，?640???3??c=8000+1.645*(640/3)=8350.9，这一临界值

惟一地决定了拒绝域W。上图中的c即为临界值。

显著性水平α的确定没有客观标准。原则是：要求越严，显著性水平α越低。如检验药品、航天技术、军用产品时，一般很低（0.01）。第四步，做判断

在H0为真的前提下，X≥8350.9这一事件发生的概率为0.05，反之，

X<8350.9这一事件发生的概率为0.95，前者是个小概率事件。通常在

共8页:

概率分布统计学复习资料(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档