概率统计实验指导书2,3

2019-03-10 11:16

概率统计实验指导书

理学院实验中心数学专业实验室编写

2009.12

实验二统计分析

1 引

1. 问题：湖中有鱼，其数不知。现在请你想一个办法，能将湖中的鱼数大致估计出来。

2. 分析：有两种方法。

[方法一] 设湖中有N条鱼。先捕出r条鱼，做上记号后放回湖中（设记号不会消失）。让湖中的鱼充分混合后，再从湖中捕出s条鱼，设其中有T条鱼标有

s?tCrtCN?r记号，则T是随机变量，且服从超几何分布P{T?t}?(0?t?r)。应用极sCN??sr??sr?大似然估计思想，寻找N,使P{T?t}达到最大，得N???。于是取N???作

?t??t?为湖中鱼数的一种估计，其中?x?表示不超过x的最大整数。

sr，此即N捕s条鱼得到有标记的鱼的总体平均数。而现在只捕一次，出现t条有标记的鱼。

[方法二] 用矩估计法.因为T服从超几何分布，其数学期望是E(T)?由矩估计法，令总体一阶原点矩等于样本一阶原点矩，即

??sr?sr?t，也得N???。 N?t?3. 问题的解决：由上面的分析，要想估计出湖中的鱼数，首先需要取到样本数

据，然后利用样本数据，采用统计中的点估计法对总体进行估计，其属于统计分析中的一部分。本节重点进行与统计分析相关的实验。

2 实验目的

1、利用常用的统计量描述样本数据的集中和分散程度，并对总体特征进行归纳和分析。

2. 学习用MATLAB对总体均值、方差进行估计。 3. 学习用MATLAB处理假设检验的相关问题。 4. 解决“引”中的实际问题。

3 实验内容

1.使用MATLAB对样本数据进行处理

MATLAB提供了若干对数据进行统计分析的命令，这些命令作用到一个矩阵上会对各列分别作用，得到一个行向量，现将这些命令列举如下：

max 最大分量； min 最小分量； mean 平均值； median 中位数； std 标准差； sort 按不增次序排序； sum 分量和； hist 直方图； product 分量积； diff 差分函数； cumsum 元素累和； cumprod 元素累计积

概率论与数理统计实验指导书

此外，命令corrcoef计算相关系数矩阵，格式为R=corrcoef(X),X为输入矩阵，它的行元素为观测值，列元素为变量，返回相关系数矩阵R，矩阵R的元素为R(i,j);

命令cov计算协方差矩阵，格式为C=cov(X)，X若为单个向量，cov(X)返回包含方差的标量；X若为矩阵，X的每一列表示一个变量而行元素为观测值。cov(X)计算结果为协方差矩阵C，矩阵C的元素为C(i,j)，它与R(i,j)的关系如下：

R(i,j)?C(i,j)。

C(i,i)C(j,j)注方差命令var(X)与diag(cov(X))所返回的结果相同；标准差命令std(X)等价于sqrt(diag(cov(X)))；cov(x,y)（其中x,y为等长度的列向量）与cov([x,y])的计算结果相同。

例1 有一大批糖果，现从中随机地取8袋，称得重量X（单位：g）如下：

505.0 507.0 489.0 502.0 504.0 511.0 488.0 528.0

求这组数据的均值、方差、标准差等。

解输入下列语句：

data1=[505,507,489,502,504,511,488,528]

mean(data1) %求data1的均值X 运行得结果

ans=504.2500 再运行

std(data1) %求data1的标准差S 得结果

ans=12.6463 再运行

hist(data1) %画出data1的直方图

第 3 页共 21 页

概率论与数理统计实验指导书

例2 随机地抽查某班10名学生的数学、政治、外语三门课程的考试成绩如表1所示，试求各科的平均分数、标准差、协方差及相关系数矩阵。

表1 学生成绩表序号科目 1 78 82 67 22 91 85 76 3 67 81 72 4 57 63 52 5 80 80 65 6 63 72 76 7 69 83 68 8 82 93 88 9 75 82 78 10 85 88 75 数学政治外语

解在MATLAB中，首先建立数据的M文件，从File菜单中选择M-File，即可打开一个编辑器，输入如下语句并以data.m命名。 function data=x

data=[78 82 67 ;91 85 76;67 81 72 ;57 63 52;80 80 65;

63 72 76;69 83 68;82 93 88;75 82 78;85 88 75];

在MATLAB命令窗口中输入

mean(data) %求数据的平均值得到结果

ans=74.7000 80.9000 71.7000

第一列为数学的平均分74.7，第二列为政治的平均分80.9，第三列为外语的平均分71.7. 输入

std(data) %求数据的标准差得到结果

ans=10.5730 8.3060 9.5574

第一列为数学的标准差10.5730，第二列为政治的标准差8.3060，第三列为外语的标准差9.5574

下面求数据的相关系数矩阵，输入 corrcoef(data) 得到

ans=1.0000 0.8043 0.5400 0.8043 1.0000 0.7736 0.5400 0.7736 1.0000

cov(data) %求协方差矩阵得到结果

ans=111.7889 70.6333 54.5667 70.6333 68.9889 61.4111 56.5667 61.4111 91.3444 2. 参数估计

MATLAB统计工具箱中，有专门计算总体均值、标准差的点估计和区间估计的程序。将概率函数中的后三个字母由“pdf”变为“fit”即为相应总体的估计函数。如，对于正态总体，命令是

[mu,sigma,muci sigmaci]=normfit[X,alpha] 其中，X是样本（数组），alpha是显著性水平?（alpha默认时设定为0.05），输出mu和sigma是总体均值?和标准差?的点估计，muci和sigmaci是总体均值?和标准差?的区间

第 4 页共 21 页

概率论与数理统计实验指导书

估计。当X是矩阵（列为变量）时输出行向量。

一般情况下，如果确定总体为正态总体，则使用上面的normfit函数，如果无法保证这个假设成立，有两种处理办法：一是取容量充分大的样本，仍可按照上面给出的估计公式计算，因为根据概率论的中心极限定理，只要样本足够大（实用中取n?50），均值就近似地服从正态分布；二是采用其他分布的估计函数，下面列出常见分布的估计函数格式，至于其他估计函数的用法可参见MATLAB的帮助系统。

（1）[muhat,muci]=expfit(X,alpha)

%在显著性水平?下，求指数分布的数据X的均值的点估计及其区间估计（2）[lambdahat,lambdaci]=poissfit(X,alpha)

%在显著性水平?下，求泊松分布的数据X的参数?的点估计及其区间估计

例3 用N(10,2)分布产生n?100个随机样本，估计其均值和标准差（??0.05）。解输入语句

r=normrnd(10,2,100,1);

[mu sigma muci sigmaci]=normfit(r) 运行结果如下： mu=9.8437 sigma=1.9138

muci=9.4639 10.2234 sigmaci=1.6803 2.2232

结果表明，该随机样本的均值的点估计为9.8437，区间估计为 [9.4639，102234]，标准差的点估计为1.9138，区间估计为[1.6803,2.2232].

3、假设检验

在总体服从正态分布的情况下，可用命令进行假设检验。（1）总体方差?2已知时，总体均值的检验使用Z-检验，语句格式为

[h,sig,ci,z]=ztest(x,m,sigma,alpha,tail)

检验数据x的关于均值的某一假设是否成立，其中sigma为已知方差?，alpha为显著性水平?，究竟检验什么假设取决于tail的取值：

tail=0,检验假设“x的均值等于m”; tail=1,检验假设“x的均值大于m”; tail=-1,检验假设“x的均值小于m”;

tail的默认值为0，alpha的默认值为0.05。

返回值h为一个布尔值，h=1表示可以拒绝假设，h=0表示不可以拒绝假设；z为统计量Z?x?m的值，其中n为样本中数据的个数；sig为Z统计量在假设成立下的概率，ci?/n为均值的1??置信区间。

注 ztest命令输出参数中的最后一个参数z，若不需要显示，通常被省略。

（2）总体方差?2未知时，总体均值的检验使用t-检验，语句格式为

[h,sig,ci]=ttest(x,m, alpha,tail)

检验数据x的关于均值的某一假设是否成立，其中参数的取值和意义以及返回值的含义类同于上面的ztest函数，只是此函数的统计量为t统计量,t?第 5 页共 21 页

x?m。 s/n

共5页:

概率统计实验指导书2,3.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档