王静龙《非参数统计分析》(1-6章)教案(3)

2019-04-08 21:35

用统计软件Minitab画箱线图（见图2.9）图2.9

四分位数的计算

分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数；如果分成四等分,就是四分位数；八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述. 一、资料未分组四分位数计算第一步：确定四分位数的位置.Qi 所在的位置=i（n+1）/4,其中i=1,2,3.n表示资料项数. 第二步：根据第一步四分位数的位置,计算相应四分位数. 例1：某数学补习小组11人年龄（岁）为：17,19,22,24,25, 28,34,35,36,37,38.则三个四分位数的位置分别为： Q1所在的位置=（11+1）/4=3,Q2所在的位置=2（11+1）/4=6,Q3所在的位置=3（11+1）/4=9.

变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数,即： Q1=22（岁）、Q2=28（岁）、Q3=36（岁）我们不难发现,在上例中（n+1）恰好是4的整数倍,但在很多实际工作中不一定都是整数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系：四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1. 例2：设有一组经过排序的数据为12,15,17,19,20,23,25, 28,30,33,34,35,36,37,则三个四分位数的位置分别为： Q1所在的位置=（14+1）/4=3.75,Q2所在的位置=2（14+1）/4=7.5,Q3所在的位置=3（14+1）/4=11.25. 变量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即： Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5； Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5； Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25. 二、资料已整理分组的组距式数列四分位数计算第一步：向上或向下累计次数（因篇幅限制,以下均采取向上累计次数方式计算）；第二步：根据累计次数确定四分位数的位置： Q1的位置 = （∑f+1）/4,Q2的位置 = 2（∑f +1）/4,Q3的位置 = 3（∑f +1）/4 式中：∑f表示资料的总次数；第三步：根据四分位数的位置计算各四分位数（向上累计次数,按照下限公式计算四分位数）： Qi=Li+fi×di 式中：Li——Qi所在组的下限,fi——Qi所在组的次数,di——Qi所在组的组距；Qi-1——Qi所在组以前一组的累积次数,∑f——总次数. 例3：某企业工人日产量的分组资料如下：

根据上述资料确定四分位数步骤如下：（1）向上累计方式获得四分位数位置： Q1的位置=（∑f +1）/4=（164+1）/4=41.25 Q2的位置=2（∑f +1）/4=2（164+1）/4=82.5 Q3的位置=3（∑f +1）/4=3（164+1）/4=123.75 （2）可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为： Q1=L1+■×d1=70+■×10=72.49（千克） Q2=L2+■×d2=80+■×10=80.83（千克） Q3=L3+■×d3=90+■×10=90.96（千克） shitouwa4320 2014-10-23

§2.2.3 标准误

假设产生数据的总体的均值为?，方差为?2。它们的估计分别为样本平均值x，样本方差S2和样本标准差S，由于平均数x的标准差为?为Sn，Sn称为标准误。

n，所以它的估计取

x??x??~N(0,1)得~t(n?1) 由

?nSn在显著性水平0.95的条件下，得置信区间的端点

x????t0.975(n?1) SnSt0.975(n?1). 即得 ??x?nt0.975(11)?2.2010

用Mintab计算得到:

Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum

C1 12 0 1940.0 49.3 170.6 1700.0 1857.5 1905.0 2025.0 2340.0

算得到所求置信区间为：

??1940?49.3?2.20986273?1940?108.5086233

用Excel计算得到：

平均标准误差中位数众数标准差方差峰度偏度区域最小值最大值求和观测数置信度(95.0%)

1940 49.25198

1905 1880 170.6139 29109.09 1.874516 1.102987

640 1700 2340 23280 12 108.4029

所求置信区间为：

??1940?49.25198042?2.20986273?1940?108.4029328

两款软件计算结果相差不大。 §2.2.4 偏度

偏度（Skewness）反应单峰分布的对诚性，总体偏度用?s表示

?3?X????]?3 ?s?E[?????样本偏见度用bs表示，国家标准的计算公式为： bs?j3m3?m2?32

其中mj??i?1n?x?x?,inj?2,3.

在Excel中的计算公式为：

m3n bs?(n?1)(n?2)?S?3

一般bs?0数据的分布是右偏的，bs?0数据的分布是左偏的，bs?0

我们倾向于认为总体的分布是对称的。 §2.2.4 峰度

峰度（Kurtosis）反映峰的尖峭程度，总体峰度用?k表示，总体的峰度的定义为（国家标准）

?4?X?????E[]??? k

?4???样本峰度用bk，国家标准的计算公式为

4m4 bk??m2?2

由于正态分布的峰度系数为3，当平分布。

bk?3时为尖峰分布，当 bk?3 时为扁

第三章符号检验法

符号检验是一种较为简单的非参数检验，中位数检验是符号检验的一个重要应用。

例3.1 某市劳动和社会保障部门的资料说明，1998年高级技师的年收入的中位数为21700元，该市某个行业有一个由50名高级技师组成的样本，数据如下： 23072 24370 20327 24296 22256 19140 25669 22404 26744 26744 23406 20439 24890 24815 24556 18472 24514 22516 25112 23480 26552 24074 18064 22590 ????? 原假设与备择假设为：

H0:me?21700

H1:me?2170

共8页:

王静龙《非参数统计分析》(1-6章)教案(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档