用统计软件Minitab画箱线图(见图2.9) 图2.9
四分位数的计算
分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述. 一、资料未分组四分位数计算 第一步:确定四分位数的位置.Qi 所在的位置=i(n+1)/4,其中i=1,2,3.n表示资料项数. 第二步:根据第一步四分位数的位置,计算相应四分位数. 例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25, 28,34,35,36,37,38.则三个四分位数的位置分别为: Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9.
变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数,即: Q1=22(岁)、Q2=28(岁)、Q3=36(岁) 我们不难发现,在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1. 例2:设有一组经过排序的数据为12,15,17,19,20,23,25, 28,30,33,34,35,36,37,则三个四分位数的位置分别为: Q1所在的位置=(14+1)/4=3.75,Q2所在的位置=2(14+1)/4=7.5,Q3所在的位置=3(14+1)/4=11.25. 变量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即: Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5; Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5; Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25. 二、资料已整理分组的组距式数列四分位数计算 第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算); 第二步:根据累计次数确定四分位数的位置: Q1的位置 = (∑f+1)/4,Q2的位置 = 2(∑f +1)/4,Q3的位置 = 3(∑f +1)/4 式中:∑f表示资料的总次数; 第三步:根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分位数): Qi=Li+fi×di 式中:Li——Qi所在组的下限,fi——Qi所在组的次数,di——Qi所在组的组距;Qi-1——Qi所在组以前一组的累积次数,∑f——总次数. 例3:某企业工人日产量的分组资料如下:
根据上述资料确定四分位数步骤如下: (1)向上累计方式获得四分位数位置: Q1的位置=(∑f +1)/4=(164+1)/4=41.25 Q2的位置=2(∑f +1)/4=2(164+1)/4=82.5 Q3的位置=3(∑f +1)/4=3(164+1)/4=123.75 (2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为: Q1=L1+■×d1=70+■×10=72.49(千克) Q2=L2+■×d2=80+■×10=80.83(千克) Q3=L3+■×d3=90+■×10=90.96(千克) shitouwa4320 2014-10-23
§2.2.3 标准误
假设产生数据的总体的均值为?,方差为?2。它们的估计分别为样本平均值x, 样本方差S2和样本标准差S,由于平均数x的标准差为?为Sn,Sn称为标准误。
n,所以它的估计取
x??x??~N(0,1)得~t(n?1) 由
?nSn在显著性水平0.95的条件下,得置信区间的端点
x????t0.975(n?1) SnSt0.975(n?1). 即得 ??x?nt0.975(11)?2.2010
用Mintab计算得到:
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
C1 12 0 1940.0 49.3 170.6 1700.0 1857.5 1905.0 2025.0 2340.0
算得到所求置信区间为:
??1940?49.3?2.20986273?1940?108.5086233
用Excel计算得到:
平均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值 求和 观测数 置信度(95.0%)
1940 49.25198
1905 1880 170.6139 29109.09 1.874516 1.102987
640 1700 2340 23280 12 108.4029
所求置信区间为:
??1940?49.25198042?2.20986273?1940?108.4029328
两款软件计算结果相差不大。 §2.2.4 偏度
偏度(Skewness)反应单峰分布的对诚性,总体偏度用?s表示
?3?X????]?3 ?s?E[?????样本偏见度用bs表示,国家标准的计算公式为: bs?j3m3?m2?32
其中mj??i?1n?x?x?,inj?2,3.
在Excel中的计算公式为:
m3n bs?(n?1)(n?2)?S?3
一般bs?0数据的分布是右偏的,bs?0数据的分布是左偏的,bs?0
我们倾向于认为总体的分布是对称的。 §2.2.4 峰度
峰度(Kurtosis)反映峰的尖峭程度,总体峰度用?k表示,总体的峰度的定义为(国家标准)
?4?X?????E[]??? k
?4???样本峰度用bk,国家标准的计算公式为
4m4 bk??m2?2
由于正态分布的峰度系数为3,当 平分布。
bk?3时为尖峰分布,当 bk?3 时为扁
第三章 符号检验法
符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要应用。
例3.1 某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位数为21700元,该市某个行业有一个由50名高级技师组成的样本,数据如下: 23072 24370 20327 24296 22256 19140 25669 22404 26744 26744 23406 20439 24890 24815 24556 18472 24514 22516 25112 23480 26552 24074 18064 22590 ????? 原假设与备择假设为:
H0:me?21700
H1:me?2170