宝鸡文理学院2014年数学建模
培训第二次模拟
B题
姓名 赵朋飞 王文鹏 叶鹏 系别 数学系 计科系 物理系 学 号 201290014087 201296014053 201291024078
出租车数量的估计问题
摘要
本文运用概率统计的思想,解决了出租车数量的估计问题。依据题目要求,我们建立了两种估计模型,估算出了该小镇出租车的数量,并且对模型的可靠性进行了检验。
对于模型一:首先,题目所给样本数据是随机的,通过MATLAB软件作图,发现区间间隔为100时,落在每个区间车牌号数量是均匀分布的,即车牌号服从于均匀分布。而车牌号又是按顺序排列的,所以样本中的最小车牌号与最大车牌号趋近于该市机动车出租车车牌号的起始号与终止号,试假设该机动车出租车车牌号区间为?24000,31999?,进而求出该市机动车出租车的总数量为N?8000辆;然后,对于样本中所给的出租车牌号,经过后减运算,得到每两个相邻的车牌号之间间隔的车牌号数量,用EXCEL软件排序并作图,剔除了极端差值,其余求其平均数,即每辆出租车车牌号之间间隔平均是?x?55;最后计算出该小镇出租车的数量n?146辆。
对于模型二:由于模型一中确定该市机动车出租车车牌号区间不甚精确,我们考虑对其进行优化。首先,我们运用了两种方法估计了该市机动车的总数量:方法一,引用盟军估计德军坦克数量的模型估计出该市机动车的总数为8046;方法二,运用极大似然估计函数确定该市机动车出租车的车牌号区间为[24176,31982],经端点值作差得出该市机动车出租车的总数为7806;(这两种方法貌似得去掉一个)将两种方法(去掉)所求的该市机动车总数均值作为该市机动车最终数量N'?7928。然后,把样本的车牌号每隔1000进行统计,得到每1000个车牌号中的出租车车牌数量,对得到的数据用SPSS软件进行检验,显示呈正态分布并得其均值y?17,采用极大似然估计法求得正态分布总体
??y?17,即该市每1000辆机动车出租车中有17辆出租车属于分配在N(?,?2)中参数?该小镇。最后计算出该小镇有出租车n?153辆。
综合两种模型,模型一对机动车车牌号范围的区间估计不够精确,而模型二在估算机动车牌号范围的区间时,恰当运用盟军估计德军坦克数量模型与极大似然估计法,比较精确地求得该市机动车的数量。另外,模型二对车牌号分区间考虑使得估算更为合理。模型检验中偏态系数与峰度系数对统计数据的分析使得模型更为完善。(改为)最后我们对两种模型的优缺点进行了讨论。
关键字:极大似然估计 正态分布 SPSS软件 偏态系数 峰度系数
一、问题重述
小张寒假回到他的家乡某小镇,在出门探亲访友过程中,他发现小镇的出租车,存在诸多问题。他打算从小镇的出租车数量入手,解决这些问题。在接下来的几天时间里,他随机的记录了133辆出租车车牌号的后5位见(附录1)。他只知道车牌号是按顺序排列的,但他不知道车牌的起始号,也不知道车牌的终止号,他希望通过上述数据估计出小镇的出租车数量。
要求帮助小张设计一种或多种数学模型,来估计小镇出租车的数量,并分析方法的可靠性。
二、模型假设
1、样本统计过程中没有考虑外来车辆。 2、该市机动车的车牌号连续。 3、该市机动车与车牌号一一对应。
4、该市机动车车牌号的后五位均由数字组成。
三、符号说明
符号
含义 该市机动车数量 原始车牌号序列 样本相邻车牌号的差值序列
差值的平均值 俩车牌号的间隔 小镇出租车数量 样本均值 样本方差方差 样本中最小的车牌号 样本中最大的车牌号 样本中车牌号的数量
2
N
X(0)(i)X(1)(i)i?1,2,…,133 i?2,…,133
X
?x
n
? ?
a
b k
p q ? ?Xi Fi a3 a4
该市机动车下限的最大似然估计值 该市机动车上限的最大似然估计值
总体均值 组中值
对应比重 偏态系数 峰度系数
四、问题分析
本题属于概率统计问题。要估算出该小镇出租车的数量,首先需要估算出该市机动
车出租车的数量。考虑到题目所给样本数据是随机的,通过MATLAB软件作图,发现区间间隔为100时,落在每个区间车牌号数量是均匀分布的,即车牌号服从于均匀分布。我们可以采用点估计,即以实际样本指标数值作为总体参数的估计值,估算出该市机动车的数量,进而估计出小镇出租车数量。我们可以从以下两种思路来求解:
思路一:由于样本中的车牌号均匀分布,考虑到所在地为小镇且车牌号是按顺序排列的,所给车牌号码的最小值与最大值就非常趋近于起初号和终止号,所以假设车牌号区间为[24000,31999]。经过后减运算,剔除坏数据,得出每两辆车牌号之间相差的个数,从而得出小镇出租车的数量。
思路二:对思路一中确定总体车牌号区间存在的不精确性,我们将其进行优化,可以用点估计[1]与极大似然函数(和摘要对应,去掉一种方法)确定总体的车牌号区间。参照点估计中最小无偏估计,采用较为准确的计算公式确定车牌号区间,即为该市机动车总数,当然,我们还可以利用极大似然函数确定车牌号区间。(与上对应,去掉一种方法)其次,将样本的车牌号每隔1000进行统计,得到的统计数据求其平均值,把所得平均值与机动车总数的千分之一的乘积作为该小镇出租车数量的估计值。
五、模型建立与求解
5.1模型一:
对于随机分布的样本数据,若其服从于均匀分布,可取接近样本最大值与最小值的 数据作为总体区间的上下限,即区间?a,b?,进而可得总体的数量为N?b?a?1。
据问题分析知样本中的车牌号均匀分布,且已设车牌号区间为?24000,31999?,故得 总的车牌号数量,即该市机动车的数量N?8000。 由题目已给条件知原始车牌号序列:
x(0)?{x(0)(1),x(0)(2),…,x(0)(133)}
即: x(0)?{24176,24231,…,31982}
3
由后减运算计算,即求出后前两个数据之差:
x(1)(i)?x(0)(i)?x(0)(i?1),其中i?2,…,133;
可得一个新的序列:
x(1)?{x(1)(2),x(1)(3),…,x(1)(133)}
利用EXCEL软件,以此新序列排序作为纵坐标并作图1:
数据差值图160140120100差值80604020017131925313743495561677379859197103109115121127
图1
观察图1,发现中间部分有很多均匀的差值,两端出现较大的波动,忽略两端极端差值,即剔除40以下和90100以上的差值,其余求平均值,经EXCEL软件计算得平均值约为X?55,即两车牌号之间间隔?x?55。
由此估计出出租车数量为:
N ?x结合以上数据,估计出该小镇共有出租车146辆。 5.2模型二:(去掉一种方法,建议去掉盟军模型)
1.估计样本对应总体的取值空间(该市机动车数量):
方法一:在统计学理论的估计中,用不放回抽样来估计离散型均匀分布最大值问题是著名的德国坦克问题[1]。针对该问题,建立盟军估计德军坦克数量模型。
对于点估计(实际样本指标数值作为总体参数的估计值),最小方差无偏估计由下式给出并以此确定总体取值区间:
k?1 N?b?a
ka是样本最小值,b是样本最大值,k是样本大小。 题目中所给车牌号为随机抽取的一组数据,其为离散均匀分布,结合题目已知,样本中出租车车牌号的最小值a?24176,出租车车牌号的最大值b=31982,出租车数量k?133,代入以上公式求得N?8046。即在车牌号连续的情况下,可估计该市机动车数量N?8046。
方法二:再者,我们可以以极大似然估计来确定总体取值区间:
n?设总体C在?p,q?上服从于均匀分布,x1,x2,…,xn是一个样本值,我们来确p,q的最
4