图3 聚类分析运行结果
(5)将新出现的聚类号的数据列QCL_1修改变量名为Class
图4合并聚类号到数据集
(6)分类(交通小区)汇总出租车数,得到各交通小区9月4日分布的出租车数。
先按Class对数据排序,点击数据——分类汇总,打开分类汇总窗口,分组变量选为Class,汇总变量选为x,修改函数为:总和。保存-选择创建只包含汇总变量的新数据集,并命名为sumche94.sav. 确定。
图5深圳市12个交通小区分布的出租车数(9月4日)
6
根据各个交通小区出租车的分布数,后续就可以分别讨论不同交通小区(地段)出租车的供求问题。另外,再做汇总得到深圳市9月4日出租车分布总数为243401台次。
5.1.3 出租车需求
和前文同样的处理方法,可以分别处理9月5日—9日深圳市出租车需求的数据,将这些数据汇总,并求出各小区9月5日—9日出租车需求数和均值。但是由于我们抓取的出租车需求数据有较大缺失:9月4日只有3829条记录,其余几天只有1100左右条记录,处理之后发现和需求数相差较大,不足以作为研究深圳市出租车供应和需求匹配的依据。
为了得到出租车的需求数,我们考虑用泊松分布来预测。
以固定的平均瞬时速率?(或称密度)随机且独立地出现时,则该事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布[2,114-116]。由假设4,一段时间内(一天),来某个经纬度点的打车人数近似服从泊松分布:
Pk?P?X?k??ut??k!ke?ut (1)
其中,t为时间间隔,Pk为某地点t时间间隔的打车人数为k的概率,u为人们来打车平均速率。令xt??,为t时间间隔内平均打车人数,故
Pk??kk!e?? (2)
即通常的泊松分布?(?). 注意?是泊松分布的均值。
利用极大似然法来估计打车人数k,即让概率P?X?k?最大。令
eP?X?k?k!?P?X?k?1??k???k?1?e??k?1?k?1?!??1
可推得??k?1. 再令
eP?X?k?k!?P?X?k?1??k???k?1?e???k?1?k?a
?k?1?!故当?为整数时,k??或??1时,概率最大;当?不为整数时,k????时,概率最大。
用xi表示第i个经纬度点出租车数,由假设3,xi也即深圳市第i个经纬度点每天出租车的供应数。用Yi表示第i个经纬度点一天内来打车的人数,它是随
7
机变量,由假设4,
Yi??(?i) (3)
现在需要每天第i个经纬度点一天内来打车的平均人数?i。
空驶率[3]分为时间空驶率Kt和空间空驶率Ks两类,单位时间内非载客时间与运营时间的比值,称为时间空驶率;单位时间内非载客里程与运营里程的比值,称为空间空驶率。
Kt?T全?T载S?S载, Ks?全 (4)
S全T全根据出租车协会对国内外城市出租车交通供求关系的调查分析[3],城市出
租车交通达到基本饱和(供求平衡)时,出租车的空驶率在30%左右;当空驶率超过40%时,出租车交通呈现出明显的供过于求的状态,而当空驶率低于25%时,出租车交通就呈现出明显的供不应求的状态。文献[3]得到:深圳市出租车的日平均时间空驶率介于集44%~54%之间,日平均空间空驶率介于37%~45%之间。我们取空驶率K=40%,用
xi'?xi(1?40%) (5)
来修正各经纬度点的出租车供应数以得到各经纬度点出租车需求数。用SPSS转换—计算变量实现(具体步骤略)。由(3)式,注意到泊松分布的均值为?,则
?i?xi' (6)
用Y表示深圳市每天出租车需求数,由泊松分布的可加性,有
?7120?Y??Yi?????i? (7)
i?1?i?1?因此,由极大似然法可得
7120y每天?n?????k??146041 (8) ?k?1?注意:这里的y每天是车人次,一台出租车每天可以搭乘很多人次。
比较深圳市9月4日,出租车总供应台次243401>146041, 故从总体来看深圳市公交车是供大于求的。
5.2 多指标因素交互影响的因子分析模型
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
8
问题一是要用合理的指标,并分析不同时空出租车资源的“供求匹配”程度,需要分析并搜集影响出租车“供”和“求”的指标因素以及一定量的数据,再利用因子分析模型,分析影响“供”和“求”内在综合指标。
但是,由于国家大数据刚刚起步,多数大数据并未做到开放,影响出租车“供”和“求”的时段因素:高峰时段(早7:00-9:00和晚16:00-19:00)、白天非高峰时段、晚间时段;地段因素:不同的出租车需求程度的交通小区,这些数据都很难找到。为此,我们这节主要建立宏观出租车需求的因子模型,只要数据到位可以替换数据代入模型,就能得到想要的结果。
我们搜集到与出租车行业有关的一些来自统计年鉴的数据,如表1所示:
表1 1999-2013与出租车有关的统计年鉴数据
出租车 年份 /辆 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 8505 8505 8505 9705 10255 10305 10305 10305 11205 12991 13411 14340 14735 15300 15973 18040176 21874515 24824874 29695184 35857235 42821428 49509078 58135624 68015706 77867920 82013176 95815101 115055298 129500601 145002302 GDP/万元 /万人 632.56 701.24 724.57 746.62 778.27 800.8 827.75 871.1 912.37 954.28 995.01 1037.2 1046.74 1054.74 1062.89 值/万元 8884245 10858007 12366796 14881426 17540952 20585811 22986438 27465059 33780554 39180316 43675520 50516743 61556537 72061210 81981396 车/辆 2772 2920 3495 3495 4885 5376 6091 7305 8188 8396 11928 12456 15365 14546 14617 (元/升) 7.64 7.52 7.64 7.7 7.99 7.99 7.64 7.28 7.28 7.28 7.44 7.21 7.54 7.78 7.54 元/每人每月 1645.37 1756.22 1923.40 2194.78 2308.45 2450.30 1880.25 1973.19 2167.90 2392.00 2661.02 2960.31 3362.66 3785.31 4168.54 总里程 1343.5 1356.5 1360.5 1510 1539.9 1540.3 1579.9 1929.5 1938 1619.1 1619.1 1617.4 1617.7 1659 1680 常住人口第三产业产公共汽燃油价格 家庭总收入 公路
5.2.1因子分析
下面用SAS软件对表1的数据进行因子分析,代码见附录程序1。运行结果及说明:
(1)输出了各变量的相关系数矩阵: Cars GDP people service Bus income Road cars 1 0.97824 0.96672 0.97422 0.97275 0.92603 0.44078 GDP 0.97824 1 0.95434 0.99753 0.9729 0.93528 0.49973 people 0.96672 0.95434 1 0.93666 0.96951 0.84304 0.59302 service 0.97422 0.99753 0.93666 1 0.96554 0.95106 0.45578 bus Oilprice income 0.92603 0.93528 0.84304 0.95106 0.89192 1 0.29227 road 0.44078 0.49973 0.59302 0.45578 0.49077 0.29227 1 0.97275 -0.25993 0.9729 -0.27006 0.96951 -0.38701 0.96554 -0.23909 1 -0.30079 1 0.01597 0.89192 oilprice -0.25993 -0.27006 -0.38701 -0.23909 -0.30079 0.01597 -0.47557 0.49077 -0.47557 9
从中可以各个变量两两之间的相关性关系,绝对值越接近1,表明相关性越强;正数表示正相关,负数表示负相关。
(2)先验公因子的方差估计 特征值 差值 比例 累积 1 2 3 4 5 6 7 8 6.096852 1.27731 0.490745 0.080775 0.030127 0.015249 0.008575 0.000366 4.819542 0.786566 0.40997 0.050647 0.014878 0.006674 0.00821 0.7621 0.1597 0.0613 0.0101 0.0038 0.0019 0.0011 0 0.7621 0.9218 0.9831 0.9932 0.997 0.9989 1 1 相关矩阵的特征值和累积贡献,前三个主成分的累积贡献为98.31%,NFACTOR 准则选取三个公共因子。
(3)因子载荷矩阵 Factor1 Factor2 Factor3 cars 0.98266 0.11019 -0.0767 GDP 0.99185 0.08058 -0.0174 people 0.98072 -0.08195 -0.00578 service 0.98379 0.12745 -0.03886 bus 0.98257 0.0463 -0.05375 oilprice -0.33086 0.84507 0.41481 income 0.90946 0.37954 0.0163 road 0.56194 -0.61268 0.55479 即公因子用原始变量表示的回归系数,即 Factor1=0.98266*z_cars+0.99185*z_GDP+0.98072*z_people
+0.98379*z_service+0.98257*z_bus-0.33086*z_oilprice +0.90946*z_income+0.56194*z_road
Factor2=0.11019*z_cars+0.08058*z_GDP-0.08195*z_people
+0.12745*z_service+0.0463*z_bus+0.845076*z_oilprice +0.37954*z_income-0.61268*z_road
Factor3=-0.0767*z_cars-0.0174*z_GDP-0.00578*z_people
-0.03886*z_service-0.05375*z_bus+0.41481*z_oilprice +0.0163*z_income+0.55479*z_road
公因子Factor1好解释——经济状况;但Factor2和Factor3不好解释。故可以考虑做因子旋转。
(4)每个因子说明的方差和最终的公因子方差估计
Factor1 Factor2 Factor3 10