“互联网+”时代的出租车资源配置

2020-05-09 14:22

B题 “互联网+”时代的出租车资源配置

摘要

现在，我国许多城市上下班高峰时段、拥挤路段，打车难问题普遍存在。建立模型分析造成打车难的内在原因，以此通过合理的补贴政策优化出租车供求资源配置，具有重要的理论意义和实际价值。

针对问题一，本文从两方面入手，一是利用滴滴快的大数据爬取的深圳市2015年9月4日出租车分布数据，根据文献[1]中对深圳市交通小区的划分，用聚类分析方法以12个交通小区的中心坐标为初始聚类中心，进行一次迭代k-均值距离聚类，将离散的经纬度分布数据分类汇总，得到12个交通小区出租车供应数，提供地段划分依据。再利用泊松分布和极大似然思想预测出深圳市每天出租车需求数。二是从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据，建立因子分析模型将多个错综复杂的变量归结为少数几个综合指标因子，并通过因子旋转对公因子做出命名和解释。

针对问题二，了解各出租车公司针对司机的补贴方案，看其是否对缓解“打车难”，搜集2000年到2013年出租车拥有量来反映出租车的供给量，对数据进行拟合预测，可以从公司开始实施补贴方案时，看深圳市出租车的拥有量与预测值的关系，来体现实施补贴方案对出租车供给量的影响效果，结果显示补贴方案对缓解“打车难”有一定的帮助。

针对问题三，创建一个新的打车软件服务平台，设计一个补贴方案，规定：顾客在高峰期返现要比在正常的时期返现少，司机在高峰期少用甚至不用打车软件，若用打车软件的话，可以对司机的奖励减少。说明其流程，通过收集有关数据和科研成果进行论证，应征新的补贴方案是合理的。

关键词：出租车；聚类分析；泊松分布；因子分析；补贴政策

一、问题重述

如今，各大城市普遍存在“打车难”现象，尤其是上下班的高峰时段。是出租车公司车辆供应不足，还是出租车资源没有得到有效的合理配置，导致部分城区出租车难打，而另一部分城区出租车空驶。考虑解决如下问题：

（1）搜集影响出租车供求的指标数据，建立合理的综合指标，分析和描述不同时段、不同地域出租车供求匹配的程度。

（2）各出租车公司也在不断出台一些针对司机的补贴方案，以缓解打车难的问题，分析这些补贴方案是否有效。

（3）滴滴、快的等打车软件通过打车软件服务平台，在解决客户和司机信息不对称造成的出租车资源浪费方面，效果显著。同时，他们也给司机和客户提供补贴，但这种补贴更像是恶性竞争，对出租车资源更优化配置作用不明显。如果依托这类软件平台，应该怎么设计更优的补贴方案。

二、问题分析

对于问题一，我们从两方面考虑：一方面是搜集某个城市（本文选择深圳市）出租车的GPS数据，找到不同时段、不同区域的出租车分布数据，以及打车数据。通过网络爬虫从滴滴快的大数据平台查到按日期的出租车分布数据（经纬度点出现的出租车数）和需求（经纬度点的叫车数）。分布数据相对较全，我们选取一天根据文献[1]中用出租车对深圳市做交通小区划分的数据，也对这些经纬度点进行归类，考虑用固定初始聚类中心为那些交通小区的中心的聚类分析实现。由于出租车需求数的数据不齐全不能和分布数据结合来用，为了得到需求数据，我们考虑到固定时段能来打车的人数服从泊松分布，用极大似然思想和泊松分布来对出租车需求做出预测。再比较供应数和需求数，从总体供求上做出判断。另一方面，由于微观数据的缺乏，我们从宏观上考虑影响出租车“供”和“求”的各指标因素并搜集相关数据，对这些因素作因子分析，从而将多个错综复杂的变量归结为少数几个综合指标因子，并通过因子旋转对公因子做出命名和解释。问题二对各个公司的补贴方案进行了解，通过了解这些补贴方案，研究这些方案对“缓解打车难”问题有没有帮助。研究各公司对员工的补贴，实施时间，查找深圳市在一时间先后的出租车拥有量用实施前的的数据预测实施后的数据，将实际值与预测值相比较，来判断出租车的供给量是否比预测的大，间接说明这些补贴方案对“缓解打车难”帮助性。

问题三根据滴滴，快的等打车软件，要求创建一个新的打车软件服务平台，设立一个更好的补贴方案，并判断其合理性。根据前面的问题一、二的结果，提出一个补贴方案，通过收集信息判断其合理性。

三、模型假设

1. 假设长期来看，深圳各交通小区每天高峰时段、非高峰时段的打车需求是稳定的；

2. 由假设1，可以进一步假设本文抓取的9月4日出租车分布的原始数据能够代表深圳市每天出租车分布数；

3．假设9月4日出租车分布的数据中，每个经纬度点统计的出租车数，是该经纬度点每天平均出租车数（如果有更多天的数据，分别用文中方法处理，用均值即可）；

4. 假设一段时间内（一天），来某个经纬度点的打车人数近似服从泊松分布； 5.假设深圳市一年出租车的拥有量可以反映一年出租车的供给量； 6.假设搜集到的出租车数据是真实可靠的。

四、符号说明

符号 Col Lat xi Yi Y Class ? 说明经度纬度第i个经纬度点出租车数随机变量，第i个经纬度点打车需求数深圳市每天出租车的需求数交通小区的分类号泊松分布参数参数为?泊松的分布出租车的年度拥有量 ?(?) Z （注：其它未提及的符号在文中说明）

五、模型建立与求解

5.1问题一的模型建立与求解 5.1.1数据来源

我们利用网络爬虫从滴滴快的苍穹数据网站得到，深圳市2015年9月4日至9月9日出租车分布：

……..

图1原始数据示例

复制粘贴到Excel，用数据分列功能进行分列，得到三个变量经度（Log）、纬度（Lat）、该位置的出租车数（x）的数据。再将Excel数据导入SPSS（共7224条记录）：

……

图2将数据导入SPSS

5.1.2出租车供应

1. 数据预处理

按经度（Log）对数据排序，观察经度分布：

有24条记录在102附近、23条记录在108附近、13条记录在116附近、10条记录在117附近、23条记录在120附近、24条记录在121附近。而其余7120条记录的经度都介于113.7970~116.5649之间。

可见，那7120条记录位于主城区，是出租车分布的主要区域；其余都是偏远地区出租车数也很少。故本文只考虑主城区数据即可。

2. 对数据进行区域汇总

文献[1]中，利用出租车GPS数据分析研究深圳道路交通拥堵情况，将深圳主城区分为12个交通小区及其经纬度范围为[1]：

第1小区（22.7,2.77）（113.78,113.89）第2小区（22.68,22.74） (114.22,114.3)

第3小区（22.6,22.67）(114,114.08) 第4小区(22.58,22.63) (114.09,114.16)

第5小区(22.5,22.6) (113.84,113.92) 第6小区(22.52,22.57) (113.9,114.01)

第7小区(22.528,22.546) (114.01,114.08) 第8小区(22.53,22.58) (114.08,114.18)

第9小区(22.47,22.522) (113.87,113.95) 第10小区(22.6,22.66) (113.8,113.9)

第11小区(22.546,22.572) (114.01,114.08) 第12小区 (22.528,22.546) (114.01,114.08)

每个交通小区的中心经纬度为[1]：

第1小区：谭海酒店（113.841904，22.748808）第2小区：龙岗镇（114.262398，22.733534）

第3小区：珠三角环线高速公路（114.041931，22.620899）第4小区：吉华路(114.112，22.599) 第5小区：创业立交(113.892，22.568)

第6小区：深南南海立交（113.962234，22.542618）第7小区：福强路与新洲路（114.042，22.521）

第8小区：红岭北路，红岭中路与笋岗西路，笋岗东路交叉口( 114.115，22.558) 第9小区：南海大道与东滨路交叉口( 113.92，22.508)

第10小区：沈海高速公路与京港澳高速公路交叉口（113.858，22.625）第11小区：新洲路与红荔路交叉口( 114.044，22.557 )

第12小区：深南新洲立交桥与新洲路交叉口(114.043，22.536).

根据上面的交通小区划分，我们考虑将这12个交通小区的中心坐标作为k均值聚类的初始聚类中心，以经度和纬度变量对数据做聚类分析，聚类数=12类。操作步骤如下：（1）用前文12个交通小区的中心坐标创建初始聚类中心数据集center.sav（注意：为了格式规范可用，先不设置初始聚类中心进行12类聚类分析，得到聚类中心数据集，再用12个交通小区的中心坐标替换对应数据）。

（2）SPSS操作界面依次点击：分析——分类——k-均值聚类，打开聚类分析窗口，再将变量Log、Lat放入变量窗口，聚类数设为12；

（3）为了尽量保证小区中心固定不变，设置迭代-最大迭代次数设1次，保存-勾选聚类成员，选项-勾选初始聚类中心和每个个案的聚类信息；

（4）聚类中心—选择读取初始聚类中心—外部数据文件，选择center.sav文件，确定。

共5页:

“互联网+”时代的出租车资源配置.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档