基于浮动车数据的哈尔滨市市区出行OD分析(3)

2019-01-12 12:35

河北工业大学2015届毕业论文

手机浮动车信覆盖范围广,投资相对较少 息采集技术 GPS浮动车信息性比较强,维护成本低,可全采集技术 天工作。 的车辆。 精度高,覆盖面广,数据实时必须使用安装有GPS设备采集的数据精度较差 目前,随着智能交通系统的建设,对交通信息数据的广度要求越来越高,固定式信息采集技术在信息采集范围、成本方面的不足日渐显现出来,与此同时随着GPS定位的精度的不断提高以及信息传输技术的不断发展和进步,移动式信息采集技术数据的精度不断提高,此外由于其覆盖范围广、维护成本低、数据实时性较强等优点,越来越受到人们的青睐,应用越来越广泛,其中尤以GPS浮动车信息采集技术的应用最为广泛。

2.1.3 GPS浮动车信息采集技术

GPS浮动车信息采集技术是近几年世界上在进行智能交通系统的建设时采用的交通信息采集的先进的技术之一,是指在城市路网中行驶的车辆上安装可进行速度、位置、车辆运行状态等数据信息的设备终端,在车辆行驶过程中其会间隔固定的时间间隔采集车辆的数据信息并通过无线网络回传给控制中心,然后控制中心对数据信息进行接收、存储以及分析、处理、发布等工作,进行地图匹配、路径推算等,将浮动车的数据在时间和空间上与城市的路网联系起来,通过浮动车数据获取城市路网的状态信息[23]。GPS浮动车信息采集技术主要由安装着GPS终端设备的车辆,即浮动车、无线网络、控制中心等组成。

2.2 浮动车数据的处理

在此以出租车数据处理为例,由于出租车机动灵活,不受线路的约束等特点,可以认为乘客上下车点便是其出行的始终点,因此只需判断乘客的上下车点便可获取出租车乘客的OD矩阵。

本文主要进行出租车GPS数据的研究和处理,以来、获取研究区域的OD数据,由于市内交通状况变化以一天作为一个小周期,一周作为一个大周期,因此在本研究中选取2014年1月6日到12日这一周作为研究周期。由于作为浮动车的出租车辆有13686辆,每辆出租车每天全天24小时每分钟上传两条数据,每天会上传将近3000条数据,所有出租车每天会上传两千多万条数据,数据量过大,数据处理时间过长,在硬件和时间上都不

7

河北工业大学2015届毕业论文

太可行,因此需要进行抽样调查的方法,根据确定样本量的经验法则,当总体规模较小的时候,在研究时需要较大的抽样比例,一般大约为30%,才能有较高的精确度;对于中等规模的总体,抽样比率为10%便可以达到同样的精确性;而对于规模比较大的总体,抽样比率为1%,便可以得到比较精确的结果;当样本的规模非常大的时候,大约0.25%的抽样比率便可以达到比较精确的结果[24],鉴于确定样本容量的经验法则,并且考虑到硬件方面的条件,将抽样比率确定为1%,即每天随机选取137辆出租车的数据作为样本进行研究处理,由于对于所研究的这七天数据的处理过程均相同,为避免赘述,故下文中数据处理过程均选择研究期限内一天的数据处理来进行阐述,本文选的是2014年1月7日的数据。原始数据是dmp格式的oracle备份数据文件,下面对出租车GPS数据表格内各个字段进行简要的说明,见表2-1。

表2-1 GPS数据各字段说明

字段名称 GPSDATA_ID DEVID STIME ALARMFLAG STATE LONGTITUDE LATITUDE SPEED ORIENTATION GPSTIME 字段类型 NUMBER(20) VAERCHAR2(20) DATE NUMBER(6) NUMBER(6) NUMBER NUMBER NUMBER NUMBER DATE 备注 出租车数据上传的顺序号 出租车编号 数据上传时的时间(北京时间) 警告标识符 上传数据时出租车的各项状态值(以十进制形式存储) 上传数据时出租车所在位置的经度 上传数据时出租车所在位置的纬度 上传数据时车辆的瞬时速度(km/h) 上传数据时车辆的车头方向(度) 数据接收到的时间(北京时间) 2.2.1 数据预处理

由于GPS定位精度的不足、大气层对信号传输的影响、建筑物的遮挡或者人为操作错误等原因会导致GPS原始数据中的一些数据存在很大的误差,无法通过其来获取交通信息,因此要对原始的数据进行预处理以来剔除问题数据,由于本研究旨在进行OD分析,所以在这里主要考虑经纬度越界这种形式的误差的处理。

通过对哈尔滨市2014年1月7日这一天数据的分析得出全天有约96.7%的出租车的坐标点位于哈尔滨G1001绕城高速公路以内的范围,故将研究范围锁定在G1001所圈画起

8

河北工业大学2015届毕业论文

来的范围内,其经纬度的坐标范围为:纬度45.635406 至 45.861084,经度126.478385 至 126.842994,坐标圈定范围如图2-1所示,故可利用这一数据范围来进行经纬度越界数据的处理,将这一范围外的数据剔除出去。

图2-1 范围圈定示

本研究的原始数据是dmp格式的数据,因此直接将其导入oracle数据库中,采用oracle数据库对数据进行处理。但经过试验发现,Oracle数据库数据处理速度比较慢,处理少量的数据还可以,当数据量比较大的时候其数据处理速度慢这一缺点便尤为突出,故在本文中采取oracle完成对数据的预处理,之后将数据导出,利用excel VBA进行数据处理,由于对于七天的数据而言,处理过程是完全相同的,在此以2014年1月7日的数据处理为例,在oracle中完成数据样本的选取以及范围的筛选,要从所有的出租车中选出137辆出租车作为样本,为了便于筛选,在此选取了车辆编号位于0100300717 和0100300884之间的车辆为样本车辆,并选取了上述137辆车所有数据中经度位于126.478385到126.842994之间并且纬度位于45.635406到45.861084之间的数据,并且为了便于之后的数据处理对数据根据车辆编号以及数据采集时间进行升序排序处理。具体数据处理的代码参看附录A。 2.2.2 利用VBA进行数据处理

数据处理主要目标是利用数据中的state数据来获取各辆出租车一天之内的乘客上下车点的位置,在之前的数据处理中对要用的数据已经依次按照车辆和时间进行了升序排序,因此在表格中同一车辆的数据被放到了一起按照时间顺序显示出来,由于出租车载客

9

河北工业大学2015届毕业论文

时其相关状态值显示为1,空载时显示为0,即对于每一辆出租车而言其相关状态值在一段时间内应该呈现如下形式:000??011??100??,其中第10位状态位是空重载状态位,其中1代表车上有乘客,-1代表车上没有乘客,出租车处于空载状态。但是由于出租车的state数据信息中包含了出租车的多项状态信息,并以十进制形式存储,故需要先将其转化为二进制数据,从中选出代表车上是否有乘客的状态值,故具体处理步骤如图2-2所示:

开始 将数据中的STATE字符段数值由十进制转化为二进制 将得到的二进制数据左补0,将其补为17位 取其中的从右向左第10位 对取出的数值进行做差处理,获取差值 选出差值为1或-1的数据

结束 图2-2 数据处理过程

(1)在对STATE字符段的数值进行进制转换之前,要先将excel表格中准备放入转换后的二进制状态值的相应列的数字类型设置为数值、分数或者是特殊类型,以防转换之后的二进制数字被表示为科学计数法的形式,不利于之后的运算。在此利用VBA进行十进制数据到二进制数据的转化,数据处理过程如图2-3所示。

10

河北工业大学2015届毕业论文

将第i个STATE值赋值给变量b 用b除以2,将余数赋值给字符串变量a,将商重新赋值给b 将总共数据记录条数赋值给rownum,并定义循环变量i=2 开始 b=0 N 用b除以2,将余数添加到a 的左侧,将商重新赋值给b b=0

Y 输出a,a即转换后的十进制 数字,i=i+1 i>rownum Y 结束 N N Y 图2-3 数据进制转换流程图

(2)因为状态位的自右向左第10位为出租车的空重载状态位,而常用的字符截取方法均是自左向右计算字符位数,为了便于之后字符串的截取,必须将参差不齐的二进制状态值进行位数统一化,均在其右侧补充若干个0,将其字符串统一为相同的长度,通过观

11


基于浮动车数据的哈尔滨市市区出行OD分析(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2010年3月证券交易真题及答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: