第13卷第2期交通运输系统工程与信息VoL13No.22013年4月JournalofTransportationSystemsEngineeringandInformationTechnologyApril2013文章编号:1009-6744(2013)02-0048-09基于OLAM的高速公路交通量多维预测研究钱超1,许宏科“,徐娜2,代亮1,程鸿亮1(1.长安大学电子与控制工程学院,西安710064;2.西安公路研究院,西安710054)摘要:OLAM是联机分析处理与数据挖掘的有机结合,本文以高速公路收费数据为基础,提出一种基于OLAM实现高速公路交通量多维预测的方法.该方法构建了多维数据雪花模型,建立起收费数据的数据仓库并得到交通量多维统计结果;在构建季节ARIMA预测模型过程中,检测出因节假日、恶劣天气导致的交通量异常值并对模型进行修正;最后利用修正后的模型实现了交通量的预测.与一般季节ARIMA模型相比,修正后模型的白噪声方差和AIC值显著降低,数据拟合程度明显提高.实验结果表明,该方法具有较高的预测精度,其中MAE和MAPE分别为50.43和1.59%,能够满足高速公路管理部门利用收费数据分析、预测交通量时空变化趋势的要求,从而为制定各项政策提供理论依据和决策参考.关键词:公路运输;多维预测;OLAM;收费数据;交通量;季节ARIMA模型;数据挖掘中图分类号:U491文献标识码:AOLAM.BasedMulti.dimensionalPredictionofExpresswayTrafficVolumeQIANCha01,XUHong—kel,XUNa2,DAILian91,CHENGHong—lian91(1.SchoolofElectronicandControlEngineering,Chang’anUniversity,Xi’an710064,China;2.Xi’anHi【ghwayInstitute,Xi’an710054,China)Abstract:Theonlineanalyticalmining(OLAM)istheorganiccombinationofonlineanalyticalprocessinganddatamining.Onthebasisofexpresswaytollingdata.thispaperproposesamethodofmulti—dimensionalDredictionofexpresswaytrafficvolumebasedontheOLAM.Themethodformulatesthesnowflakeschemaofmuhi.dimensionaldata.Italsoestablishesthedatawarehouseoftollingdataandgetsmulti—dimensionalstatisticsoftrafficvolume.IntheseasonalARIMApredictingmodel,trafficoutlierscausedbyholidaysandsevereweatheraredetectedandthepredictingmodelismodified.Finally,thepredictionoftrafficvolumeisrealizedbytheimprovedpredictingmodel.ComparedwiththegeneralseasonalARIMAmodel.thewhitenoisevarianceandAICvalueofthemodelissignificantlyreducedandthefittingdegreeofdataisobviouslyimproved.Theexperimentalresultsshowthattheproposedmethodprovideshishpredictionaccuracyandthe收稿日期:2012-09—25修回日期:2013-02-04录用日期:2013-02-27基金项目:国家自然科学基金项目(60804049);教育部创新团队发展计划资助项目(IRTl050);中央高校基本科研业务费专项资金资助项目(CHD2012JC056).作者简介:钱超(1984一),男,江苏新沂人,博士生.‘通讯作者:xuhongke@chd.edu.cn万方数据第13卷第2期MAEandMAPEadministrationsto基于OLAM的高速公路交通量多维预测研究calculatedtobe50.43and1.59%,respectively.Thisnotonlyassiststheexpressway49areanalyzeandpredictthespace—timechangingtrendoftrafficbutprovidestheoreticalfoundationanddecisionsupportfortheworkofmakingpolicies.Keywords:highwaytransportation;multi—dimensionalprediction;onlineanalyticaltollingdata;trafficvolume;seasonalARIMAmodel;dataminingCLC1111111bet:U491mining(OLAM);Documentcode:A1引言交通量预测是利用模型与算法,对采集的数据进行分析研究,及时准确地预测未来一段时间内的交通状态.交通量预测是交通运输规划与管理领域中的核心问题之一,也是正确制定交通控制与诱导措施的重要前提.由于人一车一路所构成的交通系统中存在的大量不确定影响因素造成交通量具有高度复杂的非线性特征,使得准确实现预测并不容易.高速公路收费系统包含海量数据资源,是交通量信息的客观真实记录,蕴藏着丰富的内在关系和隐含信息¨o.本文的目标是研究利用高速公路收费数据实现多维统计分析,为多维交通量构建预测模型,从而实现交通量的多维预测.交通量预测的主要模型有多元线性回归模型、历史趋势模型、神经网络模型、时间序列模型、卡尔曼滤波模型等.时间序列模型自20世纪70年代由美国统计学家Box和英国统计学家Jenkins在文献[2]中正式提出以来,在金融经济、气象水文、信号处理等众多领域被广泛应用.自回归滑动平均求和模型(简称ARIMA模型)是一种常用的时间序列模型,其又被称为Box.Jenkins模型.近年来国内外一些学者开展了利用ARIMA模型对高速公路短时交通量进行预测的工作,其中文献[3]实现了模型的识别、建立、选择与预测过程,结果表明季节ARIMA模型预测精度较高;文献[4]在考虑高速公路月度交通量季节性周期特点的基础上,构建季节ARIMA模型并应用于高速公路月度交通量预测.由于研究大都是基于单路段的统计数据,因此预测模型在推广和扩展应用上往往存在许多局限性.高速公路收费数据中包含大量记录着车辆通行的原始信息,具备为其他智能交通应用子系统提供统计数据及信息服务的功能bJ.如何利用这些数据中蕴含的时间、空间等维度信息,准确预测路网内多维度交通量,成为高速公路管理部门的迫切需求.传统交通量统计的方法一般利用收费系统集万方数据成的报表工具,通过结构化查询语言(StructuredQueryLanguage,SQL)对收费原始数据库进行查询实现;而对交通量预测一般根据统计时间间隔选取不同的算法对交通量进行建模预测.对于存储海量收费数据的数据仓库,采用传统统计方法需要大规模并行计算网络的支持,巨大的存储、连接、传输及聚集归并等代价使得采用SQL引擎查询算法的执行效率和响应速度无法满足实际需要;而对于多维度(时间、空间、车型等)交通量统计结果,传统预测方法也无法实现在不同粒度下灵活、快速预测的要求.联机分析挖掘(OnlineAnalyticalMining,OLAM)是联机分析处理(OnlineAnalyticalProcessing,OLAP)与数据挖掘(DateMining,DM)的有机结合,一方面利用OLAP的多维数据模型,根据实际需要选取维度指标对交通量预计算聚合,提高了查询响应速度及复杂计算能力;另一方面在OLAM中可以根据实际挖掘需要灵活选择或添加挖掘算法及可视化工具,为用户动态更新不同挖掘任务提供了灵活性.本文在相关研究的基础上提出一种基于OLAM技术利用收费数据实现交通量多维预测的方法,首先选取合适的时间、空间等维度对收费原始数据建立多维数据模型,实现交通量的多维统计;然后根据预测需要选取多维统计结果作为序列数据样本,通过对数据样本分别进行乎稳化、模型识别、异常值检验、参数估计、模型诊断等步骤,建立经异常值修正的最优季节ARIMA(P,d,q)(P,D,Q),模型;最后利用建立的预测模型实现交通量多维预测.2OLAM技术概述2.1数据仓库根据数据仓库创始人WilliamH.Inmon的定义,数据仓库是一个面向主题的、集成的、随时间而50交通运输系统工程与信息2013年4月变化的、不容易丢失数据的数据集合,支持管理部门的决策过程¨J.数据仓库是多维数据模型的物理实现,为数据挖掘和数据分析提供高质量的数据按照不同维度和度量的组合进行分析,能够了解历史数据及其潜在规律。OLAP具有多维性、响应快速性、数据海量性等优势,满足高速公路收费系统不断增长的业务数据量及频繁变化的统计需求.timettem源,能够更好地支持管理决策.2.2多维数据模型多维模式中的一些属性作为对数据对象性质的观察角度,称为维(Dimension),维决定着数据对象的属性,反映数据对象特性的属性称为度量维表timekeysalesitme维表key事实表timeitomkeykey(Measure),一般为可以累计的数值.常见的多维数据模型主要有星型模型和雪花模型(分别如图1和图2所示).雪花模型是星型模型的变形,是对星型模型的维度规范化表示.2.3联机分析处理branchkeylOl3ation彝E嚣翮itemkeysolddollarsunitssoldOLAP是由关系数据库之父E.F.Codd于1993年提出,能够对海量数据按维度分类和按度量聚合,形成多维数据模型.对多维数据模型中的数据图1星型模型Fig.1一~孵一~皱一~曲一Starschemasupplier维表timedaydayofmonthquarteryearbranchtheweekkeyitme_key维表I,lsupplier_keysupplier_type维表lbranch_keyrIbranchnamebranch—type幽一一~一~Fig.2一一~一黻一~一Snowflakeschema3.1一哆一哆一哪墨兰l|country哪黻一嘶一图2雪花模型2.4联机分析挖掘OLAM由JiaweiHan于1997年首次提出H。,3交通量季节ARIMA预测模型ARIMA模型ARIMA模型的基本思想是:将预测对象随时它将OLAP与DM结合起来,通过OLAP对多维数据立方体进行在线分析后提交给数据挖掘模型进行预测,从而发现潜在的规律.OLAM的挖掘预测是建立在数据仓库系统的数据立方体基础之上的,OLAM为用户的在线挖掘预测提供数据接口,运用预测模型与算法,将预测结果以可视化的形式展间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列.这个模型一旦被识别后就可以根据时间序列的过去值及现在值来预测未来值.设{t,t=0,±1,±2,…}是一随机变量序列,延迟算子(Backshifioperator)记为曰,即BL=示.OLAM的体系结构如图3所示.万方数据第13卷第2期基于OLAM的高速公路交通量多维预测研究5lY一,.对MA(g)模型,F=0(B)e。;对AR(P)模型,9(B)yt=e。.合并这两个模型,一般ARMA(p,g)模型可以表示为9(B)yl=0(B)e,,e。为白噪声序列,其中0(B)=1一OlB一0282一…一OqB9(1)9(B)=1一妒lB一9282一?一9。B9(2)记V=1一B,称V为差分算子,此时VE=(1一B)r,一般有V4一=(1一B)。■,如果存在非负整数d使得式(3)成立,则称{F}为自回归滑动平均求和模型,记为ARIMA(P,d,g),其中d为差分阶数,P为自回归系数,g为滑动平均系数.妒(B)(1一B)“F=0(B)e;(3)(图形用户界面API、*。,曲梳JfIf(\立方体API、_/弋∥\夕/1一多维数据库/\萨国荔(,数据库API\同蔺篇,岛f蓑嚣羹茬ff翥毳图3OLAM体系结构Fig.3ArchitectureofOLAM3.2季节ARIMA模型如果研究的时间序列中含有周期性特征,则可以对ARIMA模型进行季节差分,设时间序列{F}的周期为s,季节差分算子V。=1一B5,则有万方数据V;yl=(1一B5)t=¨一E一。(4)对于D阶季节差分,则有v?yl=(1一B‘)Dyf=v?。1yI—V?。1t一。(5)如果存在非负整数d和D使得{yi}满足差分方程式妒(B)中(B)V4V。DF=0(B)O(B)e。(6)其中9(B)=1一0185一02B“一…一@o曰讪(7)垂(B)=1一中l∥一中2B“一?一中PBn(8)则称{F}为季节周期为s,非季节阶数为P,d,g,季节阶数为P,D,Q的季节ARIMA模型,记为ARIMA(P,d,q)(P,D,Q),.3.3多维季节ARIMA模型建模流程结合OLAM体系结构,将多维季节ARIMA模型建模过程分解为以下几个阶段.(1)时间序列生成.根据预测需要在多维数据模型中选取时间、空间等相关维度,对收费原始数据进行快速汇总分析,生成交通量统计的时间序列.(2)序列平稳化.对非平稳时间序列进行变换,直到满足ADF单位根测试,确定季节ARIMA模型的d、D和s值.(3)模型识别.利用ACF和PACF估计出模型阶数P,g,P和Q的可能取值,通过赤池信息准则(AIC,Akaike’SInformationCriterion)选取最佳的模型阶数.(4)异常值检验.检验时间序列中由于受到干扰而存在的异常值并对模型进行修正,进一步优化模型.(5)参数估计.用极大似然估计得到季节ARIMA模型中所有参数的估计值.(6)模型诊断.检验模型拟合效果是否充分即残差序列是否为白噪声序列.(7)模型预测.利用上述步骤得到的多维交通量预测最优季节ARIMA模型,对交通量未来趋势进行预测,同时根据精度指标检验预测效果.52交通运输系统工程与信息2013年4月具体建模流程如图4所示.挖掘查询维度选取Y时间序列生成模型修正\/平稳化检验参数估计N+序列平稳化模型诊断模型识别模型预测图4季节ARIMA模型建模流程Fig.4ModelingprocessofseasonalARIMAmodel4实例应用4.1交通量多维模型本文选取深圳区域高速公路收费原始数据构建数据仓库,根据交通量预测的实际需要,选取时间、空间、车型、车种等维度建立多维模型,采用雪花模型的交通量数据仓库结构如图5所示.交通量数据仓库的雪花模型围绕收费数据组织,收费数据中包含相关维表的键及度量值,通过建立的时间、空间、车型、车种等维度可以对收费数据立方体进行不同模式操作(如上卷、下钻、切片、切块和旋转等),实现多维交通量的统计分析.为研究高速公路交通量季节性变化规律,本文选取粤东区域盐坝高速所有车型ETC日交通量作为维度和度量查询依据,查询得到的时间序列结果如图6所示.为对比OLAM下多维交通量统计的高效性与灵活性,编写SQL脚本完成相同查询,两类万方数据方法对比如表1所示,表1也进一步说明了OLAM在处理数据海量时具备多维性、响应快速性等优势.收费站(维表)收费数据(事实茅01PKI出日流水号入口区域编码入口路段编码入口站编码入口站名路段(维表)入口发卡时间出口区域编码PK路段编码出口路段编码出口站编码出口站名羹薰路段名称区域编码车型车种收费时间夏丽时间(维表)车牌iⅡ丽———J‘2‘‘2—一区域(维表)金额l周度1月度l季度区域名称1年度图5交通量数据仓库的雪花模型Fig.5Snowflakeschemaofdatawarehouseoftrafficvolume表1两类查询方法对比Table1Comparisonoftwoquerymethod4.2序列平稳化利用查询生成的时间序列数据具体说明季节ARIMA模型的建模过程,选取最近17周共计119日统计结果作为序列样本(记作{x。}),其变化趋势如图7所示.由图7可见,交通量时间序列{x。}存在季节性且非平稳,需要对其进行变换处理.根据文献[8]提出的变换方法,对{置}进行对数和季节差分变换,其中季节周期s=7.变换后的交通量时间序列记作{E}(如图8所示),此时季节性消失.为验证{yf}的平稳性,对{F}进行ADF测试,结果如表2所示.
基于OLAM的高速公路交通量多维预测研究 - 图文
2019-04-14 13:07
基于OLAM的高速公路交通量多维预测研究 - 图文.doc
将本文的Word文档下载到电脑
下载失败或者文档不完整,请联系客服人员解决!