基于浮动车数据的哈尔滨市市区出行OD分析(5)

2019-01-12 12:35

河北工业大学2015届毕业论文

3 利用聚类分析划分交通中区

3.1 聚类分析概述

在当今社会,人们对认知首先是通过对其进行分类开始的,例如,当面对一个随机物品,人们首先想到的便是“这是一个有生命的物品”或“这是一个没有生命的物品”,将其分为有生命物体和没有生命的物体两种,如果确定了其是一个有生命的物品,人们会想“这是一个动物”或者“这是一个植物”,将其分为动物和植物等等。聚类分析便是统计学中常用的一种分类方法,其能够通过个体之间的相似性,在没有经验知识的前提下,将一批样本数据自动分类,一般利用样本之间的亲疏程度来进行分类,距离最短原则最常用的分类原则。 3.1.1 距离公式

常见的距离主要有以下几种: (1)欧式距离:

EUCLID??(x?y)iii?1n2 其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

(2)欧式距离平方:

SEUCLID??(xi?yi)2

i?1n其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

(3)Chebychev距离

CHEBYCHEV(x,y)?max|xi?yi|

其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

(4)Block距离

17

河北工业大学2015届毕业论文

BLOCK(x,y)??|xi?yi|

i?1n其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

(5)Minkowski距离

MINKOWSKI(x,y)=p?|xi?yi|p i?1n其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

(6)Customized距离

CUSTOMIZED(x,y)=qp|x?y|?ii i?1n其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。

此外度量连续变量样本的亲疏关系除了上述的距离公式外,还可以利用其它的统计指标,例如Sosine,其是把样本的各个变量看成n维的一个空间向量,然后通过各个向量之间的夹角的余弦来进行样本亲疏程度的度量,计算公式如下:

SOSINE(x,y)=?xi?1ni?1n22iiy(?xi2)(?yi2)i?1n 其中,n表示样本中变量的个数,xi表示其中一个样本的第i个变量的值,yi表示另一个样本的第i个变量的值。 3.1.2 聚类方法分类

常见的聚类分析根据其聚类对象的不同分为R型聚类和Q型聚类,其中R型聚类是对变量进行聚类,Q型聚类是对样本数值进行聚类,更通俗一点来讲,R型聚类是对数据表中的列进行聚类,Q型聚类是对数据表中的行进行分类。

IBM SPSS Statistic中提供了3种聚类方法,分别是k-均值聚类(又称为为快速聚类法)、两步法聚类和分层聚类法(又称为系统聚类法)。

18

河北工业大学2015届毕业论文

(1) k-均值聚类(又称为为快速聚类法)

k-均值聚类是根据用户指定的类别数,在此假设其为k,对大样本数据进行逐步分析,其方法是首先对样本数据进行初始分类,然后再进行逐步的调整,直到达到某一条件完成分类,得到最终的分类结果,其具体步骤如下:

第一步:确定k个类的初始类中心点。SPSS会根据数据的特点,在其中选取k个具有代表性的样本数据作为初始类中心点。

第二步:计算所有的样本点到各个类中心点的欧式距离,然后比较各个数据点到每个类中心的距离,根据距离最短原则,将其分到各个中心点所在的类中,将数据分为k类,完成一次分类。

第三步:根据得到的新的k个分类,重新计算每个分类的中心值,然后将其作为新的聚类中心,计算新的聚类中心与上一次分类的聚类中心进行比较,若发生变化则重复第二步,形成新的k个类别。

第四步:重复第三步,直到达到设定的迭代次数或者是聚类中心收敛,不再发生变化,完成分类。

此外,在快速分析聚类中,用户可以自行指定初始聚类中心,若指定的聚类中心比较合理可以有效地减少运算迭代的次数,降低计算难度,加快数据处理速度。

(2) 分层聚类法(又称为系统聚类法)

层次聚类分析根据其聚类对象的不同分为R型聚类和Q型聚类两种类型。

层次聚类R型聚类的分类对象是所研究对象的观察变量,其可以将具有相同特征的变量聚到一起,然后从不同的类中选出具有代表性的变量来进行分析,从而减少需要分析的变量的个数。

层次聚类Q型聚类的研究对象样本,其可以将类似的样本聚到一起,以便对样本进行分类,其主要通过样本之间的距离或者是样本间的相关系数来测量样本之间的亲疏程度,利用样本间的亲疏程度来进行样本之间的分类。

(3)两步法

两步法聚类分析又称为两阶段聚类分析,其为了既可以处理连续变量也可以处理分类变量,采用对数似然距离来衡量样本之间的相似性,其使用的是最大似然测度法,假设聚类模型中的变量是相互独立的,其中连续变量服从正态分布,分类变量服从多项分布,步骤如下:

19

河北工业大学2015届毕业论文

第一步:建立聚类特征树。首先要放进去一个个案作为根节点,将其变量信息作为叶子节点,然后将后续的个案更具其与已有的根节点之间的距离,判断是将加到已经存在的根节点上还是其形成一个新的节点,重复上一步骤,直到所有个案均已添加完毕形成一个特征树。

第二步: 使用凝聚算法对得到的聚类特征树的叶节点进行聚类,利用AIC准则或者BIC准则等对于可能出现的多种结果进行比较分析,选出其中的最优者作为最终的分类结果。

3.2 交通中区划分概述

交通中区是在进行交通规划的过程中,为了便于进行交通规划研究,按照一定的依据和规则将所研究区域划分的若干个区域,其一般由若干个交通小区组成。

在实际的情况中,由于不同地区的交通条件、人口密度等因素的区别,各个地区进行交通分区的方法是不尽相同的,但是有一些准则却有很好地通用性,将其作为进行交通分区的原则,常见的交通分区的原则主要包括以下几点:

(1)要合理确定交通中区的数量

一般在进行交通分区的时候,交通中区的数量主要取决于研究区域人口,因为研究范围的人口数是研究范围内出行量的基数,两者在一般情况下是正比例关系,当地居民数量对居民出行量有很大的影响,一般情况下1-2万人口为一个交通小区,3-10个交通小区组成一个交通中区。[23]

(2)应使各个分区的用地性质尽可能单一

因为土地的用地性质是影响其交通吸引和产生量的重要指标,因此在进行交通预测的时候,需要掌握每个分区内各种用地性质的面积,若一个交通中区内包含多种性质的用地,便需要进行大量的土地面积测量工作,利用其各种性质用地的面积来预测其交通的产生和吸引量,工作量较大。

(3)对于曾做过OD调查的区域,最好能够维持原有的交通分区。 (4)要考虑到现有一些天然的屏障对交通分区的影响

因为天然的屏障,常见的如河流、铁道、高速公路、城市主干道等等,其会阻隔其两侧人们的通行,其通行通道,如桥梁、地下通道、立交桥等的交通量会非常的集中和密集,因此在进行交通分区的过程中要尽可能以天然的屏障作为界线。

3.3 研究区域交通中区的划分

20

河北工业大学2015届毕业论文

3.3.1 进行交通分区的前期工作

由于数据量比较大,通过分析各种聚类方法的特点,选择k-均值聚类进行O、D点的聚类,但是考虑到k-均值聚类容易受到异常值的影响等缺点,需要对聚类结果进行适当的调整,得出最终分类结果。

由于k-均值聚类法在使用时需要提供最终的分类数目,所以在进行聚类前要确定需要划分出多少个交通中区。通过查阅相关的资料可知,目前哈尔滨市所研究范围内大约有300万人口,根据前文中交通分区的标准可知,所研究区域需划分为15-40个交通中区。

此外为了使分类结果更加的合理可行,参考哈尔滨市已有的交通分区文件,并结合本文所研究的范围,确定初始分类类别项目为29个,并利用arcgis软件来确定各个交通分区的中心坐标,将其作为k-means聚类的初始聚类中心,初始聚类中心的坐标数据如表3-1所示,地理位置分布如图3-1所示。

表3-1 初始聚类中心

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

纬度 45.735567 45.722167 45.774759 45.700063 45.807895 45.750753 45.666732 45.755858 45.771014 45.73217 45.754104 45.73635 45.706965 45.697653 45.842479 45.80916 45.686691 45.729476 45.719118 21

经度 126.617463 126.748294 126.636101 126.682253 126.50886 126.652851 126.620424 126.600353 126.72387 126.675528 126.689411 126.584343 126.608491 126.51112 126.538722 126.552761 126.571213 126.70803 126.646731


基于浮动车数据的哈尔滨市市区出行OD分析(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2010年3月证券交易真题及答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: