U/IND(P)也叫做信息系统S的一个知识, 记作知识P。
前面给出了信息系统的定义及相关的概念, 可见对于一个信息系统S来说, 它的任意一个属性子集P都构成了U上的一个划分, 也即给出了S上的一个知识。
3. 定义:知识的绝对信息量
设S??U,R,V,f?是一个信息系统,P?R,U/IND(P)?{X1,X2,?,Xn}是U上的一个划分, 则知识P的绝对信息量定义为:
I(PR)??i?1nXiU(1?XiU)?1?1U2?Xi?1n2i
其中Xi、U分别代表集合Xi和U的元素个数, 则
XiU代表了U中一个元素
属于等价类Xi的概率。如果研究的问题只涉及一个信息系统, 可以将I(PR)简写作I(P)。
4. 单个属性的值缺失
考虑一个不完备信息系统S?, 假定它的部分元素的属性a的值缺失, 即存在集合W?{zz?U,f(a,z)?*}。显然, 在S?上无法定义类似完备信息系统的不可区分关系, 相应地也无法定义知识以及知识约简的概念。为了解决这个问题, 我们可以首先设法将缺失的属性值补上, 使S?转变成一个完备信息系统。这个技巧叫做数据的补齐。具体算法如下:
输入:不完备信息系统S???U,R,V,f?, 其中部分元素属性a的值缺失, 即
存在集合W?U, 且:W?{zz?U,f(a,z)?*}
输出:完备信息系统S, 由S?转化而来, 其中所有元素的属性都补齐。 步骤1:抽出所有属性a的值缺失的元素, 生成集合W。 步骤2:给出所有补齐W中元素的方案, 共VaW种;
步骤3:针对每一种方案, 将补齐后的W加入论域U, 即生成一个完备信息
表, 计算它在不可分辨关系IND(P)下的绝对信息量I(P)。
步骤4:找出I(P)为最大值的方案及其对应的完备信息系统S。如果有多个, 则任取其中之一。
步骤5:输出完备信息系统S。 5. 用法举例
从数据中摘抄的部分缺失数据如下表:
表5-3 部分缺失数据统计
时间 流量 车速 指数 18:00 3474 未知 x 19:00 4583 42.4 2 20:00 4070 41.87 2 根据模型中的算法,为了得到指数x ,对于车流信息系统S,一共可以得到四种补齐算法:f(18,x)?1;f(18,x)?2;f(18,x)?3;f(18,x)?4.
1对上述四种划分,分别计算他们的I(P)?1?242x? ,发现f(18,x)?2所对i?14应的绝对信息量I(P) 最大,因此认为此处缺失的 x?2,即此处的交通拥堵指数为2。
将附件中的缺失数据一一代入计算,就可以确定出所有路段早晚高峰的拥堵指数的大小。
(3)数据补全模型得出的部分道路的出行状况R
表5-4 补全后的部分道路出行状况
编号 1 2 3 4 5 6 7 8 9 10
道路名称
沙湾路沙湾检查站出-南-战略 沙河西路白芒关检查站出-南-战略 梅观公路普滨加油站南行-北-战略 梅观公路南坪立交桥下北行-南-战略 深南大道南头检查站出-南-战略 广深高速同乐检查站出-东-战略
布吉关(出、北行) 布吉关(入、南行) 福龙路隧道北行(香环立交) 福龙路隧道南行(香环立交)
早高峰的R
2 3 1 3 3 3 3 1 3 4
晚高峰的R
3 4 1 2 3 4 1 2 1 4
5.1.3 各条道路拥堵状况的评价与原因分析 (1)梅林关:
表5-5 梅林关道路出行状况
编号 1 2
道路名称 梅观公路普滨加油站南行-北-战略 梅观公路南坪立交桥下北行-南-战略
早高峰的R 1 3
晚高峰的R 1 2
可以看出,不论是出关或是入关,梅林关早、晚高峰期的拥堵状况均十分严
重,其中晚高峰尤其突出。严重的交通拥堵给人们的正常出行以及整个城市的运作带来了极大的不便,拥堵现状急需得到改善。
反思拥堵形成的原因,由于梅观路地处罗湖区与福田区的中间地带,特殊的地理位置使得梅林关成为了从龙华、坂田入关,到罗湖区、福田区的必经关口。众所周知,福田区、罗湖区是整个深圳市的核心地区,第三产业的比重超过
190%【2】,GDP占到全市GDP总和的,可以说是寸土寸金。然而两区的常住人
31口却仅占全市总人口的,大量的上班族选择居住在房价、物价较低的关外地区。
5这就造成了梅林关早、晚高峰期的严重拥堵。 (2)清水河和布吉关:
表5-6 布吉关道路出行状况
编号 1 2 3 4 5 6
道路名称
布吉关(出、北行) 布吉关(入、南行) 保洁路清水河检查站出-南-战略 西环路清水河检查站入-北-战略 清坪快速清水河联检站出口北行
-南-战略
清坪快速清水河联检站入口南行
-北-战略
早高峰的R
3 1 2 1 3 1
晚高峰的R
1 2 2 1 4 3
由于清水河和布吉关同属龙岗区且地理位置很近,因此我们将这两个关口的拥堵原因合并分析。
根据表中数据,清水河和布吉关的整体通行状况不通畅,向南行驶的公路拥堵问题尤为严重。分析其深层原因,清水河和布吉关位于整个深圳市地图的正中心。清水河关口在布吉关的北部6km处,而布吉关距离罗湖区仅4km,是整个中部地区进入罗湖区的主干道。位于布吉关南方的清水河社区还有着“中国第一仓”的美名,区域常住人口已达到98万。大量人口的聚集导致了布吉关早高峰南行入关进入罗湖区、晚高峰北行出关的拥堵现状。
此外,由于这两个关口地处深圳市的中部,向南可达香港,东部是惠州,向北可达东莞,西部可达广州。四通八达的交通直接造就了物流业的繁荣发展,而物流业的发达也直接导致了交通拥堵状况的恶化。 (3)福龙路:
表5-7 福龙路道路出行状况
编号 1 2 道路名称 福龙路隧道北行(香环立交) 福龙路隧道南行(香环立交) 早高峰的R 3 4 晚高峰的R 1 4 在上文我们已经提及,福田区第三产业高度发达,和它相邻的南山区的GDP
居全市首位,二三产业的比重则分别为61%、38%,为全市提供了大量的就业岗位。龙华新区临近福田区和南山区,是深圳近年来新拓展的功能区,常住人口高达130万。而福龙路隧道作为龙华新区通往福田区和南山区的主干道,成为了居住在龙华新区的务工人员上下班首选,因此导致了晚高峰时段福龙隧道北行进入龙华新区的道路严重拥堵。
(4)107南头检查站、G4广深高速同乐检查站:
表5-8 107国道、G4广深高速道路出行状况
编号 1 2
道路名称
107国道(广深公路)南头检查站南行
-北-战略
G4(广深高速)(2260km+969m)南行
-北-战略
早高峰的R
3 2
晚高峰的R
3 3
可以看出,107国道、广深高速的道路通行状况良好,这符合高速公路几乎不堵车的生活常理。
但是分析这两条道路的车流量:
图5-1 各道路日均车流量比较
发现这两条道路的日均车流量均处于较高水平。分析本质原因,广深高速连接广州市和深圳市,中间途径东莞市,由广东和东莞进入深圳的大部分汽车都会由此通行。此外,107国道南头检查站靠近深圳宝安国际机场,由此看来,这两条道路超大的车流量也就不足为奇了。 (5)丹沙路沙湾检查站:
表5-9 沙湾检查站道路出行状况 编号 1 2 道路名称 沙湾路沙湾检查站出-南-战略 丹沙路沙湾检查站入-北-战略 早高峰的R 2 1 晚高峰的R 3 2 沙湾检查站与布吉关功能类似,也是龙岗区通往罗湖区的重要通道。但相比于布吉关的高峰拥堵指数,沙湾的拥堵情况则明显缓和。这是因为从沙湾进入罗
湖区要比从布吉关进入多走近一倍的距离(走布吉关3.6km,走沙湾检查站8.3km),因此人们更倾向于走布吉关。 (6)沙河西路白芒检查站:
表5-10 沙河西路道路出行状况
编号 1 道路名称 沙河西路白芒关检查站出-南-战略 早高峰的R 3 晚高峰的R 4 由统计数据可以看出该处道路通行状况良好。
5.1.4 结论与建议 (1)结论
结合5.4的分析和深圳市的城市发展资料【3】,造成交通拥堵的主要原因有如下几方面:
1. 上下班时间集中。由于整个城市的上下班时间较为集中,使得大量的上
班族在同一时间段都从关外涌进关内,造成了早晚高峰期的堵塞。 2. 机动车密度大。随着城市的经济发展和人民生活水平的提高,私家车数
量急剧增加,超出城市道路的运输能力。
3. 城市区域功能单一。城市各区域的经济发展不均衡,使得上班族的上班
路线都向某几条道路集中的问题更为严峻,进一步加剧了交通拥堵。
(2)关于采集交通数据的建议
1. 考虑在一条路上设立多个数据采集站, 将车流量和车速信息改为求多个
站点数据的平均值,可以使得数据更为准确。
2. 在采集车流量信息时,建议对车辆按照大卡车、面包车、小轿车、公交
车等类别进行分类统计,以得出不同类别车辆的出行规律。
5.2 问题二
5.2.1 数据的的采集与处理
(1)我们采集南山区、福田区、罗湖区2012年的GDP总量【4】(单位:亿元),情况如下:
表5-11 各区各产业年GDP总量及所占比重
区域 产业 南山区 福田区 罗湖区
第二产业 GDP 1667.94 113.04 115.70
第二产业 所占比重 61.60% 4.90% 8.90%
第三产业 GDP 1086.57 2186.96 1184.30
第三产业 所占比重 38.40% 95.10% 91.10%
GDP总量 2829.62 2300 1300
资料显示,深圳市地处丘陵地区,可用平原非常少,农业发展几近停滞,因此我们在统计过程中未考虑第一产业产值。
(2)根据道路断面所在区域,我们统计出各区域内所有道路断面的日均车流量