http;//www.othermap.com测绘信息网
地理信息分类体系在GIS语义数据模型
设计中的作用
陈常松
(中国测绘科学研究院 100039)
【摘 要】 本文首先分析了地理信息分类学研究在GIS应用中的主要成绩和进展,在简单讨论GIS语义数据模型基本概念的基础上分析地理信息分类体系在GIS语义数据模型设计中的应用问题。在本文的最后指出了需要继续进行的工作。http://www.othermap.com测绘信息网
传统地理研究与分析中,对一地理系统的组成和结构等信息进行序列化表达的主要方法是信息分类学方法。一个分类体系,由于反映的是某一类地理组成的数量和质量特征,而成为相关应用项目开展的基础。其中一个有代表性的应用是各种专题和普通地图的编制。因此,地理信息分类学一直是地理学研究方法论的重要组成部分,也是其服务于社会实践的一个重要体现。源于地理学及测绘学的GIS技术是给地理学等学科带来革命性变革的技术。地理信息分类学研究,由于其具有极强的地理信息的结构化表达能力,对GIS数据组织、数据模型设计以及大型GIS地学应用系统的开发,尤其在GIS概念设计中具有极大的应用潜力。例如各种地理信息的分类编码无一不是建立在合理设计的地理信息分类体系之上。但是分类学思想并不完全等同于GIS的基本思想,两者之间存在着重要的差别。本文首先分析地理信息分类的GIS应用问题,并在此基础上初步讨论GIS语义数据模型的设计问题,以引起对这个问题的重视。http://www.othermap.com测绘信息网
一、地理信息分类体系
在传统地理研究中,对研究对象进行系统化处理往往是构成研究工作的基础环节,对地理概念系统化的主要方法一般是依赖于分类学方法,即利用由水平上的分类和垂直上的分级共同组成的分类体系来表达地理概念之间的相互逻辑关系。在地理分类学研究中,线分类法是一种被普遍使用的方法。GIS技术出现后,地理信息的处理成为地学工作者的主要任务,地理分类学研究的重点及应用重心也由主要对地理概念的处理转而主要服务于对地理信息的处理及管理。对资源与环境信息进行分类与编码研究更成为我国在“六五”、“七五”科技计划中的重要工作内容,并藉此形成了一批国家标准,例如GB/T 13923-92 《国土基础信息数据分类与代码》、GB/T 5660-1995 《1∶5 000、1∶10 000、1∶25 000、1∶50 000、1∶100 000地形图要素分类与代码》、GB/T 14804-93 《1∶500、1∶1 000、1∶2 000地形图要素分类与代码》。
总结已有的工作,可以发现在我国地学界,尤其是在GIS领域,对地理信息分类至少依赖三类指标,它们是: 1.地图分类方法。一般继续沿用地图制图界所普遍使用的分类体系。
http;//www.othermap.com测绘信息网
制图分类体系具有以下特点:第一,由于其具有较长的历史,分类体系相对合理并且稳定;第二,考虑到地图表达的合理及清楚,较多地考虑所表示客体的空间属性,例如在进行地图内容设置时考虑点状、线状、面状实体的组成等;第三,表达内容较有限,表达内容侧重于地理组成,对地理运动规律的揭示是间接的。http://www.othermap.com测绘信息网 2. 成因分类法。对地理信息的分类更多地依赖于其成因,这种方法较第一种方法所考虑的因素具有更深的层次,马霭乃建议[1],对小比例尺的土地类型图,应从“气候、水文、植被、土壤、地质、地貌”六大因素考虑,至少需要6位码。以成因分类法编码的地理信息一般属于自然范畴的地理信息。以这种分类法进行地学的编码,所体现的只是一种分类的概念,垂直方向上的分级概念没有体现出来。 3. 空间分类方法。对地理信息进行分类时,以空间分布作为分类分级的主要指标,这种方法一般较普遍地用于对某种地理客体的等级表示之中,如赵锐[2]提出的对我国水系的划分,首先依流域作为分类的指标。 地理信息的分类学研究由于其深厚的理论基础,在GIS技术发展中具有十分重要的意义,主要表现在两个方面:
第一,信息编码。已经达成共识,信息编码是进行地理信息GIS管理的良好方式。作为信息编码基础的资源与环境信息分类体系研究取得突出成绩,除上述三个关于基础地理信息的国家标准外,还有三个面向资源与环境信息管理的分类体系被广泛使用,它们是由中国科学院黄土高原综合科学考察队编制的《国土资源信息分类体系》[3];由资源与环境信息系统国家规范研究组1990年制定的《资源与环境信息分类编码表》以及由国家计委组织制定的《国土资源信息分类指标体系》。 第二,地理数据的组织。A.U.Franket 等[4]描述了利用地理信息分类方法合理组织GIS数据库中地理信息的方法。地理现象的空间分布由其地理属性决定,例如描述地貌类型的空间目标的性质,包括其大小、形状及空间的体系构成是由具体的地貌类型及类型体系决定的,地貌类型的改变必然导致其空间描述单元的变化。反之则不成立,即空间单元的变化不能必然引起地理属性的自动综合。基于此,提出了用
BLOCK-ZONE体系来对应描述某一种地理现象分类体系的数据组织策略,用BLOCK描述较小的分类单位,用ZONE描述较大的分类单位,共同构成一种地理数据库。http://www.othermap.com测绘信息网
二、GIS语义数据模型
关系模型在极大地推动了数据库技术向前发展的同时也逐渐暴露出其所存在的问题。这些问题集中体现在:很少考虑用户对数据的理解,将精力主要花在提供一致的、高效的数据库存储和检索所依赖的物理结构的设计上,因此缺乏数据抽象能力,在应用中将大量的设计工作留待用户完成。
语义数据模型[5]的提出,其出发点是进一步提高关系数据模型的层次,尽量使用户从数据库的物理细节中脱离出来。80年代末90年代初,国内外相继开展语义数据模型的研究工作,开发出了一些模型,例如SAM,E-R模型等,90年代后,针对GIS应用中出现的相似的问题,国外有人开始进行GIS语义数据模型的研究。关于“语义”一词曾一度引起
http;//www.othermap.com测绘信息网
混乱,一些作者将这一词仅用于表达地理属性。Feuchtwanger M大约是系统地进行GIS语义数据模型研究的第一个人,在1993年,他写出了关于这方面的博士论文。从已有的研究工作中,我们可以获得以下关于语义数据模型的认识:http://www.othermap.com测绘信息网
第一,语义数据模型所关心的是用户对数据的理解和数据库技术的支持两个方面。相应地,一个语义数据模型由主要模拟现实世界的静态结构和主要模拟在其上的各种操作的动态模型部件组成。
第二,语义数据模型除了描述对象及其间的联系和其动态外,必须支持数据抽象。语义模型所提供的各种各样的数据抽象工具使得终端用户或程序员能在更高层次上操纵数据。同时,一些抽象工具也用于动态模拟。可以看出,语义数据模型是一种在更高抽象层次上的模型,从数据库应用角度考虑,它可以在现有关系数据库基础上进行开发来实现。 为了满足上述要求,语义数据模型提供了一整套描述和模拟工具或模型部件。限于篇幅,本文不可能进行详细讨论,以下是一些较为重要的部分。http://www.othermap.com测绘信息网
第一,对象或实体及联系。模拟真实世界实体或数据库环境中相对独立的操作。有时也用 它来表达真实世界实体之间的关系。对象或实体由属性加以描述。
第二,数据抽象工具。主要包括分类和聚合、联合、概括/特化、继承和派生等。有关概念请参见文献[5],本文不再赘述。
第三,约束的说明。由于语义模型支持下的操作将不在人的干预下进行,因此语义模型中必须包含有关于对数据操作,例如插入/删除操作等的约束。
GIS语义数据模型的设计一般采用特征-属性-属性值的模拟方法。在基于地理特征方法支持下[6],将某一类地理现象定义为地理特征,将地理特征抽象为语义模型中的对象或实体,利用对象之间的属性关系、继承关系、聚合和概括等关系,构造关于地理现象的静态模式,并进而实现动态的模拟。在地理模拟中,语义工具的地理意义如下: 1. 继承。各级地理特征之间的一种关系,低一级地理特征全部继承其上一级地理特征的属性。从地理属性域上讲,继承关系可以源于分类体系;从空间域上讲,它反映了地理空间有序性状况之一[7],反映了地理特征之间的等级观念和分类观念。http://www.othermap.com测绘信息网 2. 概括。由某两类或几类相似的地理特征可组成更为抽象的地理特征。从地理属性上讲,综合的概念可以与反向的分类体系相对比。 3. 联合和聚合。在很大程序上只具有空间意义,联合描述由多个同类地理实体组成为复杂地理实体的关系,例如由树实体组成森林实体;聚合描述由两种或多种不同的地理实体组成为一种新型的更为复杂的地理实体。例如由不同的地理特征建筑物、道路、树木聚合而成为地理特征“城镇”。
继承、综合、聚合等关系加上对地理实体之间的空间关系的描述共同提供了对地理基本关系的描述机制。一些国际标准数据模拟语言部分的支持这些关系描述,同时对这些语言的升级工作正加紧进行,以满足地理模拟所带来的特殊要求。http://www.othermap.com测绘信息网
三、地理信息分类体系在GIS语义数据模型设计中应用的局限性
http;//www.othermap.com测绘信息网
以地理特征为基本实体概念进行地理语义数据模型的设计,较之传统的商业语义数据模型设计复杂得多,例如在地理语义数据模型中需要对大量非结构化的对象进行描述和模拟,并且还要合理地表达空间关系及其语义约束[1]。但是由于在语义模型中更强调地理特征而非纯粹的空间特征,因此商业数据库领域所提供的语义模拟工具仍然是地理语义数据模型设计的重要工具。由此,地理信息分类体系在其中将发挥巨大的作用,这主要体现在:(1) 分类体系为语义数据模型的设计提供了基本的地理特征概念,从而有利于对静态结构的设计,可以从一定的分类体系中直接提出地理特征,形成语义数据模型中的对象部件;(2) 分类体系直接支持分类关系、概括关系,部分地支持聚集关系、联合关系及继承关系。在设计地理数据语义模型时,正确地运用已有的分类体系,无疑将起到促进作用。http://www.othermap.com测绘信息网
但分类体系毕竟不是语义数据模型,例如分类体系没有能力表达空间关系,也不能支持派生关系,并且以线分类方法设计的分类体系只支持一对多关系,因此在分类体系的基础上进行语义地理数据模型的设计,至少要解决三个问题:(1) 拓展描述能力,使其能描述地理实体及地理特征之间的n∶n关系;(2) 为每一地理特征或地理实体及其之间的关系增加标准属性说明信息,并进而讨论各种关系的建立;(3) 讨论它的动态实施结构及其空间完整性、实体完整性等约束。
从传统分类体系的设计原则及结果来看,分类体系中存在的问题主要有以下几个方面,在GIS语义数据模型设计中应当引起注意。 1. 传统的分类体系,尤其是线分类体系,所采用的是一种层次结构,表达的是不同地理特征之间、不同地理实体之间的继承和包含关系,不能表达复杂地理空间的全部语义。
传统的分类体系一般以一种具有较高级别的地理现象,例如对土地、水系等为研究对象,用具有较低层次、更为具体的地理特征或地理实体来描述这一研究对象,因此所描述的继承或包含关系只支持1∶n关系,图1和图2为两个表达1∶n关系的分类体系。
但是地理环境中不同层次的地理特征和地理现象之间的关系一般是n∶n关系,这可以用图3加以表达。从应用的观点加以考察,传统的分类体系所导致的直接后果,正如Robert D. Rugg[8]所说,容易导致不安全的数据共享行为。以图1和图2所表示的为例,“河流”这一地理实体在这两个分类体系中都处于第三级分类中,其中在运输系统分类中,它被包含在“水路运输”中,而在“水文系统”分类中它被包括在“陆地水文”中,如果从应用角度,对这两个分类体系可以作这样的理解,图1是被交通部分的水运部门所采用的对现实的地理组成及其间关系的认识,我们称其为“交通部门”的视图;图2则可能是水利管理部门对同一区域系统的视图。从这两个分类方案中所包含的上级分类和下级分类之间的逻辑关系上看,“河流”实体由于其所担当的角色不同而具有完全不同的定义,例如,作为航道的河流实体在GIS中的表达可以是: 〈河流标识,航道标识,航道宽,水深〉 作为水利管理单位的河流实体则可能是:
〈河流标识,河宽,水深,径流〉http://www.othermap.com测绘信息网
http;//www.othermap.com测绘信息网
图1 运输系统分类体系(一对多关系)
图2 水文系统分类体系(一对多关系)
图3不同分类层次之间的地理特征和要素之间的n∶n关系
假如两个部门之间有共享他们关于“河流”实体数据的愿望,但是由于上述原因,往往会存在下列问题:http://www.othermap.com测绘信息网 (1) 由于没有一个很好的逻辑及物理设计而使共享无法进行;(2) 由于基于不同的分类体系而使实体定义不同,或实体属性的定义不同,从而使数据共享缺乏安全感。
图1和图2由于对地理关系表达的不完备,结果对地理特征“河流”的表达产生混乱。
2. 分类体系的另一个缺陷便是其信息表达的不完备性。即使是一个标准的、反映基本地理事实的分类体系,由于其信息表达的不完整,也难于直接支持GIS系统的建立。一般地,分类体系仅反映地理特征或地理实体本身,对上一级(属)的地理实体或地理现象的定义只有通过低级(种)实体而间接地加以表达。所以这种分类体系尽管从内容上反映了地理特征之间的分类、继承等关系,但从形式上却否定和拒绝了各地理实体类之间的信息联系,从而也难于全面反映地理空间的全部属性。要建立GIS的概念模式,必须在此基础上进行大量的工作。
http;//www.othermap.com测绘信息网
四、有待研究的问题http://www.othermap.com测绘信息网
GIS技术及应用技术领域均取得了巨大的成就,但是这种发展在我国还缺乏地理信息理论、GIS标准化理论作为它的基础。例如缺乏一个被公共认可的反映地理系统基本信息结构及动态行为的GIS语义数据模型。矢量数据模型和栅格数据模型仅仅是一种面向空间数据管理的、逻辑的数据模型。安全的地理数据共享行为,特别是部门之间的数据共享行为必须依靠一种语义的模型作为它的“平台”,方便用户使用的地理数据系统的设计及建立也需要地理语义数据模型的支持。本文仅仅是对这一模型设计中所涉及问题的初步探讨,大量的问题留待将来,主要有: 1. 地理数据语义模型设计的方法论研究; 2. 地理对象体系的建立和实现;
3. 空间关系的语义表达;http://www.othermap.com测绘信息网 4. 语义数据库的开发和地理数据描述语言及系统的开发等。
参考文献
[1] 马霭乃.地学编码模型.见:全国性资源与环境信息系统.北京:测绘出版社,1991
[2] 赵锐,许丽焱,许美瑜.中国水系编码研究. 见:全国性资源与环境信息系统. 北京:测绘出版社,1991 [3] 中国科学院黄土考察队.国土资源信息分类及指标体系. 北京:中国科学技术出版社,1991
[4] Andrew U Frank, Gary S Volta, et al. Formalization of Families of Categorical Coverages. INT. J Geographical Information Systems,1997,11(3):215~231
[5] Richard Hull and Roger King. Semantic Database Modelling: Survey, Application and Research Issues. ACM Computing Surveys, 1987,19(3):201~260
[6] Lynn Usery E. A Feature-Based Geographic Information System Model. PE&RS,1996,62(7):833~838
[7] 牛文元.理论地理学.北京:商务印书馆,1992
[8] Robert Rugg D. Defining Standard Features of Land Information Systems. Cartography and Geographic Information Systems,1995,22(3):195~204