研究方法
第一节 研究架构
本研究的架构与方法是从数据探勘建立的角度进行,示意如图3-1,包含数据源部份、查询展示部份与数据探勘部份。查询展示部份可以透过SQL查询、OLAP分析或地图展现的方式,对数据进行了解,提供报表式的数据展现,用以辅助数据探勘以及决策支持。数据探勘的部份,则用以产生模式或法则,提供模式库与知识库的建立,支持决策的参考。
进行之流程架构如图3-2,实线部份代表数据流,虚线部份代表控制流。在进行研究之前,先尽可能搜集相关学者在空间资料探勘与地震引致山崩之研究文献,了解相关技术应用的限制与可行性及引致山崩机制的环境因子探讨。透过这些资料的分析,建立接下来研究上相关背景知识的基础。有了这些背景知识后,便进行相关影响环境因子资料的搜集。因数据源多样化,包括地理图层数据以及属性数据,先进行必要的前处理,再将这些数据分别建置进入地理信息系统与关系数据库中,做为数据探勘的基础数据。
相关的基础数据必须做进一步的处理,以建立适合资料探勘使用的干净数据。先将各个向量型地理图层数据转化为网格数据、清理空的数据,并且将不必要的数据属性剔除,同时也利用现有的数据依空间关系再衍生出新的数据字段。这些经过清理干净后的庞大数据,必须加以整合后再输入数据仓储中,经过适当的采样技术后,可做为各数据探勘模式使用的数据源。接下来根据使用目的的不同,将模式的建立分成预测型模式与描述型模式,并且分别依格式输入所需要的数据。原始的向量数据属性,则提供给在线分析处理做为分析的素材。而原始网格数据则提供预测型模式做为模式建立的基础,另外再将原网格式数据中的数值数据加以分隔化,以做为描述型模式建立的基础。
预测型模式包含有,类神经网络、判定树演算、案例式概念学习以及贝式分类器等四种。首先以判定树算法模式找出具有预测力的环境因子,再以这些因子提供其他模式建立上输入环境因子选择的参考,适度的降低数据维度,以提升探勘效率。各模式分别参考这些因子,输入必要的数据
以建立模式并且进行测试,接着再将这些模式予以整合成单一运算结果,并且进行测试,以便获得最佳的预测效果。而描述型模式则包含有,关联法则模式(Association Rule)、Spearman 等级相关分析模式,提供对于地震山崩机制可了解的说明与归纳法则的建立。关联法则(Association Rule)可以用来探勘输入因子与地震山崩间的关系组合规则,而Spearman 等级相关分析则可以用来探讨地震山崩与各单一影响因子间的关联性。在线分析处理则用以作为探勘前之手动资料探索分析,提供对于数据的了解与假说的形成以及报表数据的产生。
透过预测型模式与描述型模式,可以分别建立模式库与知识库,这些工具可以用以分析预测、建立山崩潜感图,并且建置为防灾决策支持系统的一部份。
图3-1 研究架构示意图
山崩domain knowledge 多種資料來源 資料選擇與前處理 GIS地理資料庫 向量資料網格化 空間關係建立 資料清理與轉換 預測型SQL Server資料倉儲 資料採樣 描述型模式 模式 模式建立 決策樹演算法 關聯法則 等級 相關分析 線上分析處理 參數選取
類神經 Bayes 關係探討與產生可判讀法則之知識庫 案例式概念學習 整合模式及模式庫 模式結果驗證與評估 預測、山崩潛感圖製作、知識庫與模式庫建立、建立決策支援系統
图3-2 研究架构
第二节 在线分析处理技术(On-line Analysis Process)-建模前分析
虽然本研究有关模式建构的部份是以网格式数据为探勘的数据来原,但由于原始数据源大多属于向量式的数据,原始数据必须经过网格化才能供模式使用,基于向量式与网格式空间数据结构的不同,原始的向量式数据隐含有一些不同于网格式数据的宝贵信息在其中,这里以传统OLAP架构为基础,特别着重在中心事实图层与其他维度图层间未明确记录之空间关系的建立,有关空间特性上的有趣知识正是由此而产生的,希望以此做为模式建构前对于数据的了解与假说的验证,提供另一扇窗来了解数据。
在线分析处理(OLAP),这一与数据探勘密不可分的数据库技术,正受到数据库产业越来越多的重视,许多数据库厂商都已将其列为内建的功能。依照林杰斌、刘明德(2002)的定义,它可以帮助使用者有效率、且轻易完成信息的维面结构分析,可以将数据仓储的数据加以筛选、分类、汇总实例化数据,而以各种数据模型呈现给查询者,让使用者可以根据不同的主题和角度依照依照专业的直觉,经由复杂的查询能力、数据比对撷取数据中的信息。通常数据探勘的书上都会单独一章来介绍这门技术,它虽然与数据探勘关系密切,但在定义上却并不属于数据探勘的一种,其不同点在于OLAP主要为忠实客观的呈现出查询者想查询的众多因素分析汇总得出的报表,而报表的解读将由查询者判断。而数据探勘则能更进一步利用各种方法将数据再分析,以获得更深入变因的了解,帮助查询者得出原因以及数据的规律型态。两者都是发掘数据的要角,彼此互补。虽然,基本上OLAP有赖人类智慧,却也是一个有助于手动式数据探勘的工具,尽管它还不是数据探勘上的正式组件,却是处理企业环境下数据的程序之一(Berry and Linoff, 1997)。过去在空间在线分析处理(Spatial OLAP)的研究并不多见,有Stefanovic(1997)首先设计了一个空间在线分析处理雏形,针对空间搜寻设计两阶段搜寻的策略来加快处理速度,主要偏重于算法效率的
改进。Shekhar et al. (2002)则针对人口统计资料,以行政区做为空间分析的单位,透过OLAP技术建立各种聚总的主题图,形成一个资料归纳的地图集,并未探讨与相关背景图层间的空间关系。
OLAP通常将数据储存在一个使用星形结构的关系数据库(如图3-3,以订单交易为例做说明),其中心是一个中心事实表(订单明细表),这些事实或许是交易层级的,但常是更低层次的摘要,中心事实表的每一列,都有几个增加独特性的关键要素组合(如顾客编号、地区码、货物编号),这些关键要素即是维度,和维度结合在一起的称为维度表,他们透过关系型链接(join)将中心事实表与维度表整合在一起,完成一个星状的架构,而在数据库中则呈现一个多维度的结构。在这个多维度的架构中,有两个最重要的栏项,即维度栏与聚总栏,每一个维度对应到此架构的一个轴上,而聚总栏则是各维度坐标对应于此一交集的数值运算,例如总销售金额、平均销售金额、次数等。
如果将前述OLAP相同的架构对应到空间数据中(以地震崩塌地为例,如图3-4),则可以将中心事实表视为崩塌地主题图层,在这图层中其实隐含有与它外围其他主题层间未明显记录下来的空间关系,正因为有这样的空间关系,是区别空间OLAP与一般OLAP最大的不同,而其他维度表则为外围背景图层(如地质图,DTM资料,坡向、坡度、与道路水系等图层),中心事实表与维度表的关键要素是崩塌地本身的空间位置,而聚总字段则可视为崩塌的次数、总面积、平均高程、平均坡度、坡向,其组合千变万化,复杂度远甚于一般非空间数据的聚总类型,所建立出来的多维度表如图3-5,维度数目可以任意扩大,为了方便说明,本例以三维来表示,每一个维度表为多维度表中的某一轴,分别为地质、道路、断层资料,每一轴再根据他的值分布来划分刻度,而聚总资料为崩塌地的聚总面积,聚总面积越大者表该条件下发生崩塌的机会较大,可供决策的参考。
传统OLAP技术中心事实表与维度表间的串联,主要是依靠键值以关系型链接(Join)来整合,这样的做法只适合关系型属性数据表。通常,我们所见到空间数据库包含有空间几何数据与非空间的属性数据,即SAND(Spatial and Nonspatial Data)架构,属性数据与一般的商业数据并无差别,可以很容易就将OLAP的技术应用过来,但更重要的是属于空间的几何数据,表面上看来虽然只包含了一些坐标,但是却隐含了位相与量测