购物车算法(4)

2019-04-22 16:16

经由以上演算最后可以得到可以得到所有large k-itemset的集合,这些集合可以用来做为知识法则产生的依据,例如,若large k-itemset为ABCD,则有可能ABC ? D也有可能AB ? CD或是BC ? AD,只要能够满足minimum confidence与minimum support这些法则就成立,关于minimum confidence与minimum support的设定,不同的设定可能产生不同而有趣的结果,但不要设得太低,如此会造成法则不具代表性,也不要设的太高,会造成所获得的法则流于常识不具意义(例如,感冒?头痛,这种人进皆知的法则),最后将法则以A ? D(c%,s%)这样的形式表达输出(c为confidence, s为support)。 算法如下:

for all large itemsets lk, k ?2 GennerateRule(lk,lk);

GenerateRule(large k-itemset lk, large m-itemset am) {

A = {(m-1)itemsets am-1 ? am-1 ? am }; for all am-1 ? A {

confidence = support(lk)/support(am-1); if (confidence ≧ MinimumConfidence) then {

output rule am-1 ? (lk- am-1); if (m-1 > 1) then

call GenerateRule(lk,am-1); //call recursively }//end if }//end for }//end function

2. 多层式关联法则

数据在概念上有抽象层次高低之分,它需要背景知识的支持,即概念

层次体系(concept hierarchy),常以概念树的形式给出,如图3-8所示是一个农业土地利用的概念树。苹果、柑橘均可以视为水果,水果、蔬菜又可以视为经济作物,而经济作物与粮食作物又可视为农作物,概念层次可以层层上推。透过不同的抽象层次有时可以带来不同的新发现,Han et al. (1999)曾建议根据资料抽象层度的不同,进行多层次关联法则探勘。

以底下两条空间叙述为例:(1)商店位于忠孝东路上且时间为七月,则七喜汽水销量佳,(2)商店位于信义路且时间为八月,则黑松汽水销量佳。乍看之下似乎没有什么关联,规则性不强,这是因为数据仍处于低抽象层次上,但当我们把数据层次提高之后,隐含的意义就浮现出来了,忠孝东路、信义路可以视为东西向干道,六月、八月可归纳为夏季,七喜、黑松汽水可以归纳为碳酸饮料。因此一条新的规律产生如下:当商店位于东西向干道上且时序处于夏季,则碳酸饮料销售佳。这样的隐含规律,在数据库中处处可见。人脑具有归纳的能力,对于第一、二条描述,可以很快归纳出其中的隐含意义,这是因为我们对于像汽水为碳酸饮料这样的判断具有先验的知识(pre-knowledge)当基础,故可以归纳出更高层次的知识,而如何让程序知道这样的一个知识层次架构,则有赖于专家事先定义好,再交由程序去搜寻。有鉴于此,本研究引入多层式关联法则的概念,希望藉由对多层知识构念架构找到更多隐含的空间知识。

图3-8 多层次知识概念树

柑橘

蘋果

白菜

黃瓜

水果 蔬菜

水稻

小麥

經濟作物

糧食作物

農作物

3. 关联法则之应用

关联法则应用在当手头上有足量的数据,但却又不知道所要寻找的规律主题为何时,最能派上用场。关联法则最常产生的三种分析为:

(1)有用的、包含高质量的有效情报。

(2)明显的、是该行业老手早就知道的事,或已是一般的常识。 (3)难以解释的结果,有可能是一个新的事实发现。运用关联法则分析时,许多结果通常是微不足道或无法解释。

明显的结果产生的是已经知道的事实,复杂的分析往往只是浪费时间,对往后决策没什么建议。无法解释的法则多半是数据中的巧合,无法做决策基础,需要数据探勘以外的技术来帮助了解,以决定何者有用。

关联法则最近已实际应用在商业领域,但在空间问题研究上非常少,Koperski (1995)是最早研究此方面算法的学者,之后Ester et al.(1997)也曾将关连法则应用到空间数据探勘的研究上,其它大多为探讨商业与区位或人口统计资料间的关联法则(Mennis and Liu, 2003; Kangkachit and Waiyamai, 2002; Tang and McDonald, 2001),应用的范围仍不广。从关联法则原始设计目的来看,在于探索那些商品有可能同时会被一起购买,或是购买了那些商品后,就有可能购买某种商品。同理,也可以将这样的观念应用于空间现象的探讨上,将商品项目置换成空间因子,例如,某一空间现象的发生,常伴有那些其他的可能空间现象,或是,当空间环境具有某些环境条件时,会造成某种空间现象的产生,我们可以把环境视为一个超大型的卖场,把空间现象看作是对于环境的一个消费,而消费的项目就是各种环境条件,每一地点环境条件皆不同,就相当于每个人的购物习性不同一般,而这些空间现象所构成的空间数据库,就相当于交易明细纪录的数据库,然后再由巨量的空间数据库中归纳出造成某种现象所隐含的法则。以地震山崩数据库为例,地震山崩可能由多种的环境因子所造成,例如地质条件、地震强度、坡度、坡向等,通常是彼此互相关联,很少是因为单一因子所造成的,也就是说,某处当它的环境条件符合某些状况时,则有可能造成山崩的现象,这正是关联法则可以找出来的规律或法则。

关联法则应用于空间问题的解决,最重要的关键在于数据的转换与编码,因为关联法则适用的数据形式,为一串项目(购物列表),每一个项目包含逻辑值(购买或未购买),每一笔纪录可能都不等长,不完全适用于关

系型数据表,而地震崩塌数据库则大多为数值型数据,如何将连续性或类别性的数据转换成适合关联法则演算的交易项目(item)数据,是本研究所面临的一大重要课题,诚如Roiger and Geatz (2002)所提,数据转换为数据探勘过程中最耗成本但也最重要的步骤之一,它关系着接下来数据仓储的建立与数据探勘演算上所需的基本素材。本研究使用分等的观念,将数值数据切割为若干等份,使数值数据转换为类别型的数据以减少数据项的数量(相当于商品的种类)。将连续数据分等离散化,是数据探勘必须的预处理手段,对于可直接处理连续数据的算法,经过离散分等后可以提高执行效率,并可提高分类的精度,同时,离散分等化本身就是一种由细到粗归纳,在此基础上容易发现较高层次的知识(邸凯昌, 2001)。在本研究中,分等的方法采等距分等法(equal interval)以及Jenks and Coulson (1963)所提之自然分等法(nature break)两种分等方式以便进行比较。经过这样的转换后,数值数据转换为具有9及3个等级的类别数据(表3-3至3-14),如此,每一笔纪录的每一字段属性值均可视为某一购物的商品,例如,若原距断层距离之属性为187公尺,而分等时以100公尺至200公尺为第二级,则产生「DistToFault_2」这样的类别值来取代原先的数值数据「187」。

在模式推导法则的过程中,令环境因子成为法则的条件部分,而发生山崩之案例为法则的输出部分。以这样的方式就可以归纳出众多可能造成山崩的关联法则。

另外,由于探勘的是多层式关联法则,因此本研究将每一因子再上拉一个层次,并且针对新的一层又新增一个字段,也就说将原先的9个等级缩为3个等级。它的编码方式以之前的例子来说,由于上提一个层,故原先的第二级在上一层将变为第一级,此时它的编码值则为「DistToFault_L1_1」,这里1表示第一级,而L1则表示第一层,经过适当的编码与转换后,就可以将关连法则的观念应用于地震山崩的研究上。

二、Spearman 等级相关分析(Spearman Rank Correlation) 1. 等级相关分析之原理

本研究中除地质分布因子本质上是类别型数据(categorical)外,其它各因子为配合关联法则的使用,均已由数值型数据转换为类别型数据,且崩塌地是以网格形式来表示,其网格值为布尔型态(有或无山崩),崩塌地数目的统计必须做计数(count),较不适合使用一般数值型的相关分析,因此藉由Spearman等级相关来分析各单一因子变量与山崩之间的关联性。

等级相关为回归与相关的分析方法之一,主要用于当两变量X与Y的母体分配未知,为了解X与Y之间的相关,将两样本数据X与Y分别依大小排序(由至大至小或由大至小皆可,其结果相同),并给予等级rx与ry,得到的统计量

rs?1?6?di2n?ni?13n(1)

rs: 为关联系数, n: 为分区数, di: 为各分区内山崩格数与该分区内属于某属性分类之格数排序的差。当X与Y的等级顺序完全相等时rs = 1,为正相关,当X与Y的等级顺序完全相反时rs = -1,为负相关,当X与Y不相关时rs = 0,而得到 -1≦ rs ≦ 1。 2. 等级相关分析之应用

Zhao (2000)曾以等级相关分析搭配地理信息系统进行研究,其主要的设计在于先找出各多边形行政区域内的购买顾客数,再搭配各行政区内的人口统计资料如薪资、教育程度等社经因子,探讨不同区域间顾客购买汽车数与人口统计社经资料间的关联性,例如购买车数与收入高低的关联性。本研究因为以网格式资料为探勘的基础数据,为了适用于等级相关分析,我们将研究范围内之资料予以均等分成50区,每一分区具有相同的网格数,做法是由网格图层将图层数据输出成由左至右每个格点一一对应,并且由上而下之逐列(row)的网格值资料。接着再将这些数据转换进入数据库管理系统中,于转换的过程中,由系统为每一笔纪录加上一个唯一的标识符(unique identifier),再以此标识符为依据将数据区分成50


购物车算法(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:建筑工程五方主体质量终身责任制承诺书

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: