第二章 粒计算的独特魅力
模型的数据对象。例如,数据的分布模型可以通过估计概率分布的参数来构造。如果一个数据对象不能够很好的拟合这个模型,它可能不服从这个分布,那它就是孤立点。如果模型是簇的集合,那么孤立点会明显的不属于任何簇。或者当使用回归模型时,孤立点会相对的远离模型的预测值。 (2) 基于距离的孤立点检测方法[69, 70]
目前,许多孤立点检测的方法都是基于距离的。孤立点就是远离大多数点的点。当数据分散在二维或三维的图中时,我们可以通过基于距离的方法,用肉眼或简单方法分辨出哪些点是孤立点。
(3) 基于偏差的孤立点检测方法[71, 72]
我们也可以通过比较一组数据的主要特征来检测孤立点。根据问题的要求,可以事先给定数据所对应的一些特征,那么孤立点就是这些不能像特征所描述的那样的点。
(4) 基于密度的孤立点检测方法[73, 74]
数据分布的密度估计是相对可以通过计算得到的,尤其是对数据之间存在距离的点来说。那些处于低密度的数据点相对地远离他们的邻居可以被认为是孤立点。但是考虑到数据集可能有不同的密度区域,因此当一个点所在的区域的密度明显低于它的大多数邻居的时候,它可以被归为孤立点。 (5) 基于聚类的孤立点检测方法[75, 76]
聚类分析和孤立点检测有不同的目标。聚类分析通常被用于发现强相关的对象,而孤立点检测则被用来发现那些和强相关的对象没有关系的对象。显然,聚类可以用于孤立点检测。
2.4讨论
在数据挖掘中,粒计算有着广泛的应用[78-80]。数据的粒化,尤其是复杂数据的粒化,是基于粒计算的数据挖掘的必要前提。粒化的程度直接影响数据挖掘的效率和计算复杂度。既要避免粒度过粗而造成求解失败,又要避免粒度过细造成信息的冗余而导致求解效率低下。因此,选择最优粒化程度是粒计算数据挖掘的关键。另外,当粒化的程度已知时,粒化的方法直接决定了粒化的效率。
13
第二章 粒计算的独特魅力
孤立点挖掘是一个将孤立点从数据集中分离出来的过程。通过对引起孤立点的原因进行分析,我们发现孤立点大都是各种情况里的不寻常的对象。他们由突发事件、人为因素或环境原因等所引起的,所以我们需要不同的实施过程将它们分离出来。事实上,从粒计算的观点来看,分离的过程就是粒化的过程,并且上面所列出的孤立点的检测方法都是基于粒化思想的。正如Zadeh所认为[13]的:人类的认知能力概括为粒化、组织和因果推理,人们对孤立点挖据方法的设计正是人类认知能力尤其粒化能力的反应,例如,基于距离、密度和聚类的孤立点检测方法可以看作为基于空间粒化的方法,而基于统计模型和偏离的孤立点检测方法可以被看作为基于模糊匹配信息的粒化方法。而且分离的思想与粒度有着非常近的关联,在不同的粒化水平上,通过使用一些特殊的方法或策略,我们可以选择合适的粒度来缩小孤立点的检测范围,这样就可以提高孤立点挖掘的效率并降低挖掘的时间复杂度,尤其对大数据集中的孤立点挖掘来说效果和意义更明显。
我们换个角度来考虑孤立点检测的方法。粒计算新颖和独特的原因不完全在于提供具体的方法和策略,而在于提出了一个统一的框架,对这些方法和策略进行全面理解及综合。如果我们通过粒结构将知识和系统合为一体。由此产生的结果是,人们能将普遍适用的粒计算哲学有意识地运用到各自面对的问题中去,从而对问题进行更有效的求解。同时,对高层次的粒结构的认识可以防止人们对相同、相似理论和方法的重复发现和发明,避免浪费精力。因此,将粒计算的新颖和独特之处运用到孤立点挖掘中,有如下指导原则:
通过对引起孤立点原因和孤立点检测方法的分析,结合粒计算的观点,从方法本身的高层粒结构出发,独立于检测方法的孤立点挖掘总的指导原则是粒化观点,同时表明了在选择合理的粒度之前,它在孤立点挖掘中扮演着非常重要的角色,根据不同的检测目标,有着不同的粒化原则。而且粒化观点是一种新的求解系统,它是孤立点检测过程中首先并且唯一开始着手的思想。换句话说,对孤立点检测方法的选择、改进和创新,它提供了统一的、正面的和有效的说明。在信息科学快速发展的背景下,它将对孤立点的挖掘产生深远的影响。
图2.1是基于粒计算的孤立点挖掘的统一过程框架图,它是粒计算思想应用到孤立点挖掘中的很好体现,其中有阴影部分是背景知识:
14
第二章 粒计算的独特魅力
图2.1 孤立点挖据的统一实施过程
2.5小结
对于粒计算而言,其思想和理论在孤立点挖掘上得到了充分的体现。在对孤立点挖掘方法的分析和概括的基础上,总结出了独立于方法之上的方法论原则(粒化指导原则),使得孤立点挖掘的着手点集中在粒化的思想上,避免了许多重复性的工作和不必要的麻烦,这是粒计算任务和目标的体现。而孤立点挖掘的统一实施过程流程图体现了粒计算的其他方面:挖掘过程本身是有先后顺序之分,因此是具有一定层次性;而挖掘过程中,粒度大小的选择即合适层次上的粒化,以获取粒化原则用以选择、创新和改进挖掘方法;由于粒度大小选择上原因导致挖掘结果不是很满意,需要调节粒度,因此,这是一个循环反复的过程(体现出了分层结构以及粒结构),其间需要粒计算理论注入其中以求对所要解决的问题选择合理的层次和粒度。
对于孤立点挖掘而言,粒化观点是孤立点挖掘方法的选择、改进和创新的切入点,它的引入使得人们对孤立点挖掘的研究更广泛和更集中即不断的将新的粒化方法引入到孤立点挖掘中和只将挖掘任务放在粒化的思想上进行考虑,这样一方面使得挖掘算法得到不断改进和创新,另一方面又可以避免许多不必要的重复劳动。而孤立点挖
15
第二章 粒计算的独特魅力
掘统一实施过程图的引入,使得孤立点挖掘任务的实施更一致化、明了化和细致化,尤其面对复杂数据诸如数据流、高维数据集和Web数据等中的孤立点挖掘时,该过程图更能体现其优势所在,而且粒计算本身就具有其独特的处理复杂数据的能力。
最后对于二者而言,基于粒计算的孤立点挖掘将会给孤立点挖掘的研究和分析提供一种新的策略和模式,它将对孤立点的挖掘产生深远的影响。而将粒计算思想理论应用于孤立点挖掘,全面体现了粒计算独特的思维模式和研究方法,显示出了它的独特性和新颖性,更体现出了本文的写作意图,将在粒计算的思想理论背景下研究与覆盖相关的理论及其应用即受粒计算思想与理论的影响,获取与覆盖相关的创新思想来源。
16
第三章 覆盖粒计算在基于粗糙集的动态信息系统规则挖掘中
的应用
在动态信息系统中,采用粗糙集方法来挖掘系统中潜在的规则。对于这类问题,由于信息系统的不一致性以及差异信息系统构造过程中的不确定性和差异性,规则挖掘的结果不甚理想:在粒计算的思想理论背景下,本章将覆盖相关理论运用到规则挖掘中,提出了一种消除引起差异信息系统规则挖掘中不一致因素的方法。实验结果表明,在保持时间复杂度不变的情况下,利用改进的规则挖掘算法,通过消除不一致因素而获得的规则将能更全面和更大程度地反映条件属性值变化与决策变化趋势之间的内在联系。
3.1引言
粗糙集方法是一种用于处理不确定性和模糊性数据的数学工具[17, 81]。但由于客观世界的不确定性问题通常表现为易变性和过程性,传统的粗糙集很难体现出不确定性的变化过程和变化趋势,即在信息系统中体现为属性随着时间的推移而不断地变化[82,
83]
。在决策信息系统中,利用粗糙集理论建立属性值随时间和场景变化的动态信息系
统模型[84],可以挖掘出条件属性值变化与决策属性值变化之间存在的内在联系。可是由于动态信息系统构造过程中会产生新的不一致性[85],使得从差异信息系统上获得的决策规则不甚理想。为了能获得理想的决策规则,本文给出了一种能消除引起差异信息系统不一致因素的方法,并给出了改进的基于粗糙集的启发式规则挖掘算法,最终使决策规则能更好更全面的反应条件属性值的变化与决策变化趋势之间的关系。
3.2预备知识
一个信息系统S表示为一个四元组:S?{U,A,V,f},其中U是对象的集合,即论域;A是属性集(A?CN?D,CN为条件属性集,D为决策属性集);V?Va表示a的值域;f:U?A?V?Va?Aa,
是一个信息函数。由于单个信息系统无法描述信息
17