第一章 绪 论
糙集理论推广到覆盖广义粗糙集理论。
1.2.2覆盖广义粗糙集的国内外研究现状
然而,自从Pawlak粗糙集理论被推广到覆盖广义粗糙集理论之后,国内外学者对其做了大量的研究。文献[26-53, 54-58]对覆盖广义粗糙集理论进行了深入研究,其中文献[30]讨论了覆盖广义粗糙集的近似算子,文献[29]主要研究覆盖上下近似运算分别成为Kuratowski闭包和内部运算的充分必要条件,文献[27-28]主要研究了覆盖广义粗糙集中一阶集合运算,文献[26]主要结合形式概念分析来研究覆盖广义粗糙集,文献[31, 53]讨论了广义粗糙集理论的代数结构,文献[49, 57]对基于关系的广义粗糙集进行了研究,文献[33, 43, 44, 54, 56]对在覆盖广义粗糙集理论下的约简和不确定性度量进行了研究,文献[34-36, 39, 41-42, 45-48, 51, 58]对覆盖广义粗糙集理论中的上下近似运算进行了公理化的研究,文献[38, 40, 52]分别对覆盖广义粗糙模糊集和拓扑相关性质进行了研究,而文献[60-63]对变精度的覆盖广义粗糙集理论及其模型进行了研究,以及其他的一些有关覆盖广义粗糙集理论的研究和总结[32, 50, 55, 59]。就应用方面而言,覆盖广义粗糙集理论已应用于冲突分析[37]、信息检索[64]等领域。
1.3本文研究的意义、目标、方法和主要内容以及创新点
1.3.1本文研究的意义
由于覆盖广义粗糙集理论是将Pawlak粗糙集理论在划分基础上推广到覆盖而建立起来的,而覆盖广义粗糙集理论主要研究与覆盖相关的理论体系及应用,所以
有关粗糙集一些理论和应用并不一定在覆盖广义粗糙集下适用,那么在粒计算思
想理论背景下研究覆盖广义粗糙集的相关理论和应用就显的十分有意义。
1.3.2本文研究的目标
虽然覆盖广义粗糙集有了一定的理论基础和应用领域,但与粗糙集相比,需要不断丰富其理论基础和应用领域,而继续建立覆盖近似运算公理化理论体系、覆盖约简及近似性度量和不断寻求覆盖广义粗糙集的适用方向是进一步研究的具体目标,本文
8
第一章 绪 论
旨在对覆盖广义粗糙集的应用基础进行研究。
1.3.3本文研究的方法、技术路线及可行性分析
本文将采用由浅入深、并行开展的研究方法。首先,介绍了粒计算思想理论体系的新颖性以及独特性——以孤立点挖掘为例。其次,在粒计算思想理论体系下,利用覆盖相关理论分别对基于粗糙集的动态信息系统规则挖掘、关联冲突分析、分类准确率三个方面进行独立研究。
(1) 在基于粗糙集的动态信息系统规则挖掘中的应用研究中,主要利用条件属性和决策属性的交叉一致性来寻找引起差异信息系统中的不一致因素,然后利用改进的规则挖掘算法通过实验对比来实现。
(2) 在面向冲突分析的研究中,将冲突看作是在不同结构层上的粒化过程,提出关联冲突的概念,给出其形式化的定义,然后并对其进行分析和建模,最后给出关联冲突过程中所可能引发异常的阶段,将对不同阶段引发的异常进行详细的分析 (3) 在面向分类准确性研究中,利用拓扑覆盖邻域理论来寻找覆盖系统上重叠元素,然后在粒计算的思维体系背景下,以实例辅证,采用折中方式给出独立于数据标签和理想分类结果假设的评价分类法准确性的统一范式。
以上提出的研究方法和技术路线是在前人对覆盖广义粗糙集理论和应用以及相应领域研究基础上的再探索。虽然涉及领域比较宽泛,但都是在粒计算背景下研究的与覆盖相关的理论和应用,所以本文实施和所采用的技术路线是可行的。
1.3.4本文研究的主要内容以及创新点
本文主要是在粒计算的思想理论背景下研究与覆盖相关的理论及其应用。具体包括以下六章内容:
第一章为绪论。首先介绍了粒计算的相关理论知识;然后介绍了覆盖广义粗糙集的研究背景,分析了国内外研究现状;最后介绍了本文的研究意义、目标、方法和主要内容以及创新点。
第二章为粒计算的独特魅力。本章主要讨论了粒计算的新颖性和独特性——以孤立点挖掘为例,创新性地给出了孤立点挖掘总的指导原则和具体实施的流程图,为孤
9
第一章 绪 论
立点挖掘算法的选择、改进和创新提供了实际的参考价值,以此来揭示粒计算的独特思维模式和研究方法,进而体现本文的写作意图即受粒计算思想与理论的影响,获取与覆盖相关的创新思想来源。
第三章为覆盖粒计算在基于粗糙集的动态信息系统规则挖掘中的应用研究。本章针对差异信息系统构造过程中会引起新的不一致这个问题,利用覆盖粒计算相关理论提出了一种新的能消除这种不一致因素的公理化方法。实验结果表明,在保持时间复杂度不变的情况下,利用改进的规则挖掘算法,通过消除不一致因素而获得的规则更全面和更大程度地反映了条件属性值变化与决策变化趋势之间的内在联系。 第四章为基于覆盖粒计算的关联冲突分析。本章在粒计算思想理论背景下,首次提出了“关联冲突”的概念,利用覆盖冲突分析策略,通过“服务——资源”实例建立了关联冲突分析的合理泛化模型,讨论了关联冲突过程中所可能引发异常的阶段,并对不同阶段引发的异常进行了详细的分析,给出了具体的解决方案。
第五章为基于覆盖粒计算的分类准确性研究。在面向分类法准确性(单标签和多标签数据集)的研究中,本章利用拓扑覆盖邻域理论,给出了一种新的寻找覆盖系统上重叠元素的相关的公理化方法。在粒计算的思维体系背景下,以实例辅证,创新性地给出了独立于数据标签和理想分类结果假设(一种假设为划分,另一种假设为覆盖)的评价分类法准确性的统一范式。需要说明的是,本章对于分类法准确性统一范式的给出采取的折中处理方式值得借鉴。
第六章为总结与展望。文章在同一个思想理论背景下,讨论了基于覆盖的相关理论和应用,它是覆盖广义粗糙集的理论及其应用的补充和发展,并且更体现出了粒计算背景下知识发现理论和方法的独特性,具有重要的理论意义及潜在的应用价值,同时对该领域理论和应用研究的发展方向提出了新的展望。
此外,本文收录了一些该领域内最新的研究成果,以期能为科研工作者认识和深入研究提供便利。
10
第二章 粒计算的独特魅力
——以孤立点挖掘为例
本章主要讨论粒计算的新颖性和独特性,以此来揭示粒计算的独特思维模式和研究方法,从中体现出本文的写作意图,在粒计算思想理论背景下的覆盖理论及其研究的问题即受粒计算思想与理论的影响,获取与覆盖相关的创新思想来源。以孤立点挖掘为例,在粒计算的思想理论背景下,给出了孤立点挖掘总的指导原则和具体实施的流程图,为孤立点挖掘算法的选择、改进和创新提供了实际的参考价值,将会对孤立点的挖掘产生一定深远的影响。
2.1引言
孤立点也即异常点[65],是指数据集中不符合一般模型的那些对象,即和其他数据有着不同的性质。对于某些度量而言,这些对象与数据集中的其他数据有着显著的不同。目前,针对不同的数据挖掘任务和挖掘背景,一些数据挖掘算法尽量去减少孤立点带来的影响或者甚至是从数据集中消除他们,然而,这可能会导致一些重要的隐秘信息的缺失。换句话说,孤立点本身在诸如入侵检测等事件中有着特殊的意义,它可以表示入侵的异常行为。因此,孤立点的检测和分析(即孤立点挖掘)在数据挖掘中就显得非常重要。一般,孤立点挖掘问题可以看作两个子问题:一个是在给定的数据集中定义一个什么样的数据可以被认为是孤立点或不一致的;另一个是找到一个有效的方法去挖掘这些定义的孤立点。
在过去的一个多世纪里,人们对孤立点的研究经历了几个兴衰交替。现在,它再一次成为信息科学里的一个活跃分支,并在数据挖掘领域里受到越来越广泛的关注。孤立点挖掘之所以有着广泛的应用,是与其所在的实际领域里的特殊性决定,诸如入侵检测、市场营销和医疗等领域。孤立点的引起是有一些原因的[66],同时相应的也有一些检测或挖掘孤立点的方法[67-76]。然而,每种方法总是存在着不可避免的缺点或者略势,没有一个普遍有效的方法来检查数据集中的孤立点[77]。特别在检测孤立点的过
11
第二章 粒计算的独特魅力
程中,如何选择一个合适的检测方法没有一个普遍的准则,而且就孤立点目前研究的热点和未来的发展来说[77],挖掘任务会变得非常困难。因此,寻求一个适用于孤立点挖掘的总的指导原则就成为了最急需要解决的问题。
2.2引起孤立点的原因
(1) 数据来自不同的类
一个数据不同于其他数据,可能因为它来自不同的类或属于不同的类型。例如,一个在进行信用卡欺诈的人可能被归为不合法的信用卡用户而不是非法的用户。相同地,诸如欺诈、入侵、疾病暴发和异常的实验结果等都可以被认为是造成孤立点的例子。
(2) 自然变异
在统计知识的背景下,一些诸如正太分布等模型可以用来模拟许多数据集的分布。随着数据点离正太分布的中心距离的增加,该点出现的可能性就会急剧地减少。换句话说,对于大多数点来说,离中心(平均对象)越近,不同于这个平均对象的可能性就越小。例如,假定一个男性特别的高,当他独自一人时,没有人与之形成对比,他没有什么特别之处。但是一旦于其他人在高度上做比较时,他就是一个孤立点,在这群人里他是一个高度上的极值。通常这些极值点或没有任何变异的点作为孤立点是非常有意思的。
(3) 数据度量和收集导致的误差
在数据收集和度量的过程中,所导致的误差是引起孤立点的另一个根源。例如,由于人为失误、设备误差或者数据本身具有噪音导致所记录的度量值不正确。一般情况下都会删除这些孤立点,因为他们不能提供有用的信息,相反他们会降低数据分析的质量。但这些数据能反映出一些有用的信息,例如误差的根源是人为、设备还是其他的原因造成的等。
2.3孤立点挖掘方法的思想描述
(1) 基于统计模型的孤立点检测方法[67, 68]
许多检测技术首先都会构造一个数据模型。孤立点就是这些不能够很好拟合这个
12