2.1.5知识发现过程的步骤
知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别。知识发现过程包括以下步骤:
第 3 页 共 15 页
知识发现与管理 2 知识发现
图2-1 知识发现过程图
其中,数据准备阶段包括数据采集、数据抽取、数据预处理和数据变换四个步骤。数据采集是指从信息媒体中收集相关领域的数据并存储于数据库中;数据抽取是指从数据库中选择符合用户需求的相关数据和相关属性,并将其转换为数据挖掘的组织形式;数据预处理是指消除所选数据的噪音,使数据保持其完整性和一致性;数据变换则是根据知识发现的需求,对数据类型进行转换,并利用数据属性间的关系进行数据简约,以减少有效数据的维数和规模。
数据挖掘作为知识发现中的重要步骤,主要采用机器学习、统计等方法对知识进行学习。其算法的好坏直接影响到所发现知识的好坏。结果的评估与解释是将数据挖掘得到的诸多模式知识,按照用户需求进行评估,解释,将其转换成易于人们理解的、符合实际需求的知识,从而提供决策支持。
2.2 知识发现的内在机理
目前国际上的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心,这是在相当长的时间内保持的主流与基调然而,数据发掘的局限性,正是源于对知识发现系统内在规律性缺乏研究与认识若将局限于一个封闭的模式中,不可避免地会带来一系列的问题而若把知识发现及其相关的一些进程作为一个宏观的开放的整体来考虑,会在一定程度上解决以上问题另外当前对于主流技术的研究已取得了一定的成果,对算法的研究已不局限于以往的一些传统算法,而涉及到了粗糙集、遗传算法、概念格、小波分析等一些相关的技术方法,这不仅为系统的整体体系结构的构建提供了基础,而且在客观上也要求为系统提供一个理论上的体系框架,将各种相关领域的研究统一起来这些成为在领域里开拓新的研究方向的基本背景。
第 4 页 共 15 页
知识发现与管理 2 知识发现
2.2.1 双库协同机制
双库协同机制即挖掘数据库与挖掘知识库在 KDD 进程中的协同机制。 (1)定义
在给定真实数据库和基础知识库的前提下,在数据发掘过程中,具备以下特征的KDD中的运行机制为双库协同机制:① 在真实数据库上,按数据子类结构形式所构成的发掘数据库的可达范畴,与基于属性间关系的发掘知识库的推理范畴之间,构建范畴间的等价关系,2个范畴的等价关系为定向发掘和定向搜索奠定理论基础;② 在聚焦过程中,除依据用户需求确定聚焦外,通过启发协调算法可以形成依发掘知识库中知识短缺而生成的机器自身提供的聚焦方向,进而形成在数据库中的定向发掘(算法和进程);③ 在获得假设规则到知识评价的过程中产生的中断进程,即先不对假设规则进行评价,而是通过中断协调算法到发掘知识库中进行定向搜索,以期发现产生的假设规则与知识库中原有的知识是否重复、冗余和矛盾,并作相应处理,即对知识库进行实时维护。
(2)在双库协同机制的研究中,给出了一系列定义,并演绎出重要的结构对应定理,还提出及实现了启发协调算法与中断协调算法以下给出结构对应定理。
定理(结构对应定理),对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间
与关于数据子类(结构)的拓扑空间
,是同一泛同伦型的空间。
(3)意义,双库协同机制基本上解决了数据发掘过程中对领域固有的基础知识库的实时维护,同时在一定程度上,解决了认知自主性的问题即利用启发型协调器,实现了计算机自动发现“知识短缺”,系统自身根据知识短缺产生创见意向,形成定向发掘对挖掘出来的知识通过中断型协调器,对知识库进行实时管理与维护。基于双库协同机制的 KDD 系统是 KDD技术与双库协同机制相融合的一种知识发现的新结构即构建数据库,与基础知识库的内在联系“通道”,从而用基础知识库去制约与驱动 KDD 的发掘过程,改变 KDD 固有的运行机制,在结构与功能上形成了相对于而言的 KDD 一个开放的、优化的扩体同时该机制的提出可以诱导出新的、有效的知识发现的结构模型,并产生具有高效、高扩展性的知识发现算法。
2.2.2 双基融合机制
双基融合机制即与在综合基的知识发现系统中的融合机制。 (1)定义
第 5 页 共 15 页
知识发现与管理 2 知识发现
双基融合机制是指在基于数据库与基于知识库(综合基上)的知识发现系统中,具有下列内涵的机制,① KDK( Knowledge Discovery in knowledge )过程要依赖于数据库即将在 KDK 过程中发掘出的新知识随时送人数据库中,以数据库中的数据来验证新知识,② KDD 过程要依赖于 KDD 的发掘过程,即在 KDD 中发掘出的某些特定的新知识可送人KDD 过程中进行验证,看 KDD 中发现的规则在 KDD 过程中是否能被发现。这一过程本质上是确定 KDD 中发现的新规则在现实中是否有意义。③ KDD 依赖于固有知识库,即 KDD 过程中发现的新知识要实时的、定向的嵌人固有知识库,以验证新知识与原有知识是否冗余、矛盾和重复。
(2)论证了 KDD 模型与 KDD 模型各要素间的对应关系,建立 KDD 与 KDD 过程的协同对应模型,在双基融合机制下构造了一个基于事实的知识发现算法,得到了有效的验证并用卡尔纳普的归纳逻辑来建立自身的评估体系,从而建立了 KDD 的整体结构框架这样做使得摆脱了长期以来只能借助人机对话进行评价的窘境,机器自身有了客观的评价标准。
(3)从以上种内涵可以看出,双基融合机制的本质在于在具有综合基的知识发现系统中,构建与的相互制约的内在联系,使它们能够相辅相成,是一种机器智能的较高境界。
2.2.3 信息扩张机制
该机制把信息扩散理论的结果经合理修正,有针对性地移植到知识发现系统中,建立双库协同、双基融合的信息开放系统中信息扩张的模型,并研究这个模型的性质和运动机理把信息扩散的计算思维运用到知识发现过程中去,以寻求在知识库与数据库的动态扩张下,知识信度、优化与算法复杂性等变化规律信息扩张机制的研究是多学科交叉的结果,它涉及到认知科学、人工智能、计算机逻辑、理论物理、哲学、突变论、耗散理论、混沌理论、计算机科学、系统科学等多个学科。