数据挖掘研究及发展现状

2020-03-27 10:12

数据挖掘技术的研究现状及发展方向

摘要：数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展方向。关键词：数据挖掘；神经网络；决策树；粗糙集；模糊集；研究现状；发展方向

The present situation and future direction of the data mining technology research

Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining.

Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction

0 引言

随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。

数据挖掘通常又称数据库中的知识发现（Knowledge Discovery in Databases），是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。

数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。

数据选择：确定发现任务的操作对象,即目标对象；

预处理：包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等；

转换：消减数据维数或降维；

数据开采：确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等，并确定使用什么样的开采算法；

解释和评价：数据挖掘阶段发现的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要剔除，使用户更容易理解和应用。十大经典算法如图2：

目前，数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

1 数据挖掘算法

数据选择目标数据预处理预处理数据转换转换数据数据开采模式解释评价知识图1 数据挖掘过程

C4.5是机器学习算法中的一种分类决策树算法，它是决策树核心算法ID3的改进算法K-means是一种聚类算法。它与处理混合正态分布的最大期望算法很相似，因为它们都试图找到数据中自然聚类的中心SVM支持向量机（Support Vector Machine）。一种监督式学习的方法，广泛运用于统计分类以及回归分析中Apriori是一种最有影响的挖掘布尔关联规则频繁项集的算法EM十大经典算法PageRank最大期望算法（Expectation Maximization ）。是在概率模型中寻找参数最大似然估计的算法是google算法的重要内容。PageRank根基网站的外部链接和内部链接的数量和质量，衡量网站的价值Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器KNNK-最近邻域分类算法(K-Nearest Neighbor)。是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一Naive Bayes应用最广泛的两种分类模型有决策树模型和朴素贝叶斯模型，理论上与其它算法比，它具有最小的误差。Cart分类与回归树，在分类树下有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝

图2 十大经典算法

1.1 神经网络法

神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。 1.2 决策树法

决策树是通过一系列规则对数据进行分类的过程，其表现形式是类似于树形结构的流程图。分类速度快；缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据，而且特别适合大规模的数据处理。

上。其优点是具有抗干扰、非线性学习、联想记忆功能，对复杂情况能得到精确的预测结果；缺点是不适合处理高维变量，不能观察中间的学习过程，具有/黑箱0性，输出结果也难以解释；其

最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5]，之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的，不需要长时间构造过程、描不需要长时间构造过程、描述简单，易于理解， 1.3 遗传算法

遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基

于进化理论的机器学习方法。它的基本观点是/适者生存0原理，具有隐含并行性、易于和其它模型结合等性质。主要的优点是可以处理许多数据类型，同时可以并行处理各种数据，对问题的种类有很强的鲁棒性；缺点是需要的参数太多，编码困难，一般计算量比较大。遗传算法常用于优化神经元网络，解决其它技术难以解决的问题。 1.4 粗糙集法

粗糙集法也称粗糙集理论，是一种新的处理含糊、不精确、不完备问题的数学工具，可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单，不需要关于数据的任何预备的或额外的信息；缺点是难以直接处理连续的属性，须先进行属性的离散化。因此，连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。 1.5 模糊集法

模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性[7]。系统的复杂性越高，模糊性就越强。

1.6 关联规则法

关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上，数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。

2 数据挖掘研究现状

2.1 国外研究现状

知识发现[8]( Knowledge Discovery in Databases， KDD)与DM是数据库领域中最重要的课题之一。KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。1995年在加拿大蒙特利尔召开的首届KDD & Data Mining国际学术会议上，把数据挖掘技术分为科研领域的知识发现

与工程领域的数据挖掘[9]。之后每年召开一次这样的会议，经过十几年的努力，数据挖掘技术的研究已经取得了丰硕的成果。目前，对KDD的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。目前，国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究，如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高；KDD与数据库的紧密结合；传统的统计学回归方法在KDD中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统，主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用，IBM和微软都相继成立了相应的研究中心[10]。美国是全球数据挖掘研究最繁荣的地区，并占据着研究的核心地位。

由于数据挖掘软件市场需求量的增大，包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来，到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。以下为目前最主要的数据挖掘软件：

(1) Knowledge Studio：由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。最大的优点：响应速度快，且模型、文档易于理解，SDK中容易加入新的算法。

(2) IBM Intelligent Miner：该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作；支持分类、预测、关联规则、聚类等算法，并且具有强大的API函数库，可以创建定制的模型。

(3) SPSS Clementine：SPSS是世界上最早的统计分析软件之一。Clementine是SPSS的数据挖掘应用工具，它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。该软件首次引入了数据挖掘流概念，用户可以在同一个工作流环境中清理数据、转换数据和构建模型。

(4) Cognos Scenario：该软件是基于树的高度视图化的数据挖掘工具，可以用最短的响应时间得出最精确的结果。

此外，还有由美国Insightful公司开发的I

-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的Affinium Model、加拿大Simon Fraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的Database MiningWorkstation、Neo Vista开发的Decision Series等。

2.2 国内研究现状

与国外相比，国内对数据挖掘的研究起步

稍晚且不成熟，目前正处于发展阶段。最新发

展：分类技术研究中，试图建立其集合理论体

系，实现海量数据处理；将粗糙集和模糊集理

论二者融合用于知识发现；构造模糊系统辨识

方法与模糊系统知识模型；构造智能专家系统；

研究中文文本挖掘的理论模型与实现技术；利

用概念进行文本挖掘。我国也有不少新兴的数

据挖掘软件：

(1) MSMiner：由中科院计算技术研究所智

能信息处理重点实验室开发的多策略通用数

据挖掘平台[11]。该平台对数据和挖掘策略的

组织有很好的灵活性。

(2) DMiner：由上海复旦德门软件公司开

发的具有自主知识产权的数据挖掘系统。该系

统提供了丰富的数据可视化控件来展示分析

结果，实现了数据查询结果可视化、数据层次

结构可视化、多维数据结构可视化、复杂数据

可视化。

(3) Scope Miner：由东北大学开发的面向

先进制造业的综合数据挖掘系统。

(4) iDMiner：由海尔青大公司研发的具有

自主知识产权的数据挖掘平台。该平台大胆采

用了国际通用业界标准，对该软件今后的发展

有很大的促进作用，同时也为国内同类软件的

开发提供了一条新的思路[12]。

除此之外，还有复旦德门公司开发的CIAS

和AR Miner、东北大学软件中心开发的基于

SAS的Open Miner以及南京大学开发的一个原

型系统Knight等。

目前，国内数据挖掘软件产业还不成熟，

从事此方面研究的人员主要集中在高校，只有

少部分分布在研究所或公司，且大多数研究项

目都是由政府资助，主要的研究方向集中在数

据挖掘的学习算法、理论方面以及实际应用。

研究的产品尚未得到国际市场的认可，在国际

上的使用更是为数甚少。

3 数据挖掘的研究热点及发展趋势

就目前来看，数据挖掘的几个研究热点主要包括数据流挖掘、文本挖掘、Web挖掘、及生物信息数据挖掘四个方面。 (1)数据流挖掘

通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各

类传感器网络中的检测数据流、金融领域的证

券数据流、卫星传回的图像数据流以及零售业

务中的交易数据流等形成了一种与传统数据

库中静态数据不同的数据形态——数据流。

数据流实时、连续、有序、快速到达的特

点以及在线分析的应用需求,对流数据挖掘算

法提出了诸多挑战，其中最主要的挑战是使用

小的存储空间和少的运行时间快速地进行必

要的处理，传统的处理方法难以满足这种要求。(2)文本挖掘

文本挖掘是近几年来数据挖掘领域的一

个新兴分支，文本挖掘也称为文本数据库中的

知识发现，是从大量文本的集合或语料库中抽

取事先未知的、可理解的、有潜在实用价值的

模式和知识。

目前，国外的文本挖掘研究已经从实验性

阶段进入到实用化阶段，著名的文本挖掘工具

有：IBM的文本智能挖掘机、Autonomy公司的

Concept Agents、TelTech公司的TelTech等。但

是，国内正式引入文本挖掘的概念并开展针对

中文的文本挖掘研究是从近几年才开始的。

(3) Web挖掘

Web挖掘定义为：从Web文档、Web活

动中抽取感兴趣的、潜在的有用模式和隐藏信

息。

Web挖掘的研究主要有3种，即Web结

构研究、Web使用研究和Web内容研究。

Web挖掘广泛应用于搜索引擎、网站设计

和电子商务等领域。面向Web的数据挖掘比面

向数据库和数据仓库的数据挖掘要复杂得多，

这是由于互联网上异构数据源环境、数据结构

的复杂性、动态变化的应用环境等特性所决定

的。

(4)生物信息数据挖掘

人类基因组计划的启动和实施使得核酸、

蛋白质数据迅速增长，这些海量的数据需要被

合理的存储、组织和索引，信息科学被引入这

一领域就形成了“生物信息学”。生物信息学是定义为生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。它应用先进的数据管理技术、数学分析模型和计算机软件对各种生物信息进行提取、储存、处理和分析，旨在掌握复杂生命现象的形成模式与演化规律。显然，数据挖掘在生物信息中具有重要的作用，生物信息数据挖掘通过利用数据挖掘技术和方法来发现对分子生物学有价值的知识。数据挖掘与生物信息学有很好的结合点，其在生物信息学领域的应用潜力日益受到人们的重视。

随着越来越多的业务需求被不断开拓，数据挖掘已成功应用于社会生活的方方面面，目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力，像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术[13]。以下是未来比较重要的数据挖掘发展趋势：

(1) 数据挖掘技术与特定商业逻辑的平滑集成问题；

(2) 数据挖掘技术与特定数据存储类型的适应问题；

(3) 大型数据的选择与预处理问题；

(4) 数据挖掘系统的构架与交互式挖掘技术；

(5) 数据挖掘语言与系统的可视化问题； (6) 数据挖掘理论与算法研究； (7) 与数据库数据仓库系统集成； (8) 与语言模型系统集成； (9) 挖掘各种复杂类型的数据； (10) 支持移动环境；

ICDM2005 前夕全球数据挖掘顶级专家列出了数据挖掘研究领域10大挑战性问题:

(1) 数据挖掘理论的构建(Developing a

Unifying Theory of Data Mining)；

(2) 高维、数据流数据挖掘(Scaling Up for

High Dimensional Data/High Speed Streams)；

(3) 时间序列数据挖掘(Mining Sequence

Data and Time Series Data )；

(4) 从复杂数据中挖掘复杂知识(Mining

Complex Knowledge from Complex Data)；

(5) 网络环境下的数据挖掘技术(Data

Mining in a Network Setting )；

(6) 分布式多代理的数据挖掘(Distributed

Data Mining and Mining Multi-agent Data)；

(7) 生物及环境问题数据挖掘(Data

Mining for Biologicaland Environmental Problems )；

(8) 相关问题的数据挖掘处理

(Data-Mining-Process Related Problems )；(9) 安全、隐私及数据整合(Security,

Privacy and Data Integrity ) (10) 非静态、不平衡及代价敏感的数据挖

掘(Dealing with Non-static, Unbalanced and Cost-sensitive Data)；

4 结语

针对数据挖掘的主要算法，分析了各自的优缺点及其所适用的领域，并根据目前国内外数据挖掘的研究现状和研究热点指出了未来几年数据挖掘的发展趋势。目前数据挖掘逐渐从高端的研究转向常用的数据分析，在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。尽管如此，数据挖掘技术仍然面临着许多问题和挑战，如超大规模数据集中的数据挖掘效率有待提高，开发适应于多数据类型、容噪的挖掘方法，网络与分布式环境下的数据挖掘，动态数据和知识的数据挖掘等。

总之，数据挖掘只是一个强大的工具，它不会在缺乏指导的情况下自动地发现模型，而且得到的模型必须在现实生活中验证，数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的，并且要深刻了解期望解决问题的领域，理解数据，了解其过程，只有这样才能解释最终所得到的结果，从而促使挖掘模型的不断完善和提高，使得数据挖掘真正地满足信息时代人们的要求，服务于社会。

参考文献：

[1] 胡侃,夏绍玮.基于大型数据仓库的数据采

掘：研究综述[J].软件学报，1998，9(1)：53-63.

[2] 陈娜.数据挖掘技术的研究现状及发展方

向[J].电脑与信息技术，2006，2(1)：46-49.

共2页:

数据挖掘研究及发展现状.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档