数据挖掘在企业中的应用
近年来,人们希望有新的技术和工具对大量数据进行强有力的分析,从中提取出有价值的信息,为决策者提供必要的支持。由此,数据挖掘技术应运而生。许多企业实施了系统,完成了企业业务管理的功能,并形成了准确、及时、完整的基础数据。然而,决策中最重要问题是如何获取更高层次的知识,来把握企业整体运作和决定企业未来的战略发展,这就需要可靠的决策支持系统,而数据挖掘技术就成为实现决策支持系统的最佳途径。
一、数据挖掘的发展 世纪年代以来,由于经济全球化和市场国际化的发展趋势,制造业所面临的竞争更趋激烈。经历了年代的订货点法、年代的时段式、年代的闭环、年代的后,随着市场竞争的加剧,企业竞争空问与范围进一步扩大,逐步发展为怎么样有效利用和管理整体资源的管理思想。随后,在基础上发展起来的于年代产生[]。是一个高度集成的信息系统,它体现了物流信息与资金流信息的集成。在系统中,制造、供销和财务三大部分是其重要组成部分。此外,在功能上还增加了支持物料流通体系的运输管理、仓库管理;支持在线分析处理()、售后服务及质量反馈;支持生产保障体系的质量管理、试验室管理、设备维修和备品备件管理;支持跨国经营的多国家地区、多工厂、多语种、多币值需求;支持多种生产类型或混合型制造企业:支持远程通信(///—)、电子数据交换()、电子商务(—);支持工作流动态模型变化与信息处理程序命令的集成等。事实上,当前的一些软件所具备的功能已经远远超出制造业的应用范围,成为一种适应性强、具有广泛应用意义的企业管理信息系统[]。
随着企业信息化的发展,做为一个集成的、以电子化的管理信息与业务流程贯穿于企业经营各个方面的系统,在企业中广泛得以应用,极大地提高了企业的竞争力,并且积累了比较准确的、及时的、完整的基本事务数据。然而,对于企业管理层来说,想要得到可以辅助决策的信息,就需要决策支持系统。它是以管理科学、计算机科学等为基础,以计算机技术、人工智能技术、数学方法和信息技术等为手段,主要面对半结构化的决策问题,支持中高级决策者的决策活动的一种人机交互系统。它能为决策者迅速而准确地提供决策需要的数据、信息和背景材料,帮助决筑者明确目标,建立和修改模型,提供备选方案,评价和优选各种方案,通过人机对话进行分析、比较和判断,为正确决策提供有力支持[]。根据这个定义,可以看到现有系统满足的只是预先定义处理规则的日常决策。例如,根据企业制定的库存最低限额,仓库管理员每天都要做出这样的决策:今天有哪些材料要提请采购、采购量各是多少等?而那些战术层次的、半结构的决策,系统就不能像操作决策那样完全可以驾驭、甚至取代人来完成了。例如,年度经营预算的编制,无论是以销售收入为起点的预算、还是以制造数量为起点的预算,虽然有其规范的编制格式和项目间的联动关系,但其起点的销售收入和制造数量,则由于相关因素太多,而不能给出非常合理的预测。不难看出,只能完成量化的部分、来自内部与历史的部分,而那些定性的、柔性的部分,只能由决策者在此基础上自行完成。所以,如何由系统直接为决策者提供基于历史数据的决策支持,正是现有系统期待解决的问题。
数据挖掘( ,)的出现解决了这一问题,它是从数据中发现趋势或模式的过程。这一过程的目标就是通过对大量数据的分类从而抽取出人们感兴趣的知识,这些知识是隐含的、事先未知的但非常有用的重要信息。能自动地分析企业的数
据,做出归纳性推理,从中挖掘出潜在的模式和规律,预测在未来可能发生的行为,帮助决策者做出正确决策[]。数据挖掘技术发展迅速,一些通用数据挖掘软件相继诞生,例如 、 等。然而通用数据挖掘系统在处理特定应用问题时有其局限性,因为系统有其特殊性和复杂性,它需要与数据挖掘融合起来,采用符合系统要求的挖掘模型和算法,将挖掘结果结合到系统的决策功能中。
针对这些问题,文献[]提出了一个将数据仓库和数据挖掘技术应用到采购管理的模型( ),强调数据挖掘结合在中的体系结构。文献[]针对销售数据的特点,强调用神经网络预测销售的时阿序列方法应用于数据挖掘中。文献[]提出了一种智能制造资源计划和智能企业资源计划的全新系统模式,即//十,设计出了一种智能预测模块的方法。文献[]的设计方案中,提出了基于/和/的混合结构,采用了多种数学模型来满足挖掘需求,并运用到企业级决策支持系统中。文献[]从系统工程进行决策分析的角度出发,将决策系统分为相容性和不相容性决策系统,针对不同系统的特点提出不同的挖掘模型,并利用粗糙集的方法进行数据的约减和规则提取等。文献[]描述了在系统中进行知识发现和数据挖掘所用到的理论和技术支持、评价标准等,从而建立起一个基本的框架结构。可以看到,在决策支持系统中采用数据挖掘技术以及与数据挖掘技术的结合已经取得了一定的进步,但由于系统的复杂性和特殊性,数据挖掘在这一领域的应用还需要进一步的研究。
二、分类算法与决策系统
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用.决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。
最为典型的决策树分类器学习算法是算法,它采用自顶向下分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。.算法很好地扩展了算法,它将分类领域从枚举型属性扩展到连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它己成为现在公认的性能较优的决策树分类器算法。在实际应用中,我们所构建的决策树通常是基于大型数据库中的海量数据,如何将决策树的构建与数据库技术充分结合起来仍是一个值得研究的问题,为此,很多以前提出的算法被重新研究和拓展。
分类技术是数据挖掘的重要分支,它能够对各个行业提供良好的决策支持,对整个社会的发展产生重要而深远的影响。用于分类挖掘技术的方法有很多,如决策树方法、遗传算法、贝叶斯网络、粗糙集、最临近方法、关联规则方法等等。在这些方法中,决策树方法以其算法容易被入理解、易转换成分类规则、效率较高等优点被广泛研究与应用,使得它在数据挖掘领域中有着重要的地位。
目前分类挖掘在实际应用中有着很重要的应用价值,在很多行业领域都取得一定的成功。比如:在股票市场上对每只股票的历史数据进行分析,通过相应的技术进行预测,从而做出相对比较准确的判断:彩票的购买也可以利用数据挖掘的分类或预测技术进行分析:在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。由于决策树方法在分类挖掘技术中有着独特的优势。而分类技术的应用对整个市场的控制、公司的运营和个人的投资都有着很好的控制作用。因此对