第五章,原来是关联规则,现在要改成聚类的方式,算法为第四章的改进的蚁群算法。原来的功能图太宽跨界了,图不可以超过文档的内容部分。
第一章,主要是研究现状及分析进行修改,其他的文字表述做相应修改 查重率差不多达到10%
1 引言
随着Internet/Web日志技术的急剧增长和快速普及,以及在电子商务和信息共享等方面的广泛应用,用户可以用很低的成本从网络上获得信息,Internet已成为最丰富的信息来源地,为了更好地对这些大量、无序的网页信息进行排序和检索,需要提升搜索引擎对网络信息的处理和组织能力,因此在这样的形势下,产生了Web日志挖掘(Web日志 Mining)[1]技术,目的在于从Web日志的组织结构和链接关系中发掘出有用的模式和规律,该技术无疑成为数据挖掘中的热点,包括自然规则计算方法、神经网络、统计学、机器学习为主等人工智能相关技术。
随着Internet/WWW的全球互通互连,从中取得的数据量难以计算,所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术。Web日志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程。根据Web日志数据类别的不同,可以将Web日志挖掘分为以下三类:Web日志内容挖掘、结构挖掘和使用挖掘。这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息,并且已经在发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。
1.1 课题背景及研究意义
随着万维网的迅速发展以及良好的发展趋势,尤其是电子商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量,需要一种能高效快捷地从Web日志页面中获取信息的工具,由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索,不过仍然存在一些不足之处,比如搜索精度不高、覆盖率有限等问题,无法更好地发现Web日志上潜在、隐藏的知识。
将传统的数据挖掘同Web日志相融合,从而发展出了Web日志挖掘,该技术就传统的数据挖掘来看存在较多优势。它们的不同之处在于:传统数据挖掘技术只是对数据结构中结构化的数据进行挖掘,通过数据间的存储结构不同来发现知识,而Web日志挖掘是针对半结构化、杂乱、动态的数据进行挖掘,由于Web日志页面内容的复杂程度远超过普通文本的样式结果,所以导致了Web日志挖
掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需要将传统数据挖掘技术与Web日志挖掘相结合,融合各自的优点,使整个数据挖掘系统同数据库能更紧密的结合在一起。
由于要对数据进行组织和整合,这就需要一个完整的Web日志挖掘体系,才能分析并得出自己需要的信息。因此进行挖掘之前需要找到相关的Web日志文档。各Web日志信息之间有着密切的关系,从中找到正确的数据结构特点,利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取,避免了各算法之间使用的重复性。
蚁群算法是一种模拟进化的算法,它是借鉴蚂蚁在寻找食物过程中会自动搜寻最短路径而衍生出来的。该算法具有优良的分布式计算[2]、正反馈性等特点,特别是在解决组合最优的问题上已经吸引了很多中外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。在本论文之中,将一种比较新型的蚁群算法的概念引入到WEB挖掘的聚类、分类技术之中,在获取更优的分类规则上面取得了较好的效果。
1.2 研究现状及分析
Web日志挖掘无论在国内还是国外都是通过挖掘服务器存储的Web日志,进而发现用户访问Web站点的访问模式。
根据对Web日志数据源处理方法的不同,Web日志挖掘可以分为以下两类:第一类是将Web日志记录中的数据进行转换,然后传递进传统的关系表中,再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。
(1) Web日志挖掘聚类和分类技术
聚类是从Web日志的访问数据中分析并整合出来具有相似特征事务的技术。Web日志使用挖掘中分为:页面聚类和使用聚类。页面聚类是通过搜索引擎在Web日志上找到具有相关内容的页面组,这更方便于用户在上网时能更容易地获得想要的信息。使用聚类就是将具有相似浏览模式的用户分为一组,这样形成了若干组,并对其量化,从中得到对用户有用的规则,当前该技术常应用于电子商务和一些个性化服务上。这两种聚类方法就是通过搜索引擎分析用户查询或访问网页信息时产生的历史记录所形成的HTML,来向用户提供超链接。
分类是对新添加的数据进行分类并将一个对象分到事先定义好的类中,根据用户群的特征来挖掘出用户群的访问特征。在Web日志挖掘中,分类可以通过访问用户信息而得到的一些用户特征,这需要抽取并选择出最好地描述这组特定
用户的特征,并根据这些特征对用户进行分类。常使用监督归纳学习算法来进行分类,如决策树、K-邻近分类法和支持向量机、机器学习法、贝叶斯分类方法等。
(2) 蚁群算法
蚁群算法,现在被称为蚁群优化(ACO,Ant Colony Optimization)是一种用来在图中寻找优化路径的机率型算法,它源于社会昆虫的群体活动所表现出来令人惊讶的行为,也这对日后研究蚁群行为提供全新的领域。
ACO技术是一种基于群体智能的算法,它源于自然解决问题的思想,并在求解组合优化类问题上有明显的优越性。Marco Dorigo在1991年他的论文中首先提出了蚂蚁系统(AS),通过正反馈、分布式协作来寻找最优路径。并且常用于解决二次指派、多维背包、Job-shop调度等问题上。AS优化算法采用了分布式计算方法,具有多代理性和较强的鲁棒性等特点,且该算法已被大量应用于机器人协作问题求解、电力、通信、数据分析等领域。
蚁群算法是学者受到蚂蚁觅食的启发而发现的,蚂蚁总能找到巢穴与食物源之间的最短路径。经研究发现,蚂蚁群体协作功能是通过遗留在来往路径上的信息素(Pheromone) 来进行信息通讯并形成正反馈。假设蚂蚁走两条不同的路径来寻找食物,刚开始的时候走两条路的蚂蚁一样多,并且在搜索过程中释放出一定量的信息素,当蚂蚁沿着一条路到达终点后返回,短路径的蚂蚁来回一次时间就短且重复频率快,因而在同一时间内走过该路径的蚂蚁数目就多,洒下的信息素也就多,自然就有更多的蚂蚁会吸引过来,这样慢慢当蚂蚁数量不断增加时(同样信息素浓度也增加),最短的路径就近似被发现了。
蚂蚁系统具有搜索最优的能力,得利于其同分布式计算和正反馈机制相结合的特点,使其具有较强的并行性和鲁棒性,但也同样存在一些缺陷,如搜索停滞以及搜索结果局部最优等问题。针对该系统存在的不足,很多中外学者提出了许多改进的蚁群算法,这些优化算法在解决局部搜索最优问题以及搜索停滞问题上有很大的提升。在当前研究形势下,蚁群算法已经成为中外学者广泛关注的热点问题。
1.3 论文组织结构
论文中较系统地分析和论述了Web日志挖掘中的各项技术。在此理论基础上,引入了改进的蚁群算法,并将其成功应用于Web日志挖掘的聚类和分类上。论文的整体构架如下:
第一章 绪论
介绍了本课题的研究背景,主要内容和论文的组织结构
第二章 基于蚁群算法的Web日志挖掘理论
介绍了Web日志挖掘理论,在论述了Web日志挖掘过程的基础上,详细地分析了Web日志挖掘中聚类和分类技术。然后分析了蚁群算法及几种改进的蚁群算法的思想。最后,对现有算法应用于Web日志挖掘技术上存在的问题做了详细地论述。
第三章 Web日志挖掘的预处理技术
对Web日志挖掘中的关键技术,即Web日志挖掘预处理技术进行了全面的分析和总结。
第四章 基本蚁群算法及其改进
对蚁群算法基本原理以传统日志挖掘算法原理进行了分析,并对基本蚁群算法进行了改进,通过仿真来说明基本蚁群算法的原理。
第五章 Web日志数据挖掘系统的实现
以中名老中医临床经验、学术思想传承研究中的Web日志数据为例,基于改进的蚁群算法设计了一套Web日志数据挖掘系统,并对系统进行了评价和分析,为改善中医系统网站提出了优化建议。
第六章 总结与展望
总结了本文的研究工作,提出进一步研究的方向。
2 基于蚁群算法的Web日志挖掘概念
2.1 Web日志挖掘
随着信息技术的普及和应用,各个领域产生了大量的数据,这些数据被获取、存储下来,其中蕴含着丰富的信息。人们持续不断地探索处理这些数据的方法,以期最大程度地从中挖掘有用的信息,面对如潮水般不断增加的数据,人们不再满足于数据的查询和统计分析,而是期望从数据中提取信息或者知识为决策服务。数据挖掘技术突破了数据分析技术的种种局限,它结合统计学、数据库、机器学习等技术解决从数据中发现新的信息,辅助决策这一难题,是正在飞速发展的前沿学科。一些大型企业对数据挖掘产品和工具的使用都超过20年,并已产生了期望的效应。此外,数据挖掘产品和工具在金融、商业、电信、医学等多个领域也得到广泛推广应用。
在数据库技术飞速发展的同时,人工智能领域的一个分支----机器学习的研究也取得了很大的进展。自20世纪50年代开始机器学习的研究以来,在不同时期的研究途径和研究目的也不尽相同。一般大致可以分为三个阶段,其研究内容则分别为:神经模型和决策理论、概念符号获取及知识加强和论域专用学习。根据人类学习的不同模式人们提出了很多机器学习方法,如:实例学习、观察和发现学习、神经网络和遗传算法等。其中某些常用且较成熟的算法已经被人们用于实际的应用系统及智能计算机的设计和实现中。正是由于数据库技术和机器学习技术的发展,也是为了满足人们实际工作的需要,数据挖掘(Data Mining)技术逐渐发展了起来。
Web日志挖掘是一项综合技术,是数据挖掘在Web日志上的应用,涉及有信息学、数据挖掘、机器语言学、Web日志技术等多个领域。它是利用数据挖掘技术从Web日志相关的行为和资源中挖掘出新颖的、有效的、潜在有用、用户易理解的模式和信息的过程。Web日志数据挖掘的基本原理过程如图2.1所示。