基于Web日志的实时推荐模型研究(4)

2020-02-20 22:57

工程硕士学位论文

数据集，进行规一化处理后，生成模式向量，采用SOFM模型进行聚类，最后生成用户聚类。

Web数据挖掘在国内已经引起人们的关注，但是，在收集网站访问日志过程中发现国内大多数网站经营管理者对从访问日志中发掘有用信息的重要性认识不充分，仅仅停留在只收集了用户错误的访问记录，网络管理人员还停留在关注服务器性能阶段，没有达到关注网站服务质量的更高层次上。

1.3论文研究的主要内容 (The Main Contents in the Paper)

首先，介绍了Web挖掘技术研究的背景和意义，以及国内外研究现状，并介绍了Web日志挖掘中所涉及到的相关知识，对其中的数据预处理技术进行了较全为全面的阐述，特别是对Web日志挖掘系统中所涉及到基于时间阈值的会话识别算法进行了分析，从而保证数据挖掘的正确性。

接着，对已有的聚类技术进行了简单介绍，并详细分析了一个基于模糊聚类算法对Web日志的用户和网页进行动态聚类，提出用最大-最小法的模糊相似性度量构造模糊相似矩阵的方法，并通过一个实例进行。

最后，详细的介绍了一个基于Web日志的实时推荐模型，通过构造BP树（Brows Pattern Tree）的方法记录用户的历史访问记录，然后通过挖掘算法得到频繁访问集，从而生成推荐集，实现实时推荐的需要。然后结合一个实例对该算法进行了验证。

1.4 论文结构安排 (Structure Arrangement in the Paper)

本论文的后续章节的内容安排如下:

第一章：绪论，主要介绍了Web日志挖掘的背景和意义，以及国内外的研究状况。

第二章：主要介绍本论文所涉及到的基础知识，包括数据挖掘和Web挖掘的定义、Web挖掘的分类、Web日志挖掘相关技术和基于Web日志的数据挖掘系统。

第三章：主要介绍数据预处理技术，尤其是基于Web日志的数据数据预处理技术；还给出了基于Web日志的数据预处理过程，使用一个基于页面访问时间阈值与会话重组的会话识别算法，并通过实际的Web日志数据加以验证。

第四章：首先对已有的聚类技术进行了简单介绍；接着，详细分析了一个典型的基于模糊聚类的算法，针对Web客户聚类和页面聚类的问题，提出了模糊聚类的方法，利用此方法可以很好的解决Web日志中客户聚类和网页聚类。根据用户对Web页面的浏览情况分别建立Web用户和Web页面的模糊集，然后用最大-最小法的模糊相似性度量构造模糊相似矩阵，并由此构造了模糊动态聚类

1绪论

算法，实验表明该方法可行而且具有很好的扩展性。

第五章：针对个性化实时推荐系统的不足，提出了一个基于Web日志的实时推荐模型，通过构造BP树的方法压缩访问事务集，将耗时的数据预处理放在离线模块，实时推荐采用动态修剪BP树的方法，穿过访问模式树的相关部分，然后利用网页推荐算法得到频繁访问集，从而生成推荐集。结果表明该算法只需扫描数据库一次，得到的频繁模式可以满足页面实时推荐的快速需求。最后，还对算法的性能进行了简单地分析。

最后，对本论文所做工作进行了总结，并对未来的工作进行了展望。

工程硕士学位论文

2 相关知识基础

2 Related Knowledge Foundation

2.1 数据挖掘简介 (Brief Introduction on Data Mining)

数据挖掘(DM：Data Mining)，也称为数据库中的知识发现KDD(Knowledge Discover in Database)，是近年随着数据库和人工智能发展起来的一门新兴的数据库技术[11]。

知识发现，这一术语首先出现于1989年在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。迄今为止，由美国人工智能协会主办的KDD国际研讨会已经召开了8次，规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方法转向系统应用，并且注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一，KDD已经成为当前计算机科学界研究的一大热点。

数据挖掘是一门交叉型学科，涉及到很多的学科，例如：机器学习、模式识别、统计学、数据库、知识获取、知识表达、专家系统、神经网络、模糊数学、遗传算法等多个领域。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、以前未知的、具有潜在的或者现实应用价值的信息和知识的过程[12]。

数据挖掘技术可以分为比较成熟的统计类型挖掘技术、快速发展的知识挖掘技术以及其它一些数据挖掘技术。统计分析技术中使用的数据挖掘模型有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析算法等技术。知识发现类的数据挖掘技术是从数据仓库的大量数据中筛选信息，寻找市场可能出现的运营模式，发掘人们所不知道的事实。知识发现类挖掘技术包含人工神经网络、决策树，遗传算法、规则发现和关联顺序等[13]。

2.2 Web数据挖掘简介 (Brief Introduction on Web Data Mining)

随着Internet的迅速发展，使得WWW上的信息量飞速增长，怎样对这些数据进行分析，成了现今数据库技术的研究热点。因此对强大有力的Web数据分析处理工具提出了要求，而日趋成熟的数据挖掘技术正好为Web挖掘提供了技术基础。Web挖掘是将数据挖掘技术应用于大规模Web数据，以期发现有效的、新颖的、潜在有用的，以及最终可理解的模式和规则的过程。

Web挖掘的定义是从数据挖掘的概念扩展而来，Web数据挖掘[14] (Web Data

2 相关知识基础

Mining)就是从大量的Web资源中提取隐含的、未知的、对决策有潜在价值的知识和规则的过程，它把数据挖掘技术应用于对Web资源的挖掘上。简单地说，Web挖掘是指从Web服务器上的数据文件中提取人们感兴趣的知识的过程。这里所谓的“兴趣”与我们前面讲数据挖掘时提到的含义相同。Web挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析，以实现对Web存取模式、Web结构和规则的分析，以及动态Web内容的查找。它所处理的对象包括：用户使用记录、网页内容、Web结构等信息，它是一项综合技术，涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。

Web挖掘作为数据挖掘的一个较新的主题，是一个新兴的研究领域，目前国内外的研究重心大多集中在日志的挖掘上，通过繁杂的方法将数据数据库化或仓库存储，从而将Web Mining转化为数据库的知识发现。

2.2.1 与传统数据挖掘的不同

Web挖掘与传统的数据挖掘相比，两者挖掘对象不同:前者的挖掘对象是海量、异构、分布式的Web文档和Web服务器日志，而后者的挖掘对象是数据库，Web数据挖掘具有如下的特点:

（1）、算法的效率要求更高：由于基于Web的数据量比一般的关系数据库或者数据仓库的数据量要大得多，而且数据每天都在迅速的增长和更新，要从如此巨大的数据中有效的提取有价值的信息要求数据挖掘算法必须具有很高的效率;

（2）、广泛的用户群体：Web面对的是一个广泛的形形色色的用户群体，Web的用户群仍在快速地扩张中，并且各个用户具有不同的背景、兴趣和使用目的。大部分用户并不了解信息网络结果，Web上的信息对用户而言，只有很小的一部分是相关的或有用的。很多信息对于用户是无用的，因此极容易在“跳跃式”的访问中烦乱不已和在等待信息中失去耐心。

（3）、具有动态性： Web是一个动态性极强的信息源。Web不仅以极快地速度增长，且其信息还在不断地发生着更新，如：信息、股票市场等，链接信息和访问记录也在频繁地更新之中，需要针对不断新增的数据进行增量挖掘，体现数据挖掘的动态性。

（4）、页面的复杂性：因为Web页面缺乏统一的结构，它包含了远比任何一组书籍或其它文本文档多得多的风格和内容，因此对数据预处理要求高，传统的数据模型和数据库系统难以直接支持Web上的信息资源，因此Web挖掘必须对数据进行数据预处理，从而为下一步的挖掘提供具有良好格式的数据源。

工程硕士学位论文

2.2.2 Web挖掘的分类

根据挖掘对象的不同，Web挖掘可分为Web结构挖掘(Web Structure Mining)、 Web内容挖掘(Web Content Mining)和Web使用挖掘(Web Usage Mining)三类[15] [16] [17]。其中，Web结构挖掘是指对Web页面的结构进行挖掘，是Web的组织结构以及引用和被引用之间的链接关系推理知识的过程；Web内容挖掘是指对Web页面内容进行挖掘，主要包括文本信息挖掘和多媒体信息挖掘；Web使用挖掘也称为Web日志挖掘，是指从Web访问日志中抽取知识的过程。图2-1是一个Web挖掘的详细分类图。

Web页面挖掘搜索结果挖掘结构超链接挖掘用户访问模式挖掘分析定制Web站点 Web内容挖掘 Web结构挖掘 Web使用挖掘 Web挖掘图2-1 Web挖掘分类

Figure 2-1 Categories of Web data mining

（1）、Web内容挖掘

Web内容挖掘是一种基于网页内容的Web挖掘，是从Web上的文件内容或其描述中发现信息、抽取有用知识的过程[18]。这些数据对象既有文本和超文本数据，也有图形、图像、语音、视频等多媒体数据；数据既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据和无结构的自由文本。就方法而言，Web内容挖掘可以分为两大类：信息检索(Information Retrieve，IR)方法和数据库方法[19]。就挖掘策略的不同，Web内容挖掘又可分为Web概要(即直接挖掘Web文档的内容)和搜索引擎结果概要(即对搜索引擎的查询结果做进一步处理，得到更精确和有用的信息，以增强搜索引擎的内容查询功能)。就其处理的内容可分为文本挖掘和多媒体挖掘。

1）、文本挖掘

Web文本挖掘主要是对Web上大量文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等功能，它是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要和解释，使用户无需浏览全文即可了解文档或文档集合的总体内容。文本总结（文本摘要）是文本挖掘的一个重要内容，在一些场合应用非常广泛，如搜索引擎在向用户返回查询结果时，通常需要给出

共10页:

基于Web日志的实时推荐模型研究(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档