基于Web日志的实时推荐模型研究(3)

2020-02-20 22:57

1绪论

1 绪论 1 Introduction

随着Internet的发展，越来越多的人从中获得信息，可是怎样在浩瀚的Internet中获得你想要的，又如何向你的客户推荐他最想了解的信息呢？现在各种基于Internet网络的应用业务也如雨后春笋般的发展起来，例如：网上商店、网上银行、远程教育、远程医疗等。特别是方便、快捷、高效的电子商务发展速度惊人，我们也应当看到Internet在给我们带来机遇的同时也带来了挑战，例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作变得越来越复杂越来越繁重。对于网站经营者来说，他们需要更好的动态设计工具，可以根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构，改进服务，开展有针对性的电子商务，以更好的满足访问者的需求。

1.1研究背景及意义（Research Background and Significance）

1.1.1研究背景

在各种Web站点中，蕴涵着巨大的具有潜在知识的信息空间，在InterNet上既存贮了大量的文档、图形、图像等多样性的Web数据，用户访问又有充分的自由，可以随意链接到Internet的任意站点上，并且用户具有不同的背景、兴趣和使用目的，Web用户也表现出多样性的特点。因此，在Internet给人们带来了方便和丰富多彩的信息资源的同时，也产生了如下急需解决的问题[1]。

（1）、用户容易在巨大的数据中迷失

虽然Internet上存贮了大量的数据，但由于Web是无结构的、动态的并且Web页面的复杂程度远远超过了文本文档，给人们准确查找和定位所需要的信息带来了极大的困难。

用户在Web上浏览或检索信息时，往往通过使用搜索引擎工具，但目前的搜索引擎普遍存在低精度的问题。低精度表现在当用户输入关键词检索信息时，返回的查询结果动辄成百上千条，更有甚者会达到几十万乃至上百万条，而其中大多数是一些与检索内容无关的信息，也包括死链接，用户难以在巨大的数据中寻找所的信息，浪费了很多的时间。

（2）、个性化的信息服务

不同层次、不同爱好和使用目的的浏览者需要个性化的信息服务。但是，这个问题涉及到Web门户站点的管理、组织和经营。Web站点的经营和管理者为提高网站的声誉和效益，需要了解其用户究竟需要什么，其中包括根据大多数用

工程硕士学位论文

户的共同兴趣，开展有针对性服务以及对特定用户开展个性化服务，真正地实现以人为本的原则。

从站点经营方来说，他们需要好的自动辅助设计工具，可以根据用户的访问兴趣动态地调整页面结构，改进服务，开展有针对性的服务以更好地满足访问者的需求。

（3）、如何向用户推荐感兴趣的内容

根据用户以往的访问模式动态的推荐用户感兴趣的内容，防止用户在庞大的信息面前迷失自己。对于访问者来说，他们既希望看到个性化页面，又希望得到更好的满足各自需求的服务，还希望从其他具有类似访问兴趣的用户访问行为中得到启发。这些需求从某种意义上说，访问者本身也未必清楚。

解决上述问题的途径之一就是将传统的数据挖掘技术应用于Web访问信息。即利用数据挖掘的原则和思想，针对Web访问信息的新特性，对传统挖掘方法进行扩展和改进，将其应用到Web访问信息上，挖掘出有用的知识。根据用户行为模式改进站点设计和服务，开展个性化和有针对性的服务，抽取有用的感兴趣模式和隐含的知识实现Web信息准确查询。

1.1.2研究意义

网站的所有访问者都会留下浏览的踪迹，这些信息以文本存储在Web服务器的日志文件内。分析互联网背后的用户行为，是获取用户行为偏好的良好途径。由于Web访问信息存在于每一台Web服务器上，因此其具有普遍性，并且遵循共同的标准，那么基于Web日志的数据挖掘主要应用于以下下面[2]:

（1）、系统改进。通过日志挖掘，可以发现用户的需要和兴趣，对需求较多的地方提供优化；用服务器(或代理服务器)预先存储的方法来解决速度缓慢的问题，从而有助于找到平衡服务器的负荷，优化传输，减少阻塞，缩短用户等待时间，提高系统效率和服务质量。对网站而言吸引访问者是其最重要的生存之道，如果一个网站的设计不利于用户的访问，设计者不了解访问者的兴趣，那么必然在激烈的竞争中处于不利的地位。

（2）、为用户提供个性化服务。对大多数的Web站点来说，让用户感到整个网站是完全为他自己定制的个性化网站是Web网站成功的秘诀。因此可以针对不同的用户，根据用户访问历史，按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)，向用户动态的推荐商品，自动为用户提供个性化的服务。

（3）、提高网站结构设计。通过挖掘提供用户使用网站信息，可以帮助网站设计者对网站的修改更加有目的、有依据，稳步的提高用户的满意程度;用户的导航模式是指用户对Web站点内的页面的浏览顺序模式。路径分析可以被用于判定在一个Web站点中最频繁访问的路径。还有一些其他的有关路径的信息通

1绪论

过路径分析可以得出，利用这些信息可以改进站点的设计结构。

（4）、商业智能发现。商业智能发现是通过对用户行为和购物等关系的挖掘，更好理解用户的购买意图，发现其中的用户购物特征和购买趋势、识别电子商务的潜在客户，确定电子商务的潜在客户群，以此进行商业智慧、支持商业决策，合理制订网络广告策略。

（5）、提高网络安全。分析网上银行、网上商店交易用户日志，可以防范黑客攻击和恶意诈骗；同时也可以对网站进行评价。

1.2研究现状 (Research Present Situation)

数据挖掘从20世纪80年代出现以来，帮助企业经理制定决策、促进商业竞争等很多有意义的事情。数据挖掘技术和算法主要包括：智能超市搜索、决策树、神经网络、相关分析、遗传算法、模糊逻辑、粗集、概念学习、归纳逻辑程序和聚类等等。目前使用较多的是关联规则分析、聚类分析、分类和预测等，这些技术大多应用在生物医学、商业、金融和电信等方面[3]。

基于Web日志的挖掘出现在1996年，M.S.Chen. H.Mannila. T.Yan提出了可以将数据挖掘方法应用于Web研究领域[4]。互联网的快速发展，使得对Web访问日志分析的需求越来越迫切。Web日志的挖掘研究大致可以分为三个方向：分析系统性能；改进系统设计；理解用户意图。由于它们针对的功能不同，采取的主要技术也不同。

以分析系统性能为目标的研究，主要是从统计学的角度，对日志数据项进行多种简单的统计，如频繁访问的网页，单位时间访问数，访问数据量随时间分布图等。目前己有的绝大多数商用例如：SPSS、SAS等及免费的Web日志分析工具都属于这种类型。

以改进系统设计为目标的研究，由于Web服务器的设计与建设的主要复杂性是它能随着设计者及用户的变化而不断自我调整，研究如何以日志数据为依据，对Web服务器的组织和表现形式进行自动或半自动调整，从人机交互和软件Agent领域提出adaptive web site的概念。

以理解用户意图为目标的研究，一般是通过算法从Web服务器日志中找出频繁的用户访问路径或访问模式。这些都是为了从大量的Web日志数据中找出一定的模式和规则。

目前，国内外对计算机柔性技术的研究成为热点。所谓柔性技术，它包含粗糙集理论、模糊理论、神经网络、遗传算法等。特别是模糊理论，在解决模糊性问题时体现出较大作用，针对Web用户兴趣的模糊性、非单一性，引入模糊聚类对其浏览路径进行模糊聚类，可以较好地解决此类问题，在很大程度上避免了传统聚类的非此即彼的硬性划分，更客观地体现真实的人类活动。因此，将模糊

工程硕士学位论文

聚类应用于Web挖掘，分析用户访问Web的模式，设计出满足不同客户群体需要的智能化网站，进而增加企业的竞争力。

1.2.1国外进展研究

目前，Web访问信息挖掘已经成为国际上一个新兴的重要研究领域。早在1996年就有学者M.S.Chen , H.Mannila , TYan提出了可以将数据挖掘方法用于Web研究领域使用。

1998年Han把Web服务器访问日志集成到数据立方体结构(data cubestructure)中[5]，这样就可以对访问日志用传统的在线数据分析处理过程(OLAP)来处理日志数据了。因为他其分析主要用的是动态网站日志，因此，他假定客户端的缓存影响不大。

1999年，J.Borges等人又提出了引入超链接概率原理，修改了传统意义上对序列的界定，可以把用户的访问在网站结构图中记录下来，根据访问的条件概率判断用户频繁访问路径。2001年，个性化研究已经在商业领域得到越来越广泛的应用。IBM公司在电子商务平台WebSphere中增加了个性化功能，以利于商家开发个性化电子商务网站。

目前，Web日志挖掘方法主要有两种。Chen等人首先将数据挖掘技术应用于Web服务器日志文件，以期发现用户浏览模式，Chen提出了最大前向引用序列MFR的概念，并用它将用户会话分割成一系列的事务，然后采用与关联规则相似的方法挖掘频繁浏览路径。

Han等人则根据Web日志建立数据立方体，即根据Web日志建立数据立方体，然后对数据立方体进行数据挖掘和OLAP[6]。Simon Fraser大学的WeblogMiner将Web日志中的数据组织为数据立方体，然后在其上进行联机分析处理和数据挖掘，用于发现用户的访问模式，并提出了GraphMiner。

Minnesota大学的WEBMINER[7]系统提出一种通用的Web日志挖掘的体系结构，该系统能自动从Web日志中发现关联规则和序列模式等。WEBMINER的思路是通过对Web站点的日志进行处理，将数据组织成传统的数据挖掘方法能够处理的事务数据形式，然后利用传统的数据挖掘方法(如传统的关联规则发现算法)进行处理。

Perkowitz等在人机界面研究领域，提出了Adaptive Web site的概念，主要研究如何以历史访问为依据，使得Web服务器提供的服务页面可以自动或者半自动地调整[8]。

WebLogMiner是用于挖掘Web日志文件的知识发现工具。在WebLogMiner系统中，知识发现总共分为四个步骤：第一阶段根据Web服务器日志文件构建数据库，在此阶段中，从Web日志数据中过滤掉不相关的信息，将剩下的有意

1绪论

义信息经过数据转换后构造成一个关系型数据库。第二阶段构造多维Web日志数据立方体。第三阶段根据数据立方体进行联机分析处理。第四阶段进行知识发现和表示。通过联机分析处理发现的潜在知识进行数据特征化、类别比较、关联规则、预测分类和时间序列分析等形式表示出来。

SpeedTracer是一个Web日志挖掘的分析工具[9]。它通过在Web服务器日志数据上使用数据挖掘技术和方法来发现和理解用户的浏览行为。随着WWW的日益普及，各方面有强烈的需求，要理解不同用户的浏览行为。然而Web服务器日志数据的不确定性和不完整性造成人们很难直接在Web日志上执行以用户为导向的数据挖掘和分析。SpeedTrace:通过重建用户访问路径来识别用户会话。它不需要Cookies或用户注册信息来进行会话识别，这样做的一大优点就是能够保护用户的隐私。用户被正确识别以后，数据挖掘算法就能够发现共同的访问模式和频繁共同访问的页面组。

Web日志挖掘是一个较新的研究领域，具有广阔的发展和应用前景。应该指出的是，面对日益增加的商业需求，Web日志挖掘技术还有许多问题需要解决，有待这一领域的研究者深人研究。将来很有用的几个研究方向是如下。

（1）用户访问模式库的动态维护和更新、模式(知识)的评价体系和评价方法；

（2）分类在电子商务市场智能提取中的研究；

（3）关联规则和序列模式在构造自组织站点方面的研究；（4）智能站点服务个性化和性能最优化的研究；

（5）挖掘算法在海量数据挖掘时的适应性和时效性研究；（6）Web日志挖掘中内在机理及新的挖掘体系和结构的研究。

1.2.2国内的研究现状

国内互联网是从1997年开始迅速蓬勃的发展起来的。直到1999年，国内互联网用户达到一定数量以后，国内学者才开始关注Web数据挖掘，相比之下起步较晚。

1999年，陈宁综述了国外应用数据挖掘技术解决Internet应用问题的做法。 1999年，周斌等介绍了采用E-OEM模型，并用5个用户访问模式做训练数据集，尝试着进行了关联规则挖掘。董金样教授等研究Web用户浏览活动的本质，根据Web用户在网站中各页面的停留时间和访问次数等特征，结合用户的参与，识别、建立、调整该用户的喜好，提出兴趣强度及度量方法，使用户能以个性化方式来访问。

庄越挺教授等提出基于神经网络的Web用户行为聚类分析方法[10]，即首先对Web服务器的日志文件进行分析，再进行会话分析，从会话向量中找出频繁

共10页:

基于Web日志的实时推荐模型研究(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档