基于Web日志的实时推荐模型研究(6)

2020-02-20 22:57

工程硕士学位论文

（6）、统计分析（Statistical analysis）

统计分析是一个利用概率、数据分析及统计知识推理的过程，统计分析技术是最常用的从Web用户行为中抽取知识的方法。通过分析服务器口志文件，可以得到各种统计分析描述，如用户驻留在某页面上的时间，用户浏览路径长度的中值和平均值、导航路径长度以及频繁访问的网页，单位时间访问数，访问数据量随时间分布图等。这种分析虽然看起来缺乏深度，但分析结果往往对提高系统性能，加强系统安全性，辅助网站设计，便于站点修改并可提供决策支持，提供市场决策等方面有着不可替代的作用。

目前己有的绝大多数数据挖掘软件，例如：SPSS、SAS等及免费的Web日志分析工具都属于这种类型。

2.3.3 模式分析

用户访问模式挖掘出来之后，需要把这些模式解释为人们成为可以理解的知识。因此，在研究Web日志挖掘技术时，也要研究、开发能够分析挖掘出来的模式的工具。目前这个领域的工作还不是很多，是一个较新的领域，在Web访问模式分析中人们正在研究应用的技术有: （1）、可视化技术

可视化技术可以有效的帮助人们理解不同的现象，因此对于理解Web用户行为模式来讲也是一个自然的选择。Pitkow等人己经开发了Webwiz系统来将www的访问模式可视化。其中用服务器日志扩展一系列的网页访问模式称作网页路径，它们组成一个路径图。WebViz系统可以过滤无关的Web页面，使人们只分析有意义的部分，最终，形成可视化的结果—一个有向环图，图中的节点是页面，边是页面之间的超级链接。此外联机分析处理(OLAP)技术也可以应用到模式分析中。

（2）、数据知识查询

关系数据库技术成功的原因之一是因为其高层次的语法定义、查询语言的支持，这些使得用户很容易表达自己的要求。对大量的挖掘出来的模式，也需要一种技术使用户可以方便地查询到想要的模式，从而使解释和分析更具针对性。实现这个功能也就是要实现在已经挖掘出来的知识上进行查询。

2.4 小结（Summary）

在Web挖掘中，目前国内外开始重点研究的是Web访问信息挖掘，即通过挖掘Web服务器的日志文件等访问信息，来发现用户访问Web页面的模式，从而可以进一步分析和研究日志记录的规律，来改进网站的组织结构及其性能，构造自适应网站，还可以通过统计和关联分析，增加个性化服务，发现潜在的用户群体，

2 相关知识基础

增强对最终用户的因特网信息服务的质量和交付等。

本章详细地介绍了数据挖掘技术与Web数据挖掘的含义及其不同、特点和Web挖掘的应用前景。首先介绍了数据挖掘与知识发现的区别与联系，阐述了数据挖掘的过程;然后引出Web数据挖掘的定义，阐述了Web数据挖掘的分类:Web内容挖掘、Web结构挖掘、Web使用挖掘;最后分析了基于Web访问数据挖掘的过程。

工程硕士学位论文

3 数据预处理 3 Data Preprocessing

数据质量的好与坏直接关系到数据挖掘的结果，因此数据预处理是Web日志数据挖掘的关键。针对数据预处理中的关键阶段—会话识别,提出了一个基于IP、会话时间、页面访问时间和网站拓扑结构等要素结合的会话构造算法,从而使会话识别出来的结果更接近于用户的真实会话。

3.1 Web日志的形成（Web Log Formation）

数据收集可以从服务器端数据、客户端数据、代理服务器端数据收集。这些数据不仅意味着存放的位置不同，其中还包含了Web世界中不同的浏览模式。通常，用户端的日志包含了单用户多站点的浏览模式，服务器上的日志则意味着多用户单站点模式，代理服务器上的日志则是多用户多站点模式，Web访问信息挖掘的数据对象主要分布于服务器方。

3.1.1服务器端数据

由于Web服务器详细记录了用户的浏览行为，因此Web服务器是Web挖掘的最直接、最重要的数据来源。Web服务器不但记录了每一个用户每次浏览时诸如访问时间、停留时间、访问次数、下载等具体行为，而且从浏览页面地址还可以获得页面的详细内容。目前在Web服务器端用来记录用户访问日志的格式有三种：

万维网协会（W3C）规定了服务器日志的两种格式：CLF（Common Log Format）和扩展日志格式ECLF（Extended Common Log Format）[26]。

典型的日志包括以下信息：IP地址、请求时间、访问方式(GET/POST)、被请求文件的URL, HTTP的版本号、返回码、传输字节数、引用页的URL(指向被请求文件的页面)和代理。

在日志文件中，每条记录被称作项或条目。其中：

客户端IP地址(Client IP)是发出请求的客户端的IP地址，在Proxy代理服务器的环境下为代理服务器的IP地址。

用户标识符域(User name，User id)一般不填写，只有当存取特定的文件，需要鉴别身份时才需要。时间戳(Date or Time)表示Web服务器接受该请求的时间，在整个日志文件中，每一个项以时间戳递增排列。

请求域(Request)包括请求方法，URI请求的协议。其中请求的方法有：GET、 POST和HEAD。GET从Web服务器得到对象；POST向Web服务器发送信息；

3 数据预处理

HEAD仅请求一个对象的HTTP头。

URI或者为服务器上文件系统上的一个静态的文件，或者为一个响应该请求的一个将要被调用的可执行程序。

状态域由Web服务器设置指示出响应该请求的行为：200到299的代码一般指示成功响应；300到399表征某种程度的重定向；400到499指示错误；500到599表示Web服务器有问题。常见的错误代码是404，其指示被请求的文件没有被找到。

Referer：域表征上次被请求的页面，如果用户通过直接键入地址或通过书签访问，那么该域为空。

代理域(Agent)能够指出客户端的操作系统和浏览软件。表3-1为Web日志记录的主要信息

表3-1 Web 日志记录的主要信息

Table 3-1 The main information in Web log records

域日期(date) 时间(time) 客户IP 地址(c - ip) 用户名(cs - username) ·服务器名(s - computername) 服务器IP 地址(s - ip) 服务器端口(s - port) 方法(cs - method) URI 资源(cs - uri - stem) URI 查询(cs - uri - query) 协议状态(sc - status) ·发送字节数(sc - bytes) ·接收字节数(cs - bytes) ·所花时间(time - taken) ·协议版本(cs - version) ·主机(cs - host) ·用户代理(cs(User - Agent) ) ·Cookie (cs(Cookie) ) ·参照(cs(referer) ) 描述用户请求页面的日期用户请求页面的具体时间客户端主机的IP 地址或DNS 入口客户端的用户名服务器名称服务器的IP 地址服务器的端口号用户请求的方法用户所请求的页面用户欲进行的查询返回http 的状态标识服务器发送的字节数服务器收到的字节数完成浏览所花费的时间传输用的协议版本服务器的操作系统服务的提供者 Cookie 标识号用户浏览的上一页表中打黑点的部分是扩展型日志格式中添加的记录项。

工程硕士学位论文

原始的日志如图3-1所示：

图3-1 原始日志 Figure 3-1 Primitive log

3.1.2客户端数据

客户端的日志记录是由运行在客户端的程序或浏览器本省记录用户行为得到的记录，客户端的日志记录能够很好的反映用户的访问行为，但由于涉及个人隐私，实际上是很难获得的，也无法精确的知道每个来访者的情况。因而只能开展基于群体特性的，较为粗略的，基于统计特性的挖掘，以得到群体用户的访问偏好。如果要实现较为高级和精细的挖掘活动，通过相应的方法实现单个客户端的访问信息收集工作是必要的。

单个用户端的访问信息收集带来的主要好处是：提供单个用户较为精确的对一个站点或多个站点的访问偏好。这种偏好表现为对一个站点上的一些页面或一些站点的较为频繁的访问，或者通过收集该用户的书签((Bookmark)内容来得到用户的兴趣爱好。如果得到的这种偏好只用于服务该用户，即不向任何外界传递，那么用户一般可以接受，否则用户很难允许自己的访问兴趣以传给服务方。

3.1.3代理服务器端

在网络中，基于安全和效率等方面的考虑，可使用代理服务器技术。代理服务器技术可以是多级联的，它在用户和Web服务器之间扮演中间传递者的角色，代理服务器可以记录多个用户在多个Web站点的用户行为信息，它的访问信息包括用户访问日志和在Cache中被访问的页面，其中代理服务器端记录的用户访问日志同样遵循公共日志格式标准，通过对代理服务器访问信息的挖掘可以得到通过该代理服务器的用户的访问偏好。

3.2 基本概念（The Basic Concept）