基于大数据技术的电子商务个性化推荐系统设计与实现(5)

2019-01-10 12:41

北京交通大学专业硕士学位论文…电子商务个性化推荐理论介绍

电子商务个性化推荐系统的关键技术主要包括基于用户协同的过滤推荐技术、基于项目协同的过滤推荐技术、基于规则的推荐技术、基于内容的推荐技术、基于人口统计信息的推荐技术、基于效用的推荐技术、基于知识的推荐技术。

本节先对以上各个电子商务个性化推荐系统的关键技术进行了介绍，然后对比分析了各个关键技术的优缺点，最后给出了最优的推荐技术组合。

2.3.1 个性化推荐技术

1. 基于用户协同的过滤推荐技术。

也称为最近邻居算法技术，主要是基于与用户兴趣爱好相似的网络用户的购买行为作为项目的推荐。推荐的基础就是寻找邻居用户。除此之外，若要找到邻居用户，用户总数必须足够多，而且用户对项目的评价也要简单，用户间的相似程度必须高。基于用户的协同过滤技术在实际应用中还存在比较多的问题。最常见的问题包括推荐的多样性、数据的稀疏性以及系统的可扩展问题[25]。

在协同过滤推荐系统中用户对项目做出的评价比较少。所以项目矩阵中拥有评价数据的项目不多，这将导致数据阵显得稀疏。通过调查，一般系统中来自于用户的评价数据都不到1%，这也将导致用户间的相似性的不准确，进而查找到的邻居用户不可靠。 2. 基于项目协同的过滤推荐技术。

为了解决基于用户的协同过滤推荐技术在实际应用中出现的数据稀疏，本文通过建立基于项目的推荐模型来缓解数据稀疏的问题。使用计算之前的模型，可以很快的得到推荐结果。也可以根据历史信息来表示项目之间的关系。

基于项目的协同过滤技术就是猜想到用户将更倾向那些和他已经购买的相类似的项目，要分析每个项目间的相似性，可以通过用户项目矩阵来分析。由于不需要识别邻居用户，所以推荐算法的速度较快[26] 3. 基于规则的推荐技术。

根据项目之间的关联规则，查找相关的项目并按排序推荐。在交易数据库中，通过用户已经购买商品集A和用户购买B的交易比例，得到他们之间的关联规则，找到满足最小支持度和最小置信度的关联规则项目集。 4. 基于内容的推荐技术。

基于内容推荐技术的特点是，通过项目的特征属性来定义项目。例如，新闻组过滤系统，文本词汇则是它的项目特征属性。基于内容的推荐技术按

北京交通大学专业硕士学位论文…电子商务个性化推荐理论介绍

照项目的特征属性对项目进行分类，从而获得类似的项目作为推荐结果。但是基于内容的推荐技术不能跨越种类进行推荐，同时需要参考用户的历史信息。在用户信息完整的时候，推荐才能较为准确。不过这样产生的推荐只是用户熟悉的种类，缺乏新颖性而且也不能适应用户兴趣变化。 5. 基于人口统计信息的推荐技术。

是根据用户的个人属性进行分类，根据不同的个人属性分别推荐。基于人口统计信息的推荐技术最早出现于1979年，当时通过人机对话可以获得个人基本信息，并且可以按照个人信息分类来对个人推荐书籍。对用户的统计信息建立了用户的模型，与协同过滤技术类似，但使用不同的数据[27]。协同过滤根据用户的相似性分类，可以表明用户兴趣偏好的历史信息就是推荐中所需要的数据。

6. 基于效用的推荐技术。

基于效用的推荐技术根据特征属性数据分类。首先要算出用户对项目的效用函数，再利用效用函数进行排序并作为推荐结果。这种推荐技术的优点是能考虑项目的非自身属性，从而提高推荐系统的全面性，实现更高层次的个性化推荐。然而，基于效用的推荐技术的关键和难点在于要设计出性能良好且周全的效用函数。

7. 基于知识的推荐技术[28]。

这种技术是依据功能知识进行推理的，不需要用户历史信息，而普通的协同过滤推荐技术是依据用户的偏好。这意味着，功能知识可以解释需要和推荐之间的关系，是某个项目怎样满足特定用户需求的知识。所以，基于知识的推荐技术采用的网络用户资料，能支撑推理的知识结构。

2.3.2 个性化推荐技术的比较和分析

基于用户的协同过滤技术是当今炙手可热的技术，具有便于理解的优点。当我们可以在一定范围内可以控制网络用户和项目数时，它可以将实时性更好的显示出来，并且能够产生跨种类的推荐结果。但是，这种推荐准确性和用户评价信息重叠有着重要关系。所以，推荐效果在用户评价数据少的情况下是不理想的。而且，计算机能力一定程度上影响了这种技术系统的性能，项目数量的增长会导致算法需要运算次数的增长。所以，对于其洗属性和计算能力，改变在所难免。

另外，系统不能推荐对新项目做出评价的最初用户和从未有用户评价过的新项目，这就导致了基于用户的协同过滤推荐技术常见的冷启动问题。对于这种推荐技术来说，所使用的项目属性特征是是用户对项目的评分值，而不是一些描述

北京交通大学专业硕士学位论文…电子商务个性化推荐理论介绍

项目本身特征的属性值，推荐的项目虽新颖，但也没有能力进行奇异发现和跨种类的推荐。

基于规则的推荐技术应用较早也较广泛，这个广泛应用地的技术起源于传统的数据挖掘技术。基于规则的推荐技术在用户访问的日志中挖掘数据，所以这种技术不会产生稀疏性的问题。在基于规则的推荐技术中，关联规则的运算成本较高，这种技术在运行中经常采用离线挖掘，在数据库中保存网络用户模型，为网络用户的下一次访问提供推荐服务，但这种技术会对推荐的实时性有一定的影响。

基于内容的推荐技术分类原则是项目特征属性，描述的时候比较依赖特征属性，和协同过滤技术有较大的区别。这种推荐技术，做出奇异发现的推荐和跨种类的推荐是有难度的。这种技术帮助用户节约了时间，但没有帮助用户拓宽视野。

基于用户人口的信息统计推荐技术按照人口统计信息来对用户分类。所以这种技术也存在稀疏性的问题。这种推荐系统在正常情况下不会出现冷启动的问题，但是想要收集全面的人口统计信息有一定难度。这是因为有些信息涉及个人的隐私，并且网络用户希望对自己的私人信息进行保密。

基于效用和基于知识的推荐技术不用担心数据稀疏问题，不需要冷启动，但是要构建完整效用函数，这个函数式关于特征属性的。基这两种推荐技术的优点是不仅不用刻画电子商务产品的本质特征，而且可以加入衡量产品有用的因素。但是这种技术缺少灵活性，仅仅适用于很少几个特征的项目，难以适应不简单而且非结构化的项目。

基于人口统计信息、内容、协同过滤的推荐技术一般是建立在网络用户的历史数据上的，而且需要网络用户显式的输入数据，所以需要大量的时间来学习。基于知识、效用、规则的推荐技术都不需要考虑网络用户的历史偏好数据，也不需要考虑忘记用户数据稀疏等问题带来的困扰。

2.3.3 推荐技术的组合

目前还没有一种为电子商务系统提供更加准确的推荐的完美方法，在设计过程中，多种推荐技术组合的手段经常被采用。一般推荐技术的有加权、切换、组合、混合、特征组合、特征放大、层叠、模型放大。现在，较多采用的组合推荐的技术有：

1、 2、

Content-based／Collaborative Feature Augmentation Hybrid技Collaborative／Content-based Meta-1evel Hybrid技术。采用协

术。组合推荐技术中应用最早的。

同的信息算法是这种组合技术的特点。这种技术可以提供全面的评价数据

北京交通大学专业硕士学位论文…电子商务个性化推荐理论介绍

集给网络用户，不同的项目可以通过这个数据集进行比较。

3、

Collaborative／Demographic Augmentation Hybrid技术，利用协

同技术是这个组合技术的特点。通过这个技术，可以识别出邻居用户。与此同时，可以把邻居用户信息当作为来自网络用户的人口统计信息来进行推荐。

数据的评价较容易，同时对基于内容的技术组合和协同过滤也有很多的研究。例如著名的BachMovie数据集，BachMovie数据集包含了来自250个用户的对983部影视的45000个评价。虽然也存在其他的推荐组合方式，但是现在有的研究成果较少，25种可能的组合中只有4种被研究过。由于存在数据保密等问题，因此只研究了比较少的基于用户人口的统计信息的推荐技术。并且，组合策略和被组合的推荐技术存在一定的联系，在采用组合推荐技术时必须不能忘了组合策略。

2.4 大数据处理技术

大数据(big data)[29]指的是所涉及的资料规模巨大到无法透过目前主流软件工具，在合理时间内达到撤取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。云计算、移动互联网、车联网、平板电脑、手机车、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据承载或者来源的方式。大数据通常用来形容一个公司创造的大量半结构化和非结构化，而“大数据”，通常指通过收集、整理生活中方方面面的数据，并对其进行分析挖掘，进而从中获得有价值信息，最终衍化出一种新的商业模式的一种方法。依据大数据时代的特征，可以将其特征总结为以下几种：

1、

大量的数据（Volume Big)。

数据的量的级别已经远远不是TB(1012字节)，它甚至发展到了PB甚至到了 ZB的级别，可称为巨量数据乃至超量数据。

2、

多样化(VariableType)。

数据类型种类繁多，目前互联网数据已经转化成非结构化和半结构化的数据，可分为：网页、位置信息、视频等。

3、

非常快速（Velocity Fast)。

目前，形成的数据会迅速保存到企业的数据库中，这时需要快速处理这些数据，使其跟得上满足电企业数据的更新速度。当然，大数据的处理工具也在快速发展演化，各种大型系统工程均有可能引入大数据的转化中。

4、

高的价值和低的密度（Value High and Low density)。

在庞大的数据、中，仅仅一小部分是有效的数据，得到价值很高的信息往往

北京交通大学专业硕士学位论文…电子商务个性化推荐理论介绍

需要深度的挖掘，所以导致数据的高价值的低密度[30]。

掌握庞大的数据信息不是大数据技术的战略意义，它的意义其实是专业的处理这些有意义的数据。换句话说，大数据这个产业实现盈利的关键，在于高的数据的“加工能力”，数据的“增值”是通过“加工”来实现的。随着物联网的发展，依靠大数据的发展能够从资源的方面很好的支撑物联网。可从海量用户数据中深度分析、挖掘出用户的消费习惯和行为方式，从而实施精准营销及网络优化，今儿掌控数据增值的关键。

虽然国内的大数据还处于初级阶段，但是其商业价值已经显现出来。第一，手中握有数据的公司拥有绝对优势，基于数据交场即可产生很好的效益；第二，很多商业模式会产生与数据挖掘，定位角度不同，或偏重分析数据。比如，帮企业做挖掘内部数据，或偏重优化，帮助企业更精准的找到目标用户，降低营销成本，从而提高企业销售率，增加利润。

以后很长的时间里，数据都可能成为最大的交品商品。但数据量大并不能称作是大数据，大数据的特征是数据种类多、数据量大、非标准化数据的价值最大化。所以，大数据的价值是通过交叉复用、数据共享后获得最大的数据价值。大数据在应该像是基础设施一样，存在数据监管者、管理者和提供方，交叉复用的应用会使大数据变成一个大产业。

大数据被社交网络和移动互联网的兴起带入新阶段。在对行为进行分析的基础上，互联网营销进入个性化时代。应用大数据，大公司向广告商明确什么是正确的时间，正确的用户是谁，应该发表的正确内容是什么等，这也迎合了广告商的需求。社交网络产生了大量用户以及的数据和完整的数据，它同时也记录了用户群体的情绪，用挖掘信息的方式来了解用户，然后将这些分析后的数据信息推给需要的品牌商家或是营销公司。

2.4.1 Hadoop概述

Hadoop[31]是一个分布式计算平台，它基础是一个分布式计算模型和一个文件系统。在简单的理解逻辑上分布编程。Hadoop不需要昂贵的机器，这是其减少了很多成本。同时它很受欢迎，因为它是有 Apache 基金支持的开源软件。

Hadoop的思想是基于 Google 发表的某篇论文，关于文件系统的文献[32]和以及关于分布式处理框架的文献[33]。Hadoop的最初版本是由DougCutting和Mike Cafarella在2004年实现的。在2005年12月的时候Hadoop已经稳定运行于二十个节点了。2006年Yahoo！开始使用Hadoop，在 2008 年的时候在九百个节点运行 1TB 的数据集，排序时间仅仅为 209 秒，是当时的世界记录[34]。目前Hadoop

共8页:

基于大数据技术的电子商务个性化推荐系统设计与实现(5).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档