5.大数据分析技术
用于大数据集的分析方法很多,包括统计学、计算机科学等各个领域的技术。本小节将简要介绍其中几种典型的大数据分析技术,当然,这些技术同样适用于少量数据集的分析,但大数据集环境下的应用无疑会发挥更加明显的作用。
(1)A/B测试:传统的A/B测试,是一种把各组变量随机分配到特定的单变量处理水平,把一个或多个测试组的表现与控制组相比较,进行测试的方式。现在的A/B测试主要用于在Web分析方面,例如通过对比统计新旧网页的用户转化率,来掌握两种设计的优劣等。大数据时代的到来为大规模的测试提供了便利,提高了A/B测试的准确性。由于移动设备及技术的
迅猛发展,移动分析也逐渐成为A/B测试增长最快的一个领域。
(2)聚类分析聚类分析:
指将物理或抽象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析是一种探索性的数据挖掘分析方法,不需事先给出划分的类的具体情况,主要用在商业、生物学、因特网等多个领域中。对于大数据的分析处理,通过聚类可以简化后续处理过程,并且可以发现其中隐藏的某些规则,充分发挥了大数据的作用。
(3)集成学习:集成学习指的是使用一系列“学习器”进行学习,并使用某种规则把各学习结果进行整合从而获得比单个“学习器”更好的学习效果的一种机器学习方法。对于大数据的集成学习,可以更好地提炼和把握其中的本质属性。
(4)神经网络:神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,它依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,来达到处理信息的目的。神经网络作为一门新兴的交叉学科,是人类智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学等共同关注的焦点。神经网络对于大数据的并行处理,无疑也是一种比较可行的方式。
(5)自然语言处理:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。人与计算机的通信交流往往存在很多歧义,如何消除这些歧义,将带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示,是自然语言处理的主要问题。大数据时代意味着有大量的知识和推理来完成消除歧义现象的可能,这也给自然语言处理带来了新的挑战和机遇。大数据分析技术还有很多,例如模式识别、空间分析、遗传算法等等,并且研究者们还在不断地寻找新的更有效地分析方法,另外通过结合多个方法来实现数据分析往往也能达到非常明显的效果。
6.大数据的可视化
面对海量的数据,如何将其清晰明朗地展现给用户是大数据处理所面临的巨大挑战。无
论是学术界还是工业界,对大数据进行可视化的研究从未停止。通过将大数据图形化、图像化以及动画化等展示出来的技术和方法不断出现,本节将介绍几种典型的案例。
(1)宇宙星球图:俄罗斯工程师RuslanEnikeev根据2011年底的互联网数据,将196个国家的35万个网站数据整合起来,并根据200多万个网站链接将这些“星球”通过“关系链”联系起来组成了因特网的“宇宙星球图”[37]。不同颜色代表不同的国家,每个“星球”的大小根据其网站流量来决定,而“星球”距离远近根据链接出现的频率、强度等决定。类似地,对于具有复杂结构的社交网络,“宇宙星球图”同样也十分适用,可以根据个人的知名度、人与人之间的联系等进行绘画星球图。
(2)标签云:“标签云”的设计思路主要是,对于不同的对象用标签来表示,标签的排列顺序一般依照字典排序,按照热门程度确定字体的大小和颜色。例如对于某个文档,出现频度越高的单词将会越大,反之越小。这样,便可以根据字母表顺序和字体的大小来对各单词的具体情况一目了然。文献[38]通过将地图上的各个物理位置根据描述的具体程度用“标签云”表示,使得用户对各个场所的知名程度有个清晰的认识。
(3)历史流图:文献[39]提出了一种用于可视化文档编辑历史的“历史流图”,对于一个面向大众的开放文档,编辑和查阅都是自由的,用户可以随时自由的对文档进行增加或删除操作。“历史流图”中,横坐标轴表示时间,纵坐标轴表示作者,不同作者的不同内容对应中间部分不同颜色和长度,随着时间的推移,文档的内容不断变化,作者也在不断增加中。通过对“历史流图”的观察,很容易看出各人对该文档的贡献,当然,除了发现有人对文档给出有益的编辑外,也存在着一些破坏文档、删除内容的人,但总有逐渐被修复回去的规律。像维基百科等的词条注释文档,“历史流图”的可视化效果十分明显。关于大数据可视化的方面努力还有很多,不同的“源数据”有不同的可视化策略,大数据可视化的研究工作仍有待进行下去。 大数据应用所面临的问题
大数据时代面临的首要问题是人力和财力问题,IDC分析称,大数据相关人才的欠缺将会
成为影响大数据市场发展的一个重要因素。据调查,仅美国就缺少大约14万到19万的具有深层次数据分析技巧的专业技术人员以及150万针对大数据的经理人。据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展。高德纳公司预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。其中有190万个工作岗位将在美国,每一个与大数据有关的IT工作,都将在技术行业外部再建3个工作岗位,这将在美国再创建将近600万个工作岗位。数据科学家是复合型人才,是对数学、统计学、机器学习等多方面知识的综合掌控,能对数据做出预测性的、有价值的分析。因此,各国对大数据人才的培养工作应当快速有效地着手执行。大数据的接收和管理也需要大量的基础设施和能源,无论是传感器还是数据中心的服务器,都需要大量的硬件投入和能源消耗,这也就意味着大数据处理的财力需求极为可观。如何处理好大数据产生的资金投入比例,也成为了各国和各企业决策者面临的难题。另外,大数据还将面临严重的安全和隐私问题。首先,随处可见的传感器和摄像头等设备,会监视并记录人们位置等信息,通过海量数据的分析,便可轻易了解人们的行踪规律,从而可能给人们带来生命和财产安全;其次,“云设施”的经济划算,推动了僵尸网络的发展及海量并行处理破解密码系统的可能性;最后,由于云计算要求我们放弃自主计算能力,当整个社会的信息,包括个人信息、商业信息都存储在巨头们提供的“云”上时,我们只能寄希望于这些巨头们都是道德高尚的圣人,否则我们将面临灾难性损失。面对这些安全威胁,学术界和工业界也都纷纷提出自己策略。针对基于位置服务的安全性问题,文献[40]提出了一种k-匿名方法,即将自己与周围k-1个用户组成一个范围集合性对象来请求位置服务,从而模糊了自己的准确位置。文献[41]提出的策略是,搜集周围的k-1个用户的位置信息,并以其中的某一个的名义发送位置服务请求,从而也达到隐藏准确坐标的目的。Roy等人将集中信息流控制和差分隐私保护等技术融入云中的数据生成与计算阶段,提出了一种隐私保护系统Airavat[42],防止