大数据的介绍及案例分享(6)

2019-08-17 13:31

有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面,这个系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的。

VISA&MasterCard与商户推荐

相对地,像VISA和MasterCard这样的信用卡发行商和其他大银行就站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息。它们的商业模式从单纯的处理支付行为转变成了收集数据。接下来的问题就是,如何使用收集到的数据。

就像ITA一样,MasterCard也可以把这些数据授权给第三方使用,但是它更倾向于自己分析、挖掘数据的价值。一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。

处于这个数据链的中心,MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们可以想象,未来的信用卡公司不会再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之

后,它们又可以卖掉分析结果以取得利润。

Xoom与跨境汇款异常交易报警

Xoom是一个专门从事跨境汇款业务的公司,它得到了很多拥有大数据的大公司的支持。它会分析一笔交易的所有相关数据,一旦发现用“发现卡”从新泽西州汇款的交易比平常多的话,系统就会报警。Xoom公司的首席执行官约翰-孔泽(JohnKunze)解释说:“这个系统关注的是不应该出现的情况。”单独来看,每笔交易都是合法的,但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是,重新检查所有的数据,找出样本分析法错过的信息。

无所不包的谷歌翻译系统

2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。

谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹-奥齐(FranzOch)是机器翻译界的权威,他指出,“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。

尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。

“从某种意义上,谷歌的语料库是有很多不足的。因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌语料库是其他语料库的好几百万倍大,这样的优势完全压倒了缺点。”

微软与谷歌的拼写检查

在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更新的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括了所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译和更新字典,微软Word的拼写检查仅适用

于最常用的语言,且每年需要花费数百万美元的创建和维护费用。

现在再来看看谷歌是怎么做的吧。可以说,谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。你输错了iPad吗?不要紧,它在那儿呢;Obamacare是什么?哦,明白了。

而且,谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。当搜索结果页面的顶部显示“你要找的是不是:流行病学”时,用户可以通过点击正确的术语明确地“告诉”谷歌自己需要重新查询的内容。或者,直接在用户访问的页面上显示正确拼写的结果,因为它很可能与正确的拼写高度相关。(这实际上比看上去更有意义,因为随着谷歌拼写检查系统的不断完善,人们即使没有完全精确地输入查询内容也能够获得正确的查询结果。)

谷歌的拼写检查系统显示,那些“不合标准”、“不正确”或“有缺陷”的数据也是非常有用的。

一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。

谷歌,从大的“噪音”数据中受益

例如,谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。

这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”

数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。

很多企业都开始设计他们的系统,以这种方式收集和使用信息。在Facebook的早期,数据科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,Facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。

IBM,电动汽车动力与电力供应系统优化预测

在2012年进行的一项试验中,IBM曾与加利福尼亚州的太平洋天然气与电

气公司以及汽车制造商本田合作,收集了大量信息来回答关于电动汽车应在何时何地获取动力及其对电力供应的影响等基本问题。

基于大量的信息输入,如汽车的电池电量、汽车的位置、一天中的时间以及附近充电站的可用插槽等,IBM开发了一套复杂的预测模型。它将这些数据与电网的电流消耗以及历史功率使用模式相结合。通过分析来自多个数据源的巨大实时数据流和历史数据,能够确定司机为汽车电池充电的最佳时间和地点,并揭示充电站的最佳设置点。最后,系统需要考虑附近充电站的价格差异,即使是天气预报,也要考虑到。例如,如果是晴天,附近的太阳能供电站会充满电,但如果预报未来一周都会下雨,那么太阳能电池板将会被闲置。

系统采用了为某个特定目的而生成的数据,并将其重新用于另一个目的,换言之,数据从其基本用途移动到了二级用途。这使得它随着时间的推移变得更有价值。汽车的电池电量指示器告诉司机应当何时充电,电网的使用数据可以通过设备收集到,从而管理电网的稳定性。这些都是一些基本的用途。这两组数据都可以找到二级用途,即新的价值。它们可以应用于另一个完全不同的目的:确定何时何地充电以及电子汽车服务站的设置点。在此之上,新的辅助信息也将纳入其中,如汽车的位置和电网的历史使用情况。而且,这些数据不只会使用一次,而是随着电子汽车的能耗和电网压力状况的不断更新,一次又一次地为IBM所用。


大数据的介绍及案例分享(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:aa机械工业部关于下达机械工业从事高温、高空、有害、特别繁重劳

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: