Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在可以看到,如果大部分学生需要再看一遍课程内容,就可能表明某些地方他们还不太清楚。在斯坦福大学教授安德鲁?恩格(Andrew Ng)讲授的Coursera机器学习课堂上,他注意到约有2000名学生课外作业的答案是错误的,但错误答案居然是相同的。显然,他们都犯了相同的错误,那么是什么呢?
随着一点点的调查,他终于弄清楚了,他们把一个算法里的两个代数方程弄反了。所以如果现在还有其他学生犯同样错误的话,系统不会简单地告诉他们做错了,而是会提示他们去检查算法。这个系统也应用了大数据,通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些都是过去很难得知的,现在却永远地改变了教学方式。
在线教育服务Knewton是大数据应用于教育行业的典型,通过数据分析区分出每个学生的优缺点,从而给学生有效的指导。大卫告诉记者,美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平,全校2000名学生使用该系统两学期之后,该大学的辍学率下降了56%,毕业率从64%升高到75%。
购买飞机票
大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。
2003年,奥伦-埃齐奥尼(OrenEtzioni)准备乘飞机去参加弟弟的婚礼。他
知道飞机票越早预订越便宜,于是他提前几个月,就在网上预订了机票。在飞机上,埃齐奥尼得知别的很多乘客买的机票都比他的便宜。
对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,奥伦是有名的计算机专家,飞机着陆之后,奥伦下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。
埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。
如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目。
埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站上搜集来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为很多没卖掉的座位、季节性原因,还是所谓的周六晚上不出门,它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫
“哈姆雷特”。
这项技术还能应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。
航班延误之候机经济学
近年来,因航班延误产生的机场纠纷一度在中国成为一个热点话题。美国航班也有延误,但却几乎没有“罢乘”、“霸机”、冲击机场的事件。
美国建立了一个统一的数据开放门户网站——Data.Gov。 Data.Gov上线以后,美国交通部开放了全美航班起飞、到达、延误的数据,有程序员利用这些数据开发了一个航班延误时间的分析系统(Flyontime.us)。
以波士顿至纽约的航线为例(起飞:Boston,Logan International;到达:New York,Kennedy International),在系统的主页上,输入机场名称,点击之后,用户可以看到不同天气、不同日期、不同时段、不同航空公司、不同航班等各种条件下飞机是否准时以及平均延误时间的数据明细。
该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及机场等候时间。这个系统可以帮助消费者找到表现最佳,最符合自己需要的航班。
这个系统上线之后,由于其简单、实用,获得了全美多个新闻报刊的报道和关注,成为很多人乘机、候机的行动指南。
The-Numbers.com与电影票房预测
比方说,The-Numbers.com在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房,而这些信息就可以为电影制片人所用。该公司拥有一个包括了过去几十年美国所有商业电影大约3000万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。电影的收入是指在北美和全球的票房、海外版权销售收入、影碟销售收入以及租金等。公司创始人兼总裁布鲁斯·纳什(Bruce Nash)说,我们公司开发了一个网络系统,其中有100万条类似“A编剧曾与B导演合作过,C导演曾与D演员合作过”这样的联系信息。
该公司通过找出这样复杂的相关关系来预测电影的收入。借助于这个预测,电影制片人可以向工作室或投资人募资。The-Numbers.com甚至可以告诉客户改变哪些选择可以增收或者降低风险。一次,它的分析发现有一部电影要是启用获得过奥斯卡提名的、身价在500万美元左右的某位一线演员做男一号的话,更有可能票房大卖。还有一次,纳什告诉IMAX工作室,一部航海纪录片需要把预算从1200万美元减少至800万才能赢利。纳什开玩笑地说:“这可乐坏了制片人,但是导演就不高兴了。”
从是否出品一部电影到签下哪个三垒手,公司的决策过程已经有了本质且明显的改变。麻省理工学院商学院教授埃里克·布伦乔尔森(Erik Brynjolfsson)和他的同事一起进行了一项研究,发现决策依赖数据的公司的运营情况比不重视数据的公司出色很多——这些公司的生产率比不使用数据进行决策的公司高6%。这是一个重要的竞争力,虽然随着大数据手段被越来越多的公司采用,这种竞争力
会慢慢削弱。
FICO,“我们知道你明天会做什么”
一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司,也被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言,“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。
另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。
相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。
通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。