大数据时代 第四章(2)

2019-03-23 15:06

人们带来便利的同时,是否也会对人们的健康产生威胁?甚至一些报道声称,手机辐射会5!起癌症。丹麦癌症协会基于以往收集的数据通过数据重组的方式就这个问题进行了研究,并给出了答案。该研究以丹麦的42万手机使用者作为研究对象,搜集了这些对象1982年到1995年手机使用数据,同时,丹麦癌症协会还拥有丹麦所有癌症患者的信息。这项研究将这两类数据集相结合,并试图找寻两者之间的关系。研究发现,截止到2002年,这些使用过手机的42万丹麦人中有14249人被确诊患癌症。根据流行病学的预测,这样的人口规模的癌症发生率应该有大约1.5万例,也就是说,使用手机的用户癌症发生率并没有明显高于流行病学预测的癌症发生率,这就意味着使用手机与癌症的发生其实关系并不大。特别是白血病、脑癌、神经细胞癌等以往被猜测与使用手机紧密相关的癌症,在手机使用者中的发病率也不比其他种类的癌症高。通过这两个数据源的重组,丹麦癌症协会获得了一项人体健康领域的重要研究成果,即移动通信不会对人的健康产生隐忧。迄今为止,其他途径的研究也都表明这一结果,印证了丹麦这项基于大数据的研究具有科学性。这种依靠数据重组的方式来进行科学研究的案例极具指导意义。尽管这项研究的规模很大,但数据都是非常规范的,两个数据集都严格按照医疗和商业的质量标准进行采集。最重要的一点在于,这两个数据集在多年·96·前就都已经生成了,当时收集数据的目的也与这项研究毫无关系,而在多年后,经过数据重组,这些沉寂的数据依然可以焕发出新的光芒。2.政府数据重组的经典——美国LEHD项目LEHD全称为工作单位和家庭住址的纵向动态系统(longitudinalEm-ployerHouseholdDynamicsProgrsm),旨在整合美国的人口普查数据和全国各州的相关数据,为城市规划、社区建设、公交设置、商业选址等方面提供数据支持。在未建立这个项目前,这些数据是分散的。其中,普查部门掌握着全国每一个公民的年龄、性别、种族、住址等个人基本信息,但却没有他们的工作信息。而具体的工作单位的名称、失业保险、纳税记录等信息基本掌握在各个州政府手里,查询的难度之大可想而知。LEHD项目的目的就是要重组联邦政府和州政府等多个部门的数据,可以说,这是一个真正的大数据项目。图4--4是LEHD项目的数据整合框架。在该框架中,个人数据集来源于人口普查局和社会保障局,包含公民的年龄、性别、种族和个人住址,其中个人住址在工作职位数据集中也存在,这两个数据集通过“个人住址”这一字段相连接;工作职位数据集来源于州政府的劳工部门,包含失业保险、社会保险和报税记录等职位信息;工作单位数据集来源于州政府的劳工部门,包含行业类型、公司地址和公司职员数量等信息,其中以“公司地址”作为与工作职位数据集的连接字段。这样,三个数据集通过共有的数据项宇段连成了一个整体,这个系统在一开始就有60多亿条记录。图4--4LEHD项目的数据整合框架通过数据重组后的LEHD查询平台,可以查询一个城市的工作人口和居住人口的情况,其强大之处在于实现了数据的多维粒度分析。该系统可·97·以按照地区、邮编、选区、学区、人口普查片区等各层级对数据进行层层分析。这样,当一些突发事件发生时,就可根据这个系统给出的数据估算事发区域的人员情况,从而为救援提供决策支持。在服务机构选址上,一个区域的人员构成及其收人情况、消费水平等因素都是影响服务机构能否长远发展的重要指标,LEHD也可以提供非常完善的数据。2010年,LEHD项目又重组了国家气象局、联邦应急管理局、国家农业部、内务部四个单位的数据,推出了一项针对“公共应急管理”’的新应用。该应用整合了暴雪、火山、暴雨、洪水、飓风等恶劣天气、自然灾害、人为灾害的实时数据,每4个小时更新一次。当大规模的灾害发生时,系统就可以以最快的速度评

估哪些地区受到影响,以及受灾人数和人口特征,从而对灾区的疏散、撤离、补偿等公共服务进行合理的规划,将灾害带来的损失降至最低。hHD的案例清晰地反映出,大数据应用过程中的难点并不是没有数据,而是缺少数据的重组思维和能力。因而,专业技术人员在具体实践工作中应努力提升自身的数据重组能力,如此,才能使得数据分析更为深人,为决策提供更强有力的支持。数据的首要价值被使用后,可以再与其他数据重组,组成的新数据集比之前单个数据集的价值总和具有更多的价值,这就是大数据时代下数据重组的魁力。专业技术人员在工作中应深刻了解每个数据集的数据内容和结构,掌握多源数据融合的方法,努力挖掘不同数据集之间的关联关系,从而探寻出更多具有实际商业价值的、新颖的数据模式。二、数据扩展数据的潜在价值是一直存在的,即使数据一开始采集的目的相对单一,即使数据被搁置的时间比较久,但只要有新的分析、挖掘、整合的想法出现,这些旧的数据蕴含的价值就会被重复性地发掘出来,这正是大数据的迷人之处——无限的可扩展性。(一)数据扩展的含义保障数据的扩展性是保障数据再利用的重要前提,也就是说,在数据采集之初就要考虑到数据的可扩展性,使数据集能具有多样的用途。可以这样理解数据扩展:在采集数据的伊始,就尽可能多地采集数据,并考虑数据存在的各种潜在用途,使其具有可扩展性,最大化地寻求数据的潜在价值。可以说,数据扩展是寻找“一分钱两分货”的过程,在实践工作·98·中非常有意义。例如,现在许多超市内都安装了监控摄像头,其首要目的是为了防盗,认出扒手。现在,这些视频还可以用来跟踪用户的购买行为,比如,顾客在哪些货架前驻足的时间长,哪些产品会被一起搭配购买,什么时段客流量大等。利用这些视频,店主就可以合理安排商品上架,将经常一起被购买的产品摆放在一起;而通过研究客流量的情况,店主可以合理安排工作人员的工作时间,保障服务质量,获得更多的利润。由此,摄像头这项成本支出反而会转变成一项可以增加收人的投资。(二)数据扩展的应用数据扩展的应用非常广泛,下文从三个方面来分析其在商业运营中的重要作用。1.全面分析和定位客户为客户提供个性化的优质服务是现在最广为人知的大数据应用领域之一。数据的可扩展功能使得企业能更好地了解客户的行为和喜好。现在,许多企业都积极地收集社交媒体数据、测览器日志、评论数据和传感器数据等,从而全方位地了解他们的客户,创建用户的购买预测模型。Target(塔吉特)公司是美国第M大超市零售商,通过利用大数据分析,Target公司可以非常准确地预测出他们的客户中哪些是正在待产的孕妇,从而推送相关的母婴产品信息。首先,Target公司从迎婴聚会(BabyShower)登记表人手,对这些登记表里的顾客的消费数据进行建模分析,发现了许多非常有用的数据模式。比如,许多孕妇在怀孕的最初20周会大量购买补充钙、镁、锌的保健品;在怀孕第4个月的开始会购买许多大包装的无香味护手霜。以此,Ta4et公司选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target公司能够在很小的误差范围内预测到顾客的怀孕情况,因此Target公司就能早早地把孕妇相关商品的优惠广告寄发给顾客。更值得一提的是,为了避免对顾客形成干扰,产生隐私担忧,Tarset公司把孕妇用品的广告夹杂在其他类型的商品优惠广告当中,准妈妈们就不会意识到Target公司知道她们是孕妇,Target做到了没有干扰的销售。慢慢地,Target公司的大数据分析技术从孕妇这个细分顾客群开始普遍地向其他客户群体推广。在使用大数据进行预测的2002年到2010年间,Target公司的销售额从440亿美元增长到了670亿美元,由此可见,大数据分析对于一个企业的价值是多么的巨大。·99·通过Target公司的案例可以看出,想要通过数据扩展实现全面定位客户,

企业首先要重视自身的数据中心建设,要把采集顾客数据作为企业营销运营的首要目标;第二,建立采集数据的软硬件机制,以业务需求为准则,确定哪些数据是需要采集的;第三,建立科学的数据分析模型。国内的电商界对可扩展数据的研究也是方兴未艾,很多企业都已经将大数据的分析运用到了企业的客户定位之中。比如京东同站,通过对用户下单和搜索数据的分析,可以计算出客户的家里是否有孩子,有多大的孩子。分析这些是为了帮助京东快递员在上门送货时,注意敲门声音的大小和敲门时间的长短,以保障不影响到客户的生活。在这里,订单和搜索数据被扩展利用在分析用户的家庭组成上,并且这种分析不是为了探究用户的隐私,而是为了更加体贴用户,为用户提供更贴心的服务。毋庸置疑,这种做法可以提高用户体验,从而增加用户粘性,这是未来各大电商企业要重点考虑的问题之一。这就是可扩展数据的力量。2.优化企业的业务流程大数据的扩展能力也越来越多地用于优化企业的业务流程。企业要广开思路,多角度地利用一切可以为其所用的数据。例如,利用社交媒体数据、网络搜索趋势以及天气预报信息,零售商们可以挖掘出许多具有预测性的信息,帮助优化其商品库存。美国东北部是一个多暴风雪的地区,每当暴风雪来临前夕,百姓都要大量采购生活补给品,如水、面包、火腿、肉类、蔬菜等,以防暴风雪来临后不能出门。如果零售商们能合理运用天气预报的信息,就可以对顾客的购买行为进行合理的预测,调整供货量,获得最大收益。美国气象频道(WeatherChannel)作为一家有线电视网络,基本的工作是预测天气,它能告诉电视观众纽约周三下雨的概率、休斯敦周六的酷热指数会达到多少、巴尔的摩周日会有多潮湿等。现在,该公司凭借其积累的70多年的数据,可以预测出用户什么时候最有可能购买杀虫剂等商品。这些积累的数据包括覆盖北美等地的气象信息和用户查看天气的信息,运用的方法就是大数据的分析方法,其中数据扩展占有重要的地位。2012年,WeatherChannel更是把公司的名字改为WeatherCo.(气象公司),以反映其数据业务的增长,它已转身成为一家通过分析人们查看天气情况的时间、地点和频次的数据而预测消费者行为的机构。WeatherCo.董事长兼CEO大卫·肯尼(DavidKenny)认为:“计·100·划做某件事时,人们通常都会查看天气状况,我们依据人们查看天气的时间地点和当时的天气情况来分析人们计划要做的事情。”例如,WeatherCo.发现,在芝加哥市高于平常水平的温度的第一天,空调销量会出现上涨;而在闷热的亚特兰大,人们则是在比平常热的天气到来两天后去买空调。WeatherCo.长期以来都向航空公司和能源交易商销售天气预报服务,因为,这两类企业的销售额与天气情况有密切的关系,人们会根据天气情况决定自己是否要做飞机旅行或者决定家庭是否要购买更多的水、电。气。现在,该公司通过结合天气信息以及来自移动设备的数据,向更加广泛的消费品零售公司推广他们的广告平台_以帮助商家投放高度精准的广告,图4--Al反映了WeatherCo.根据不同的天气情况帮助零售商推进具体商品。图4----WeatherCo.帮助零售商精准推送广告WeatherCo.将原来只用作天气预报的数据再次用在多个领域,并通过数据分析预测消费者行为,帮助其他企业投放广告,使数据转化成具有巨大商业价值的资本,优化了自身业务流程的同时也帮助其用户完善了业务结构,实现了双赢,这其实正是数据可扩展性的体现。·101·3.优化企业智能设备的性能数据扩展和大数据分析还可以让机器和设备变得更加智能和自主化。在强调数据扩展性方面,谷歌一直是做得最好的公司之一。这些年,谷歌公司一直致力于利用大数据技术与工具来运行它的街景自驾汽车(GOogleStreetViewCar)。谷歌街景汽车上没有司机,它是一种无人驾驶汽车,

汽车上配置的相机、GPS设备(GlobalPositioningSystem,全球定位系统)以及强大的计算机和传感器保障它在道路上安全行驶,图4--m展示了谷歌街景汽车的工作状态。为了让这些无人驾驶汽车能安全往返于各种路况之中,谷歌在汽车的顶部安装了激光测距仪和高分辨率摄像机,实时地生成周围环境的详细3D地图,地图信息将反馈给汽车的传感器,使得汽车能避开障碍并遵守交通规则。这些汽车的前后保险杠上还装有四个雷达,可以让汽车能应对快车道上的各种情况,位于后视镜附近的摄像机则用于探测交通灯。而GPS、惯性测量单元和车轮编码器等设备则被用于判断汽车的实时位置。谷歌街景汽车在世界各地拍摄街景图片,让互联网用户即使足不出户也能“游览”各国风景。然而拍摄街景照片并不是谷歌街景汽车的全部任务,它现在还被用来探测一个地区是否有甲烷泄漏。谷歌研究团队和美国环保协会在三辆街景汽车上装备了甲烷检测仪,并把它们派到了美国的波士顿、纽约斯塔腾岛和印第安纳波利斯,这三辆汽车在当地把一些已经老化的、最有可能发生泄漏的输气管道标记了出来。这些街景的数据被扩展应用在了安全隐患的探测上,谷歌和美国环保协会根据数据的内容向当地的监管部门反映这些隐患,从而帮助他们展开调查和修复。·102·此外,很多企业通过广泛应用大数据扩展对货物配送路线进行优化,在货车上安装地理定位或无线电频率识别传感器来追踪货物的实时位置信息,并且通过整合实时交通数据为司机提供最优化的行车路线。第四节数据的估值与折旧一、数据估值数据具有市场价值,因为数据可以降低决策的不确定性,产生经济和社会效益。在大数据时代,数据已经成为一种重要的商品,具备作为商品的三个条件:一是劳动产品,数据是人们利用各种手段采集、存储起来的,附加了人类的劳动;二是能满足人们的某种需要,通过使用数据,可以辅助决策,达成组织的目标;三是可以用来交换,大数据交易目前已经成为一种常态。正是因为数据的这种特性,决定了数据可以像其他商品那样进行估值,即可以根据数据在其生命周期中的地位来评定它当时的价值。如今,数据与品牌、人才和战略这些非有形资产一起被纳入到“无形资产”的范畴中进行估值。(一)数据的价值与数据估值数据的价值包括现实价值和潜在价值。一般情况下,人们都是按照预定的目的来采集数据的,将采集到的数据用于解决预定的问题。例如,前面提到的丹麦癌症协会,它拥有丹麦所有癌症患者的数据,这些数据原本是用来统计丹麦公民癌症分布情况,目的是为医疗提供决策服务的,这种可以满足数据使用主体现实需求的价值,就是数据的现实价值。而同样是这些数据,后来又被用来研究手机辐射与癌症的关系,这些数据又有了新用途,发挥了新作用,这种数据本身所具有的、需要通过一定的条件、环境,才能满足数据使用主体某种可能需求的价值,是数据的潜在价值。互联网研究专家舍恩伯格认为,“数据的真实价值就像漂浮在海洋上的冰山,第一眼只能看到冰上的一角,而绝大部分则隐藏在表面之下”。大数据的价值并不仅仅局限于它初始被采集的目的,更在于它之后可以服务于其他目标而被重复使用。因此,大数据的价值是所有这些用途的总和,并且将远远大于其初次使用的价值。随着更便宜的存储和分析技术。·103·分析工具的发展,以及“大数据观”的建立,数据估值更重视大数据“表面下”的“隐藏价值”或者说“潜在价值”。数据的潜在价值也常常通过物理动能转化的例子来解释。在物理中,物体储存着“潜在的”能量,在未动时处于休眠状态,比如放置在山顶的小球,只要小球被轻碰而滚下山坡,它自身的潜在能量就会转化为“动能”,影响其他物体。数据也一样,当其基本用途完成时,数据的价值依然存在,只是被隐藏起来了,当有一个外力给予这些数据一个动力时,它们的价值就可以被再次释放出来,而这种外力

就是数据创新和数据再利用的思维、工具和技术。数据潜在价值的存在使得数据的基本用途完成后也不应被删掉,因为数据蕴含的潜在价值是无穷的,可以带来无限的社会效益和经济效益。通常,确定一个公司的价值需要查看这个公司的“账面价值”,这种账面价值通常是“有形资产”的价值总和。但在大数据时代,数据成为企业中一种至关重要的资产,许多企业甚至将数据资产作为其企业的核心竞争力和产品,传统的“账面价值”已经不能反映出这些公司的“市场价值”了,那么在这种情况下,该如何将数据加人资产核算中呢?“无形资产”是用以表示公司“账面价值”与“市场价值”之间的差额的会计概念。如今,数据渐渐地被纳入到“无形资产”的范畴中。数据的估值绝不是简单的基本用途的加总,因为数据的大部分价值都是潜在的,是二次利用甚至多次利用而提取出来的。而数据的采集者和拥有者,无论再具有远见、再有能力,也不可能将数据再利用的所有可能方式都预测到,并且很多数据可能在收集后的十年、二十年才可能被再利用。因此,即使到今日,也没有一个绝对有效的方式来计算数据资产的价值,但还是存在一些尝试方法的。例如,OECD(OrsanizationforEconomicCo-operationandDevelopment,经合组织)曾对互联网数据的市场价值进行过估计,研究成果佐证了大数据的巨大潜在价值:大数据可以为金融。农业、制造业、保险业、医疗业等传统领域带来“创造性破坏”,从而推动产业变革和创新,激发新的增长动力。麦肯锡公司的研究报告也指出,美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够降低8%的美国医疗卫生支出;充分利用大数据的零售商能将其经营利润提高60%以上。同时,利用大数据可以帮助政府提高其行政管理的运作效率。由此可见,随着人们数据存储、数据重组、数据扩展能力的日益提·104·高,从数据中提取潜在价值的能力也会显著提高,对数据的估值应更重视数据潜在价值的评定。(二)数据估值的方法数据估值包括对数据现实价值的估值以及对数据潜在价值的估值。通常,现实价值满足了数据使用主体的现实需求,其社会效益和经济效益都已体现,因此估值相对比较容易。数据估值的难点在于数据的潜在价值。这里介绍两种数据资产估值方法:基于五维度的数据资产价值评估模型和将数据授权给数据定价市场的估价方法。l,基于五维度的数据资产价值评估模型有学者提出了基于五维度的数据资产价值评估模型,这五个维度分别是规模、活性、多维度、关联度和颗粒度,这五个维度没有绝对的参考数值,需要具体到每个行业,根据需要来灵活调整和使用这个评价模型,如图4--ed所示。③图4--st基于五维度的数据资产价值评估模型门)颗粒度。颗粒度反映数据的精细化程度,越细化的数据价值也就越高,太过宏观的数据反而价值含量较低。细化到个人、单个商品的详细数据,才能带来前所未有的洞察力。颗粒度指标反映的是精细化管理的思想。现在许多城市提倡“网格化管理”,将管理单元细化到了100mx100m的正方形,甚至是更小的网格。网格里的所有事物都被精细地刻画和记录着,包括一个人、一座房、一个门牌号、一个路灯、一棵树甚至一·105·朵花,这些数据的位置、大小、静态和动态轨迹都清清楚楚地记录在数据库中,这些数据通过数据挖掘、关联关系分析等方法会为地区带来巨大的价值,这一点已为实践所证明。这就是社会治理水平在向“精细化管理”发展的一个重要表现。(2)多维度。该指标借用空间维度的概念,表示数据来源的丰富性。每增加一个数据维度都会对数据的分析和判断产生颠覆性的影响。数据的来源越丰富越全面,越能全面反映一个事物的全貌,自然越具有价值。以个人的信用评级为例,除了传统的用户工龄、居住地、银行账号开设时间外,许多金融机构还将用户的教育水平、职业等数据维度纳人评级的考核中。


大数据时代 第四章(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:3310 - - 职业危害因素检测操作规程

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: