大数据时代第四章

2019-03-23 15:06

第四章大数据的管理

第一节大数据的生命周期管理当前，社会各界已经充分认识到大数据的价值并努力通过各种手段从不同角度去挖掘大数据的价值。大数据的生命周期管理能够实现数据存储和利用的动态化管理，通过对数据价值的评估而制定不同的管理策略，从而提高数据资源的利用率和可用性。一、数据生命周期管理及其阶段划分数据生命周期管理（DataLifeCycleManagement）来源于信息生命周期管理（InformationLifeCycleManagement）。信息生命周期管理的理念是由美国存储公司StorageTek于2002年提出来的，其基本思想是，信息是·86·有生命的，处于不同阶段的信息应为组织提供不同的价值，因此应该对信息进行贯穿其整个生命的管理，包括从创建和使用到归档和处理。此后，IBM、HP等公司又进一步提出了信息生命周期管理解决方案，信息生命周期管理的思想开始被学界和业界所接受。从本质上说，数据生命周期管理是信息生命周期管理的深化和扩展，尽管到目前为止，还没有一个统一的数据生命周期管理的定义，但对数据生命周期管理的核心的认识却基本上是一致的，也就是：数据从产生到被删除销毁的过程中，具有多个不同的数据存在阶段，在每一个阶段上，数据的价值是不同的，数据生命周期管理就是要在数据存在的不同阶段，根据数据价值的不同而采取不同的管理策略，使数据在每一个阶段均能产生最大的效益，同时又能降低组织利用这些数据所需要的成本。与信息生命周期管理不同，数据生命周期管理更强调数据对于组织的重要战略意义，在数据创建到最终消亡的生命周期中，数据利用者应根据数据价值的变化对数据进行动态管理，提升数据服务水平与数据使用效率，从而实现降低成本、提高效率的目标。在数据生命周期管理实践中，数据存储和备份规范是保障和基础，数据管理和维护是执行方法，通过高效的数据管理和维护，不断提升数据服务水平，使数据的价值得到最大化利用。图41是大数据的数据生命周期管理的阶段构成示意图，正如一个人从少年到老年—样，组织中的数据也要经历从创建、修改、复制、分发、保护。恢复、归档与召回，到最终被删除这样一个生命周期。大数据的数据创新可以让已经变为“老人”的数据继续发挥余热，创造新的价值。也就是说，当数据的首要价值被发掘后，通过数据重组、数据扩展、数据再利用等方法可以继续挖掘出数据的潜在价值，获得数据带来的源源不断的新价值。从图4—l中可以看出，首个生命周期从数据创建开始，包含数据存储、数据使用、数据分享和数据归档几个方面；在数据的新生命周期中，数据重组和数据扩展是实现数据再利用的重要方式。在生命周期的每一阶段，数据估值与数据折旧始终交替贯穿在整个大数据的数据生命周期中，不断根据估值的结果调整数据折旧率。依据数据相对于组织的价值来管理数据不仅能保证数据的循环可用性和实效性，满足组织内部业务需求，又能降低数据存储系统的成本。同时，与现实生活中只能给环境和人们带来祸患的工业废气不同，“数据废气”仍然可以变废为宝，如同其他可回收材料一样被循环使用，继续发挥价值，实现数据的再利用。二、大数据生命周期管理的意义运用大数据生命周期管理的思想来管理数据，可以为组织带来巨大的效益，主要反映在“提高数据的使用效率”“最大限度地利用数据的价值”“降低数据使用的成本”三个方面。（一）提高数据的使用效率数据生命周期管理实质是对组织中的所有数据进行的一种分类管理，它根据组织的特性，按照特定的“保存规则”对数据加以组织，在整个数据生命周期中对数据进行动态智能化管理，提高数据的使用效率。比如，一些企业将数据分为五个层次：至关重要的数据、关键业务数据、可访问的在线数据、近

线数据和离线数据，并根据不同的层次，制定数据管理标准，投入不同的数据分析人力和数据维护成本。其中，至关重要的数据和关键业务数据是企业的核心竞争力，这些数据是数据再利用的主要数据来源，因而数据利用者应着重对这两类数据进行重组和扩展，延长它们的生命周期。（二）最大限度地利用数据的价值在大数据时代，数据价值不仅体现在它的基本用途方面，还体现在其更大的潜在用途方面，这会影响一个组织评估其拥有的数据及访问方式，促使组织改变自身的业务模式，改变组织看待和使用数据的方式。例如，在企业的现实环境中，存储有大量的运营数据，这些运营数据无疑是大数据分析的重中之重。同时，以往不太受到重视的系统运行数据和备份数据也会发挥出巨大的作用，这些数据中的宝藏也亟待挖掘，在企业各个层级中得到运用。（三I降低数据使用的成本组织可以根据数据的价值对其进行管理，这些规则通常包括时间与访·88·问频率、事件等组合形式。采用数据生命周期管理技术可以建立分层存储环境，这些分层规则对组织具有多方面的好处。在整个数据生命周期中对数据进行智能化管理，可以释放出更多的可用存储空间，整合或折旧很少被访问或根本不被访问的数据，提高组织内应用软件的性能，降低存储资源的成本，最终为组织带来更大的效益。大数据的数据生命周期管理能够实现数据存储和利用的动态化管理。企业通过对数据价值的评估而制定不同的管理策略，使具有现时价值的业务数据突出出来，并通过对无用的数据进行有效折旧，提高数据资源的利用率和可用性。第二节数据的再利用信息技术的飞速发展，极大地便利了数据的收集，大量信息可以被廉价地捕捉和记录；同时，数据的存储成本也在大幅度下降，可以说，保存数据比丢弃数据更加容易。这些条件都成为大数据时代数据再利用的重要前提和保障，专业技术人员需要做的是运用自己的创造力和新工具来释放数据的潜在价值，寻找数据之间的新联系。一、数据再利用的概念及其特征数据再利用的概念可以这样理解：组织中为某个特定目的而生成的数据，被重新使用在另一个目的上，数据从其基本用途扩展到了二级用途。三级用途甚至n级用途上，这使得数据随着时间的推移变得更有价值。数据利用者需要做的是不断地借助各种方法和技术寻找数据的“潜在价值”。例如，对于一个企业来说，客户数据、行业数据是其最宝贵的资源，如果能将这些数据从一个业务领域向另一个业务领域进行扩展和再利用，就能发挥数据低成本复制和增值的价值，为企业带来经济效益。数据之所以可以再利用，主要在于它具有可被再利用的特性，包括增值性、非竞争性和整合性。《一）增值性在大数据时代，数据在完成其基本用途后，还可以转化为未来的潜在用途，数据的全部价值远远大于其最初的使用价值。这意味着只要组织对数据加以有效的再利用，数据首次使用后的每一次使用都会不断地给组织·89·带来新的价值。（二）非竞争性经济学中的“非竞争性”是指个人的使用不会妨碍其他人的使用。而数据正符合这种特征，只要是合法合理的条件下，不同的人或不同的组织都可以使用数据来达成自己的目的。也就是说，数据不同于物质性的产品，它的价值不会随着它的使用而减少，而是可以不断地被处理。数据的非竞争性使得数据的价值不限定在唯一的用途上，而是可以多次地被不同的部门、为不同的目的使用，而且，这种使用不会影响到他人的利益。（三）整合性大数据的数据类型繁多，而且，相对于以往以数值数据为主的结构化数据，非结构化数据越来越多，网络日志、音频、视频、图片、地理位置等多元数据都对组织的数据处理能力提出了更高要求。通过数据集成技术，将这些来源不同、结构不同的数据整合在一起，形成可以面向多种应用的数据集合，可以使得大数据发挥出强大的预测和分析作用。二、数据再利用的意义大数据的价值在于分析与

使用，数据的再利用也成为大数据时代数据使用的关键，组织想要充分开发利用数据的价值，就必须具有数据再利用的思维，掌握数据再利用的方式方法。概括地说，数据再利用对于一个组织的意义在于三个方面：一是挖掘数据的潜在价值，二是实现数据重组的创新价值，三是利用数据可扩展性拓宽业务领域。（一）挖掘数据的潜在价值在大数据应用背景下，数据存储成本的日益降低、数据分析技术与工具的飞速发展以及组织“大数据观”的建立，为组织进一步充分挖掘过去不被重视或无法处理的数据提供了条件。大数据蕴藏的巨大“潜在价值”会得到最大程度的挖掘，从而为组织的客户服务、产品创新和市场策略提供决策支持。（二）实现数据重组的创新价值互联网的发展使得现代组织不再可能孤立的发展，组织间信息和数据的共享重组已经成为合作的常态。例如，越来越多的企业开始注意到数据重组为自己带来的巨大价值，从网站数据、移动终端数据、电子商务记录、企业微博等不同渠道的数据中探寻内在关联关系，通过数据融合的方法再次整合数据，开发数据的创新价值。·90·（三）利用数据可扩展性拓宽业务领域客户数据、行业数据对于组织来说是重要的战略资源，如果组织能将这些数据从一个业务领域扩展应用到其他业务领域，就可以实现数据的可扩展功能，发挥数据的增值价值，扩宽企业的业务领域。三、数据再利用的案例通过数据再利用创造更多的价值的案例有很多，其中以协助书籍数字化工作的reCAppCHA项目和预测性医学信息学相关的谷歌流感趋势最为典型。《一）从辨识用户到协助书籍数字化一eCAPTCRAreCAPTCHA源自CAACHA，CAACHA的中文全d亦是“全自动区分计算机和人类的图灵测试（ComPletelyAutomatedPUblicTuringTesttoTellComputersandHumansApart）”，即“验证码”。CApoCHA由卡内基梅隆大学的教授冯·安（LuisvonAhn）设计，旨在防止垃圾注册或者垃圾评论。reCAPTCHA作为CAppCHA继任者在功能上进行了升级，它借助于人类对复杂字符的辨别能力，对古旧书籍中难以被OCR（OPticalCharac－terRecognition，光学字符识别）识别的字符进行辨别，实现古籍的数字化工作。reCAPTCHA已被应用于4万多个网站，并辨别出了约4．4亿个字词。许多著名网站，如Facebook、Twitter等，都采用了reCAppCHA，每天都可以处理大约一百万个单词。reCAppCHA不仅实现了“验证码”的作用，用户输人的内容又可以再一次地利用在古籍中模糊字符的识别上。reCAppCHA的工作流程如图4－－－－ty所示。首先，被扫描的古籍由于自身损坏程度较大或印刷模糊等问题会含有一些机器无法识别的单词，这些单词被挑出来后进行字形扭曲和加上横线等处理。在作为验证码时，两个单词会一起出现在用户眼前，其中一个单词是已经被其他用户辨识正确的，如果这个“老词”被这个用户正确辨识，则证明该用户的确是真人而非机器爬虫，另一个单词则是有待识别的新词，等待用户进行识别。此外，为了保证准确率，系统会将同一个新词发给五个不同的人，直到这五个用户都对新词进行了识别，才根据这些用户的输人结果确定新单词的拼写。这样，每输人一次验证码，就为机器增加了一条新的识别规则，从而使得机器识别出一个新词。·91.图4－－streCAgrCHA原理示意图通过reCAppCHA的案例可以看出，数据原本的主要用途是辨别提交信息的用户是否是人，而通过数据再利用则实现了辨识模糊词的功能，为书籍的数字化工作提供了新的便利，充分发挥了数据的潜在价值。〔二）关键词带来的预测性医学信息学——谷歌流感趋势（GoogleFIuTrends）谷歌（Google）流感趋势项目利用了人们在网络上的搜索行为来展示流感的流行病学特征并预测流感趋势。在流感多发季节，人们会通过谷歌等搜索工具了解流感的爆发情况以及应对流感的一些措

施。很显然，在这段时间里，如“流感”“发烧”“勤洗手”“戴口罩”“流感疫苗”等这些与流感相关的关键词会高频率地出现在搜索引擎中。同时，人们也会通过Twitter等社交工具反映本人或其朋友是否感染了流感，并发布与流感相关的信息等。谷歌利用这一现象，抽取与流感相关的关键词并对词频进行分析，从而预测流感的传播情况。相对于传统的疾病监测系统，这种方法成本低廉而且能较早地预测流感的爆发。对比谷歌流感趋势2004年至2008年流感流行病数据与美国国家疾控中心的数据可知，两者的结果非常吻合。而获得谷歌流感趋势结果的成本要远远低于美国国家疾控中心的预测结果，后者是花费了相当数量·92·的调研经费才取得的。谷歌在美国的九个地区做了测试，最后发现他们可以比联邦疾病控制和预防中心提前7到14天准确地预测流感的爆发。预测性医学信息学（PredictiveMedicalInformatics）在未来必将有更大的发展空间，其重要性也将渐渐被人们认识到，谷歌流感趋势仅是个开端。谷歌的搜索数据是具有巨大价值的分布式数据，大数据思维促使企业收集和再利用这些用户离散地创造的数据，并探寻原来小数据时代不会被发现的关联模式。虽然，对于噪音会破坏其模型精度的讨论一直存在，但这也促使谷歌的开发者们不断调整模型，寻找减少噪音的跟踪方法。即使存在一些质疑，谷歌流感趋势项目仍然被认为是大数据具备革命性潜力的典范，是大数据再利用的最前沿、最实际、最具应用前景的尝试。无论是Facebook．Twitter这些社交平台将用户的信息存人到巨大的个人信息库中以待开发，或是电商企业通过整合网上搜索信息以寻找新一季的热卖款，又或是利用电动汽车的电池信息以确定充电站的最佳设置点，这一个个实例都在说明，专业技术人员应及时运用自己的创造力和新工具来释放数据的潜在价值，寻找数据之间的新联系。第三节数据的重组与扩展一、数据重组数据在被使用之后，可以再与其他数据重组形成新的数据集合，这种新的数据集合有可能比之前两个数据集的单个价值总和具有更大的价值，这就是大数据时代下数据重组的魁力。数据重组要求专业技术人员在工作中深刻了解每个数据集的内容和结构，掌握多源数据融合的方法，努力挖掘不同数据集之间的关联关系，从而探寻出更多具有实际价值的、新颖的数据模式。（一）数据重组的含义无论是政府还是企业，在应用大数据的过程中，最重要的是对已有数据进行整合和重组，通过重组，“老树”也可以“开新花”。也就是说，数据的价值并非来自于单个的数据值，而是从数据汇总中体现出来。有时，一些数据处于休眠状态，其数据价值要通过与另一个不同的数据集相结合才能释放出来，并创造出很多非常有意义的结果。·93·数据重组的概念可以这样理解：随着大数据的出现，数据的总和比部分更有价值，将多个数据集重组在一起时，重组后的数据总的价值比单个数据价值的总和要大得多。通过数据重组，数据的价值能达到“1＋1＞2”的效果。正是由于数据重组带来的巨大的增值性，许多企业和组织都在摸索将两个或多个数据集相融合的模式，最大可能地挖掘数据的潜在价值。《二）数据重组的主要方法大数据的一个重要特征就是数据类型繁多。半结构化和非结构化的数据的增多对数据的处理能力提出了更高要求，需要更多新方法和新技术对多源异构数据进行整合和分析。实现数据重组的关键是多源数据融合和数据集成，前者旨在解决大数据环境下数据的异构问题，后者则是大数据重组模式下价值提炼的关键。1．多源数据融合大数据的来源包括但不限于网络访问日志数据、社交网络数据、智能终端数据、移动数据、视频采集数据、WebZ．0环境下产生的用户数据，以及语音通话、传感器等自动采集的数据等。这些数据类型多样、结构复杂。面对这样的数据，多源数据融合方法是解决异构数据重组的重要方法。多源数据融合研究如何加工、协

同利用多源数据，把不同渠道、利用多种采集方式获取的、具有不同结构的数据汇聚到一起，形成可以面向多种应用的数据集合，并使不同形式的数据相互补充，以便进行综合处理。多源数据融合是数据分析前的重要准备过程，对同型异源信息、异质异构信息，都需要通过异源信息字段的映射、拆分、滤重、加权等方法来进行融合。多源数据的优势在于它可以从不同视角反映人物、事件或活动的相关信息，将这些数据重组在一起并进行分析，以更全面地揭示事物之间的联系，挖掘出新的关联模式，从而为业务模式的制定、竞争机会的选择等提供有力的数据支撑与决策参考。以电信业为例，运营商们现在主要的问题不在于没有数据或是数据量不足，而在于组合分析数据并将其转变成知识的能力相对较弱。最近，美国AT＆T公司开始对外销售其客户的使用数据，这被视为利用大数据资源营利的一种尝试。AT＆T公司对外销售的不是简单的原始数据，而是经过一定分析处理的数据，这就需要具备大数据的整合分析能力。首先要做的就是把业务系统中产生的各类数据整合起来，比如将计费系统、资源系统等进行整合，再寻找数据间的相关性，识别真正有用的数据，排除数据废气的干扰。同时，用户隐私保护问题也要纳人考虑。最·94后，经过这一系列科学化处理之后的数据才能真正被称为大数据资产。对于电信运营商来说，建立一个大数据的前期处理平台至关重要，在这个平台上可以整合来自不同业务运营部门分散的数据，进行数据清洗和转换，完成多源数据的融合。融合后的数据将以可以进行多维度分析的数据元组形式保存下来，进而被不断运用。正是因为如此，电信运营商十分重视建立适应大数据异构性的集成平台，基于平台开展数据整合工作，从而实现数据价值的最大释放。2．数据集成数据重组强调数据共享，而在实施数据共享的过程当中，来自不同部门、不同用户的数据结构、数据格式和数据质量会有很大的差异，这就可能带来数据格式不能转换或数据转换后丢失信息等问题，严重阻碍数据的流动与共享。针对这一问题，就需要对数据进行有效的集成管理以增强数据管理竞争力。现在，许多大型企业和政府部门都开始了信息化进程，而信息系统建设通常具有阶段性和分布性的特点，这就容易造成“信息孤岛”现象。“信息孤岛”会造成系统中存在大量冗余数据、垃圾数据，无法保证数据的一致性，从而降低信息的利用效率。数据集成旨在解决“信息孤岛”的问题，其核心任务就是将互相关“联的分布式异构数据源集成到一起，并维护数据源整体上的数据一致性，使用户能够以统一的方式访问这些数据源，提高信息共享利用的效率，实现数据重组的目的。用户产生新的数据集成需求，而不同的数据则存储在不同的数据源中，通过数据集成技术可以将来自不同数据源的数据进行统一化集成处理，完成各种异构数据的统一表示、存储和管理的功能，这些功能在数据集成系统中实现，最后形成数据结果反馈给用户。图4M是数据集成系统的模型。数据集成技术面临着如何适应大数据时代的数据需求复杂的问题，以及如何充分描述各种数据源格式以便进行发布和数据交换等难题。数据集成涉及多种计算机技术，如分布式对象技术、XML技术、面向对象技术。SQL扩充技术以及数据库访问接口技术等。数据集成系统需要将这些技术整合起来，从而使数据高效融合，消除“信息孤岛”，为组织带来数据的创新价值。（三）数据重组的案例丹麦癌症协会关于手机与癌症关系的研究以及美国的LEHD项目，是两个数据重组的成功案例，展示了数据重组的创新魁力。1．数据重组的医学贡献——丹麦癌症协会证明手机与癌症无关在移动互联时代，手机渗透到人们的工作、学习、社交、娱乐等方方面面，全球现已有60亿部手机，在一些发达国家或发达城市中，“人手一机”或“人手多机”的情景比比皆是。这么多的用户共同担心的一个问题是，手机在给

共3页:

大数据时代第四章.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

大数据时代 第四章

大数据时代第四章