战略与决策研究
应是一个迭代累进的过程。没有科学假设和模型
Strategy&PolicyDecisionResearch
的方法,不一定能直观地展现出大数据本身的意义。要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联关系时,可能会落入固有的偏见之中。数据表示方法和最初的数据产生者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但标识数据会给用户增添麻烦,所以往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一;
(3)高效率低成本的大数据存储。大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,就需要研究高效率低成本的数据存储方式。具体则需要研究多源多模态数据高质量获取与整合的理论和技术、流式数据的高速索引创建与存储、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等;
(4)大数据的有效融合。数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。如同人类有许多种自然语言一样,作为网络空间中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。大数据已成为联系人类社会、物理世界和网络空间的纽带,需要通过统一的数据格式构建融合人、机、物三元世界的统一信息系统;
(5)非结构化和半结构化数据的高效处理。据统计,目前采集到的数据85%以上是非结构化和半结构化数据,而传统的关系数据库技术无法胜任这些数据的处理,因为关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP(Consistency,Availability,tolerancetonet-workPartitions)理论,在分布式系统中,一致性、可
就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?也许有些领域可以先用第四范式,等领域知识逐步丰富了再过渡到第三范式。
5面临的主要问题与挑战
现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。大数据也导致高可扩展性成为对IT系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高到10亿级以上。
在应对处理大数据的各种技术挑战中,以下几个问题值得高度重视:
(1)大数据的去冗降噪技术。大数据一般都来自多个不同的源头,而且往往以动态数据流的形式产生。因此,大数据中常常包含有不同形态的噪声数据。另外,数据采样算法缺陷与设备故障也可能会导致大数据的噪声。大数据的冗余则通常来自两个方面:一方面,大数据的多源性导致了不同源头的数据中存在有相同的数据,从而造成数据的绝对冗余;另一方面,就具体的应用需求而言,大数据可能会提供超量特别是超精度的数据,这又形成数据的相对冗余。降低噪声、消除冗余是提高数据质量、降低数据存储成本的基础;
(2)大数据的新型表示方法。目前表示数据
2012年.第27卷.第6期