大数据的研究现状与科学思考
用性、分区容错性三者不可兼得,因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。以MapReduce和Hadoop为代表的非关系数据分析技术,以其适合非结构数据处理、大规模并行处理、简单易用等突出优势,在互联网信息搜索和其他大数据分析领域取得了重大进展,已成为大数据分析的主流技术。MapReduce和Hadoop在应用性能等方面还存在不少问题,还需要研究开发更有效、更实用的大数据分析和管理技术;
(6)适合不同行业的大数据挖掘分析工
定、资源投入、人才培养等方面给予强有力的支持;另一方面,建立良性的大数据生态环境是有效应对大数据挑战的唯一出路,需要科技界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、建立专业组织等途径,建立和谐的大数据生态系统。
就大数据研究计划与措施,我们有如下的建议:
6.1优先支持网络大数据研究
大数据涉及物理、生物、脑科学、医疗、环保、经济、文化、安全等众多领域。网络空间中的数据是大数据的重要组成部分,这类大数据与人的活动密切相关,因此也与社会科学密切相关。而网络数据科学和工程是信息科学技术与社会科学等多个不同领域高度交叉的新型学科方向,对国家的稳定与发展有独特的作用,因此应特别重视与支持网络大数据的研究。大数据涉及应用领域很广,当前大数据的研究应与国计民生密切相关的科学决策、环境与社会管理、金融工程、应急管理(如疾病防治、灾害预测与控制、食品安全与群体事件)以及知识经济为主要应用领域。
具和开发环境。不同行业需要不同的大数
据分析工具和开发环境,应鼓励计算机算法研究人员与各领域的科研人员密切合作,在分析工具和开发环境上创新。当前跨领域跨行业的数据共享仍存在大量壁垒,海量数据的收集,特别是关联领域的同时收集还存在很大挑战。只有跨领域的数据分析才更有可能形成真正的知识和智能,产生更大的价值;
(7)大幅度降低数据处理、存储和通信
通信、存储、6.2大数据科学的基础研究能耗的新技术。大数据的获取、
管理与分析处理都需要消耗大量的能源。在能源问题日益突出的今天,研究创新的数据处理和传送的节能方法与技术是重要的研究方向。
无论是国外政府的大数据研究计划,还是国内外大公司的大数据研发,当前最重视的都是大数据分析算法和大数据系统的效率。因此,当工业界把主要精力放在应对大数据的工程技术挑战的时候,科技界应开始
6建议和举措
尽管大数据意味着大机遇,但同时也意味着工程技术、管理政策、人才培养等方面的大挑战。只有解决了这些基础性的挑战问题,才能充分利用这个大机遇,得到大数据的大价值。因此,我国亟需在国家层面对大数据给予高度重视,特别需要从政策制
着手关注大数据的基础理论研究。大数据科学作为一个新兴的交叉学科方向,其共性理论基础将来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等。因此,大数据的基础研究离不开对相关学科的领域知识与研究方法论的借鉴。在大数据的基础研究方面,建议研究大数据的
院刊