大数据发挥真正价值的领域在海量的数据中统计分析出人的行为、习惯等方式,计算机可以更好地学习模拟人类智能。随着包括语音、视觉、手势和多点触控等在内的自然用户界面越来越普及,计算系统正在具备与人类相仿的感知能力,其看见、听懂和理解人类用户的能力不断提高。这种计算系统不断增强的感知能力,与大数据以及机器学习领域的进展相结合,已使得目前的计算系统开始能够理解人类用户的意图和语境。“这使得计算机能够真正帮助我们,甚至代表我们去工作”。
以往,移动运营商和互联网服务运营商等拥有着大量的用户行为习惯的各种数据,在IT产业链中具有举足轻重的地位。而在大数据时代,移动运营商如果不能挖掘出数据的价值,可能彻彻底底被管道化。运营商和更懂用户需求的第三方开发者互利共赢的模式,已取得一定共识。
1.2. 云计算与大数据的关系
本质上,云计算与大数据的关系是静与动的关系;云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念。如果结合实际的应用,前者强调的是计算能力,或者看重的存储能力;但是这样说,并不意味着两个概念就如此泾渭分明。大数据需要处理大数据的能力(数据获取、清洁、转换、统计等能力),其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如基础设施即服务中的存储设备提供的主要是数据存储能力,所以可谓是动中有静。如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!
1.2.1. 当大数据遭遇云计算
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然
5
无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
云计算为什么能盛行呢?在互联网领域应用系统的构建:客户群体是不确定的、系统规模不确定、系统投资不固定、业务应用有很清晰的并行分割特征、数据仓库系统的构建、数据仓库规模可估算、数据仓库的系统投资与业务分析的价值和回报相关、商业智能应用属于整体应用、Saas模式构建数据仓库系统。
大数据管理,分布式进行文件系统,如Hadoop、Mapreduce数据分割与访问执行;同时SQL支持,以Hive+HADOOP为代表的SQL界面支持,在大数据技术上用云计算构建下一代数据仓库成为热门话题。从系统需求来看,大数据的架构对系统提出了新的挑战: 1、集成度更高。一个标准机箱最大限度完成特定任务。
2、配置更合理、速度更快。存储、控制器、I/O通道、内存、CPU、网络均衡设计,针对数据仓库访问最优设计,比传统类似平台高出一个数量级以上。 3、整体能耗更低。同等计算任务,能耗最低。
4、系统更加稳定可靠。能够消除各种单点故障环节,统一一个部件、器件的品质和标准。
5、管理维护费用低。数据藏的常规管理全部集成。 6、可规划和预见的系统扩容、升级路线图。
1.2.2. 云计算环境作为大数据处理平台
1.2.2.1. 云计算环境中基本计算单元的分化
企业云计算平台上虽然有多个并行计算的CPU,但并没有创造出具有超强数据处理能力的超级CPU,因此云计算平台需要的是有并行运算能力的软件系统。同时,当所有用户的数据全部放在云端时,虽然存储容量可以很方便地扩充,但面对大量用户同时发起的海量数据处理请求,简单的数据处理逻辑已经无法满足需要。
可以看到,国内有相当多的电商企业,用小型机和Oracle扛了好几年,并请了全国最牛的Oracle的专家不停优化他的Oracle和小型机,初期发展可能很快,但是后来由于数据量激增,业务开始受到严重影响,最典型的例子无疑是京东商城前段时间发生的大规模访问请求宕机事件,因此他们开始逐渐放弃了Oracle或者MS-SQL,并逐渐转向MySQL+X86的分
6
布式架构。
目前的基本计算单元常常是普通的X86服务器,它们组成了一个大的云,而未来的云计算单元里有可能有存储单元、计算单元、协调单元,总体的效率会更高。
1.2.2.2. 对系统稳定性的需求
在应对大规模访问的时候有一些系统稳定性的追求,来自很多方面,来自网络稳定性、数据库稳定性。对系统而言,需要把握一个大原则,需要消除任何单点故障。不光是网络上单点故障,还有来自你呼叫中心里的单点故障,只要有单点故障一定要消除掉。因为对于电商行业而言,每一秒都是钱,电子商务业务如果宕机一个小时,损失多少是可以算出来的,电商行业需要非常全面的技术系统监控报警系统。有时候你会发现你如果通过技术系统的监控去推导出你的技术发生问题已经晚了。
1.3. 发展趋势:大数据逐步“云”化
纵观历史,过去的数据中心无论应用层次还是规模大小,都仅仅是停留在过去有限的基础架构之上,采用的是传统精简指令集计算机和传统大型机,各个基础架构之间都相互孤立,没有形成一个统一的有机整体。在过去的数据中心里面,各种资源都没有得到有效充分地利用。而且传统数据中心资源配置和部署大多采用人工方式,没有相应的平台支持,使大量人力资源耗费在繁重的重复性工作上,缺少自助服务和自动部署能力,既耗费时间和成本,又严重影响工作效率。
而当今越来越流行的云计算、虚拟化和云存储等新IT模式的出现,又再一次说明了过去那种孤立、缺乏有机整合的数据中心资源并没有得到有效利用,并不能满足当前多样、高效和海量的业务应用需求。
在云计算时代背景下,数据中心需要向集中大规模共享平台推进,并且,数据中心要能实现实时动态扩容,实现自助和自动部署服务。
从中长期来看,数据中心需要逐渐过渡到“云基础架构为主流企业所采用,专有架构为关键应用所采用”阶段,并最终实现“强壮的云架构为所有负载所采用”,无论大型机还是x86都融入到云端,实现软硬件资源的高度整合。
数据中心逐步过渡到“云”,这既包括私有云又包括公有云。私有云,就是对企业现有的数据中心进行改造和架构调整 ,通过云计算对资源进行自动调度和分配,实现一个自动部署、
7
自动管理和自动运维的数据中心架构。而公有云则是由服务商建立IT基础架构,并向外部用户提供商业服务,而用户可以在不拥有云计算资源的条件下通过网络访问这些服务。与私有云相比,公有云的所有应用程序、服务和数据都存放在云端,用户数据也并不存放在企业内部数据中心。
正所谓“梅虽逊雪三分白,雪却输梅一段香”,相比之下,私有云会比公有云在数据安全性方面有更好的表现,但公有云却会比私有云有更“强壮的云架构”。因此,从数据中心演进的角度来看,讨论何种“云”并无实质意义,我们更应该重视的是数据中心在未来发展中所扮演的角色和出现的历史性变革。
8
第二章、 云计算大数据人才现状分析
2.1. 我国云计算大数据人才紧缺
经过多年的技术发展和经验积累,云计算行业已经进入一个相对成熟的阶段。作为新一代信息技术变革、IT应用方式变革的重要支柱,云计算已经成为当前信息技术产业发展和应用创新的热点。在国内,大量的企业单位正逐步将自己的IT系统从传统架构向“云”架构迁移,越来越多的用户正在享受“云”服务带来的便利。云计算更多的是在描述一种技术框架和服务交付模式,与此同时大数据则是直接向客户提供业务发展的推动力和生产力。
大数据出现以后,云计算并没有因此落幕,反而大有用武之地。作为云计算核心技术的分布式布署和分布式计算也是大数据系统所需要的关键技术,正是因为这一层关系,大数据给云计算带来了一个美丽的春天。随之而来的是IT基础设施和应用模式的革新,这对企业单位的信息部门来说,既是提升自我价值的机会,也是严峻的挑战。但是,国内云计算和大数据相关技术人才的匮乏已是业内公认的事实。
根据IDC的调查报告,从2012年至2015年的3年之间里,云计算大数据的相关工作需求将出现26%的年增长率,超过1/4的增长率再次证明了企业对云计算大数据人才的巨大需求。IDC的预测还表明,2012年有约170万的云计算大数据相关岗位出现真空,而这方面的求职者也都缺乏云计算大数据方面的实践经验,并且不具备完善的培训机制;值得警醒的是,到2015年,这个数字从170万上升到700万,云计算大数据产业面临着更大的人才缺口。
2.2. 云计算大数据人才培养情况
在过去一段时间内,为了满足信息技术产业的发展,国内多数高校、职业院校开设了计
9