云计算技术产品体系梳理(6)

2018-11-21 22:21

台为中心实用分布式技术,并取得了较大的成功。此外,在过去的20多年间也涌现出了大量的分布式计算技术,如中间件技术、网格技术、移动Agent技术、P2P技术以及Web Service技术。它们在特定的范围内都得到了广泛的应用。

2.分布式编程技术及代表企业产品

为了使用户能更轻松的享受云计算带来的服务,必须通过十分简单的编程模型来编写程序实现用户特定的目的,也必须保证后台复杂的并行执行和任务调度的透明性。因此,当前各IT厂商提出的“云”计算编程工具均基于Map-Reduce的编程模型。

MapReduce分布式方法最先由谷歌设计并实现。围绕MapReduce方法,谷歌设计开发了一套分布式数据处理系统框架,包括分布式文件系统GFS(Google File System),MapReduce分布式编程环境以及分布式大规模数据库管理系统BigTable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,其降低了开发并行应用的门槛。

25

脱胎于Google MapReduce的Hadoop是Apache软件基金会开发的分布式密集数据处理和数据分析的软件框架,它在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势。Hadoop已经成为云计算生态环境中不可或缺的一环,是拥有海量数据处理需求的公司的标准配置,许多商业创新和产品创新也围绕Hadoop展开。

目前许多IT企业数据处理的工具普遍采用Hadoop架构,亚马逊、微软、IBM、甲骨文等大型IT厂商也纷纷提供了基于Hadoop的数据处理工具。根据Gartner的报告,到2015年,65%的分析应用程序与先进分析工具都会嵌入Hadoop技术。

下表列举了目前业界提供基于Hadoop模型的数据处理工具的主要厂商,以及在自家系统中应用了Hadoop技术但未提供商用产品的一些厂商。

表4.提供Hadoop相关产品的主要厂商

厂商 IBM 产品 InfoSphere BigInsights 产品性能 一套建立在Hadoop上的数据分析软件,能够处理企业用户收集大量非结构化资料。 微软 微软与Hortonworks合作开发Hadoop,在Apache Windows Hadoop上实现搭建Windows Azure以及Windows Azure、Windows Server平台,同时基于Hadoop的Windows ServerServer平台 还会与微软现有的BI工具联合处理任务。 Big Data Appliance 集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 Amazon是最早推出AWS Elastic MapReduce的,在EC2和S3上运行Apache Hadoop,同Amazon的其他IaaS产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户。 26

Oracle Amazon AWS Elastic MapReduce

Cloudera EMC Yahoo! 百度 中国移动 CDH3 Greenplum Analytics Workbench 这是一个调优过的Hadoop AMI,包含很多附加软件,可以帮助管理、运行Hadoop上的复杂任务。 Greenplum并不提供Hadoop-as-a-Service,而是提供了一个超过10000虚拟节点和24 PB存储容量的平台,用于对Hadoop本身进行测试。 其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。 使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理。 在“大云”研究中使用Hadoop技术,规模超过1000台。 淘宝投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据。 在自家系统中应用Hadoop技术但不提供商用产品 阿里巴巴 MapRZettasetCloudera、、、与Hadoop相关的最新技术 这些与Hadoop相关的新公司已经获得投资,为人们所熟知,为各种市场带来最新技术。 HStreaming、HadaptDataStaxDatameer

、、3.分布式文件存储及代表企业产品

文件是最常见的一种数据组织形式。云中的文件被分布保存在不同的存储节点中,因此需要通过分布式文件系统对它们进行统一管理。分布式文件系统能够支持多台主机通过网络同时访问共享文件和

27

存储目录,这使多台计算机上的多个用户能够共享文件和存储资源。在分布式文件系统环境下,客户端节点并不直接访问底层的块存储介质,而是使用网络协议进行文件操作交互。因此,分布式文件系统是对存储数据的共享,而不是对存储物理资源的共享。

传统的分布式文件系统中,最典型的代表是Sun公司开发的网络文件系统(Network File System, NFS)和卡内基梅隆大学开发Andrew(Andrew File System, AFS)文件系统。随后,Google、Apache等公司针对云计算环境又开发了GFS、HDFS、Lustre等文件系统。其中,Google文件系统(Google File System)是Google计算环境的基础底层架构,它针对Google的互联网应用领域进行了专门的设计,并被成功运用在Google的业务环境中。同时,GFS的设计文档被公开发表也引起了业界的高度重视,并由此衍生出多种与之类似的文件系统设计,例如HDFS(Hadoop Distributed File System)。

作为云平台技术的重要组成部分,分布式文件系统被各大云计算服务企业普遍应用。但目前各个厂商开发的文件系统大部分是开源系统或者作为公司自有技术,并没有作为成熟的商业产品发售。业界主流的分布式文件系统如下表所示。

表5.主流分布式文件系统

分布式文件系统 NFS AFS 厂商 Sun公司 系统特性 NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件。 主要功能是用于管理分布在网络不同节点上的文件。AFS的主要特点在于三个方面:分布式、跨平台、高安全性。 卡内基梅隆大学 28

Lustre HP、Intel、lustre是一个大规模的、安全可靠的,具备高可用性的集群文件系Cluster File 统,它可以支持超过10000个节点,数以PB的数量存储系统,适合System公大型集群,支持动态扩展。 司、美国能源部 Lustre已经运行在当今世界上最快的集群系统里面,比如Bule Gene,Red Storm等计算机系统,用来进行核武器相关的模拟等。 谷歌文件系统(GFS)是为了满足快速增长的数据处理需要而设计的,它能运行在不可靠硬件设备上进行海量的数据处理,处理来自多个用户的并发访问。 GFS考虑了分布式文件系统的共性设计目标:性能、可扩展性、可靠性和可用性。 GFS Google Hadoop HDFS HDFS是一个基于JAVA的支持数据密集型分布式应用的分布式文件Apache软系统。 HDFS设计用来在由通用计算设备组成的大型集群上执行分布式应用件基金会 的框架,它能够保证应用可以在上千个低成本商用硬件存储结点上处理PB级的数据。 MogileFs Danga MogileFS是基于Google File System开发的开源分布式文件系统,Interactive 公司 Gluster 用于组建分布式文件集群。 目前国内使用MogileFS的有图片托管网站 yupoo 等。 Gluster是一个大尺度文件系统,它是各种不同的存储服务器之上的组合,这些服务器由以太网或无限带宽技术Infiniband以及远程(被直接内存访问RDMA互相融汇,最终所形成的一个大的并行文件系GlusterFS RedHat公统网络。Gluster有包括云计算在内的多重应用,诸如:生物医药司收购) 科学,文档存储。 FastDFS是为互联网应用量身定做的分布式文件系统,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等开源系统 指标。 和类GFS分布式文件系统相比,FastDFS的架构和设计理念有其独到之处,主要体现在轻量级、分组方式和对等结构三个方面。 MooseFS是基于GFS开发的一个高容错性的分布式文件系统,能够开源系统 将资源分布存储于几台不同的物理介质,对外只提供给用户一个访问接口,对它的操作与其它文件系统完全一样。 FastDFS MooseFs Geph University Ceph是一个分布式文件系统,能够在维护 POSIX 兼容性的同时加入了复制和容错功能,它可能还不适用于生产环境,但它对测试目of California 的还是非常有用的。 TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了阿里巴巴 淘宝对小文件存储的需求,被广泛地应用在淘宝各项应用中。 29

TFS


云计算技术产品体系梳理(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:河北大学 计算机网络 课后习题 答案网络答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: