互联网大数据文献综述(2)

2019-03-22 16:49

互联网大数据文献综述

流失的访问模式(季节相关主题,名人的标题),和热庞大的数据集(比较基因组计算)应加以考虑。此外,潜在的维度之间的相关性出现能对硬件堆栈的进行预测:一个视频,由于存在多种格式或语言字幕,结果有许多版本,这些可以离线生成和存储(因此需要足够的存储)或动态生成(代码转换和翻译调控)数据给数据中心,或是在用户的设备上(客户端计算)带来计算压力。另外,可能要重新考虑相对优先级的进展,在处理器设计的性能的考虑在当前的子系统的I/O之上。存在这样一种替代的极端,一种选择将是考虑一个可能的“版本”:层次结构的计算支持数据存储的元素,而不是今天的设计存储层次结构为计算元素服务。逐渐瓦解现有的存储层次结构的平滑过渡,这样进一步提供节省能源消耗。了解工作负载也能在硬件识别可能会用于直接执行特殊用途处理单元。图形处理器、现场可编程门阵列(FPGA),专业化的特定应用集成电路(ASIC),和专用的视频编码器/解码器都是值得考虑的。这样的硬件加速器大大减少能源消耗,与通用处理相比较。这些可以集成在芯片上,导致的以数据为中心的家族是非对称处理器。

对软件的影响。软件系统、存储和计算的需要为了迎合一个相当大的问题:数据规模的空间、工作负载的性质和其他应用程序的需求,像一致性、可用性和分区容忍。大数据规模需求高度可扩展的分布式存储系统能够适应大量的数据,有效率的入口和出口的机制;Apache的Flume就是这样的有利于数据收集的系统。此外,这些存储系统应该支持高效查询的内存缓存和其他OLTP工作负载;即使HDFS 最近增加了支持缓存。

不同工作负载需求各种各样的计算特点引擎,流式处理更多的在线数据的查询与事务支持。

互联网大数据文献综述

大数据分析通常允许对其定量的输出放宽精度约束,从而影响算法设计。随机的算法应用原始的、 昂贵的计算内核和最后牺牲精度(数据可证明的界限尺寸/精度权衡)。能源意识到计算内核可以减少能源足迹的分析计算,同时保留性能与最小精度退化 (能源/精度权衡)。 2.数据分析的硬件平台

我们现在考虑当前数据分析的硬件平台,以及这些平台将来如何发展。 2.1 内存/存储

在传统的系统设计,磁盘用于数据持久化和DRAM内存更快的访问/磁盘缓存。然而传统磁盘有移动的部件,很大程度上制约了他们的一生和建立对其访问的时间界限。另一方面,DRAM芯片需要静态刷新电路独立消费能源判断是否有数据读/写活动。非易失性存储器(NVM)技术能解决这些缺点,并有望在未来设计发挥重大作用。有几个以数据为中心的NVM应用程序[的建议。基于Flash的应用可以公开为块存储通过串行连接SCSI(SAS)和串行先进技术附件(SATA)或PCI Express接口甚至结合解散汇总内存提供降低成本效益解决方案。其他类型的非易失性存储器如相变存储器(PCRAM)和忆阻器已提出将集成作为字节寻址的内存在芯片上的存储器总线或直接堆放(3D堆)。非易失性存储器也可以用于实现额外的缓存层次,或更换持久存储,从而用于各级促进减缓内存崩溃的内存类型。这些建议的共同点是稳定的转变用于持久性数据存储的内存接口,理由是性能与简化。

移动计算更接近数据也受到许多大型数据管理任务的一般结构,随后产生相关框架。例如在经常使用的MapReduce范式中,数据被分区在可用的节点和任

互联网大数据文献综述

务计划,这样配置与数据操作的数量有关。任务和相关数据的搭配也很注重节约能源。最近的毫微级储存方案主张计算与持久性数据存储的搭配。这是让人想起过去的想法,活跃存储,增强磁盘控制器处理特殊计算任务,是当时应用程序范围有限的原始提案。

从进化的角度来看,磁盘仍然具有很高的成本。因此,他们不太可能完全被取代在之后的一段时间。NVM技术应被视为近期未来设计的有吸引力的组成部分。在这方面,我们还应该考虑到变化的应用将引发在总体的软件的栈的变化。例如,当前的文件系统是在以毫秒的延迟优化。NVMs提供延迟减少约三个数量级在这段时间(微秒)。有的建议基于闪存的固态硬盘(SSD)支持key-value存储抽象,有利于它的工作负载。还有其他人建议固态硬盘作为传统硬盘的缓存组织(混合设计)。理想情况下NVMs应该暴露在的持久性指令集级别(ISA),操作系统可以使用他们有效(例如,通过重新设计的部件,承担记忆波动或提供给上层,放置档案资料节能NVM模块API。)的数据。另一方面,持久的记忆能力将降低分离性;可以通过持久的内存交换解决这个问题。从算法的角度设计和相关的数据结构,non-volatility可以推动替代,优化设计和索引的实现结构,键值存储数据库和文件系统,所有大数据分析的主要组件。 2.2 网络资源对于数据分析

主要考虑设计标准通信协议栈的链路,网络和传输层的设计与互操作性的不同的技术和制造商的组件。在这个设计中链路层是不可靠的,因此拥塞或不可靠的通信信道会造成数据包丢失。为了补救,传输层在最后要求让步传播,从而影响带宽。然而,一个典型的数据中心网络环境是完全不同的广域网。首先,它的信道可以被认为是无损的,这一假设应该理想地反映在它实现的流动机制。在一个

互联网大数据文献综述

单一的行政控制下,它大多是均匀的,所以向后兼容已经部署的协议不是问题。负载平衡器和应用程序代理从外部通信所以没有单独的内部交通与常规TCP公平性问题。在排队的情况下,往返时间(RTT)可小于250微秒。应用程序同时需要非常高的带宽和非常低的延迟。此外,很少有统计复用,所以一个流可以主导一个特定的路径。

数据中心网络中的一个特殊性能瓶颈是在许多大型网络应用程序广泛使用的分区/总设计模式:从更高层次的应用程序的请求被分解成块,并在较低层的代理聚集,查看这些代理的反应,然后汇总产生的结果。由此可见,数据以传回多对一的方式遍历一个瓶颈环节。随着并发者数量的增加,吞吐量的应用水平在接收时比容量低几个数量级。例如,这可能发生在MapReduce工作的shuffle阶段,当中间的键-值对多映射转移到适当的reducers。最近的一个变种TCP,TCP数据中心(DCTCP),解决了这个Fork-Join网络交通结构,利用工程变更协议在大多数商品交换中实现的扩展,允许端到端的网络拥塞通知丢弃数据包。相反,未来的性能问题可能会带动开关设备的定制。

注意,处理特定网络的缺点的细节与选择的协议基本上是相关的。这个基本的竞争者是以太网和无线带宽。无线带宽是一种能量比例网络,这个属性让这种技术的优势,因为能源效率是一个主要的设计目标在未来数据中心。预计这两个选项将在即将到来的未来会成为应用程序为基础。

关于互连技术,光学和电气光学设计有着显着的优点。然而,由于光电转换代表能源效率的瓶颈,我们的目标是使用一个全光开关结构。这种转变将被首先消除了网络接口控制器(NIC),所以网络处理器将直接对话;同样也可以使光成为处理到内存的路径,最近发布的第一个平行光收发模块原型具有每秒传输一个TB

互联网大数据文献综述

信息能力,由IBM清楚地识别大数据分析作为目标市场,强调设备的能源效率。英特尔还计划推出一个成本有效的光学互连的雷电接口电缆(已准备在苹果产品中使用)。作为一种混合电/光开关的一个例子,太阳神是一个体系结构有显着减少的,布线,成本和功耗的开关元件。它是一个二级多根树的开关和核心交换机,其中的核心包括传统的电分组交换机和微机电系统为基础的光电路开关。包括电气交换机的原因是需要处理在聚集的交通需求之间的不同对突发性证明:支持这一类型的交通所需的(光)电路的数目将是禁止的,和电分组交换将是可取的。 2.3 大数据分析中的能量问题

能量均衡是云计算的一个重要目标系统和组件。大多数数据中心操作超过一半的峰值负载,虽然它们的效率最大化在峰值负载。能量比例意味着功率消耗与负载之间一个线性关系。这是可以实现的明确地使用能量比例的设备,或仅为计算过程中绝对必要的组件。更具体地说,工作整合通常适用于粗—像单个服务器机器一样的细粒度组件,这种方法的适用性很大程度上取决于类型的计算:批量处理产生理想的功率减少但在线或并行应用程序不允许这样的能量储蓄计划。请注意能量相称性不是名义上的光网络技术的特点(静态激光功率消费)。

然而,能量优化与系统在更大的部署中更容易节省电力,特别是在输送电子设备之前的能量,管道移动或存储数据处理。冷却功率交付在大多数情况下,适合于能源的设计和实施。安德烈等人因子数据中心的效率为三个计算设备,服务器的能源转换,执行计电子元件的效率,和计算的本身。尽管第三项是最相关的我们的讨论,前两个因素每瓦特“生产性”消耗2.2瓦的能量。以一个更整体的方法来优化第三项。巴利加等人。考虑优化能源消费在全球云系统首先分析能耗概况的运输,储存,并在各种存储即服务绘制场景服务器,软件作为一种服务,和处


互联网大数据文献综述(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:大象版五年级下册科学知识点总结

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: