北京交通大学毕业设计(任务书)
毕业设计(论文)应完成的工作: 1。 了解整个系统的结构,针对系统所要完成的各项工作进行该方面的学习,掌握基于hadoop的分布式文件系统设计和实现方法。 2。 完成系统中必备的各个配置步骤。 3。 在系统上运行wordcount并进行系统性能分析。 4。 完成该项目所涉及代码及配置步骤的记录。 5。 对handoop现有的安全机制存在的安全隐患提出相应的解决措施。 6。 毕业论文。 参考资料推荐: ⑴ Tom White著,曾大聃,周傲英译,《Hadoop权威指南》[专著],北京:清华大学出版社,2010 ⑵陈勇[著],《基于hadoop平台的通信数据分布式查询算法的设计与实现》[硕士学位论文],北京:北京交通大学计算机学院,2009 ⑶ 周品主编,《hadoop云计算实战》[专著]。北京:清华大学出版社,2012 ⑷ 赵书兰编著,《典型hadoop云计算》[专著] 。北京: 电子工业出版社, 2013 北京交通大学毕业设计(任务书)
其他要说明的问题: 北京交通大学毕业设计(论文)开题报告
题 目: 基于hadoop的分布式文件系统的实现与验证 学院: 计算机 专业: 信息安全 学生姓名: 学号: 文献综述: Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到IT业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模人手.通过对模型各组成部分进行分析.并将其与传统的分布式文件系统进行比较。总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的霞要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现。并为云计算背景下的分布式文件系统设计提供雨要的参考。 云计算?是一种新兴的计算模型,它是并行计算、分布式计算、网格计算的综合发展,或者说是这些计算科学概念的商业实现。它的基本原理是将计算、存储及软硬件等服务分布在非本地的大量计算机构成的资源池上,用户通过网络获得相应的服务,从而有效的提高资源利用率,实现了真正的按需获取。目前云计算模型众多,但多为商业模型,而Hadoop作为开源的云计算模型,它模仿和实现了Google云计算的主要技术,并且使用Java语言编写,可移植性强,为个人和企业进行云计算方面的研究和应用奠定了基础。 北京交通大学毕业设计(论文)开题报告
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)高可靠性和高可扩展性的分布式文件系统.能够提供海量的文件存储能力。它的开发和实现遵循了Coogle文件系统(Google file system,GFS)的核心原理,而GFS作为Google云计算核心技术体系的底层,为相关技术如MapReduee分布式计算模型、Bigtable分布式数据库等)的实现提供了有效的支撑。同样,Hdfs本身以及以它为基础的一系列开源软件技术的研究和开发,已被业界广泛应用到云计算的具体实践中.获得了非常好的效果。当前.针对HDFS的研究普遍关注其具体的技术细节和实施效果.尚缺乏对其进行系统设计理论上的分析和比较。本文从模型分析的角度人入手.首先介绍在业界获得普遍认同的分布式文件系统的用户需求和架构模型.然后针对HDFS的体系架构进行实现,最后将HDFS与传统的分布式文件系统进行比较.总结了HDFS在云计算领域中应用的优势及存在的安全问题。并对其设计和应用提出建议。 从模型的角度出发.可以分析出HDFS在设计和实现上的主要特征。 1采用专用的服务器提供目录服务。Namenode对文件元数据进行管理.能够维护统一的文件名字空间供用户访问以及从全局上对系统进行控制.提高了系统的透明性和可扩展性:同时。Namenode不承担文件内容的供给,减轻了节点压力。 2采用数目众多的服务器提供扁平文件服务。多个Datanode可以同时为用户提供文件数据块服务。它们分布广泛并互为备份.提高了系统在节点级的可靠性。因此.单个节点可以由普通的PC服务器担当。有利于降低系统成本。 3采用文件数据分块和数据块复制机制。文件数据被划为多个数据块,有利于对其内容进行查找和定位,同时数据块的多个拷贝能够提高系统在文件级和数据块级的可靠性;同时,分布在不同Datanode上的北京交通大学毕业设计(论文)开题报告
数据块可以被并行访问,改善了访问性能。 4采用多种通信机制。根据通信对象和传输内容的不同,分别提供了远程过程调用和数据流两种通信方式,实现了带外控制,提高了访问性能。 Hadoop的优点在于: 1)可扩展:不论是存储可扩展还是计算可扩展都是Hadoop的设计根本。Had00p的扩展非常简单,不需要修改任何已有的结构。 2)经济:其框架可运行在任何廉价Pc上,对硬件没有特殊的要求。 3)可靠:分布式文件系统的备份恢复机制及M印Reduce的任务监控保证了分布式处理的可靠性,Hadoop默认提供1个以上备份。 4)高效:分布式文件系统高效数据交互实现及MapReduce结合kal Data处理的模式,为高效处理海量信息打下基础。 但是,通过对比、分析也可以发现,HDFS在一些方面仍然有待完善,可以向传统的分布式文件系统借鉴相关的方法和技术。同时,HDFS也不是万能的,文件服务的提供者必须根据实际需要选择合适的文件系统。