答案B
5. 下列哪个是 Hadoop 运行的模式
a)单机版 b)伪分布式 c)分布式 答案ABC
6. Cloudera 提供哪几种安装 CDH 的方法
a)Cloudera manager b)Tarball c)Yum d)Rpm 答案:ABCD具体可以参考
Hadoop CDH四种安装方式总结及实例指导
简答题
1.Hadoop集群可以运行的3个模式?
1)单机(本地)模式; 2)伪分布式模式; 3)全分布式模式;
2.单机(本地)模式中的注意点?
在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。
3.伪分布模式中的注意点?
伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。
4. 全分布模式又有什么注意点?
全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode
运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。
5. Hadoop是否遵循UNIX模式?
是的,在UNIX用例下,Hadoop还拥有“conf”目录。
6. Hadoop的核心配置是什么?
Hadoop的核心配置通过两个xml文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。这些文件都使用xml格式,因此每个xml中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。
7. 那当下又该如何配置?
Hadoop现在拥有3个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。这些文件都保存在conf/子目录下。
8. fs.mapr.working.dir只是单一的目录?
fs.mapr.working.dir只是一个目录。
9. hdfs-site.xml的3个主要属性?
dfs.name.dir决定的是元数据存储的路径以及DFS的存储方式(磁盘或是远端) dfs.data.dir决定的是数据存储的路径 fs.checkpoint.dir用于第二Namenode
10. 如何退出输入模式?
退出输入的方式有:1,按ESC;2,键入:q(如果你没有输入任何当下)或者键入:wq(如果你已经输入当下),并且按下Enter。
11. “jps”命令的用处?
这个命令可以检查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作。
12. 如何重启Namenode?
点击stop-all.sh,再点击start-all.sh。
键入sudo hdfs(Enter),su-hdfs (Enter),/etc/init.d/ha(Enter),及/etc/init.d/hadoop-0.20-namenode start(Enter)。
13. Fsck的全名?
全名是:File System Check。
14. mapred.job.tracker命令的作用?
可以让你知道哪个节点是Job Tracker。
15. /etc /init.d命令的作用是?
/etc /init.d说明了守护进程(服务)的位置或状态,其实是LINUX特性,和Hadoop关系不大。
16. 如何在浏览器中查找Namenode?
如果你确实需要在浏览器中查找Namenode,你不再需要localhost:8021,Namenode的端口号是50070。
17. hadoop-env.sh是用于做什么的?
hadoop-env.sh提供了Hadoop中. JAVA_HOME的运行环境。
18. Master文件是否提供了多个入口?
是的你可以拥有多个Master文件接口。
19. Hadoop-env.sh文件当下的位置?
hadoop-env.sh现在位于conf。
20. 在Hadoop_PID_DIR中,PID代表了什么?
PID代表了“Process ID”。
21. /var/hadoop/pids用于做什么?
/var/hadoop/pids用来存储PID。
22. Hadoop需求什么样的网络?
Hadoop核心使用Shell(SSH)来驱动从节点上的服务器进程,并在主节点和从节点之间使用password-less SSH连接。
23.全分布式环境下为什么需求password-less SSH?
这主要因为集群中通信过于频繁,Job Tracker需要尽可能快的给Task Tracker发布任务。
24. SSH工作的端口号是?
SSH工作的端口号是NO.22,当然可以通过它来配置,22是默认的端口号。
25.为什么SSH本地主机需要密码?
在SSH中使用密码主要是增加安全性,在某些情况下也根本不会设置密码通信。
26.如果在SSH中添加key,是否还需要设置密码?
是的,即使在SSH中添加了key,还是需要设置密码。
27.假如Namenode中没有数据会怎么样?
没有数据的Namenode就不能称之为Namenode,通常情况下,Namenode肯定会有数据
28.当Job Tracker宕掉时,Namenode会发生什么?
当Job Tracker失败时,集群仍然可以正常工作,只要Namenode没问题。
29.是否可以在Windows上运行Hadoop?
你最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中,Windows通常不会被使用,因为会出现各种各样的问题。因此,Windows绝对不是Hadoop的推荐系统。
30.简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好
1.配置主机名
2.配置Hosts 3.配置面密码互通 4.安装JDK
5.安装hadoop
6.配置hadoop (1)修改 hadoop-env.sh (2)修改 core-site.xml (3)修改 hdfs-site.xml
(4)修改 mapred-site.xml
(5)修改 yarn-site.xml
(6)修改 slaves
7.配置hadoop的环境变量
8.格式化namenode
32.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么?
NameNode -- hdfs名字节点,存储hdfs元数据
SecondaryNameNode -- 辅助NameNode实现fsimage文件和edits文件的合并 DataNode -- 存储数据的节点
ResourceManager --负责集群中所有资源的统一管理和分,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序
NodeManager --是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)
33.请写出以下执行命令
1)杀死一个job? hadoop job –kill job_id 2)删除hdfs上的/tmp/aaa目录 hadoop fs -rmdir /tmp/aaa
3加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令? hadoop balance
5.请列出你所知道的hadoop调度器,并简要说明其工作方法? (1)默认的调度器FIFO
(2)计算能力调度器Capacity Scheduler (3)公平调度器Fair Scheduler (4)适用于异构集群的调度器LATE
(5)适用于实时作业的调度器Deadline Scheduler和Constraint-based Scheduler 6.请列出在你以前工作中所使用过的开发mapreduce的语言? Java
7.当前日志采样格式为