Hadoop面试题汇总(2)

2019-08-30 11:29

答案B

5. 下列哪个是 Hadoop 运行的模式

a)单机版 b)伪分布式 c)分布式 答案ABC

6. Cloudera 提供哪几种安装 CDH 的方法

a)Cloudera manager b)Tarball c)Yum d)Rpm 答案:ABCD具体可以参考

Hadoop CDH四种安装方式总结及实例指导

简答题

1.Hadoop集群可以运行的3个模式?

1)单机(本地)模式; 2)伪分布式模式; 3)全分布式模式;

2.单机(本地)模式中的注意点?

在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。

3.伪分布模式中的注意点?

伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。

4. 全分布模式又有什么注意点?

全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode

运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。

5. Hadoop是否遵循UNIX模式?

是的,在UNIX用例下,Hadoop还拥有“conf”目录。

6. Hadoop的核心配置是什么?

Hadoop的核心配置通过两个xml文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。这些文件都使用xml格式,因此每个xml中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。

7. 那当下又该如何配置?

Hadoop现在拥有3个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。这些文件都保存在conf/子目录下。

8. fs.mapr.working.dir只是单一的目录?

fs.mapr.working.dir只是一个目录。

9. hdfs-site.xml的3个主要属性?

dfs.name.dir决定的是元数据存储的路径以及DFS的存储方式(磁盘或是远端) dfs.data.dir决定的是数据存储的路径 fs.checkpoint.dir用于第二Namenode

10. 如何退出输入模式?

退出输入的方式有:1,按ESC;2,键入:q(如果你没有输入任何当下)或者键入:wq(如果你已经输入当下),并且按下Enter。

11. “jps”命令的用处?

这个命令可以检查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作。

12. 如何重启Namenode?

点击stop-all.sh,再点击start-all.sh。

键入sudo hdfs(Enter),su-hdfs (Enter),/etc/init.d/ha(Enter),及/etc/init.d/hadoop-0.20-namenode start(Enter)。

13. Fsck的全名?

全名是:File System Check。

14. mapred.job.tracker命令的作用?

可以让你知道哪个节点是Job Tracker。

15. /etc /init.d命令的作用是?

/etc /init.d说明了守护进程(服务)的位置或状态,其实是LINUX特性,和Hadoop关系不大。

16. 如何在浏览器中查找Namenode?

如果你确实需要在浏览器中查找Namenode,你不再需要localhost:8021,Namenode的端口号是50070。

17. hadoop-env.sh是用于做什么的?

hadoop-env.sh提供了Hadoop中. JAVA_HOME的运行环境。

18. Master文件是否提供了多个入口?

是的你可以拥有多个Master文件接口。

19. Hadoop-env.sh文件当下的位置?

hadoop-env.sh现在位于conf。

20. 在Hadoop_PID_DIR中,PID代表了什么?

PID代表了“Process ID”。

21. /var/hadoop/pids用于做什么?

/var/hadoop/pids用来存储PID。

22. Hadoop需求什么样的网络?

Hadoop核心使用Shell(SSH)来驱动从节点上的服务器进程,并在主节点和从节点之间使用password-less SSH连接。

23.全分布式环境下为什么需求password-less SSH?

这主要因为集群中通信过于频繁,Job Tracker需要尽可能快的给Task Tracker发布任务。

24. SSH工作的端口号是?

SSH工作的端口号是NO.22,当然可以通过它来配置,22是默认的端口号。

25.为什么SSH本地主机需要密码?

在SSH中使用密码主要是增加安全性,在某些情况下也根本不会设置密码通信。

26.如果在SSH中添加key,是否还需要设置密码?

是的,即使在SSH中添加了key,还是需要设置密码。

27.假如Namenode中没有数据会怎么样?

没有数据的Namenode就不能称之为Namenode,通常情况下,Namenode肯定会有数据

28.当Job Tracker宕掉时,Namenode会发生什么?

当Job Tracker失败时,集群仍然可以正常工作,只要Namenode没问题。

29.是否可以在Windows上运行Hadoop?

你最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中,Windows通常不会被使用,因为会出现各种各样的问题。因此,Windows绝对不是Hadoop的推荐系统。

30.简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好

1.配置主机名

2.配置Hosts 3.配置面密码互通 4.安装JDK

5.安装hadoop

6.配置hadoop (1)修改 hadoop-env.sh (2)修改 core-site.xml (3)修改 hdfs-site.xml

(4)修改 mapred-site.xml

(5)修改 yarn-site.xml

(6)修改 slaves

7.配置hadoop的环境变量

8.格式化namenode

32.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么?

NameNode -- hdfs名字节点,存储hdfs元数据

SecondaryNameNode -- 辅助NameNode实现fsimage文件和edits文件的合并 DataNode -- 存储数据的节点

ResourceManager --负责集群中所有资源的统一管理和分,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序

NodeManager --是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)

33.请写出以下执行命令

1)杀死一个job? hadoop job –kill job_id 2)删除hdfs上的/tmp/aaa目录 hadoop fs -rmdir /tmp/aaa

3加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令? hadoop balance

5.请列出你所知道的hadoop调度器,并简要说明其工作方法? (1)默认的调度器FIFO

(2)计算能力调度器Capacity Scheduler (3)公平调度器Fair Scheduler (4)适用于异构集群的调度器LATE

(5)适用于实时作业的调度器Deadline Scheduler和Constraint-based Scheduler 6.请列出在你以前工作中所使用过的开发mapreduce的语言? Java

7.当前日志采样格式为


Hadoop面试题汇总(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:surfer软件的使用方法

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: