Hadoop面试题汇总(2)

2019-08-30 11:29

答案B

5. 下列哪个是 Hadoop 运行的模式

a)单机版 b)伪分布式 c)分布式答案ABC

6. Cloudera 提供哪几种安装 CDH 的方法

a)Cloudera manager b)Tarball c)Yum d)Rpm 答案：ABCD具体可以参考

Hadoop CDH四种安装方式总结及实例指导

简答题

1.Hadoop集群可以运行的3个模式？

1)单机（本地）模式; 2)伪分布式模式; 3)全分布式模式;

2.单机（本地）模式中的注意点？

在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。

3.伪分布模式中的注意点？

伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。

4. 全分布模式又有什么注意点？

全分布模式通常被用于生产环境，这里我们使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机，Datanode

运行的主机，以及task tracker运行的主机。在分布式环境下，主节点和从节点会分开。

5. Hadoop是否遵循UNIX模式？

是的，在UNIX用例下，Hadoop还拥有“conf”目录。

6. Hadoop的核心配置是什么？

Hadoop的核心配置通过两个xml文件来完成：1，hadoop-default.xml；2，hadoop-site.xml。这些文件都使用xml格式，因此每个xml中都有一些属性，包括名称和值，但是当下这些文件都已不复存在。

7. 那当下又该如何配置？

Hadoop现在拥有3个配置文件：1，core-site.xml；2，hdfs-site.xml；3，mapred-site.xml。这些文件都保存在conf/子目录下。

8. fs.mapr.working.dir只是单一的目录？

fs.mapr.working.dir只是一个目录。

9. hdfs-site.xml的3个主要属性？

dfs.name.dir决定的是元数据存储的路径以及DFS的存储方式（磁盘或是远端） dfs.data.dir决定的是数据存储的路径 fs.checkpoint.dir用于第二Namenode

10. 如何退出输入模式？

退出输入的方式有：1，按ESC；2，键入:q（如果你没有输入任何当下）或者键入:wq（如果你已经输入当下），并且按下Enter。

11. “jps”命令的用处？

这个命令可以检查Namenode、Datanode、Task Tracker、 Job Tracker是否正常工作。

12. 如何重启Namenode？

点击stop-all.sh，再点击start-all.sh。

键入sudo hdfs（Enter），su-hdfs （Enter），/etc/init.d/ha（Enter），及/etc/init.d/hadoop-0.20-namenode start（Enter）。

13. Fsck的全名？

全名是：File System Check。

14. mapred.job.tracker命令的作用？

可以让你知道哪个节点是Job Tracker。

15. /etc /init.d命令的作用是？

/etc /init.d说明了守护进程（服务）的位置或状态，其实是LINUX特性，和Hadoop关系不大。

16. 如何在浏览器中查找Namenode？

如果你确实需要在浏览器中查找Namenode，你不再需要localhost:8021，Namenode的端口号是50070。

17. hadoop-env.sh是用于做什么的？

hadoop-env.sh提供了Hadoop中. JAVA_HOME的运行环境。

18. Master文件是否提供了多个入口？

是的你可以拥有多个Master文件接口。

19. Hadoop-env.sh文件当下的位置？

hadoop-env.sh现在位于conf。

20. 在Hadoop_PID_DIR中，PID代表了什么？

PID代表了“Process ID”。

21. /var/hadoop/pids用于做什么？

/var/hadoop/pids用来存储PID。

22. Hadoop需求什么样的网络？

Hadoop核心使用Shell（SSH）来驱动从节点上的服务器进程，并在主节点和从节点之间使用password-less SSH连接。

23.全分布式环境下为什么需求password-less SSH？

这主要因为集群中通信过于频繁，Job Tracker需要尽可能快的给Task Tracker发布任务。

24. SSH工作的端口号是？

SSH工作的端口号是NO.22，当然可以通过它来配置，22是默认的端口号。

25.为什么SSH本地主机需要密码？

在SSH中使用密码主要是增加安全性，在某些情况下也根本不会设置密码通信。

26.如果在SSH中添加key，是否还需要设置密码？

是的，即使在SSH中添加了key，还是需要设置密码。

27.假如Namenode中没有数据会怎么样？

没有数据的Namenode就不能称之为Namenode，通常情况下，Namenode肯定会有数据

28.当Job Tracker宕掉时，Namenode会发生什么？

当Job Tracker失败时，集群仍然可以正常工作，只要Namenode没问题。

29.是否可以在Windows上运行Hadoop？

你最好不要这么做，Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中，Windows通常不会被使用，因为会出现各种各样的问题。因此，Windows绝对不是Hadoop的推荐系统。

30.简要描述如何安装配置一个apache开源版hadoop，描述即可，列出步骤更好

1.配置主机名

2.配置Hosts 3.配置面密码互通 4.安装JDK

5.安装hadoop

6.配置hadoop (1)修改 hadoop-env.sh (2)修改 core-site.xml (3)修改 hdfs-site.xml

(4)修改 mapred-site.xml

(5)修改 yarn-site.xml

(6)修改 slaves

7.配置hadoop的环境变量

8.格式化namenode

32.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？

NameNode -- hdfs名字节点，存储hdfs元数据

SecondaryNameNode -- 辅助NameNode实现fsimage文件和edits文件的合并 DataNode -- 存储数据的节点

ResourceManager --负责集群中所有资源的统一管理和分，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序

NodeManager --是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点，包括与ResourceManger保持通信，监督Container的生命周期管理，监控每个Container的资源使用（内存、CPU等）情况，追踪节点健康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）

33.请写出以下执行命令

1）杀死一个job? hadoop job –kill job_id 2)删除hdfs上的/tmp/aaa目录 hadoop fs -rmdir /tmp/aaa

3加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令？ hadoop balance

5.请列出你所知道的hadoop调度器，并简要说明其工作方法？（1）默认的调度器FIFO

（2）计算能力调度器Capacity Scheduler （3）公平调度器Fair Scheduler （4）适用于异构集群的调度器LATE

（5）适用于实时作业的调度器Deadline Scheduler和Constraint-based Scheduler 6.请列出在你以前工作中所使用过的开发mapreduce的语言？ Java

7.当前日志采样格式为

共4页:

Hadoop面试题汇总(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档