大数据面试题(2)

2019-03-27 19:33

( )

24. Slave 节点要存储数据，所以它的磁盘越大越好。( )

25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。( )

26. Hadoop 默认调度器策略为 FIFO( )

27. 集群内每个节点都应该配 RAID，这样避免单磁盘损坏，影响整个节点运行。( )

28. 因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的。( )

29. 每个 map 槽就是一个线程。( )

30. Mapreduce 的 input split 就是一个 block。( )

31. NameNode 的 Web UI 端口是 50030，它通过 jetty 启动的 Web 服务。( )

32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( )

33. DataNode 首次加入 cluster 的时候，如果 log 中报告不兼容文件版本，那需要 NameNode执行“Hadoop namenode -format”操作格式化磁盘。( )

别走开，答案在后面哦! 答案单选题

1. 下面哪个程序负责 HDFS 数据存储。答案C datanode a)NameNode b)Jobtracker c)Datanode

d)secondaryNameNode e)tasktracker

2. HDfS 中的 block 默认保存几份? 答案A默认3分 a)3 份 b)2 份 c)1 份 d)不确定

3. 下列哪个程序通常与 NameNode 在一个节点启动?答案D a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

此题分析：

hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，datanode和tasktracker属于slave，master只有一个，而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上

，

所以通常

secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。

JobTracker和TaskTracker JobTracker 对应于 NameNode TaskTracker 对应于 DataNode

DataNode 和NameNode 是针对数据存放来而言的 JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：obclient，JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上。

4. Hadoop 作者答案C Doug cutting a)Martin Fowler b)Kent Beck c)Doug cutting

5. HDFS 默认 Block Size 答案：B a)32MB b)64MB c)128MB

(因为版本更换较快，这里答案只供参考)

6. 下列哪项通常是集群的最主要瓶颈：答案：C磁盘 a)CPU b)网络 c)磁盘IO

大数据面试题(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！