（每空2分）hadoop使用自己的序列化^[1]格式为：。
•简答题，3分（17题），5分（5题）共75分
1.（3分）简要描述如何安装配置apache的一个开源hadoop，只描述即可，无需列出
具体步骤，列出具体步骤更好。
答：
1使用root账户登录
2修改IP
3修改host主机名^[2]
4配置SSH免密码登录
5关闭防火墙
6安装JDK
7解压hadoop安装包
8配置hadoop的核心文件hadoop-env.sh，core-site.xml,mapred-site.xml，hdfs-site.xml
9配置hadoop环境变量
10格式化hadoop namenode -format
11启动节点start-all.sh
2.（3分）请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。
答：
namenode：管理集群，存储数据的原信息，并管理记录datanode中的文件信息。secondarynamenode：它是namenode的一个快照，会根据configuration中设置的值来决定多少时间周期性的去cp一下namenode，记录namenode中的metadata及其它数据。
Data node:存储数据
ResourceManager：ResourceManager负责集群中所有资源的统一管理和分配，它接收来
自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）
NodeManager:是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点
（3分）请写出以下的shell命令
（1）杀死一个job
（2）删除hdfs上的/tmp/aaa目录
（3）加入一个新的存储节点和删除一个节点需要执行的命令
答:
（1）map red job -list得到job的id,然后执行mapred job-kill jobld就可以杀死一个指定jobId的job工作了。
（2）hadoop fs -rmr /tmp/aaa或者hdfs dfs-rmr /tmp/aaa
（3）增加一个新的节点在新的节点上执行
hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候，只需要在主节点执行hdfs dfsadmi n-refresh nodes
3.（3分）请简述mapreduce中的combine和partition的作用
答:
combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer,主要作用是
减少输出到reduce的个数，减少reducer的输入，提高reducer的执行效率。
Partition的主要作用就是指定输出到reduce的个数的。
4.（3分）hdfs的体系结构
答:
HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统^[3]的命名空间^[4]和客户端对文件的访问操作；集群中的DataNode管理存储的数据
5.（3分）三个data node中当有一个data node出现错误时会怎样？答：
当有一个data node出现错误的时候，name node会将那个data node上的数据拷贝到其他的节点去进行存储。
6.（3分）文件大小^[5]默认为64M，改为128M有什么影响？
答：
更改文件的block块大小，需要根据我们的实际生产中来更改block的大小，如果block
定义的太小，大的文件都会被切分成太多的小文件，减慢用户上传效率，如果block定义的
太大，那么太多的小文件可能都会存到一个block块中，虽然不浪费硬盘资源，可是还是会
增加name node的管理内存压力。
7.（3分）NameNode与SecondaryNameNode的区别与联系？
答：
seco ndaryNameNode更像是Name node的一个冷备份^[6]，当name node宕机之后，可以从
9.（3分）参考下列M/R系统的场景：hdfs块大小为64MB，输入类为File In putFormat，有3个文件的大小分别为64KB, 65MB, 127MB，Hadoop框架会把这些文件拆分为多少块？
答：
64k＞一个block
65MB----＞两个文件：64MB是一个block，1MB是一个block 127MB---＞两个文件：64MB是一个block,63MB是一个block
10.（5分）hadoop中RecordReader的作用是什么？
答：
RecorderReader是一个接口，主要是用来读取文件的输入键值对的，我们也可以自定义
输入的key,value对的读取规则。属于split和map per之间的一个过程，将in putsplit输出的行为一个转换记录，成为key-value的记录形式提供给mapper
11.（3分）Map阶段结束后，Hadoop框架会处理：Partitioning, Shuffle和Sort,在这几个阶段都发生了什么？
答：
Partition是对输出的key,value进行分区，可以自定义分区，按照业务需求，将map的输出归分到多个不同的文件中
将map的输出作为输入传给reducer称为shuffle
sort是排序的过程，将map的输出，作为reduce的输入之前，我们可以自定义排
序，按照key来对map的输出进行排序
12.（5分）如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？
答：
Partiti on er是在map函数执行con text.write（）时被调用。用户可以通过实现自定义的Partitioner来控制哪个key被分配给哪个Reducer。
hadoop有一个默认的分区类，HashPartioer类，通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。
13.（3分）什么是combiner？
答：
comb in er就是规约^[7]操作，通过对map输出的数量进行规约，可以减少reduce的数量，提高执行效率。combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致
14.（3分）分别举例什么情况要使用combiner，什么情况不使用？
答：
求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候，
可以依据情况，使用combiner,来减少map的输出数量，减少拷贝到reduce的文件，从而
减轻reduce的压力，节省网络开销，提升执行效率
15.（5分）简述Hadoop中replication（复本）放置策略？
__
Hadoop的默认布局策略是在运行客户端的节点上放第一个复本；第二个复本放在与第
一个不同且随机另外选择的机架中的节点上（离架）；第三个复本与第二个复本放在同一个
机架上，且随机选择另一个节点。
16.（5分）如何为一个hadoop任务设置mappers的数量？
答：
map的数量通常是由hadoop集群的DFS块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个Node是10~100个，对于CPU消耗较小的作业可以
设置Map数量为300个左右，但是由于hadoop的没一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片^[8]是这样的，
InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一
个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交
客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当InputFormat决定了map任务的个数比mapred.map.tasks值小
时才起作用。同样，Map任务的个数也能通过使用JobConf的conf.setNumMapTasks（int num）方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小
于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。
17.（3分）hdfs文件写入的流程？
答：
1）Client向NameNode发起文件写入的请求。
2）NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
3）Client将文件划分为多个Block,根据DataNode的地址信息，按顺序写入到每一个DataNode块中。
.

1.（3分）简要描述如何安装配置apache的一个开源hadoop，只描述即可，无需列出

8配置hadoop的核心文件hadoop-env.sh，core-site.xml,mapred-site.xml，hdfs-site.xml

2.（3分）请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

namenode：管理集群，存储数据的原信息，并管理记录datanode中的文件信息。secondarynamenode：它是namenode的一个快照，会根据configuration中设置的值来决定多少时间周期性的去cp一下namenode，记录namenode中的metadata及其它数据。

ResourceManager：ResourceManager负责集群中所有资源的统一管理和分配，它接收来

自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）

NodeManager:是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点

（1）map red job -list得到job的id,然后执行mapred job-kill jobld就可以杀死一个指定jobId的job工作了。

hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候，只需要在主节点执行hdfs dfsadmi n-refresh nodes

combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer,主要作用是

减少输出到reduce的个数，减少reducer的输入，提高reducer的执行效率。

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统^[3]的命名空间^[4]和客户端对文件的访问操作；集群中的DataNode管理存储的数据

5.（3分）三个data node中当有一个data node出现错误时会怎样？答：

当有一个data node出现错误的时候，name node会将那个data node上的数据拷贝到其他的节点去进行存储。

更改文件的block块大小，需要根据我们的实际生产中来更改block的大小，如果block

定义的太小，大的文件都会被切分成太多的小文件，减慢用户上传效率，如果block定义的

太大，那么太多的小文件可能都会存到一个block块中，虽然不浪费硬盘资源，可是还是会

seco ndaryNameNode更像是Name node的一个冷备份^[6]，当name node宕机之后，可以从

9.（3分）参考下列M/R系统的场景：hdfs块大小为64MB，输入类为File In putFormat，有3个文件的大小分别为64KB, 65MB, 127MB，Hadoop框架会把这些文件拆分为多少块？

65MB----＞两个文件：64MB是一个block，1MB是一个block 127MB---＞两个文件：64MB是一个block,63MB是一个block

RecorderReader是一个接口，主要是用来读取文件的输入键值对的，我们也可以自定义

输入的key,value对的读取规则。属于split和map per之间的一个过程，将in putsplit输出的行为一个转换记录，成为key-value的记录形式提供给mapper

11.（3分）Map阶段结束后，Hadoop框架会处理：Partitioning, Shuffle和Sort,在这几个阶段都发生了什么？

Partition是对输出的key,value进行分区，可以自定义分区，按照业务需求，将map的输出归分到多个不同的文件中

sort是排序的过程，将map的输出，作为reduce的输入之前，我们可以自定义排

12.（5分）如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？

Partiti on er是在map函数执行con text.write（）时被调用。用户可以通过实现自定义的Partitioner来控制哪个key被分配给哪个Reducer。

hadoop有一个默认的分区类，HashPartioer类，通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。

comb in er就是规约^[7]操作，通过对map输出的数量进行规约，可以减少reduce的数量，提高执行效率。combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致

14.（3分）分别举例什么情况要使用combiner，什么情况不使用？

求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候，

可以依据情况，使用combiner,来减少map的输出数量，减少拷贝到reduce的文件，从而

Hadoop的默认布局策略是在运行客户端的节点上放第一个复本；第二个复本放在与第

一个不同且随机另外选择的机架中的节点上（离架）；第三个复本与第二个复本放在同一个

map的数量通常是由hadoop集群的DFS块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个Node是10~100个，对于CPU消耗较小的作业可以

设置Map数量为300个左右，但是由于hadoop的没一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片^[8]是这样的，

InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一

个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交

客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当InputFormat决定了map任务的个数比mapred.map.tasks值小

时才起作用。同样，Map任务的个数也能通过使用JobConf的conf.setNumMapTasks（int num）方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小

于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。

2）NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

3）Client将文件划分为多个Block,根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

参考答案与解析：

相关试题

<div data-v-233dfbcf><p><span data-inlink-type="word" data-inlink-id="

<div data-v-233dfbcf><p> 外啮合<span data-inlink-type="word" data-inlink-id=&

<div data-v-233dfbcf><p>8典型<span data-inlink-type="word" data-inlink-id=&qu

<div data-v-233dfbcf><p>简述计算<span data-inlink-type="word" data-inlink-id=&q

<div data-v-233dfbcf>阅读“<span data-inlink-type="word" data-inlink-id="69484&

<div data-v-233dfbcf><p>人一机一环境<span data-inlink-type="word" data-inlink-id=

<div data-v-233dfbcf><p>人一机一环境<span data-inlink-type="word" data-inlink-id=

<div data-v-233dfbcf><p>人一机一环境<span data-inlink-type="word" data-inlink-id=

<div data-v-233dfbcf>11. (问答题) 简述<span data-inlink-type="word" data-inlink-id=&q

<div data-v-233dfbcf><div> <div><p><span style="c