Hadoop选择、判断、简答题

最新推荐文章于 2024-05-12 17:41:53 发布

你好呀，汪同学！

最新推荐文章于 2024-05-12 17:41:53 发布

阅读量2w

点赞数 24

分类专栏： Python hadoop spark 文章标签： spark hdfs hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/weixin_43793040/article/details/117629086

版权

Python 同时被 3 个专栏收录

6 篇文章 14 订阅

订阅专栏

hadoop

4 篇文章 0 订阅

订阅专栏

spark

2 篇文章 1 订阅

订阅专栏

 @Hadoop选择、判断、简答题

1、
在HDFS中，用于保存数据的节点是（）。
A、namenode
B、datanode
C、secondaryNode
D、yarn
参考答案:
B
答案解析:
暂无解析
2、
在MapReduce程序中，map()函数接收的数据格式是（）。
A、字符串
B、整型
C、Long
D、键值对
参考答案:
D
答案解析:
map()函数接收的数据格式是键值对，产生的输出结果也是键值对形式。
3、
每个Map任务都有一个内存缓冲区，默认大小是（）。
A、128M
B、64M
C、100M
D、32M
参考答案:
C
答案解析:
暂无解析
4、
下列选项中，哪一个可以对Hadoop集群进行格式化（）。
A、hadoop namenode -format
B、hadoop namenode -ls
C、hdfs datanode -ls
D、hdfs datanode -format
参考答案:
A
答案解析:
通过执行“hadoop namenode -format”指令对Hadoop集群进行格式化。
5、
Hadoop集群启动成功后，用于监控HDFS集群的端口是（）。
A、50010
B、50075
C、8485
D、50070
参考答案:
D
答案解析:
Hadoop集群正常启动后，它默认开放了端口50070，用于监控HDFS集群。
6、
下列选项中，用于存放部署Hadoop集群服务器的是（）。
A、namenode
B、datanode
C、rack
D、metadata
参考答案:
C
答案解析:
Rack是用来存放部署Hadoop集群服务器的机架。
7、
下列说法中，关于客户端从HDFS中读取数据的说法错误的是（）。
A、客户端会选取排序靠前的DataNode来依次读取Block块
B、客户端会把最终读取出来所有的Block块合并成一个完整的最终文件
C、客户端会选取排序靠后的DataNode来依读取Block块
D、如果客户端本身就是DataNode，那么将从本地直接获取数据
参考答案:
C
答案解析:
暂无解析
8、
下列选项中，用于检验数据完整性的信息的是（）。
A、心跳机制
B、ACK机制
C、选举机制
D、垃圾回收机制
参考答案:
B
答案解析:
暂无解析
9、
MapReduce处理数据的工作流程大致分为（）步。
A、两
B、三
C、四
D、五
参考答案:
D
答案解析:
暂无解析
10、
下列选项中，哪一项是可以进行重启引导系统（）。
A、OK
B、Cancel
C、Reboot
D、Apply
参考答案:
C
答案解析:
通过执行“Reboot”指令，重启Linux引导系统。
11、
下列说法不正确的是？
A、数据源是数据仓库的基础，通常包含企业的各种内部信息和外部信息。
B、数据存储及管理是整个数据仓库的核心。
C、OLAP服务器对需要分析的数据按照多维数据模型进行重组、分析，发现数据规律和趋势。
D、前端工具主要功能是将数据可视化展示在前端页面中。
参考答案:
D
答案解析:
暂无解析
12、
下列语句中，描述错误的是（）
A、可以通过CLI方式、Java API方式调用Sqoop。
B、Sqoop底层会将Sqoop命令转换为MapReduce任务，并通过Sqoop连接器进行数据的导入导出操作。
C、Sqoop是独立的数据迁移工具，可以在任何系统上执行。
D、如果在Hadoop分布式集群环境下，连接MySQL服务器参数不能是localhos或127.0.0.1。
参考答案:
C
答案解析:
暂无解析
13、
下列选项中，一键启动HDFS集群的指令是（）。
A、start-namenode.sh
B、start-datanode.sh
C、start-dfs.sh
D、start-slave.sh
参考答案:
C
答案解析:
通过执行“start-dfs.sh”指令，可以一键启动HDFS集群。
14、
下列选项中，主要用于决定整个MapReduce程序性能高低的阶段是（）。
A、MapTask
B、ReduceTask
C、分片、格式化数据源
D、Shuffle
参考答案:
D
答案解析:
Rack是用来存放部署Hadoop集群服务器的机架。
15、
Zookeeper中的数据存储结构和标准文件系统非常类似，两者采用的层次结构是（）。
A、树形
B、星形
C、网形
D、分布式
参考答案:
A
答案解析:
暂无解析
16、
下列选项中，最早提出“大数据”这一概念的是（）。
A、贝恩
B、麦肯锡
C、吉拉德
D、杰弗逊
参考答案:
B
答案解析:
暂无解析
17、
下列说法中，关于Zookeeper说法错误的是（）。
A、Apache Zookeeper旨在减轻构建健壮的分布式系统的服务
B、Zookeeper最早起源于雅虎研究院的一个研究小组
C、Zookeeper是一个分布式协调服务的收费框架
D、Zookeeper本质上是一个分布式的小文件存储系统
参考答案:
C
答案解析:
Zookeeper是一个分布式协调服务的开源框架，它是由Google的Chubby开源实现。
18、
Hive最重视的性能是可测量性、延展性、（）和对于输入格式的宽松匹配性。
A、较低恢复性
B、容错性
C、快速查询
D、可处理大量数据
参考答案:
B
答案解析:
暂无解析
19、
Hadoop1.0中，Hadoop内核的主要组成是（）。
A、HDFS和MapReduce
B、HDFS和Yarn
C、Yarn
D、MapReduce和Yarn
参考答案:
A
答案解析:
Hadoop1.0中，Hadoop内核的主要是由HDFS和MapReduce两个系统组成。
20、
下列选项中，关于HDFS的架构说法正确的是（）。
A、HDFS采用的是主备架构
B、HDFS采用的是主从架构
C、HDFS采用的是从备架构
D、以上说法均错误
参考答案:
B
答案解析:
HDFS采用主从架构（Master/Slave架构）。
21、
当服务器突然宕机，下列Channels选项中，哪一个可以保证数据不会丢失。
A、Memory Channel
B、File Channel
C、JDBC Channel
D、Kafka Channel
参考答案:
B
答案解析:
File Channel是Flume的持久通道，它将所有event写入磁盘，因此不会丢失进程或机器关机、崩溃时的数据。
22、
在配置Linux网络参数时，固定IP地址是将路由协议配置为（）。
A、static
B、dynamic
C、immutable
D、variable
参考答案:
A
答案解析:
在配置Linux网络参数时，需要将路由协议配置为static的，用来固定IP地址。
23、
下列选项中，用于删除HDFS上文件夹的方法是（）。
A、delete()
B、rename()
C、mkdirs()
D、copyToLocalFile()
参考答案:
A
答案解析:
FileSystem对象调用delete()方法可以删除文件夹，delete()方法接收两个参数，第一个参数表示要删除的文件夹路径，第二个参数用于设置是否递归删除目录。
24、
在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（）。
A、分片操作
B、合并操作
C、格式化操作
D、溢写操作
参考答案:
B
答案解析:
在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次合并操作，以确保最终只会生成一个数据文件。
25、
当Zookeeper的节点数据发生变更时，被触发的事件是（）。
A、NodeCreated
B、NodeDataChanged
C、NodeChildrentChanged
D、NodeDeleted
参考答案:
B
答案解析:
当节点的数据发生变更时，NodeDataChanged事件被触发。
26、
为了保证Leader选举能够通过半数以上台服务器选举支持，因此Zookeeper集群搭建的服务器为（）。
A、2n+2
B、2n
C、2n+1
D、以上说法均错误
参考答案:
C
答案解析:
暂无解析
27、
HDFS中的Block默认保存（）份。
A、3份
B、2份
C、1份
D、不确定
参考答案:
A
答案解析:
HDFS中的Block默认保存3份。
28、
下列选项中，执行哪一个命令查看Linux系统的IP配置。
A、ipconfig
B、find
C、ifconfig
D、arp -a
参考答案:
C
答案解析:
暂无解析
29、
关于SecondaryNameNode哪项是正确的？
A、它是NameNode的热备
B、它对内存没有要求
C、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
参考答案:
C
答案解析:
暂无解析
30、
Hive建表时，数值列的字段类型选取decimal（x,y）与Float、double的区别，下列说法正确的是？
A、decimal（x,y）是整数，Float、double是小数
B、Float、double在进行sum等聚合运算时，会出现JAVA精度问题
C、decimal（x,y）是数值截取函数，Float、double是数据类型
参考答案:
B
答案解析:
暂无解析
31、
下列选项中，关于SSH服务说法正确的是（）。
A、SSH服务是一种传输协议
B、SSH服务是一种通信协议
C、SSH服务是一种数据包协议
D、SSH服务是一种网络安全协议
参考答案:
D
答案解析:
SSH为Secure Shell的缩写，是一种网络安全协议，专为远程登录会话和其他网络服务提供安全性的协议。
32、
下列选项中，关于HDFS说法错误的是（）。
A、HDFS是Hadoop的核心之一
B、HDFS源于Google的GFS论文
C、HDFS用于存储海量大数据
D、HDFS是用于计算海量大数据
参考答案:
D
答案解析:
暂无解析
33、
Hadoop2.0集群服务启动进程中，下列选项不包含的是（）。
A、NameNode
B、JobTracker
C、DataNode
D、ResourceManager
参考答案:
B
答案解析:
暂无解析
34、
下列选项中，哪一项是研究大数据最重要的意义（）。
A、分析
B、统计
C、测试
D、预测
参考答案:
D
答案解析:
研究大数据，最重要的意义是预测。
35、
下列选项中，存放Hadoop配置文件的目录是（）。
A、include
B、bin
C、libexec
D、etc
参考答案:
D
答案解析:
暂无解析
36、
以下选项中，哪种类型间的转换是不被Hive查询语言所支持的？
A、Double—Number
B、BigInt—Double
C、Int—BigInt
D、String—Double
参考答案:
A
答案解析:
暂无解析
37、
下列选项中，用于获取Zookeeper所包含的信息的Shell命令是（）。
A、ls
B、ls2
C、r
D、get
参考答案:
D
答案解析:
暂无解析
38、
Hive定义一个自定义函数类时，需要继承以下哪个类？
A、FunctionRegistry
B、UDF
C、MapReduce
参考答案:
B
答案解析:
暂无解析
39、
在Hadoop集群中，一般将HDFS数据块的副本数量配置为（）。
A、2
B、3
C、4
D、1
参考答案:
B
答案解析:
Hadoop集群中，HDFS数据块的副本数量一般设为3。
40、
按粒度大小的顺序，Hive数据被分为：数据库、数据表、（）、桶。
A、元祖
B、栏
C、分区
D、行
参考答案:
C
答案解析:
暂无解析
41、
下列选项中，若是哪个节点关闭了，就无法访问Hadoop集群（）。
A、namenode
B、datanode
C、secondary namenode
D、yarn
参考答案:
A
答案解析:
暂无解析
42、
Hive查询语言和SQL的一个不同之处在于（）操作。
A、Group by
B、Join
C、Partition
D、Union
参考答案:
C
答案解析:
暂无解析
43、
下列选项中，哪个配置文件可以配置HDFS地址、端口号以及临时文件目录（）。
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、yarn-site.xml
参考答案:
A
答案解析:
通过core-site.xml配置文件配置HDFS地址、端口号以及临时文件目录。
44、
下列选项中，Hadoop2.x版本独有的进程是（）。
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
参考答案:
C
答案解析:
暂无解析
45、
下列选项中，用于上传文件的Shell命令是（）。
A、-ls
B、-mv
C、-cp
D、-put
参考答案:
D
答案解析:
暂无解析
46、
下列选项中，哪项不是Hive系统架构的组成部分？
A、用户接口
B、跨语言服务
C、HDFS
D、底层驱动引擎
参考答案:
C
答案解析:
Hive的系统架构组成主要分4个部分：用户接口、跨语言服务、底层的驱动引擎以及元数据存储系统。
47、
在Linux系统中，用于关闭防火墙开机自启动的指令是（）。
A、chkconfig iptables off
B、service iptables stop
C、stop-all.sh
D、stop-dfs.sh
参考答案:
A
答案解析:
在Linux系统中可以通过执行“chkconfig iptables off”指令关闭防火墙自启动。
48、
Hive加载数据文件到数据表中的关键语法是？
A、LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
B、INSERTDATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
C、LOAD DATA INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”
参考答案:
A
答案解析:
暂无解析
49、
下列哪项通常是集群的最主要的性能瓶颈？
A、CPU
B、网络
C、磁盘
D、内存
参考答案:
C
答案解析:
暂无解析
50、
在Hadoop的解压目录下，通过执行哪一项指令可以查看Hadoop的目录结构。（）
A、jps
B、ll
C、tar
D、find
参考答案:
B
答案解析:
通过“ll”指令查看Hadoop的目录结构。
51、
一个gzip文件大小75MB，客户端设置Block大小为64MB，占用Block的个数是（）。
A、1
B、2
C、3
D、4
参考答案:
B
答案解析:
暂无解析
52、
下列选项中，属于Hadoop优势的有（）。
A、扩容能力强
B、可靠性
C、低效率
D、高容错性
参考答案:
A,B,D
答案解析:
Hadoop具有扩展能力强、成本低、高效率、可靠性、高容错性的优势。
53、
下列说法中，关于MapReduce性能调优说法正确的是（）。
A、在数据输入阶段，采用CombineTextInputFormat来作为输入，可以解决输入端大量的小文件场景
B、在Map阶段，减少溢写次数，可以减少磁盘IO
C、在Map阶段，减少合并次数，可以缩短MapReduce处理的时间
D、在Shuffle阶段，尽量给Shuffle提供更多的内存空间，以防止出现内存溢出现象
参考答案:
A,B,C,D
答案解析:
暂无解析
54、
在Zookeeper选举过程中，一共有四种状态，分别是（）。
A、竞选状态
B、随从状态
C、观察状态
D、领导者状态
参考答案:
A,B,C,D
答案解析:
Zookeeper服务器有四种状态，分别为竞选状态、随从状态、观察状态以及领导者状态。
55、
下列选项中，属于Hadoop版本系列的有（）。
A、Hadoop4
B、Hadoop2
C、Hadoop1
D、Hadoop3
参考答案:
B,C,D
答案解析:
Hadoop主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本。
56、
下列选项中，关于数据块说法正确的是（）。
A、磁盘进行数据读/写的最大单位
B、磁盘进行数据读/写的最小单位
C、数据块是抽象的块
D、DataNode是按block对数据进行存储。
参考答案:
B,C,D
答案解析:
暂无解析
57、
下列哪项可以作为集群的管理？
A、Puppet
B、Pdsh
C、Cloudera Manager
D、Zookeeper
参考答案:
A,B,D
答案解析:
暂无解析
58、
下列说法中，关于crontab表达式说法正确的是（）。
A、通过执行crontab表达式可以执行定时任务
B、crontab表达式是由6个参数决定
C、Crontab表达式是由5个参数决定
D、以上说法均正确
参考答案:
A,B
答案解析:
暂无解析
59、
下列说法中，关于配置参数说法错误的是（）。
A、a1.sources.r1.channels = c1
B、a1.sinks.k1.channel = c1
C、a1.source.r1.channels = c1
D、a1.sinks.k1.channels = c1
参考答案:
C,D
答案解析:
暂无解析
60、
下列选项中，属于Sqoop指令的参数有（）。
A、import
B、output
C、input
D、export
参考答案:
A,D
答案解析:
import和export都是Sqoop指令的参数。
61、
Hadoop提供的自定义配置时编辑的配置文件中，包含（）。
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、yarn-site.xml
参考答案:
A,B,C,D
答案解析:
Hadoop提供的自定义配置时编辑的配置文件中，包含core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等。
62、
下列选项中，在Reducer类的run()方法中定义的三个方法有（）。
A、setup()
B、reduce()
C、cleanup()
D、map()
参考答案:
A,B,C
答案解析:
暂无解析
63、
下列选项中，属于Zookeeper集群的角色有（）。
A、Follower
B、Worker
C、Observer
D、Leader
参考答案:
A,C,D
答案解析:
暂无解析
64、
下列说法中，关于zoo.cfg配置文件中的参数server.1=hadoop01:2888:3888说法正确的是（）。
A、1表示服务器的编号
B、hadoop01表示这个服务器的IP地址
C、2888表示表示Zookeeper服务器之间的通信心跳号
D、3888表示Leader选举的端口号
参考答案:
A,B
答案解析:
暂无解析
65、
下列选项中，属于Google提出的处理大数据的技术手段有（）。
A、MapReduce
B、MySQL
C、BigTable
D、GFS
参考答案:
A,C,D
答案解析:
Google提出了三个处理大数据的技术手段，分别是MapReduce、BigTable和GFS。
66、
下列选项中，关于Metadata元数据说法正确的是（）。
A、元数据维护HDFS文件系统中文件和目录的信息
B、元数据记录与文件内容存储相关的信息
C、元数据用来记录HDFS中所有DataNode的信息
D、元数据用于维护文件系统名称并管理客户端对文件的访问
参考答案:
A,B,C
答案解析:
NameNode用于维护文件系统名称并管理客户端对文件的访问。
67、
下列选项中，关于Hadoop集群说法正确的是（）。
A、Hadoop集群包含Worker节点
B、Hadoop集群包含Master节点
C、Hadoop集群包含Slave节点
D、Hadoop集群包含HMaster节点
参考答案:
B,C
答案解析:
Hadoop集群包含一台Master节点和两台Slave节点。
68、
下列说法中，关于InputFormat接口定义的getSplits()方法说法正确的是（）。
A、用来从分片中读取数据
B、负责创建RecordReader对象
C、实现了逻辑切片机制
D、getSplits()方法的切片大小splitSize是由minSize、maxSize和blockSize的值确定的
参考答案:
C,D
答案解析:
暂无解析
69、
下列选项中，说法错误的是（）。
A、在一个Agent中，同一个source可以有多个channel
B、在一个Agent中，同一个sink可以有多个channel
C、在一个Agent中，同一个source只能多1个channel
D、在一个Agent中，同一个sink只能有1个channel
参考答案:
A,D
答案解析:
暂无解析
70、
下列选项中，配置job的必要参数是（）。
A、type
B、dependencies
C、command
D、flow.name
参考答案:
A,C
答案解析:
暂无解析
71、
下列说法中，关于使用Java API操作HDFS说法正确的是（）。
A、需要引入hadoop-common依赖
B、需要引入hadoop-hdfs依赖
C、需要引入hadoop-client依赖
D、以上说法均错误
参考答案:
A,B,C
答案解析:
暂无解析
72、
Zookeeper中，Watcher机制的特点包含（）。
A、一次性触发
B、事件封装
C、异步发送
D、先注册再触发
参考答案:
A,B,C,D
答案解析:
暂无解析
73、
Hive数据表插入数据时，insert（　）table ……，括号中可使哪些关键字？
A、into
B、append
C、overwrite
参考答案:
A,C
答案解析:
暂无解析
74、
ReduceTask作为MapReduce工作流程的后半部分，主要经历了Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。
对
错
参考答案:
对
答案解析:
暂无解析
75、
最终处理工作流和Jobs作业任务的实际是由AzkabanExecutorServer完成。
对
错
参考答案:
对
答案解析:
暂无解析
76、
Sqoop工具的使用，依赖Java环境和Hadoop环境。
对
错
参考答案:
对
答案解析:
Sqoop工具的使用，依赖Java环境和Hadoop环境。
77、
Hive只支持timestamp类型，而MySQL中的日期类型是datetime，当datetime的值为0000-00-00 00:00:00的时候，Sqoop导入数据成功，但是在Hive中执行select语句查询该字段的时候报错。
对
错
参考答案:
对
答案解析:
解决方法是在创建hive表时用string字段类型
78、
Hadoop是Apache顶级的开源项目。
对
错
参考答案:
对
答案解析:
暂无解析
79、
启动Hadoop集群时，可能出现NodeManager进程无法启动或者启动后自动关闭情况，这是由于系统内存和资源分配不足导致的。
对
错
参考答案:
对
答案解析:
启动Hadoop集群时，可能出现NodeManager进程无法启动或者启动后自动关闭情况，这是由于系统内存和资源分配不足导致的。
80、
ResourceManager负责监控ApplicationMaster，并在ApplicationMaster运行失败的时候重启它，因此ResouceManager负责ApplicationMaster内部任务的容错。
对
错
参考答案:
错
答案解析:
暂无解析
81、
Flume采集方案的名称、位置、以及sources、channels、sinks参数配置信息可以任意定义。
对
错
参考答案:
错
答案解析:
暂无解析
82、
SecureCRT是一款支持SSH的终端仿真程序，它能够在Windows操作系统上远程连接Linux服务器执行操作。
对
错
参考答案:
对
答案解析:
SecureCRT是一款支持SSH的终端仿真程序，它能够在Windows操作系统上远程连接Linux服务器执行操作。
83、
由于Combiner组件不允许改变业务逻辑，所以无论调用多少次Combiner，Reduce的输出结果都是一样的。
对
错
参考答案:
对
答案解析:
由于Combiner组件不允许改变业务逻辑，所以无论调用多少次Combiner，Reduce的输出结果都是一样的。
84、
NodeManager会定时的向ResourceManager汇报所在节点的资源使用情况，并接受处理来自ApplicationMaster的容器启动、停止等各种请求
对
错
参考答案:
对
答案解析:
NodeManager会定时的向ResourceManager汇报所在节点的资源使用情况，并接受处理来自ApplicationMaster的容器启动、停止等各种请求。
85、
Sqoop2版本兼容Sqooop1，因此可以直接部署新版本的Sqoop工具。
对
错
参考答案:
错
答案解析:
Sqoop2版本与兼容Sqooop1版本不兼容。
86、
在安装配置windows平台hadoop，配置后直接运行是没有问题的。
对
错
参考答案:
错
答案解析:
暂无解析
87、
sort by关键字的作用是保证全局有序。
对
错
参考答案:
错
答案解析:
sort by是在数据进入Reducer前完成排序，因此不是全局排序，如果设置mapred.reduce.tasks>1，则sort by只能保证每个reducer的输出有序，不保证全局有序。
88、
Spooling Directory Source对指定磁盘上的文件目录进行监控并提取数据，但是不能查看新增文件数据。
对
错
参考答案:
错
答案解析:
Spooling Directory Source对指定磁盘上的文件目录进行监控并提取数据，可以查看新增文件数据。
89、
“–query”参数后的查询语句中，如果已经使用了WHERE关键字，那么在连接 $C O N D I T I O N S 占位符前必须使用 A N D 关键字；否则，就必须使用 W H E R E 关键字连接。对错参考答案 : 对答案解析 : “ - - q u e r y ” 参数后的查询语句中，如果已经使用了 W H E R E 关键字，那么在连接$ CONDITIONS占位符前必须使用AND关键字；否则，就必须使用WHERE关键字连接。
90、
启动Hadoop集群，只能有一种方式启动，即单节点逐个启动。
对
错
参考答案:
错
答案解析:
启动Hadoop集群有两种方式，分别是单节点逐个启动和使用脚本一键启动。
91、
MapTask作为MapReduce工作流程的前半部分，它主要经历Read阶段、Map阶段、Collect阶段、Spill阶段和Shuffle阶段。
对
错
参考答案:
错
答案解析:
MapTask作为MapReduce工作流程的前半部分，它主要经历Read阶段、Map阶段、Collect阶段、Spill阶段和Combine阶段。
92、
分区表时Hive数据模型的最小单元，在Hive存储上的体现就是在表的主目录下的一个子文件夹。
对
错
参考答案:
错
答案解析:
桶表是Hive数据模型的最小单元
93、
如果指定了\n为Sqoop导入的换行符，当MySQL的某个string字段的值如果包含了\n, 则会导致Sqoop导入多出一行记录。
对
错
参考答案:
对
答案解析:
可以使用-hive-drop-import-delims指令解决这个问题
94、
通过使用虚拟机软件（如VMware Workstation），可以在同一台电脑上构建多个Linux虚拟机环境。
对
错
参考答案:
对
答案解析:
暂无解析
95、
执行“start-all.sh”指令，可以一键启动整个Hadoop集群的服务。
对
错
参考答案:
对
答案解析:
暂无解析
96、
如果没有指定“–num-mappers 1”（或-m 1，即map任务个数为1），那么在指令中必须还要添加“–split-by”参数。
对
错
参考答案:
对
答案解析:
暂无解析
97、
Zookeeper具有全局数据一致性、高容错性、无序性、原子性以及实时性。
对
错
参考答案:
错
答案解析:
Zookeeper具有全局数据一致性、可靠性、顺序性、原子性以及实时性。
98、
启动Hadoop HA后，可通过端口号50070查看当前节点的NameNode状态。
对
错
参考答案:
对
答案解析:
暂无解析
99、
Sqoop导出与导入是相反的操作，也就是将关系型数据库中的数据导入到HDFS文件系统中。
对
错
参考答案:
错
答案解析:
暂无解析
100、
伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。
对
错
参考答案:
错
答案解析:
暂无解析
101、
在Hadoop2.x版本下，Block数据块的默认大小是64M。
对
错
参考答案:
错
答案解析:
在Hadoop2.x版本下，Block数据块的默认大小是128M。
102、
在Zookeeper选举机制中，数据ID是服务器中存放的最新数据版本号，该值越大则说明数据越新，在选举过程中数据越新权重越小。
对
错
参考答案:
错
答案解析:
在Zookeeper选举机制中，数据ID是服务器中存放的最新数据版本号，该值越大则说明数据越新，在选举过程中数据越新权重越大。
103、
NameNode的Web UI端口是50030，它通过jetty启动的Web服务。
对
错
参考答案:
错
答案解析:
端口号为50070
104、
查询和替换拦截器基于Java正则表达式提供了简单的用于字符串的搜索和替换功能，同时还具有进行回溯/群组捕捉功能。
对
错
参考答案:
对
答案解析:
暂无解析
105、
$CONDITIONS相当于一个动态占位符，动态的接收传过滤后的子集数据，然后让每个Map任务执行查询的结果并进行数据导入。
对
错
参考答案:
对
答案解析:
$CONDITIONS相当于一个动态占位符，动态的接收传过滤后的子集数据，然后让每个Map任务执行查询的结果并进行数据导入。
106、
HDFS目前不支持并发多用户的写操作，写操作只能在文件末尾追加数据。
对
错
参考答案:
对
答案解析:
HDFS目前不支持并发多用户的写操作，写操作只能在文件末尾追加数据。
107、
在Windows平台开发HDFS项目时，若不设置Hadoop开发环境，也是没问题的。
对
错
参考答案:
错
答案解析:
在Windows平台开发HDFS项目时，若不设置Hadoop开发环境，则会报以下的错误：java.io.IOException: (null) entry in command string: null chmod 0644。
108、
如果一个机架出问题，Hadoop集群服务不会影响数据读写功能
对
错
参考答案:
对
答案解析:
如果一个机架出问题，Hadoop集群服务不会影响数据读写功能
109、
MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台
对
错
参考答案:
对
答案解析:
暂无解析
110、
Hadoop HA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。
对
错
参考答案:
对
答案解析:
Hadoop HA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。
111、
一个完整的event包含headers和body，其中body中包含了数据标识信息。
对
错
参考答案:
错
答案解析:
暂无解析
112、
传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。
对
错
参考答案:
对
答案解析:
传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。
113、
Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放一份。
对
错
参考答案:
错
答案解析:
Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份。
114、
创建项目时，创建者将自动在项目上给予admin状态。允许创建者查看，上传，更改作业，运行流程，删除并向项目添加用户权限。
对
错
参考答案:
对
答案解析:
暂无解析
115、
临时节点允许拥有子节点。
对
错
参考答案:
错
答案解析:
临时节点不允许拥有子节点。
116、
由于Zookeeper集群的运行不需要Java环境支持，所以不需要提前安装JDK。
对
错
参考答案:
错
答案解析:
由于Zookeeper集群的运行需要Java环境支持，所以需要提前安装JDK。
117、
如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。
对
错
参考答案:
错
答案解析:
暂无解析
118、
Hadoop的开源社区版比较著名的是Cloudera公司的CDH版本。
对
错
参考答案:
错
答案解析:
Hadoop的商业版比较著名的是Cloudera公司的CDH版本。
119、
Hadoop提供的Mapper类是实现Map任务的一个抽象基类。
对
错
参考答案:
对
答案解析:
Hadoop提供的Mapper类是实现Map任务的一个抽象基类，该基类提供了一个map()方法，默认情况下，Mapper类中的map()方法是没有做任何处理的。
120、
命名服务是分布式系统中比较常见的一类场景，发布者将需要全局统一管理的数据发布到Zookeeper节点上，供订阅者动态获取数据，实现配置信息的集中式管理和动态更新。
对
错
参考答案:
错
答案解析:
命名服务是分布式系统中比较常见的一类场景。在分布式系统中，通过使用命名服务，客户端应用能够根据指定名字来获取资源服务的地址，提供者等信息。
121、
写入数据的时候会写到不同机架的DataNode中
对
错
参考答案:
对
答案解析:
写入数据的时候会写到不同机架的DataNode中
122、
Flume Agent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。
对
错
参考答案:
对
答案解析:
Flume Agent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。
123、
Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec等。
对
错
参考答案:
对
答案解析:
暂无解析
124、
Observer角色参与Leader选举过程中的投票。
对
错
参考答案:
错
答案解析:
Observer角色不会参与任何形式的投票，只提供非事务性的服务。
125、
非全新集群选举时是优中选优，保证Leader是Zookeeper集群中数据最完整、最可靠的一台服务器。
对
错
参考答案:
对
答案解析:
非全新集群选举时是优中选优，保证Leader是Zookeeper集群中数据最完整、最可靠的一台服务器。
126、
Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。
对
错
参考答案:
对
答案解析:
Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。
127、
由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。
对
错
参考答案:
对
答案解析:
由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。
128、
在Reduce阶段，设置map和reduce共存，当map运行到一定程度后，reduce也开始运行，减少reduce的等待时间，可以提高MapReduce的性能。
对
错
参考答案:
对
答案解析:
在Reduce阶段，设置map和reduce共存，当map运行到一定程度后，reduce也开始运行，减少reduce的等待时间，可以提高MapReduce的性能。
129、
Hive使用length()函数可以求出输出的数量。
对
错
参考答案:
错
答案解析:
该函数返回字符串长度
130、
大数据在医疗行业中可以有效控制疾病的发生。
对
错
参考答案:
错
答案解析:
在医疗行业中，大数据可以有效预防预测疾病。
131、
Azkaban目前所有版本中，AzkabanWebServer和AzkabanExecutorServer是自动部署在同一服务器中。
对
错
参考答案:
错
答案解析:
后来由于功能需求和扩展，将Executor分成了自己独立的服务器
132、
metastore文件的存储位置可以通过conf/sqoop-site.xml配置文件修改。
对
错
参考答案:
对
答案解析:
暂无解析
133、
reduce()函数会将map()函数输出的键值对作为输入，把相同key值的value进行汇总，输出新的键值对
对
错
参考答案:
对
答案解析:
暂无解析
134、
在MapReduce程序中，只有Map阶段涉及到Shuffle机制。
对
错
参考答案:
错
答案解析:
在MapReduce中，Map和Reduce阶段都涉及到了shuffle机制
135、
管理员可以删除其他管理员，但不能删除自己，除非管理员被管理角色的用户删除，否则这会阻止项目成为管理员。
对
错
参考答案:
对
答案解析:
暂无解析
136、
大数据提供的是一些描述性的信息，而创新还是需要人类自己实现。
对
错
参考答案:
对
答案解析:
暂无解析
137、
MapReduce编程模型借鉴了面向过程的编程语言的设计思想。
对
错
参考答案:
错
答案解析:
MapReduce编程模型借鉴了函数式程序设计语言的设计思想
138、
Zookeeper数据模型中的每个Znode都是由三部分组成，分别是stat、data和children。
对
错
参考答案:
对
答案解析:
Zookeeper数据模型中的每个Znode都是由三部分组成，分别是stat、data和children。
139、
Combiner组件可以让Map对Key进行分区，从而可以根据不同的key分发到不同的Reduce中去处理。
对
错
参考答案:
错
答案解析:
Partitioner组件可以让Map对Key进行分区，从而可以根据不同的key分发到不同的Reduce中去处理，其目的就是将key均匀分布在ReduceTask上
140、
Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。
对
错
参考答案:
对
答案解析:
Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。
141、
采集方案中的sources、channels、sinks是在具体编写时根据业务需求进行配置的，可以随意设置。
对
错
参考答案:
错
答案解析:
暂无解析
142、
对于MapReduce任务来说，一定需要Reduce过程。
对
错
参考答案:
错
答案解析:
对于某些MapReduce任务来说，可能不一定需要Reduce过程。
143、
Hadooop2.0版本中，引入了一个资源管理调度框架Yarn。
对
错
参考答案:
对
答案解析:
暂无解析
144、
merge是将两个数据集合并的工具，对于相同的value会覆盖新值。
对
错
参考答案:
错
答案解析:
对于相同的key，覆盖新值。
145、
Namenode存储的是元数据信息，元数据信息并不是真正的数据，真正的数据是存储在DataNode中。
对
错
参考答案:
对
答案解析:
暂无解析
146、
NodeManager是每个节点上的资源和任务管理器。
对
错
参考答案:
对
答案解析:
NodeManager是每个节点上的资源和任务管理器。
147、
codegen参数用于将关系数据库表映射为一个java文件、java class类、以及相关的jar包。
对
错
参考答案:
对
答案解析:
codegen参数用于将关系数据库表映射为一个java文件、java class类、以及相关的jar包。
148、
DataNode是HDFS集群的主节点，NameNode是HDFS集群的从节点。
对
错
参考答案:
错
答案解析:
NameNode是HDFS集群的主节点，DataNode是HDFS集群的从节点。
149、
HDFS中提供Secondary NameNode节点，是为了取代掉NameNode节点。
对
错
参考答案:
错
答案解析:
暂无解析
150、
MapReduce的数据流模型可能只有Map过程，由Map产生的数据直接被写入HDFS中。
对
错
参考答案:
对
答案解析:
暂无解析
151、
Hadoop集群执行完MapReduce程序后，会输出_SUCCESS和part-r-00000结果文件。
对
错
参考答案:
对
答案解析:
Hadoop集群执行完MapReduce程序后，会输出_SUCCESS和part-r-00000结果文件。
152、
在Linux中，mkdir命令主要用于在指定路径下创建子目录。
对
错
参考答案:
对
答案解析:
mkdir命令主要用于在指定路径下创建子目录。
153、
在导入开始之前，Sqoop使用JDBC来检查将要导入的表，检索出表中所有的列以及列的SQL数据类型。
对
错
参考答案:
对
答案解析:
在导入开始之前，Sqoop使用JDBC来检查将要导入的表，检索出表中所有的列以及列的SQL数据类型。
154、
在一个POST请求发送的所有的events数据，可以在多个事务中插入channel。
对
错
参考答案:
错
答案解析:
在一个POST请求发送的所有的events都被认为是一个批次，会在一个事务中插入channel。
155、
在Hadoop的解压目录下的bin目录，存放的是Hadoop的配置文件。
对
错
参考答案:
错
答案解析:
在Hadoop的解压目录下的bin目录存放操作Hadoop相关服务（HDFS、Yarn）的脚本。
156、
Hive的复杂数据类型中，Map是有序键值对类型，Key值必须为原始类型，Value可以为任意类型。
对
错
参考答案:
错
答案解析:
Map为无序，array为有序
157、
当客户端断开连接，此时客户端和服务器的连接就是SyncConnected状态，说明连接失败。
对
错
参考答案:
错
答案解析:
当客户端断开连接，此时客户端和服务器的连接就是Disconnected状态，说明连接失败。
158、
搭建Hadoop HA集群时，必须首先部署Zookeeper集群服务。
对
错
参考答案:
对
答案解析:
搭建Hadoop HA集群时，必须首先部署Zookeeper集群服务。
159、
processor.backoff属性默认值为true，表示sink处理器会将失败的sink列入黑名单。
对
错
参考答案:
错
答案解析:
processor.backoff属性默认值为false
160、
在采集数据的过程中，通过在滚动完文件的名称后添加一个标识的策略，不能避免因日志文件过大而导致上传效率低的问题。
对
错
参考答案:
错
答案解析:
为了避免因日志文件过大而导致上传效率低，可以采取在滚动完文件的名称后添加一个标识的策略来解决这个问题。
161、
启动Zookeeper服务的命令是“zkServer.sh start”。
对
错
参考答案:
对
答案解析:
暂无解析
162、
在独立服务器模式下，使用数据库是内嵌的H2，并且Web服务器和执行服务器都在同一进程中运行。
对
错
参考答案:
对
答案解析:
暂无解析
163、
yarn-env.sh配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、Secondary NameNode和DataNode。
对
错
参考答案:
错
答案解析:
hadoop-env.sh配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、Secondary NameNode和DataNode。
164、
Zookeeper的选举机制，实际上是采用算法FastLeaderElection，投票数大于半数则胜出的机制。
对
错
参考答案:
对
答案解析:
暂无解析
165、
hadoop dfsadmin – report命令用于检测HDFS损坏块。
对
错
参考答案:
错
答案解析:
暂无解析
166、
带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。
对
错
参考答案:
对
答案解析:
带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。
167、
Sqoop中–where与–query指令都是数据过滤，–query是通过指定的查询语句查询出子集数据，然后再将子集数据进行导入。
对
错
参考答案:
对
答案解析:
暂无解析
168、
Static Interceptor（静态拦截器）允许用户将具有静态值的静态头附加到所有event。
对
错
参考答案:
对
答案解析:
暂无解析
169、
HDFS Sink将event写入Hadoop分布式文件系统（HDFS），它目前支持创建文本和序列文件，以及两种类型的压缩文件。
对
错
参考答案:
对
答案解析:
暂无解析
170、
在整个数据传输的过程中，Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。
对
错
参考答案:
对
答案解析:
在整个数据传输的过程中，Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。
171、
使用内嵌的Derby数据库存储元数据，这种方式是Hive的默认安装方式，配置简单，但是一次只能连接一个客户端，适合用来测试，不适合生产环境
对
错
参考答案:
对
答案解析:
使用内嵌的Derby数据库存储元数据，这种方式是Hive的默认安装方式，配置简单，但是一次只能连接一个客户端，适合用来测试，不适合生产环境
172、
Sqoop可以将指令转换为对应的MapReduce作业，然后将关系型数据库和Hadoop中的数据进行相互转换，从而完成数据的迁移。
对
错
参考答案:
对
答案解析:
Sqoop可以将指令转换为对应的MapReduce作业，然后将关系型数据库和Hadoop中的数据进行相互转换，从而完成数据的迁移。
173、
设计Flume采集系统架构时，Sink组件数据可以流向一个新的Agent的Source组件。
对
错
参考答案:
对
答案解析:
设计Flume采集系统架构时，Sink组件数据可以流向一个新的Agent的Source组件。
174、
“–where “city =‘sec-bad’””指令表示筛选出MySQL数据库表字段为city=sec-bad的数据。
对
错
参考答案:
对
答案解析:
暂无解析
175、
创建外部表的同时要加载数据文件，数据文件会移动到数据仓库指定的目录下。
对
错
参考答案:
错
答案解析:
创建外部表，数据文件不会移动到数据仓库指定的目录下。
176、
Timestamp Interceptor能够过滤掉数据中的时间戳。
对
错
参考答案:
错
答案解析:
Timestamp Interceptor（时间戳拦截器）会将流程执行的时间插入到event的header头部。此拦截器插入带有timestamp键（或由header属性指定键名）的标头，其值为对应时间戳。如果配置中已存在时间戳时，此拦截器可以保留现有的时间戳。
177、
Secondary NameNode可以有效缩短Hadoop集群的启动时间。
对
错
参考答案:
对
答案解析:
暂无解析
178、
禁用backoff功能的情况下，在round_robin机制下，所有失败的sink将被传递到sink队列中的下一个sink后，因此不再均衡。
对
错
参考答案:
对
答案解析:
暂无解析
179、
通过执行指令“service iptables status”可以关闭Linux系统的防火墙。
对
错
参考答案:
错
答案解析:
暂无解析
180、
Slave节点要存储数据，所以它的磁盘越大越好。
对
错
参考答案:
错
答案解析:
一旦Slave节点宕机，数据恢复是一个难题
181、
在配置Azkaban系统前，若要使用MySQL数据库，需要提前在MySQL数据库中添加Azkaban数据表。
对
错
参考答案:
对
答案解析:
在配置Azkaban系统前，若要使用MySQL数据库，需要提前在MySQL数据库中添加Azkaban数据表。
182、
雪花模型需要关联多层维度表，这与结构简单的星型模型相比性能较低，所以通常不使用。
对
错
参考答案:
对
答案解析:
雪花模型需要关联多层维度表，这与结构简单的星型模型相比性能较低，所以通常不使用。
183、
Azkaban是对job进行调度管理的，而每一个job任务都是编写在一个文本文件中，且对文本文件没有限制。
对
错
参考答案:
错
答案解析:
暂无解析
184、
JobTracker只负责执行TaskTracker分配的计算任务。
对
错
参考答案:
错
答案解析:
TaskTracker只负责执行JobTracker分配的计算任务。
185、
Sqoop从Hive表导出MySQL表时，首先需要在MySQL中创建表结构。
对
错
参考答案:
对
答案解析:
Sqoop从Hive表导出MySQL表时，首先需要在MySQL中创建表结构。
186、
Hive的String类型相当于MySQL数据库的varchar类型，该类型是一个可变长度的字符串，理论上可以存储2GB的字符数。
对
错
参考答案:
对
答案解析:
Hive的String类型相当于MySQL数据库的varchar类型，该类型是一个可变长度的字符串，理论上可以存储2GB的字符数。
187、
Azkaban可以通过查看executorServerLog__.out日志文件和logs目录下的日志文件查看Azkaban Executor服务器的启动情况。
对
错
参考答案:
对
答案解析:
Azkaban可以通过查看executorServerLog__.out日志文件和logs目录下的日志文件查看Azkaban Executor服务器的启动情况。
188、
Sqoop增量导入的新结果文件只会把指定值后的数据添加到结果文件中。
对
错
参考答案:
对
答案解析:
Sqoop增量导入的新结果文件只会把指定值后的数据添加到结果文件中。
189、
Hadoop1.0和2.0都具备完善的HDFS HA策略
对
错
参考答案:
错
答案解析:
暂无解析
190、
当我们完成Hadoop集群的安装和配置后，就可以直接启动集群。
对
错
参考答案:
错
答案解析:
当我们完成Hadoop集群的安装和配置后，还不能直接启动集群，因为在初次启动HDFS集群时，必须要对主节点进行格式化处理。
191、
Hive是一款独立的数据仓库工具，因此在启动前无需启动任何服务。
对
错
参考答案:
错
答案解析:
暂无解析
192、
MapReduce通过TextOutputFormat组件输出到结果文件中。
对
错
参考答案:
对
答案解析:
当MapReduce程序调用Reduce()方法将单词汇总、排序后，通过TextOutputFormat组件输出到结果文件中。
193、
Azkaban要建立job之间的依赖关系需要使用command参数。
对
错
参考答案:
错
答案解析:
暂无解析
194、
MapReduce任务会根据机架获取离自己比较近的网络数据。
对
错
参考答案:
对
答案解析:
MapReduce任务会根据机架获取离自己比较近的网络数据。
195、
Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。
对
错
参考答案:
错
答案解析:
暂无解析
196、
为了使用严禁，Sqoop在导入数据时，字段分割符号和行分割符号必须要用。
对
错
参考答案:
对
答案解析:
暂无解析
197、
Azkaban默认附带MySQL关系型数据库，进行数据存储。
对
错
参考答案:
错
答案解析:
依赖于MySQL数据库，Azkaban内嵌数据库是H2
198、
Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。
对
错
参考答案:
对
答案解析:
Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。
199、
Hadoop1.x版本中，可以搭建高可用集群，解决单点故障问题。
对
错
参考答案:
错
答案解析:
暂无解析
200、
Hadoop HA是两台NameNode同时执行NameNode角色的工作。
对
错
参考答案:
错
答案解析:
暂无解析
201、
由于Hadoop的设计对硬件要求低，因此无需构建在昂贵的高可用性机器上，导致无法保证数据的可靠性、安全性和高可用性。
对
错
参考答案:
错
答案解析:
暂无解析
202、
客户端上传文件的时候会先将文件切分为多个Block，依次上传。
对
错
参考答案:
对
答案解析:
暂无解析
203、
关于静态拦截器，用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。
对
错
参考答案:
对
答案解析:
关于静态拦截器，用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。
204、
数据仓库可以作为实时查询系统的数据库使用，为决策分析提供数据。
对
错
参考答案:
错
答案解析:
暂无解析
205、
Sink组件是用于把数据发送到目的地的组件，目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。
对
错
参考答案:
对
答案解析:
暂无解析
206、
当我们配置好虚拟机的主机名和IP映射，就可以正常使用虚拟机。
对
错
参考答案:
错
答案解析:
配置好虚拟机的主机名和IP映射，然后再配置网络参数，这样才可正常使用虚拟机。
207、
DataNode在客户端或者NameNode的调度下，存储并检索数据块，对数据块进行创建、删除等操作。
对
错
参考答案:
对
答案解析:
暂无解析
208、
Hive使用MySQL作为存储元数据的数据库时，在安装时需要将MySQL连接驱动Jar包拷贝到lib目录中。
对
错
参考答案:
对
答案解析:
暂无解析
209、
“–target-dir”参数是指定HDFS目标目录地址，因此需要提前创建目标文件。
对
错
参考答案:
错
答案解析:
暂无解析
210、
HDFS上传时，数据会经过NameNode然后再传递给DataNode。
对
错
参考答案:
错
答案解析:
暂无解析
211、
在hdfs-site.xml配置文件中可以配置HDFS数据块的副本数量。
对
错
参考答案:
对
答案解析:
暂无解析
212、
Sqoop导入数据时，可以通过–m设置并行数，最终会在HDFS中产生m个文件。
对
错
参考答案:
对
答案解析:
暂无解析
213、
NameNode不需要从磁盘读取元数据，所有数据都在内存中存储，硬盘上的只是序列化的结果，只有NameNode启动的时候才会读取元数据。
对
错
参考答案:
对
答案解析:
NameNode不需要从磁盘读取元数据，所有数据都在内存中存储，硬盘上的只是序列化的结果，只有NameNode启动的时候才会读取元数据。
214、
Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。
对
错
参考答案:
对
答案解析:
Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。
215、
执行“vi /etc/sysconfig/network”命令，可以配置主机名。
对
错
参考答案:
对
答案解析:
暂无解析
216、
由于Hive系统架构中由跨语言服务Thrift Serve组成，它能够让不同的编程语言调用Hive的接口。
对
错
参考答案:
对
答案解析:
暂无解析
217、
NameNode本地磁盘保存了Block的位置信息。
对
错
参考答案:
对
答案解析:
NameNode本地磁盘保存了Block的位置信息。
218、
星型模型是以一个事实表和一组维度表组合而成，并且以事实表为中心，所有的维度表直接与事实表相连。
对
错
参考答案:
对
答案解析:
暂无解析
219、
Sqoop导出操作之前，目标表必须存在于目标数据库中，否则在执行导出操作时会失败。
对
错
参考答案:
对
答案解析:
Sqoop导出操作之前，目标表必须存在于目标数据库中，否则在执行导出操作时会失败。
220、
通过扩容的方式，解决不了传统文件系统遇到存储瓶颈的问题。
对
错
参考答案:
错
答案解析:
通过扩容的方式，可以解决传统文件系统遇到存储瓶颈的问题。
221、
Hadoop HA集群中，存在Secondary NameNode进程，协调NameNode并保持同步状态。
对
错
参考答案:
错
答案解析:
暂无解析
222、
Avro Source用来监听Avro端口并从外部Avro客户端流中接收event数据，当与另一个Flume Agent上的Avro Sink配对时，它可以创建分层集合拓扑，利用Avro Source可以实现多级流动、扇出流、扇入流等效果。
对
错
参考答案:
对
答案解析:
暂无解析
223、
Taildir Source用于观察指定的文件，可以实时监测到添加到每个文件的新行，如果文件正在写入新行，则此采集器将重试采集它们以等待写入完成。
对
错
参考答案:
对
答案解析:
Taildir Source用于观察指定的文件，可以实时监测到添加到每个文件的新行，如果文件正在写入新行，则此采集器将重试采集它们以等待写入完成。
224、
在MapReduce程序进行格式化数据源操作时，是将划分好的分片格式化为键值对<key，value>形式的数据。
对
错
参考答案:
对
答案解析:
暂无解析
225、
在安装部署Hadoop集群之前，不需要提前安装并配置好JDK。
对
错
参考答案:
错
答案解析:
由于Hadoop是由Java语言开发的，Hadoop集群的使用依赖于Java环境，因此在安装Hadoop集群前，需要先安装并配置好JDK。
226、
工作流会为每一个没有被依赖的job任务创建一个工作流名称，这个工作流名称和没有被依赖的job任务同名。
对
错
参考答案:
对
答案解析:
工作流会为每一个没有被依赖的job任务创建一个工作流名称，这个工作流名称和没有被依赖的job任务同名。
227、
Flume-og与Flume-ng两个版本基本相同，开发者可以使用任意一款工具。
对
错
参考答案:
错
答案解析:
暂无解析
228、
使用–create-hive-table指令导入数据时，Hive数据仓库中必须存在指定表。
对
错
参考答案:
错
答案解析:
“–create-hive-table”用于指定自动创建指定的目标Hive表（即emp_add_sp表），如果表已存在，则执行失败。
229、
Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文。
对
错
参考答案:
对
答案解析:
Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文。
230、
Logger Sink通常用于调试，Logger Sink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。
对
错
参考答案:
对
答案解析:
Logger Sink通常用于调试，Logger Sink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。
231、
AzkabanWebServer是所有Azkaban的主要管理者，它用于处理项目管理、身份验证、调度程序和执行监视，同时还可以用作UI界面。
对
错
参考答案:
对
答案解析:
暂无解析
232、
Flume负载均衡接收器处理器能够在多个Sink上进行均衡流量的功能。
对
错
参考答案:
对
答案解析:
暂无解析
233、
HDFS适用于低延迟数据访问的场景，例如毫秒级实时查询。
对
错
参考答案:
错
答案解析:
暂无解析
234、
HTTP Source可以通过HTTP POST和GET请求方式接收event数据。
对
错
参考答案:
对
答案解析:
暂无解析
235、
在HDFS中，namenode用于决定数据存储到哪一个datanode节点上。
对
错
参考答案:
对
答案解析:
暂无解析
236、
Zookeeper提供的getChildren()方法可以用于获取指定节点下的所有子节点列表。
对
错
参考答案:
对
答案解析:
暂无解析
237、
因为HDFS有多个副本，所以 NameNode是不存在单点问题的。
对
错
参考答案:
错
答案解析:
因为HDFS有多个副本， NameNode依旧存在单点问题的。
238、
hadoop-mapreduce-examples-2.7.4.jar包中有计算【】和Pi值的功能。
参考答案:
【单词个数】
答案解析:
暂无解析
239、
DataNode中的数据块是以文件的类型存储在磁盘中，其中包含两个文件，一是【】，二是每个数据块对应的一个元数据文件。
参考答案:
【数据本身】
答案解析:
暂无解析
240、
在HDFS写数据的流程中，数据是以【】的形式进行发送。
参考答案:
【数据包】
答案解析:
在HDFS写数据的流程中，数据是以数据包的形式进行发送。
241、
在HDFS中，通过执行【】命令查看HDFS根目录下的所有文件及文件夹。
参考答案:
【hadoop fs -ls】
答案解析:
在HDFS中，通过执行“hadoop fs -ls”命令查看HDFS根目录下的所有文件及文件夹。
242、
Yarn的核心组件包含ResourceManager、【】、ApplicationMaster。
参考答案:
【NodeManager】
答案解析:
Yarn的核心组件包含ResourceManager、NodeManager、ApplicationMaster。
243、
Flume采用三层架构，分别为agent、【】、storage，每一层均可以水平扩展。
参考答案:
【collector】
答案解析:
Flume采用三层架构，分别为agent、collector、storage，每一层均可以水平扩展。
244、
解压Flume后，需要在【】配置文件中添加JDK环境变量参数。
参考答案:
【flume-env.sh】
答案解析:
暂无解析
245、
Sqoop连接器，它用于实现与各种关系型数据库的连接，从而实现数据的【】和导出操作。
参考答案:
【导入】
答案解析:
暂无解析
246、
当Map任务写入内存缓存区的数据到达阀值【】时，会启动一个线程将内存中的溢出数据写入磁盘。
参考答案:
【80M】
答案解析:
暂无解析
247、
Hive默认元数据存储在【】数据库中。
参考答案:
【Derby】
答案解析:
Hive默认元数据存储在Derby数据库中。
248、
要想使用Flume系统，需要在当前操作系统中安装【】环境变量。
参考答案:
【JDK】
答案解析:
暂无解析
249、
Azkaban工作流管理器的特点是所有的任务资源文件都需要【】上传。
参考答案:
【打成一个zip包】
答案解析:
暂无解析
250、
ResourceManager内部包含了两个组件，分别是调度器和【】。
参考答案:
【应用程序管理器】
答案解析:
暂无解析
251、
ApplicationMaster的主要功能是资源的【】、监控、【】。
参考答案:
【调度】【容错】
答案解析:
ApplicationMaster的主要功能是资源的调度、监控、容错。
252、
数据仓库是面向【】、集成、【】和时变的数据集合，用于支持管理决策。
参考答案:
【主题】【非易实】
答案解析:
数据仓库是面向主题、集成、非易实和时变的数据集合，用于支持管理决策。
253、
Flume是Cloudera提供的一个【】、可靠、和【】的海量日志采集、聚合和传输的系统。
参考答案:
【分布式】【高可用】
答案解析:
Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
254、
Hive中所有的数据都存储在HDFS中，它包含【】、表、【】、桶表四种数据类型。
参考答案:
【数据仓库】【分区】
答案解析:
Hive中所有的数据都存储在HDFS中，它包含数据仓库、表、分区、桶表四种数据类型。
255、
一个元数据文件包括数据长度、【】以及时间戳。
参考答案:
【块数据校验和】
答案解析:
暂无解析
256、
大数据的分为【】、非结构话数据和【】。
参考答案:
【结构化数据】【半结构化数据】
答案解析:
大数据的分为结构化数据、非结构话数据以及半结构化数据。
257、
在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和【】文件。
参考答案:
【EditLog日志】
答案解析:
暂无解析
258、
Hadoop集群启动成功后，通过端口【】监控Yarn集群。
参考答案:
【8088】
答案解析:
Hadoop集群正常启动后，它默认开放了端口8088，用于监控YARN集群。
259、
客户端从HDFS中查找数据，即为【】数据；Client从HDFS中存储数据，即为Write（写）数据。
参考答案:
【Read（读）】
答案解析:
暂无解析
260、
【】会自动加载HDFS的配置文件core-site.xml，从中获取Hadoop集群的配置信息。
参考答案:
【Configuration实例】
答案解析:
暂无解析
261、
扩容的方式有两种，分别是【】和横向扩容。
参考答案:
【纵向扩容】
答案解析:
暂无解析
262、
当Zookeeper客户端连接认证失败，此时客户端和服务器的连接状态就是【】，说明认证失败。
参考答案:
【AuthFailed】
答案解析:
暂无解析
263、
在Zookeeper的选举机制中，服务器的编号越大，则在FastLeaderElection算法中的【】越大。
参考答案:
【权重】
答案解析:
暂无解析
264、
大数据在金融行业中的具体表现为【】、【】、决策支持、服务创新以及产品创新。
参考答案:
【精准营销】【风险管控】
答案解析:
暂无解析
265、
一键启动Yarn集群的指令是【】。
参考答案:
【start-yarn.sh】
答案解析:
执行指令“start-yarn.sh”可以一键启动Yarn集群。。
266、
NameNode和DataNode通过【】，可以检测DataNode是否工作。
参考答案:
【心跳检测机制】
答案解析:
暂无解析
267、
在MapTask的Split阶段，将数据写入本地磁盘前，要对数据进行一次【】，并在必要时对数据进行合并、压缩等操作。
参考答案:
【本地排序】
答案解析:
暂无解析
268、
Azkaban工作流管理器由三个核心部分组成，具体分别是【】、AzkabanWebServer和AzkabanExecutorServer。
参考答案:
【Relational Database】
答案解析:
暂无解析
269、
利用Sqoop针对MySQL数据库进行数据迁移工作时，需要将【】复制到Sqoop路径下的lib文件夹下。
参考答案:
【MySQL连接驱动】
答案解析:
暂无解析
270、
HDFS采用的是【】的数据一致性模型。
参考答案:
【一次写入，多次读取】
答案解析:
HDFS采用的是“一次写入，多次读取”的数据一致性模型。
271、
HDFS是可以由【】组成，每个服务器机器存储文件系统数据的一部分。
参考答案:
【成百上千台服务器机器】
答案解析:
HDFS是可以由成百上千台服务器机器组成，每个服务器机器存储文件系统数据的一部分。
272、
使用【】指令可以查看Sqoop指令的用法。
参考答案:
【help】
答案解析:
使用help指令可以查看Sqoop指令的用法。
273、
当节点的直接子节点被创建、被删除、子节点数据发生变更时，【】事件被触发。
参考答案:
【NodeChildrentChanged】
答案解析:
暂无解析
274、
通过执行【】命令，查看该节点的Zookeeper角色。
参考答案:
【zkServer.sh status】
答案解析:
通过执行“zkServer.sh status”命令，查看该节点的Zookeeper角色。
275、
Sqoop底层利用【】技术以批处理方式加快了数据传输速度，并且具有较好的容错性功能。
参考答案:
【MapReduce】
答案解析:
Sqoop底层利用MapReduce技术以批处理方式加快了数据传输速度，并且具有较好的容错性功能。
276、
一般关于日志文件产生都是根据【】而决定。
参考答案:
【业务】
答案解析:
一般日志文件产生是由业务决定
277、
Zookeeper为Hadoop高可用集群提供故障自动转移的功能服务，它为每个NameNode都分配了一个【】，用于监控NameNode的健康状态。
参考答案:
【故障恢复控制器】
答案解析:
暂无解析
278、
工作流是指具有依赖关系的一组【】，被依赖的会优先执行。
参考答案:
【Job任务】
答案解析:
暂无解析
279、
【】是Zookeeper集群工作的核心，也是事务性请求（写操作）的唯一调度和处理者。
参考答案:
【Leader】
答案解析:
Leader是Zookeeper集群工作的核心，也是事务性请求（写操作）的唯一调度和处理者。
280、
Sqoop主要用于在【】和关系型数据库之间进行传输数据。
参考答案:
【Hadoop】
答案解析:
Sqoop主要用于在Hadoop和关系型数据库之间进行传输数据。
281、
Hadoop提供的【】和yarn-env.sh配置文件是用来指定Hadoop和Yarn所需的运行环境。
参考答案:
【hadoop-env.sh】
答案解析:
暂无解析
282、
Flume分为两个版本，分别是Flume-og、【】。
参考答案:
【Flume-ng】
答案解析:
Flume分为两个版本，分别是Flume-og和Flume-ng。
283、
大数据的四大特征是大量（Volume）、【】、高速（Velocity）和【】。
参考答案:
【多样（Varity）】【价值（Value）】
答案解析:
暂无解析
284、
在Hadoop1.x版本中，MapReduce是由一个【】和多个TaskTracker组成。
参考答案:
【JobTracker】
答案解析:
暂无解析
285、
VMware提供了两种类型的克隆，分别是完整克隆和【】。
参考答案:
【链接克隆】
答案解析:
暂无解析
286、
ReduceTask在Sort阶段，为了将key相同的数据聚在一起，Hadoop采用了基于【】的策略。
参考答案:
【排序】
答案解析:
暂无解析
287、
马云曾经说过未来的时代将不是IT时代，而是【】时代。
参考答案:
【DT】
答案解析:
暂无解析
288、
在双服务器模式下，【】和执行服务器应在不同的进程中运行，以便升级和维护过程中不影响用户。
参考答案:
【Web服务器】
答案解析:
在双服务器模式下，Web服务器和执行服务器应在不同的进程中运行，以便升级和维护过程中不影响用户。
289、
当出现【】时，说明Hadoop集群已经被格式化成功。
参考答案:
【successfully formatted】
答案解析:
暂无解析
290、
Znode有两种类型，分别是【】和永久节点。
参考答案:
【临时节点】
答案解析:
暂无解析
291、
我们可以执行【】指令查看当前机器是否安装SSH服务。
参考答案:
【rpm -qa｜grep ssh】
答案解析:
暂无解析
292、
Sqoop命令中，导入操作为【】，导出操作为export。
参考答案:
【import】
答案解析:
Sqoop命令中，导入操作为import，导出操作为export。
293、
NameNode主要以【】的形式对数据进行管理和存储。
参考答案:
【元数据】
答案解析:
NameNode主要以元数据的形式对数据进行管理和存储。
294、
输入Map阶段的数据源，必须经过【】和格式化操作。
参考答案:
【分片】
答案解析:
输入Map阶段的数据源，必须经过分片和格式化操作。
295、
数据处理大致可以分为两类，分别是联机事务处理OLTP和【】。
参考答案:
【联机分析处理OLAP】
答案解析:
暂无解析
296、
Hive创建桶表关键字为【】，Hive默认分桶数量是-1。
参考答案:
【clustered by】
答案解析:
Hive创建桶表关键字为clustered by，Hive默认分桶数量是-1。
297、
MapReduce通过默认组件【】将待处理的数据文件的每一行数据都转变为<key，value>键值对。
参考答案:
【TextInputFormat】
答案解析:
暂无解析
298、
Hive的安装模式分为【】、本地模式、远程模式三种形式。
参考答案:
【嵌入模式】
答案解析:
Hive的安装模式分为嵌入模式、本地模式、远程模式三种形式。
299、
Hadoop的解压目录下【】目录存放的是Hadoop管理脚本，包含HDFS和YARN中各类服务的启动/关闭脚本。
参考答案:
【sbin】
答案解析:
Hadoop的解压目录下的sbin目录存放的是Hadoop管理脚本，包含HDFS和YARN中各类服务的启动/关闭脚本。
300、
工作流穿插在其它流任务的某个节点上作为【】。
参考答案:
【嵌入流】
答案解析:
工作流穿插在其它流任务的某个节点上作为嵌入流。
301、
Hadoop支持在【】系统和Windows系统上进行安装使用。
参考答案:
【Linux】
答案解析:
Hadoop是一个用于处理大数据的分布式集群架构，支持在GNU/Linux系统以及Windows系统上进行安装使用。
302、
Azkaban提供三种部署模式：轻量级的【】、重量级的双服务器模式和分布式多执行器模式。
参考答案:
【独立服务器模式】
答案解析:
Azkaban提供三种部署模式：轻量级的独立服务器模式、重量级的双服务器模式和分布式多执行器模式。
303、
【】配置文件用于记录Hadoop集群的所有从节点的主机名。
参考答案:
【slaves】
答案解析:
暂无解析
304、
File Channel的配置属性，必备参数为【】、checkpointDir和useDualCheckpoints。
参考答案:
【type】
答案解析:
暂无解析
305、
Hadoop发行版本分为开源社区版和【】。
参考答案:
【商业版】
答案解析:
暂无解析
306、
从数据库导入HDFS时，指定以制表符作为字段分隔符参数是【】。
参考答案:
【–fields-terminated-by ‘\t’】
答案解析:
暂无解析
307、
在虚拟机配置IP映射时，选择【】模式进行配置。
参考答案:
【NAT】
答案解析:
暂无解析
308、
Flume的负载均衡接收器处理器支持使用【】、random（随机）机制进行流量分配，其默认选择机制为【】。
参考答案:
【round_robin（轮询）】【round_robin】
答案解析:
暂无解析
309、
启动Hadoop集群，主要是启动其内部包含的【】和YARN集群。
参考答案:
【HDFS集群】
答案解析:
暂无解析
310、
Zookeeper是由【】组成的树。
参考答案:
【节点】
答案解析:
Zookeeper是由节点组成的树，树中的每个节点被称为—Znode。
311、
【】是MapReduce的核心，它用来确保每个reducer的输入都是按键排序的。
参考答案:
【Shuffle】
答案解析:
Shuffle是MapReduce的核心，它用来确保每个reducer的输入都是按键排序的。
312、
azkaban.properties配置文件中，修改默认时区为亚洲上海的写法是【】。
参考答案:
【default.timezone.id=Asia/Shanghai】
答案解析:
暂无解析
313、
传统的文件系统对海量数据的处理方式是将数据文件直接存储在【】台服务器上。
参考答案:
【一】
答案解析:
暂无解析
314、
DataNode之间需要建立【】通道，用于传输数据包。
参考答案:
【Pipeline】
答案解析:
DataNode之间需要建立Pipeline通道，用于传输数据包。
315、
如果使用Sqoop工具将MySQL表数据导入Hive数据仓库中，需要在sqoop-env.sh配置文件中配置【】。
参考答案:
【Hive的安装路径】
答案解析:
暂无解析
316、
我们通过执行【】命令，可以使得配置的环境变量文件生效。
参考答案:
【source /etc/profile】
答案解析:
通过执行“source /etc/profile”命令，可以使得配置的环境变量文件生效。
317、
在Hadoop集群执行完MapReduce程序后，输出的结果文件【】表示此次任务成功执行。
参考答案:
【SUCCESS】
答案解析:
暂无解析
318、
MapReduce编程模型的实现过程是通过【】和【】函数来完成的。
参考答案:
【map()】【reduce()】
答案解析:
暂无解析
319、
文件系统对象FileSystem提供的方法【】用于从HDFS复制文件到本地磁盘。
参考答案:
【copyToLocalFile()】
答案解析:
暂无解析
320、
Hive是建立在【】上的数据仓库，它能够对数据进行数据提取、【】和加载。
参考答案:
【HDFS】【转换】
答案解析:
暂无解析
321、
MapReduce编程组件中，【】组件主要用于描述输入数据的格式。
参考答案:
【InputFormat】
答案解析:
暂无解析
322、
Flume的核心是把数据从数据源通过数据采集器（Source）收集过来，再将收集的数据通过【】汇集到指定的接收器（Sink）。
参考答案:
【缓冲通道（Channel）】
答案解析:
暂无解析
323、
【】模式适用于较为复杂的生产环境，它的数据库由主从设置的MySQ实例提供支持。
参考答案:
【双服务器】
答案解析:
暂无解析
324、
在部署Sqoop时，需要在sqoop-env.sh配置文件中添加【】环境。
参考答案:
【Hadoop】
答案解析:
在部署Sqoop时，需要在sqoop-env.sh配置文件中添加Hadoop环境。
325、
HDFS与现有的分布式文件系统的主要区别是HDFS具有【】能力。
参考答案:
【高度容错】
答案解析:
暂无解析
326、
【】节点，负责记录文件系统名称空间或其属性的任何更改操作，并存储配置文件中设置备份的数量。
参考答案:
【NameNode】
答案解析:
NameNode节点，负责记录文件系统名称空间或其属性的任何更改操作，并存储配置文件中设置备份的数量。
327、
在HDFS的高可用集群中，通常有两台或两台以上的的机器充当NameNode，在任意时间，保证有一台机器处于【】状态，一台机器处于【】状态。
参考答案:
【活动】【备用】
答案解析:
暂无解析
328、
Hadoop默认提供两种配置文件，分别是【】和自定义配置时编辑的配置文件。
参考答案:
【只读的默认配置文件】
答案解析:
Hadoop默认提供两种配置文件，分别是只读的配置文件和自定义配置时编辑的配置文件。
329、
【】组件的作用就是对Map阶段的输出的重复数据先做一次合并计算，然后把新的（key，value）作为Reduce阶段的输入。
参考答案:
【Combiner】
答案解析:
暂无解析
330、
MapReduce在操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为【】和【】两个阶段。
参考答案:
【Map】【Reduce】
答案解析:
MapReduce在操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段。
331、
Sqoop数据导入（import）是将关系型数据库中的单个表数据导入到具有【】的文件系统中。
参考答案:
【Hadoop分布式存储结构】
答案解析:
暂无解析
332、
设置Azkaban Executor服务最大线程数参数为【】。
参考答案:
【executor.maxThreads=50】
答案解析:
设置Azkaban Executor服务最大线程数参数为executor.maxThreads=50。
333、
Azkaban项目定时设置界面，主要分为4个区域：【】、时间设置规则说明区域、【】和任务调度时间区域。
参考答案:
【定时设置区域】【Quartz cron表达式生成区域】
答案解析:
暂无解析
334、
Failover Sink Processor配置属性必备的参数是【】、processor.type和processor.priority.。
参考答案:
【sinks】
答案解析:
暂无解析
335、
Azkaban是由Linkedin公司开源的一个【】，用于在一个工作流内以一个特定的【】运行一组工作和流程。
参考答案:
【批量工作流任务调度器】【顺序】
答案解析:
Azkaban是由Linkedin公司开源的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。
336、
数据仓库的结构包含了4部分，分别是数据源、【】服务器、数据管理服务器和前端工具。
参考答案:
【数据存储】
答案解析:
数据仓库的结构包含了4部分，分别是数据源、数据存储服务器、数据管理服务器和前端工具。
337、
【】模式适用于特别复杂的生产环境，它的数据库由具有主从设置的MySQL实例支持。
参考答案:
【分布式多执行器】
答案解析:
分布式多执行器模式适用于特别复杂的生产环境，它的数据库由具有主从设置的MySQL实例支持。
338、
【】中引入了资源管理框架Yarn。
参考答案:
【Hadoop2.x】
答案解析:
暂无解析
339、
Hive建表时设置分割字符命令【】。
参考答案:
【row format delimited fields terminated by char】
答案解析:
暂无解析
340、
Zookeeper的顺序性主要分为两种，分别是【】和偏序。
参考答案:
【全局有序】
答案解析:
暂无解析
341、
我们可以执行【】指令查看SSH服务是否启动。
参考答案:
【ps -e｜grep sshd】
答案解析:
暂无解析
342、
Sqoop增量导入时，若想导入指定ID后的数据内容，需要添加的指令为【】。
参考答案:
【“–last-value”】
答案解析:
暂无解析
343、
进行增量导入操作时，必须指定【】参数，用来检查数据表列字段，从而确定哪些数据需要执行增量导入。
参考答案:
【“–check-column”】
答案解析:
暂无解析
344、
Reduce是MapReduce数据流模型的最后处理过程，其结果【】进行第二次汇总。
参考答案:
【不会】
答案解析:
暂无解析
345、
Zookeeper提供的典型应用场景服务有【】、统一命名服务和【】。
参考答案:
【数据发布与订阅】【分布式锁】
答案解析:
Zookeeper典型应用场景有数据发布与订阅、统一命名服务和分布式锁。
346、
【】是文档检索系统中最常用的数据结构，被广泛应用于全文搜索引擎。
参考答案:
【倒排索引】
答案解析:
暂无解析
347、
Hadoop2.0中，HDfS中的Block大小是【】。
参考答案:
【128M】
答案解析:
在Hadoop1.0中，Block大小默认为64M，在Hadoop2.0中，Block大小默认为128M
348、
Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的【】维护和跟踪工作流。
参考答案:
【UI界面】
答案解析:
Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的UI界面维护和跟踪工作流。
349、
【】主要是为了掌握利用并行化思想来对数据进行有意义的筛选。
参考答案:
【数据去重】
答案解析:
暂无解析
350、
Sqoop目前支持两种增量导入模式，分别是【】和lastmodified模式。
参考答案:
【append模式】
答案解析:
Sqoop目前支持两种增量导入模式，分别是append模式和lastmodified模式。
351、
如果想要将整个数据库中的表全部导入到HDFS上，可以使用【】指令。
参考答案:
【import-all-tables】
答案解析:
如果想要将整个数据库中的表全部导入到HDFS上，可以使用import-all-tables指令
352、
AzkabanExecutorServer主要负责具体的工作流的【】和执行，可以启动多个执行服务器。
参考答案:
【提交】
答案解析:
暂无解析
353、
在默认配置下，MySQL会根据配置文件限制接收数据包的大小，可以通过配置修改属性【】，修改数据包大小值。
参考答案:
【max_allowed_packet】
答案解析:
暂无解析
354、
MapReduce程序的运行模式主要有两种，分别是本地运行模式和【】。
参考答案:
【集群运行模式】
答案解析:
暂无解析
355、
Azkaban【】模式适用于小规模测试方案。
参考答案:
【独立服务器模式】
答案解析:
Azkaban独立服务器模式模式适用于小规模测试方案。
356、
Azkaban本质是一个【】，用于对jobs工作任务的调度管理。
参考答案:
【工作流管理器】
答案解析:
Azkaban本质是一个工作流管理器，用于对jobs工作任务的调度管理。
357、
Azkaban使用SSL套接字连接器必须要先提供【】。
参考答案:
【秘钥库】
答案解析:
Azkaban使用SSL套接字连接器必须要先提供秘钥库。
358、
客户端发起文件上传请求，通过【】协议与NameNode建立通讯。
参考答案:
【RPC】
答案解析:
暂无解析
359、
【】配置文件用于配置HDFS的NameNode和DataNode两大进程。
参考答案:
【hdfs-site.xml】
答案解析:
暂无解析
360、
【】是指从研究对象中按照某一个指标进行倒序或正序排列，取其中所需的N个数据，并对这N个数据进行重点分析的方法。
参考答案:
【TopN分析法】
答案解析:
TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列，取其中所需的N个数据，并对这N个数据进行重点分析的方法。
361、
在数据仓库建设中，一般会围绕着星型模型和【】来设计数据模型。
参考答案:
【雪花模型】
答案解析:
在数据仓库建设中，一般会围绕着星型模型和雪花模型来设计数据模型。
362、
【】的生命周期不依赖于会话，并且只有在客户端显示执行删除操作的时候，它们才能被删除。
参考答案:
【永久节点】
答案解析:
永久节点的生命周期不依赖于会话，并且只有在客户端显示执行删除操作的时候，它们才能被删除。
363、
Zookeeper选举机制的类型有两种，分别是【】和非全新集群选举。
参考答案:
【全新集群选举】
答案解析:
暂无解析
364、
默认情况下，run()方法中的setup()和cleanup()方法在内部不做任何处理，也就是说，【】方法是处理数据的核心方法。
参考答案:
【reduce()】
答案解析:
暂无解析
365、
Hive查询语句select ceil(2.34)输出内容是【】。
参考答案:
【3】
答案解析:
暂无解析
366、
azkaban.properties配置文件中，修改默认数据库为MySQL的写法是【】。
参考答案:
【database.type=mysql】
答案解析:
azkaban.properties配置文件中，修改默认数据库为MySQL的写法是database.type=mysql。
367、
Flume负载均衡接收器处理器支持使用【】和random（随机）选择机制进行流量分配。
参考答案:
【round_robin（轮询）】
答案解析:
暂无解析
368、
在配置文件【】中，设置与主机连接的心跳端口和选举端口。
参考答案:
【zoo.cfg】
答案解析:
在配置文件zoo.cfg中，设置与主机连接的心跳端口和选举端口。
369、
MapReduce的核心思想是【】。
参考答案:
【分而治之】
答案解析:
暂无解析
370、
简述VMware提供的两种类型的克隆方式。
参考答案:
VMware提供两种类型的克隆，分别是完整克隆和链接克隆。完整克隆：是对原始虚拟机完全独立的一个拷贝，它不和原始虚拟机共享任何资源，可以脱离原始虚拟机独立使用。链接克隆：需要和原始虚拟机共享同一虚拟磁盘文件，不能脱离原始虚拟机独立运行。但是，采用共享磁盘文件可以极大缩短创建克隆虚拟机的时间，同时还节省物理磁盘空间。通过链接克隆，可以轻松的为不同的任务创建一个独立的虚拟机。
答案解析:
暂无解析
371、
Hive有哪些方式保存元数据，各有哪些优缺点。
参考答案:
1、存储于Derby 数据库中，此方法只能开启一个Hive客户端，不推荐使用。
2、存储于MySQL 数据库中，可以多客户端连接，推荐使用。
答案解析:
1、存储于Derby 数据库中，此方法只能开启一个Hive客户端，不推荐使用。
2、存储于MySQL 数据库中，可以多客户端连接，推荐使用。
372、
启动Hive方式有哪些？
参考答案:
1.bin/hive、2.bin/hiveserver2
答案解析:
暂无解析
373、
简述AzkabanWebServer使用数据库的原因。
参考答案:
1.项目管理：项目、项目权限以及上传的文件。
2.执行流状态：跟踪执行流程以及执行程序正在运行的流程。
3.以前的流程/作业：通过以前的作业和流程执行以及访问其日志文件进行搜索。
4.计划程序：保留计划作业的状态。
5.SLA：保持所有的SLA规则
答案解析:
1.项目管理：项目、项目权限以及上传的文件。
2.执行流状态：跟踪执行流程以及执行程序正在运行的流程。
3.以前的流程/作业：通过以前的作业和流程执行以及访问其日志文件进行搜索。
4.计划程序：保留计划作业的状态。
5.SLA：保持所有的SLA规则
374、
简述OutputFormat定义的三个方法。
参考答案:
getRecordWriter()方法用于返回一个RecordWriter的实例，checkOutputSpecs()方法用于检测任务输出规范是否有效，getOutputCommiter()方法来负责输出被正确提交。
答案解析:
getRecordWriter()方法用于返回一个RecordWriter的实例，checkOutputSpecs()方法用于检测任务输出规范是否有效，getOutputCommiter()方法来负责输出被正确提交。
375、
简述Hive与Hadoop之间的工作过程。
参考答案:
（1）用户通过用户接口UI将执行的查询操作发送给驱动器执行。
（2）驱动器借助查询编译器解析查询，检查语法和查询计划或查询需求。
（3）编译器将元数据请求发送到Metastore(任何数据库)。
（4）编译器将元数据作为对编译器的响应发送出去。
（5）编译器检查需求并将计划重新发送给驱动器。至此，查询的解析和编译已经完成。
（6）驱动器将执行计划发送给执行引擎执行Job任务。
（7）执行引擎从DataNode上获取结果集，并将结果发送给用户接口UI和驱动器。
答案解析:
暂无解析
376、
简述Hive中内部表与外部表区别。
参考答案:
创建表阶段：外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径，内部表会把数据复制或剪切到表的目录下。
删除表阶段：外部表在删除表的时候只会删除表的元数据信息不会删除表数据，内部表删除时会将元数据信息和表数据同时删除。
答案解析:
暂无解析
377、
简述“–connect”指令的含义。
参考答案:
指定连接的关系型数据库，包括JDBC驱动名、主机名、端口号和数据库名称。
答案解析:
暂无解析
378、
简述HDFS的优点和缺点。
参考答案:
HDFS分布式文件系统具有优点和缺点。优点有高容错、流式数据访问、支持超大文件、高数据吞吐量以及可构建在廉价的机器上；缺点有高延迟、不适合小文件存取场景以及不适合并发写入。
答案解析:
暂无解析
379、
简述伪分布模式中使用什么场景。
参考答案:
伪分布式适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。
答案解析:
暂无解析
380、
HDFS的客户端，复制到第三个副本时宕机，此时HDFS怎么恢复，保证下次写入第三副本?
参考答案:
DataNode会定时上报Block块的信息给NameNode，NameNode就会得知该副本缺失，然后NameNode就会启动副本复制流程以保证数据块的备份！
答案解析:
暂无解析
381、
简述event。
参考答案:
它是Flume内部数据传输的基本单元。一个完整的event包含headers和body，其中headers包含了一些标识信息，而body中就是Flume收集到的数据信息。
答案解析:
它是Flume内部数据传输的基本单元。一个完整的event包含headers和body，其中headers包含了一些标识信息，而body中就是Flume收集到的数据信息。
382、
简述如何检查Namenode是否正常运行。
参考答案:
如果要检查Namenode是否正常工作，使用Jps命令即可。
答案解析:
暂无解析
383、
选择Azkaban作为任务调度系统的原因（Azkaban的优点是什么）
参考答案:
1.提供功能清晰，简单易用的Web UI界面
2.提供job配置文件快速建立任务和任务之间的依赖关系
3.提供模块化和可插拔的插件机制，原生支持command、Java、Hive、Pig、Hadoop
4.基于Java开发，代码结构清晰，易于二次开发
答案解析:
暂无解析
384、
简述Azkaban的组成部分，以及各个部分的功能。
参考答案:
Azkaban分为三部分，mysql服务器：用于存储项目、日志或者执行计划之类的信息；web服务器：使用Jetty对外部提供web服务，使用户通过WEB UI操作Azkaban系统；executor服务器：负责具体的工作流的提交、执行。
答案解析:
暂无解析
385、
简述–create-hive-table指令的含义。
参考答案:
用于指定自动创建指定的目标Hive表。
答案解析:
暂无解析
386、
简述单点故障的产生。
参考答案:
当存储数据块的服务器中突然有一台机器宕机，我们就无法正常的获取文件了，这个问题被称为单点故障
答案解析:
暂无解析
387、
简述MapReduce的Map阶段和Reduce阶段。
参考答案:
Map阶段：负责将任务分解，即把复杂的任务分解成若干个“简单的任务”来并行处理，但前提是这些任务没有必然的依赖关系，可以单独执行任务。
Reduce阶段：负责将任务合并，即把Map阶段的结果进行全局汇总。
答案解析:
暂无解析
388、
简述MapReduce的工作流程。
参考答案:
MapReduce的工作过程一共有5个步骤，分别是先分片、格式化数据源，再执行MapTask过程，接着执行Shuffle过程，然后执行ReduceTask过程，最后是写入文件操作。
答案解析:
MapReduce的工作过程一共有5个步骤，分别是先分片、格式化数据源，再执行MapTask过程，接着执行Shuffle过程，然后执行ReduceTask过程，最后是写入文件操作。
389、
简述Azkaban服务器安装目录下conf、bin、plugins、web含义。
参考答案:
conf：Azkaban服务器的配置
bin：启动Azkaban jetty服务器的脚本
plugins：可以安装插件的目录
web：Azkaban Web服务器的Web（css，javascript，image）文件
答案解析:
暂无解析
390、
简述大数据在零售行业应用的具体表现。
参考答案:
大数据在零售行业的具体表现有三个，分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。
答案解析:
暂无解析
391、
在hdfs-site.xml配置文件中，dfs.name.dir的作用是。
参考答案:
在hdfs-site.xml配置文件中，dfs.name.dir的作用是。决定的是元数据存储的路径以及文件系统的存储方式（磁盘或是远端）。
答案解析:
暂无解析
392、
简述拆分AzkabanExecutorServer的原因。
参考答案:
1.某个任务流失败后，可以更方便的将其重新执行
2.便于Azkaban升级
答案解析:
1.某个任务流失败后，可以更方便的将其重新执行
2.便于Azkaban升级
393、
简述Azkaban中的project、job和flow元素的关系。
参考答案:
project可以理解为Azkaban的某个项目，在项目中包含了许多需要执行的任务，即为job，各个job之间形成依赖关系，就组成了工作流flow。
答案解析:
project可以理解为Azkaban的某个项目，在项目中包含了许多需要执行的任务，即为job，各个job之间形成依赖关系，就组成了工作流flow。
394、
简述HDFS读数据的原理。
参考答案:
（1）客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。（2）NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。（3）客户端会选取排序靠前的DataNode来依次读取Block块（如果客户端本身就是DataNode，那么将从本地直接获取数据），每一个Block都会进行CheckSum（完整性验证），若文件不完整，则客户端会继续向NameNode获取下一批的Block列表，直到验证读取出来文件是完整的，则Block读取完毕。（4）客户端会把最终读取出来所有的Block块合并成一个完整的最终文件
答案解析:
暂无解析
395、
简述Zookeeper的Watcher机制。
参考答案:
在ZooKeeper中，引入了Watcher机制来实现分布式的通知功能。ZooKeeper允许客户端向服务端注册一个Watch监听，当服务端的一些事件触发了这个Watch，那么就会向指定客户端发送一个事件通知，来实现分布式的通知功能。
答案解析:
暂无解析
396、
请简述启动Hive CLI启动方式。
参考答案:
直接输入#<HIVE_HOME>/bin/hive启动
答案解析:
直接输入#<HIVE_HOME>/bin/hive启动
397、
简述Hive的排序种类及特点。
参考答案:
1.order by 全局排序
2.sort by 非全局排序
3.distribute by hash散列分区，常和sort by同时使用。即分区又排序，需要设置mapreduce.job.reduces的个数
4.cluster by 当distribute by 和sort by的字段相同时，等同于cluster by.可以看做特殊的distribute + sort
答案解析:
1.order by 全局排序
2.sort by 非全局排序
3.distribute by hash散列分区，常和sort by同时使用。即分区又排序，需要设置mapreduce.job.reduces的个数
4.cluster by 当distribute by 和sort by的字段相同时，等同于cluster by.可以看做特殊的distribute + sort
398、
Hive相对于Oracle来说有那些优点？
参考答案:
1、存储，Hive存储在 Hdfs上，Oracle存储在本地文件系统。
2、扩展性，Hive可以扩展到数千节点，Oracle理论上只可扩展到 100 台左右。
3、单表存储，数据量大Hive可以分区分桶，Oracle数据量大只能分表。
答案解析:
暂无解析
399、
Hive的核心是驱动引擎，简述它由哪部分组成。
参考答案:
Hive核心驱动引擎是由编译器（Compiler），优化器（Optimizer），执行器（Executor）组成，它们用于完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成，生成的查询计划存储在HDFS中，并在随后由MapReduce调用执行。
答案解析:
暂无解析
400、
创建字段为id、name的用户表，并且以性别gender为分区字段的分区表。
参考答案:
create table t_user (id int, name string)
partitioned by (gender string)
row format delimited fields terminated by ‘,’;
答案解析:
暂无解析
401、
请简述初次启动Hadoop HA集群的操作方式。
参考答案:
（1）在每台机器上启动Zookeeper服务。
（2）手动启动Journalnode。
（3）格式化NameNode，并且把格式化后生成的目录拷贝到另外一台NameNode上。
（4）格式化zkfc，在Active节点上执行即可。
（5）启动HDFS服务。
（6）启动Yarn服务。
答案解析:
（1）在每台机器上启动Zookeeper服务。
（2）手动启动Journalnode。
（3）格式化NameNode，并且把格式化后生成的目录拷贝到另外一台NameNode上。
（4）格式化zkfc，在Active节点上执行即可。
（5）启动HDFS服务。
（6）启动Yarn服务。
402、
简述Memory Channel特点。
参考答案:
读写速度快，但是存储数据量小，Flume 进程挂掉、服务器停机或者重启都会导致数据丢失。资源充足、不关心数据丢失的场景下可以用。
答案解析:
读写速度快，但是存储数据量小，Flume 进程挂掉、服务器停机或者重启都会导致数据丢失。资源充足、不关心数据丢失的场景下可以用。
403、
简述tail -F与-f的区别。
参考答案:
小f根据文件描述符进行追踪，当文件改名或被删除，追踪结束，-F按照文件名进行追踪，并保持重试，即文件被删除或改名后，如果创建相同的文件名，则继续追踪。
答案解析:
暂无解析
404、
简述HDFS中提供了Secondary NameNode节点的职责。
参考答案:
Secondary NameNode节点主要是周期性的把NameNode中的EditLog日志文件合并到FsImage镜像文件中，从而减小EditLog日志文件的大小，缩短集群重启时间，并且也保证了HDFS系统的完整性。
答案解析:
Secondary NameNode节点主要是周期性的把NameNode中的EditLog日志文件合并到FsImage镜像文件中，从而减小EditLog日志文件的大小，缩短集群重启时间，并且也保证了HDFS系统的完整性。
405、
简述AzkabanExecutorServer使用数据库的原因。
参考答案:
1.访问项目：从数据库检索项目文件。
2.执行流程/作业：检索和更新正在执行的作业流的数据
3.日志：将作业和工作流的输出日志存储到数据库中。
4.交互依赖关系：如果一个工作流在不同的执行器上运行，它将从数据库中获取状态。
答案解析:
暂无解析
406、
启动Azkaban Executor服务后，可以采取什么方式查看Azkaban执行服务器启动状态。
参考答案:
开发人员可以通过executorServerLog_.out日志文件和logs目录下的日志文件查看服务器启动状态。
答案解析:
暂无解析
407、
简述分布式锁服务。
参考答案:
分布式锁服务可以保证Zookeeper中数据的强一致性，锁服务分为两类，一类是保持独占，另一类是控制时序。所谓保持独占，就是所有试图来获取这个锁的客户端，最终只有一个客户端可以成功获得这把锁，从而执行相应操作（通常的做法是把Zookeeper上的一个Znode看作是一把锁，通过创建临时节点的方式来实现）；控制时序，是所有试图来获取锁的客户端，最终都会被执行，只是存在了全局时序，它的实现方法和保持独占基本类似，这里/distribute_lock预先存在，那么客户端在它下面创建临时序列化节点，并根据序列号的大小进行时序性操作。
答案解析:
分布式锁服务可以保证Zookeeper中数据的强一致性，锁服务分为两类，一类是保持独占，另一类是控制时序。所谓保持独占，就是所有试图来获取这个锁的客户端，最终只有一个客户端可以成功获得这把锁，从而执行相应操作（通常的做法是把Zookeeper上的一个Znode看作是一把锁，通过创建临时节点的方式来实现）；控制时序，是所有试图来获取锁的客户端，最终都会被执行，只是存在了全局时序，它的实现方法和保持独占基本类似，这里/distribute_lock预先存在，那么客户端在它下面创建临时序列化节点，并根据序列号的大小进行时序性操作。
408、
Hive元数据存储系统中通常存储什么？
参考答案:
Hive中的元数据通常包括：表名、列、分区及其相关属性（内部表和外部表），表数据所在目录的位置信息。
答案解析:
Hive中的元数据通常包括：表名、列、分区及其相关属性（内部表和外部表），表数据所在目录的位置信息。
409、
配置hive-env.sh都涉及到哪些属性？
参考答案:
添加Hadoop环境变量
答案解析:
添加Hadoop环境变量
410、
请简述OLTP与OLAP的作用。
参考答案:
(1) OLTP是传统关系型数据库的主要应用，主要针对的是基本的日常事务处理，例如，银行转账。
(2) OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果，例如，商品的推荐系统。
答案解析:
(1) OLTP是传统关系型数据库的主要应用，主要针对的是基本的日常事务处理，例如，银行转账。
(2) OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果，例如，商品的推荐系统。
411、
简述关闭Azkaban Executor服务指令。
参考答案:
bin/shutdown-exec.sh
答案解析:
bin/shutdown-exec.sh
412、
简述FAILED java.util.NoSuchElementException的错误含义。
参考答案:
此错误的原因为sqoop解析文件的字段与MySQL数据库的表的字段对应不上造成的，因此需要在执行时添加分隔符参数，从而能够正确的解析文件字段。
答案解析:
暂无解析
413、
简述Yarn集群的工作流程。
参考答案:
（1）用户通过客户端Client向YARN提交应用程序Applicastion，提交的内容包含Application的必备信息，例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
（2）YARN中的ResourceManager接收到客户端应用程序的请求后，ResourceManager中的调度器（Scheduler）会为应用程序分配一个容器，用于运行本次程序对应的ApplicationMaster。图6-2中的MR App Mstr表示的是MapReduce程序的ApplicationMaster。
（3）ApplicationMaster被创建后，首先向ResourceManager注册信息，这样用户可以通过ResourceManager查看应用程序的运行状态。接下来的第（4）~（7）步是应用程序的具体执行步骤。
（4）ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。
（5）ResourceManager向提出申请的ApplicationMaster分配资源。一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。
（6）NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。
（7）各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。
（8）应用运行结束后，ApplicationMaster向ResourceManager注销自己，并关闭自己。如果ApplicationMaster因为发生故障导致任务失败，那么ResourceManager中的应用程序管理器会将其重新启动，直到所有任务执行完毕。
答案解析:
暂无解析
414、
为什么SSH本地主机需要密码？
参考答案:
在SSH中使用密码主要是增加安全性，在某些情况下也根本不会设置密码通信。
答案解析:
暂无解析
415、
简述故障转移接收器处理器的工作原理。
参考答案:
将故障的sink降级到故障池中，在池中为它们分配一个冷却期，在重试之前冷却时间会增加，当sink成功发送event后，它将恢复到活跃池中。sink具有与之相关的优先级，数值越大，优先级越高。如果在发送event时sink发生故障，则会尝试下一个具有最高优先级的sink来继续发送event。如果未指定优先级，则根据配置文件中指定sink的顺序确定优先级。
答案解析:
将故障的sink降级到故障池中，在池中为它们分配一个冷却期，在重试之前冷却时间会增加，当sink成功发送event后，它将恢复到活跃池中。sink具有与之相关的优先级，数值越大，优先级越高。如果在发送event时sink发生故障，则会尝试下一个具有最高优先级的sink来继续发送event。如果未指定优先级，则根据配置文件中指定sink的顺序确定优先级。
416、
简述NameNode管理分布式文件系统的命名空间。
参考答案:
在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和EditLog日志文件。其中，FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候，FsImage镜像文件就会被加载到内存中，然后对内存里的数据执行记录的操作，以确保内存所保留的数据处于最新的状态，这样就加快了元数据的读取和更新操作。
答案解析:
在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和EditLog日志文件。其中，FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候，FsImage镜像文件就会被加载到内存中，然后对内存里的数据执行记录的操作，以确保内存所保留的数据处于最新的状态，这样就加快了元数据的读取和更新操作。
417、
Flume采集数据会丢失吗？
参考答案:
不会，Channel中的数据可以存储在File中，数据传输自身有事务。
答案解析:
不会，Channel中的数据可以存储在File中，数据传输自身有事务。
418、
简述append模式和lastmodified模式的区别。
参考答案:
append模式主要针对INSERT新增数据的增量导入；lastmodified模式主要针对UPDATE修改数据的增量导入。
答案解析:
append模式主要针对INSERT新增数据的增量导入；lastmodified模式主要针对UPDATE修改数据的增量导入。
419、
简述Hadoop生态体系常见的子系统。
参考答案:
Hadoop生态体系中常见的子系统有HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、HBase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库以及Flume日志收集工具。
答案解析:
暂无解析
420、
当Hadoop高可用集群中的NameNode节点发生故障时，简述工作流程。
参考答案:
一旦Active NameNode挂掉后，Standby NameNode就会在它成为Active状态之前读取所有的JournalNodes里的日志信息，这样就能够保证与挂掉的NameNode的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求。
答案解析:
一旦Active NameNode挂掉后，Standby NameNode就会在它成为Active状态之前读取所有的JournalNodes里的日志信息，这样就能够保证与挂掉的NameNode的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求。
421、
简述启动Azkaban Web服务服务指令。
参考答案:
bin/start-web.sh
答案解析:
bin/start-web.sh
422、
简述关闭Web服务的指令。
参考答案:
bin/shutdown-web.sh
答案解析:
bin/shutdown-web.sh
423、
简述Sqoop导入与导出数据工作原理。
参考答案:
在导入数据之前，Sqoop使用JDBC检查导入的数据表，检索出表中的所有列以及列的SQL数据类型，并将这些SQL类型映射为Java数据类型，在转换后的MapReduce应用中使用这些对应的Java类型来保存字段的值，Sqoop的代码生成器使用这些信息来创建对应表的类，用于保存从表中抽取的记录。
在导出数据之前，Sqoop会根据数据库连接字符串来选择一个导出方法，对于大部分系统来说，Sqoop会选择JDBC。Sqoop会根据目标表的定义生成一个Java类，这个生成的类能够从文本中解析出记录数据，并能够向表中插入类型合适的值，然后启动一个MapReduce作业，从HDFS中读取源数据文件，使用生成的类解析出记录，并且执行选定的导出方法。
答案解析:
暂无解析
424、
简述Hadoop集群的部署模式。
参考答案:
Hadoop集群的部署模式有三种，分别是独立模式、伪分布模式以及完全分布模式。
（1）独立模式：又称为单机模式，在该模式下，无需运行任何守护进程，所有的程序都在单个JVM上执行，主要在学习或者开发阶段进行调试使用。（2）伪分布式模式：Hadoop程序的守护进程运行在一台节点上，通常使用伪分布式模式用来调试Hadoop分布式程序的代码，以及程序执行是否正确，伪分布式模式是完全分布式模式的一个特例。（3）完全分布式模式：Hadoop的守护进程分别运行在由多个主机搭建的集群上，不同节点担任不同的角色，在实际工作应用开发中，通常使用该模式构建企业级Hadoop系统。
答案解析:
暂无解析
425、
Azkaban项目定时设置规则中，“”和“，”的含义是什么。
参考答案:
“”：表示任意值
,“：”表示分隔多个时间点，例如20,40
答案解析:
“”：表示任意值
,“：”表示分隔多个时间点，例如20,40
426、
简述FsImage镜像文件和EditLog日志文件。
参考答案:
FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。
答案解析:
FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。
427、
请填写收集/root/logs/access.log文件的配置参数。
参考答案:
a1.sources.r1.command = tail -F /root/logs/access.log
答案解析:
暂无解析
428、
简述–conf conf/的作用。
参考答案:
表示指定了Flume自带的配置文件路径
答案解析:
暂无解析
429、
简述HDFS的体系结构？
参考答案:
HDFS采用了主从（Master/Slave）结构模型，一个 HDFS 集群是由一个NameNode和若干个DataNode 组成的。
答案解析:
暂无解析
430、
简述flume-ng agent的作用。
参考答案:
表示使用flume-ng启动一个agent
答案解析:
表示使用flume-ng启动一个agent
431、
简述–hive-table itcast.emp指令的含义。
参考答案:
用于指定上传到Hive上的目标地址为itcast数据仓库的emp表中。
答案解析:
暂无解析
432、
简述–incremental append指令的含义。
参考答案:
指定增量导入模式为append类型。
答案解析:
指定增量导入模式为append类型。
433、
简述Job文件常用参数type、command、dependencies含义。
参考答案:
type：job执行的任务类型
command：表示要执行的shell指令
dependencies：用于job之间建立依赖关系，被依赖的job先执行
答案解析:
暂无解析
434、
选择Channel类型时，分别说明memory、和file的优缺点。
参考答案:
选择Memory Channel时Channel的性能最好，但是如果Flume进程意外挂掉可能会丢失数据。当选择File Channel时Channel的容错性更好，Channel性能相比Memory Channel较低。
答案解析:
暂无解析
435、
启动Azkaban Web服务后，可以采取什么方式查看Azkaban Web启动状态。
参考答案:
查看webServerLog_.out日志文件和logs目录下的日志文件
答案解析:
暂无解析
436、
简述Hadoop集群可以运行的3个模式。
参考答案:
1.单机（本地）模式
2.伪分布式模式
3.全分布式模式
答案解析:
1.单机（本地）模式
2.伪分布式模式
3.全分布式模式
437、
hadoop-env.sh文件是用于做什么的？
参考答案:
hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。
答案解析:
hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。
438、
什么是Flume拦截器。
参考答案:
Flume Interceptors（拦截器）主要用于实现对Flume系统数据流中event的修改操作。
答案解析:
暂无解析
439、
编写一个采集类型是netcat的采集方案。
参考答案:
a1.sources = r1
a1.sinks = k1
a1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
a1.sinks.k1.type = logger
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
答案解析:
a1.sources = r1
a1.sinks = k1
a1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
a1.sinks.k1.type = logger
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
440、
简述executorServerLog__.out日志文件和logs目录下的日志文件区别。
参考答案:
Azkaban Executor服务每启动一次（不论成功与否），都会新生成一个带有日期的executorServerLog__*.out日志文件来记录当前启动过程的日志信息，并且这个日志文件是Azkaban内部自带生成的；而Azkaban Executor服务不论启动多少次（不论成功与否），都只会在logs目录下生成一个日志文件，然后每新启动一次服务都会将之前的日志文件清除再重新写入新的日志信息，并且这个日志文件路径和名称是由开发者配置的log4j.properties决定的。
答案解析:
暂无解析
441、
简述把Hive数据仓库中的表数据导入到MySQL中的操作步骤。
参考答案:
1.现在MySQL中创建与Hive具有相同字段的表结构。
2.执行export导出命令。
答案解析:
暂无解析
442、
Linux系统如何退出编辑模式？
参考答案:
1，按ESC
2，键入:q（如果你没有输入任何当下）或者键入:wq按下 Enter 。
答案解析:
1，按ESC
2，键入:q（如果你没有输入任何当下）或者键入:wq按下 Enter 。
443、
在Azkaban Web操作界面中，Schedule和Execute按钮代表什么含义？
参考答案:
Schedule按钮用于进行任务定时执行的设置，而Execute用于任务的立即执行
答案解析:
暂无解析
444、
简述“–hive-drop-import- delims”指令的含义。
参考答案:
删除数据中包含的Hive默认分隔符（^A, ^B, \n）
答案解析:
删除数据中包含的Hive默认分隔符（^A, ^B, \n）
445、
简述Flume负载均衡接收器处理器和故障转移接收器处理器的区别。
参考答案:
负载均衡接收器处理器中会让每一个活跃的sink轮流/随机的处理event；而故障转移接收器处理器只允许一个活跃的且优先级高的sink来处理event，只有在当前sink故障后才会向下继续选择另一个活跃的且优先级高的sink来处理event。
答案解析:
负载均衡接收器处理器中会让每一个活跃的sink轮流/随机的处理event；而故障转移接收器处理器只允许一个活跃的且优先级高的sink来处理event，只有在当前sink故障后才会向下继续选择另一个活跃的且优先级高的sink来处理event。
446、
简述Sqoop1版本和Sqoop2版本的区别。
参考答案:
Sqoop1功能结构简单，部署方便，提供命令行操作方式，主要适用于系统服务管理人员进行简单的数据迁移操作；Sqoop2功能完善、操作简便，同时支持多种访问模式（命令行操作、Web访问、Rest API），引入角色安全机制增加安全性等多种优点，但是结构复杂，配置部署更加繁琐。
答案解析:
暂无解析
447、
简述启动Azkaban Executor服务指令。
参考答案:
bin/start-exec.sh
答案解析:
bin/start-exec.sh
448、
现有表名为emp的员工表，其中工资字段为sal，请写出查询员工表总工资额的SQL语句。
参考答案:
select sum(sal) sum_sal from emp;
答案解析:
暂无解析
449、
Slaves文件需要填写什么内容。
参考答案:
Slaves由主机的列表组成，每台1行，用于说明数据节点。
答案解析:
Slaves由主机的列表组成，每台1行，用于说明数据节点。
450、
请写出通过Sqoop查询出连接的MySQL数据库中的所有数据库名的命令参数。
参考答案:
list-databases
答案解析:
暂无解析
451、
现有Azkaban任务配置文件A.job，B.job，其中B.job中定义了dependencies=A，请描述含义。
参考答案:
B.job依赖于A.job，所以A.job会先执行。
答案解析:
暂无解析
452、
请简述启动Hive CLI连接方式的缺点。
参考答案:
使用CLI连接方式不能进行多个节点的同时访问，而且会造成服务器阻塞，且出于对服务器安全性的考虑，Hive服务所部署的服务器通常用户是无法直接访问的，因此，必须选用远程服务启动模式
答案解析:
使用CLI连接方式不能进行多个节点的同时访问，而且会造成服务器阻塞，且出于对服务器安全性的考虑，Hive服务所部署的服务器通常用户是无法直接访问的，因此，必须选用远程服务启动模式