选择题
1.下面哪个程序负责 HDFS数据存储:( C )
A. NameNode
B. Jobtracker
C. Datanode
D. secondaryNameNode
2.HDfS 中的 block 默认保存几份:(A)
A.3份
B.2 份
C.1 份
D.不确定
3.下面哪个程序负责HDFS数据存储:( C )
A.NameNode
B.Jobtracker
C.Datanode
D.secondaryNameNode
4.HBase来源于哪篇博文:( C )
A.The Google File System
B.MapReduce
C.BigTable
D.Chubby
5.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
6.什么是热点问题以下正确的是:(A)
A当有一点时间业务数据爆炸增长时,这个阶段的数据将存储在少数的节点上。
B.数据过多导致电脑运行时变的过热
C.当有多点时间业务数据爆炸增长时,多个阶段的数据将存储在多个节点上
D.很热的点
7.split机制 HFile默认到达多少时候就会进行切分:(A)
A.8G
B.128M
C.10G
D.68M
8.HBase在读写时 客户端去哪寻找meta表:( C )
A.hadoop
B.hdfs
C.zookeeper
D.hbase
9.以下对于Hbase详细架构中的master说法错误的是:(B)
A.为Region server分配region
B.处理region的IO请求
C.Hmaster短时间下线,hbase集群依然可用,长时间不行
D.负责region server的负载均衡
10.下列选项中不是解决热点问题的是:( C )
A.哈希(随机数):将哈希值放在高位
B.反转:反转固定长度或者数字格式的数据
C.降温:使用冰块 放在热量较高的位置上进行降温
D.加盐:本质时是加随机数,并且放在高位。
11.下面不是Hive支持的数据格式:( C )
A.SequenceFile、
B.RCFile、
C.OCR
D.ParquetFile
12.hive声明参数优先级是什么:( C )
A.参数声明 < 命令行参数 < 配置文件参数
B.参数声明 > 配置文件参数 > 命令行参数
C.参数声明 > 命令行参数 > 配置文件参数
D.参数声明 < 配置文件参数 < 命令行参数
13.对于严格模式下不能执行的命令错误的是:(D)
A.不允许扫描所有分区
B.使用了order by语句查询,要求必须使用limit语句
C.限制笛卡尔积的查询
D.允许扫描所有分区
14.对于MR本地模式理解正确的是:(B)
A.任务随机在一个节点上“本地”执行,任务随机分配到集群
B.任务在提交SQL语句的节点上“本地”执行,任务不会分配到集群
C.任务在提交SQL语句的节点上“本地”执行,任务偶尔会分配到集群
D.任务多个节点上“本地”执行,任务会分配到集群
15.以下对 hbase物理存储理解错误的是:( C )
A.一个regionserver内部可以有多个region,这多个region可能来自多个表或一个表。
B.一个region只能属于一个 regionserver.
C.一个regionserver有多个HLog
D.一个store里面只有一个memstore
16.compact机制默认到达多少个小的storeFile文件就合并成大的Storefile文件:( C )
A.1
B.2
C.3
D.随机
17.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
18.下面的命令中哪个是用来停止系统中的进程的命令:( C )
A.stop
B.down
C.kill
D.以上都不是
19.关于zookeeper在hbase中的作用,下列说法正确的是:(A)
A.集群监控、分配集群任务
B.公有数据的存储
C.管理worker进程
D.提交集群任务
20.下列关于hive说法错误的是:(B)
A.hive可以用于海量数据的离线数据分析
B.hive中所有的数据都存储在HDFS中
C.hive的元素据可以存储在内置版的数据库derby中
D.hive的元数据可以存储在MySQL中
21.下面哪个程序负责 HDFS 数据存储:( C )
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode
22.Hive支持以下哪个数据格式:(B)
A.SequenceFiles
B.RCFILE
C.ParquetFiles
D.ORD
23:关于SecondaryNameNode哪项正确:( C )
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间
D.SecondaryNameNode应与NameNode部署到一个点
24.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块:(A)
A.Client
B.Namenode
C.Datanode
D.Secondary namenode
25.编译后的CDH版本hadoop支持的压缩算法中性能最好的是:(B)
A.LZO
B.Snappy
C.gzip
D.bzip
26.在MapReduce中,哪个阶段是用户不指定也不会有默认的:(B)
A.OutputFormat
B.Combiner
C.Partitioner
D.InputFormat
27.Hadoop启动jobhistory服务后,浏览器查看启动页面jobhistory访问地址端口是是:(A)
A.19888
B.8088
C.8080
D.50070
28.在客户端读取hdfs文件的过程中,当读完列表的 block 后,若文件读取还没有结束的情况下,保证读取 DataNode 时无错误的情况下,客户端在整个读取hdfs数据的过程中最少向NameNode请求几次是:(B)
A.1
B.2
C.3
D.4
29.HDFS集群中的DataNode的主要职责是:( C )
A.维护 HDFS 集群的目录树结构
B.维护 HDFS 集群的所有数据块的分布副本数和负载匀衡
C.负责保存客户端上传的数据
D.晌应客户端的所有读写数据请求
30.以下不属于Hive的特点的是:(D)
A.可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
B.延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
C.良好的容错性:节点出现问题SQL仍可完成执行。
D. 精确查询:可支持低延迟少量数据精确查询
31.Hive中从命令行执行指定Sql的参数是:(B)
A.hive -i
B.hive -e
C.hive -f
D. hive –v
32.下列不属于自定义函数的类型是:(D)
A.UDF
B.UDAF
C.UDTF
D.UDCF
33.hive主流文件存储格式压缩对比正确的是:(A)
A.ORC > Parquet > textFile
B.ORC > textFile > Parquet
C.textFile > Parquet > ORC
D.textFile > ORC > Parquet
34.以下不属于Hive中的复合数据类型的是:( C )
A.Array
B.Map
C.Set
D.Struct
35.下列不是NameNode的作用是:(D)
A.维护 管理文件系统的名字空间(元数据信息)
B.负责确定指定的文件块到具体的Datanode结点的映射关系
C.维护管理 DataNode上报的心跳信息
D.执行数据的读写
36.下列不是DataNode的作用是:(A)
A.维护 管理文件系统的名字空间
B.执行数据的读写
C.周期性向NameNode做汇报(数据块的信息、校验和)
D.执行流水线的复制
37.以下哪个不是HDFS的守护进程:( C )
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
38.以下哪种不是Hive支持的数据类型:(D)
A.Struct
B.Int
C.Map
D.Long
39.下面关于使用hive的描述中不正确的是:(D)
A.hive中的join查询只支持等值链接,不支持非等值连接
B.hive的表一共有两种类型,内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改
40.MapReduce的Shuffle过程中哪个操作是最后做的:(D)
A.溢写
B.分区
C.排序
D.合并
判断题
- HBASE的适用场景海量数据、精确查询、快速返回:(对)
- Hbase不支持SQL查询不支持事务支持Join:(错)
- 集群启动成功时会进入安全模式 :(对)
- HDFS 大量数据的吞吐量导致HDFS的高延迟性,所以不能做低延迟的场景 :(错)
- 文件很小时:影响map数量的因素是块的数量
文件很大时:影响map数量的因素是文件数量 :(错) - Hbase 适用一次扫描少量数据。适合多次写入多次读取:(对)
- Hive数据库、表在HDFS上存储的默认路径是/user/hive/warehouses :(错)
- HDFS:海量数据的存储管理者:NameNode.辅助管理者:secondaryNameNode :(对)
- Namenode 管理维护HDFS文件系统的元数据信息,名字空间 :(对)
- HBase中master只维护表和region的元数据,不参与表数据IO的过程,所以master下线短时间内对整个hbase集群没有影响。表的数据读写还可以正常进行。:(对)
- Haoop 支持数据的随机读写。(hbase支持,hadoop不支持):(错)
- NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取):(错)
- MapReduce 的 input split 一定是一个 block。(默认是):(错)
- MapReduce适于PB级别以上的海量数据在线处理。(离线):(错)
- MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。:(对)
- MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。:(对)
- HBase对于空(NULL)的列,不需要占用存储空间。(没有则空不存储):(对)
- HBase可以有列,可以没有列族(column family)(有列族):(错)
- 如果namenode意外终止,那么SecondaryNameNode会接替它,使集群继续工作:(错)
- 集群内每个节点都应该做RAID,以此来防止硬盘损坏 :(错)
- Hadoop 是 Java开发的,所以 MapReduce 只支持 Java语言编写:(错)
- Hadoop 支持数据的随机写:(错)
- NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写 入 metadata 信息并反馈 client 端:(错)
- NameNode 本地磁盘保存了 Block 的位置信息:(错)
- Slave节点要存储数据,所以它的磁盘越大越好:(错)
- 如果 NameNode 意外终止, SecondaryNameNode 会接替它使集群继续工作:(错)
- Mapreduce 的 input split 就是一个 block:(错)
- drop 内部表时,会删除 hdfs 上的文件夹和元数据:(对)
- HDFS系统不支持数据的修改:(对)
- HDFS中 - append 参数是将数据追加到 HDFS 上一个已存在的数据集上:(对)
- HBase 是 bigtable 的 非开源java版本:(错)
- 对于少量的空(null)的列,在HBase中仍占一定的存储空间:(错)
- HDFS为分布式存储提供文件系统:(对)
- HBase具有ACID支持:(错)
- HBase具有高并发的特点:(对)
- 热点发生在大量的client直接访问集群的一个节点 :(错)
- 列族理论上可以有无限个:(对)
- Rowkey 建议越短越好,不要超过26 个字节:(错)
- HBase的比较过滤器常用的有列族过滤器,列过滤器,列值过滤器:(对)
- Hive适用于离线的数据分析和清洗,延迟较高:(对)
填空题
1、Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。
2、HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
3、在HDFS中为了容错,文件的所有block都会有副本。
4、HDFS中的文件在物理上是分块存储(block)的,块的大小可以通过配置参数来规定,默认大小在hadoop2.x版本中是128M。
5、HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。
6、MapReduce的思想核心是“分而治之”。
7、数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策 。
8、Reducetask数量的决定是可以直接手动设置。
9、YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager、NodeManager、ApplicationMaster。
10、维度建模三种模式:星形模式,雪花模式,星座模式。
11、使用yum安装mlocate服务的命令是 yum -y install mlocate
12、网络通信三要素,IP 地址,端口号,传输协议。