大数据导论题库

最新推荐文章于 2023-10-14 16:28:06 发布

啊是可莉

最新推荐文章于 2023-10-14 16:28:06 发布

阅读量4.4k

点赞数 2

文章标签：大数据导论题库大数据

本文链接：https://blog.csdn.net/weixin_45822542/article/details/122042957

版权

选择题

1.下面哪个程序负责 HDFS数据存储:( C )
A. NameNode
B. Jobtracker
C. Datanode
D. secondaryNameNode

2.HDfS 中的 block 默认保存几份:(A)
A.3份
B.2 份
C.1 份
D.不确定

3.下面哪个程序负责HDFS数据存储:( C )
A.NameNode
B.Jobtracker
C.Datanode
D.secondaryNameNode

4.HBase来源于哪篇博文:( C )
A.The Google File System
B.MapReduce
C.BigTable
D.Chubby
5.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
6.什么是热点问题以下正确的是:(A)
A当有一点时间业务数据爆炸增长时，这个阶段的数据将存储在少数的节点上。
B.数据过多导致电脑运行时变的过热
C.当有多点时间业务数据爆炸增长时，多个阶段的数据将存储在多个节点上
D.很热的点

7.split机制 HFile默认到达多少时候就会进行切分:(A)
A.8G
B.128M
C.10G
D.68M

8.HBase在读写时客户端去哪寻找meta表:( C )
A.hadoop
B.hdfs
C.zookeeper
D.hbase

9.以下对于Hbase详细架构中的master说法错误的是:(B)
A.为Region server分配region
B.处理region的IO请求
C.Hmaster短时间下线，hbase集群依然可用，长时间不行
D.负责region server的负载均衡

10.下列选项中不是解决热点问题的是:( C )

A.哈希（随机数）:将哈希值放在高位
B.反转:反转固定长度或者数字格式的数据
C.降温：使用冰块放在热量较高的位置上进行降温
D.加盐:本质时是加随机数，并且放在高位。

11.下面不是Hive支持的数据格式:( C )
A.SequenceFile、
B.RCFile、
C.OCR
D.ParquetFile

12.hive声明参数优先级是什么:( C )
A.参数声明 < 命令行参数 < 配置文件参数
B.参数声明 > 配置文件参数 > 命令行参数
C.参数声明 > 命令行参数 > 配置文件参数
D.参数声明 < 配置文件参数 < 命令行参数

13.对于严格模式下不能执行的命令错误的是:(D)
A.不允许扫描所有分区
B.使用了order by语句查询，要求必须使用limit语句
C.限制笛卡尔积的查询
D.允许扫描所有分区

14.对于MR本地模式理解正确的是:(B)
A.任务随机在一个节点上“本地”执行，任务随机分配到集群
B.任务在提交SQL语句的节点上“本地”执行，任务不会分配到集群
C.任务在提交SQL语句的节点上“本地”执行，任务偶尔会分配到集群
D.任务多个节点上“本地”执行，任务会分配到集群

15.以下对 hbase物理存储理解错误的是:( C )
A.一个regionserver内部可以有多个region,这多个region可能来自多个表或一个表。
B.一个region只能属于一个 regionserver.
C.一个regionserver有多个HLog
D.一个store里面只有一个memstore

16.compact机制默认到达多少个小的storeFile文件就合并成大的Storeﬁle文件:( C )
A.1
B.2
C.3
D.随机

17.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce

18.下面的命令中哪个是用来停止系统中的进程的命令:( C )
A.stop
B.down
C.kill
D.以上都不是

19.关于zookeeper在hbase中的作用，下列说法正确的是:(A)
A.集群监控、分配集群任务
B.公有数据的存储
C.管理worker进程
D.提交集群任务

20.下列关于hive说法错误的是:(B)
A.hive可以用于海量数据的离线数据分析
B.hive中所有的数据都存储在HDFS中
C.hive的元素据可以存储在内置版的数据库derby中
D.hive的元数据可以存储在MySQL中

21.下面哪个程序负责 HDFS 数据存储:( C )
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode

22.Hive支持以下哪个数据格式:(B)
A.SequenceFiles
B.RCFILE
C.ParquetFiles
D.ORD

23:关于SecondaryNameNode哪项正确:( C )
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间
D.SecondaryNameNode应与NameNode部署到一个点

24.Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块:(A)
A.Client
B.Namenode
C.Datanode
D.Secondary namenode
25.编译后的CDH版本hadoop支持的压缩算法中性能最好的是:(B)
A.LZO
B.Snappy
C.gzip
D.bzip
26.在MapReduce中，哪个阶段是用户不指定也不会有默认的:(B)
A.OutputFormat
B.Combiner
C.Partitioner
D.InputFormat
27.Hadoop启动jobhistory服务后，浏览器查看启动页面jobhistory访问地址端口是是:(A)
A.19888
B.8088
C.8080
D.50070
28.在客户端读取hdfs文件的过程中,当读完列表的 block 后，若文件读取还没有结束的情况下,保证读取 DataNode 时无错误的情况下,客户端在整个读取hdfs数据的过程中最少向NameNode请求几次是:(B)
A.1
B.2
C.3
D.4
29.HDFS集群中的DataNode的主要职责是:( C )
A.维护 HDFS 集群的目录树结构
B.维护 HDFS 集群的所有数据块的分布副本数和负载匀衡
C.负责保存客户端上传的数据
D.晌应客户端的所有读写数据请求

30.以下不属于Hive的特点的是:(D)
A.可扩展：Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
B.延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
C．良好的容错性：节点出现问题SQL仍可完成执行。
D. 精确查询：可支持低延迟少量数据精确查询

31.Hive中从命令行执行指定Sql的参数是:(B)
A．hive -i
B．hive -e
C．hive -f
D. hive –v

32.下列不属于自定义函数的类型是:(D)
A.UDF
B.UDAF
C.UDTF
D.UDCF

33.hive主流文件存储格式压缩对比正确的是:(A)
A.ORC > Parquet > textFile
B.ORC > textFile > Parquet
C.textFile > Parquet > ORC
D.textFile > ORC > Parquet

34.以下不属于Hive中的复合数据类型的是:( C )
A.Array
B.Map
C.Set
D.Struct

35.下列不是NameNode的作用是:(D)
A.维护管理文件系统的名字空间(元数据信息)
B.负责确定指定的文件块到具体的Datanode结点的映射关系
C.维护管理 DataNode上报的心跳信息
D.执行数据的读写

36.下列不是DataNode的作用是:(A)
A.维护管理文件系统的名字空间
B.执行数据的读写
C.周期性向NameNode做汇报（数据块的信息、校验和）
D.执行流水线的复制

37.以下哪个不是HDFS的守护进程:( C )
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode

38.以下哪种不是Hive支持的数据类型:(D)
A.Struct
B.Int
C.Map
D.Long

39.下面关于使用hive的描述中不正确的是:(D)
A.hive中的join查询只支持等值链接，不支持非等值连接
B.hive的表一共有两种类型，内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改

40.MapReduce的Shuffle过程中哪个操作是最后做的:(D)
A.溢写
B.分区
C.排序
D.合并

判断题

HBASE的适用场景海量数据、精确查询、快速返回:(对)
Hbase不支持SQL查询不支持事务支持Join:(错)
集群启动成功时会进入安全模式 :(对)
HDFS 大量数据的吞吐量导致HDFS的高延迟性,所以不能做低延迟的场景 :(错)
文件很小时：影响map数量的因素是块的数量
文件很大时：影响map数量的因素是文件数量 :(错)
Hbase 适用一次扫描少量数据。适合多次写入多次读取:(对)
Hive数据库、表在HDFS上存储的默认路径是/user/hive/warehouses :(错)
HDFS:海量数据的存储管理者:NameNode.辅助管理者:secondaryNameNode :(对)
Namenode 管理维护HDFS文件系统的元数据信息,名字空间 :(对)
HBase中master只维护表和region的元数据，不参与表数据IO的过程，所以master下线短时间内对整个hbase集群没有影响。表的数据读写还可以正常进行。:(对)
Haoop 支持数据的随机读写。（hbase支持，hadoop不支持）:(错)
NameNode 负责管理元数据信息metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。（内存中读取）:(错)
MapReduce 的 input split 一定是一个 block。（默认是）:(错)
MapReduce适于PB级别以上的海量数据在线处理。（离线）:(错)
MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个。:(对)
MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理。:(对)
HBase对于空（NULL）的列，不需要占用存储空间。（没有则空不存储）:(对)
HBase可以有列，可以没有列族（column family）（有列族）:(错)
如果namenode意外终止，那么SecondaryNameNode会接替它，使集群继续工作:(错)
集群内每个节点都应该做RAID，以此来防止硬盘损坏 :(错)
Hadoop 是 Java开发的，所以 MapReduce 只支持 Java语言编写:(错)
Hadoop 支持数据的随机写:(错)
NameNode 负责管理 metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端:(错)
NameNode 本地磁盘保存了 Block 的位置信息:(错)
Slave节点要存储数据，所以它的磁盘越大越好:(错)
如果 NameNode 意外终止， SecondaryNameNode 会接替它使集群继续工作:(错)
Mapreduce 的 input split 就是一个 block:(错)
drop 内部表时，会删除 hdfs 上的文件夹和元数据:(对)
HDFS系统不支持数据的修改:(对)
HDFS中 - append 参数是将数据追加到 HDFS 上一个已存在的数据集上:(对)
HBase 是 bigtable 的非开源java版本:(错)
对于少量的空(null)的列,在HBase中仍占一定的存储空间:(错)
HDFS为分布式存储提供文件系统:(对)
HBase具有ACID支持:(错)
HBase具有高并发的特点:(对)
热点发生在大量的client直接访问集群的一个节点 :(错)
列族理论上可以有无限个:(对)
Rowkey 建议越短越好,不要超过26 个字节:(错)
HBase的比较过滤器常用的有列族过滤器,列过滤器,列值过滤器:(对)
Hive适用于离线的数据分析和清洗，延迟较高:(对)

填空题

1、Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。
2、HDFS集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNode
3、在HDFS中为了容错，文件的所有block都会有副本。
4、HDFS中的文件在物理上是分块存储（block）的，块的大小可以通过配置参数来规定，默认大小在hadoop2.x版本中是128M。
5、HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改。
6、MapReduce的思想核心是“分而治之”。
7、数据仓库是面向主题的、集成的、非易失的和时变的数据集合，用以支持管理决策。
8、Reducetask数量的决定是可以直接手动设置。
9、YARN是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager、NodeManager、ApplicationMaster。
10、维度建模三种模式：星形模式，雪花模式，星座模式。
11、使用yum安装mlocate服务的命令是 yum -y install mlocate
12、网络通信三要素，IP 地址，端口号，传输协议。

啊是可莉

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
大数据导论题库

选择题1.下面哪个程序负责 HDFS数据存储:( C )A. NameNodeB. JobtrackerC. DatanodeD. secondaryNameNode2.HDfS 中的 block 默认保存几份:(A)A.3份B.2 份C.1 份D.不确定3.下面哪个程序负责HDFS数据存储:( C )A.NameNode B.Jobtracker C.Datanode D.secondaryNameNode4.HBase来源于哪篇博文:( C )A.The Google
复制链接

扫一扫