大数据导论题库

选择题

1.下面哪个程序负责 HDFS数据存储:( C )
A. NameNode
B. Jobtracker
C. Datanode
D. secondaryNameNode

2.HDfS 中的 block 默认保存几份:(A)
A.3份
B.2 份
C.1 份
D.不确定

3.下面哪个程序负责HDFS数据存储:( C )
A.NameNode 
B.Jobtracker 
C.Datanode 
D.secondaryNameNode

4.HBase来源于哪篇博文:( C )
A.The Google File System
B.MapReduce
C.BigTable
D.Chubby
5.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
6.什么是热点问题以下正确的是:(A)
A当有一点时间业务数据爆炸增长时,这个阶段的数据将存储在少数的节点上。
B.数据过多导致电脑运行时变的过热
C.当有多点时间业务数据爆炸增长时,多个阶段的数据将存储在多个节点上
D.很热的点

7.split机制 HFile默认到达多少时候就会进行切分:(A)
A.8G
B.128M
C.10G
D.68M

8.HBase在读写时 客户端去哪寻找meta表:( C )
A.hadoop
B.hdfs
C.zookeeper
D.hbase

9.以下对于Hbase详细架构中的master说法错误的是:(B)
A.为Region server分配region
B.处理region的IO请求
C.Hmaster短时间下线,hbase集群依然可用,长时间不行
D.负责region server的负载均衡

10.下列选项中不是解决热点问题的是:( C )

A.哈希(随机数):将哈希值放在高位
B.反转:反转固定长度或者数字格式的数据
C.降温:使用冰块 放在热量较高的位置上进行降温
D.加盐:本质时是加随机数,并且放在高位。

11.下面不是Hive支持的数据格式:( C )
A.SequenceFile、
B.RCFile、
C.OCR
D.ParquetFile

12.hive声明参数优先级是什么:( C )
A.参数声明 < 命令行参数 < 配置文件参数
B.参数声明 > 配置文件参数 > 命令行参数
C.参数声明 > 命令行参数 > 配置文件参数
D.参数声明 < 配置文件参数 < 命令行参数

13.对于严格模式下不能执行的命令错误的是:(D)
A.不允许扫描所有分区
B.使用了order by语句查询,要求必须使用limit语句
C.限制笛卡尔积的查询
D.允许扫描所有分区

14.对于MR本地模式理解正确的是:(B)
A.任务随机在一个节点上“本地”执行,任务随机分配到集群
B.任务在提交SQL语句的节点上“本地”执行,任务不会分配到集群
C.任务在提交SQL语句的节点上“本地”执行,任务偶尔会分配到集群
D.任务多个节点上“本地”执行,任务会分配到集群

15.以下对 hbase物理存储理解错误的是:( C )
A.一个regionserver内部可以有多个region,这多个region可能来自多个表或一个表。
B.一个region只能属于一个 regionserver.
C.一个regionserver有多个HLog
D.一个store里面只有一个memstore

16.compact机制默认到达多少个小的storeFile文件就合并成大的Storefile文件:( C )
A.1
B.2
C.3
D.随机

17.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce

18.下面的命令中哪个是用来停止系统中的进程的命令:( C )
A.stop
B.down
C.kill
D.以上都不是

19.关于zookeeper在hbase中的作用,下列说法正确的是:(A)
A.集群监控、分配集群任务
B.公有数据的存储
C.管理worker进程
D.提交集群任务

20.下列关于hive说法错误的是:(B)
A.hive可以用于海量数据的离线数据分析
B.hive中所有的数据都存储在HDFS中
C.hive的元素据可以存储在内置版的数据库derby中
D.hive的元数据可以存储在MySQL中

21.下面哪个程序负责 HDFS 数据存储:( C )
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode

22.Hive支持以下哪个数据格式:(B)
A.SequenceFiles
B.RCFILE
C.ParquetFiles
D.ORD

23:关于SecondaryNameNode哪项正确:( C )
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间
D.SecondaryNameNode应与NameNode部署到一个点

24.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块:(A)
A.Client
B.Namenode
C.Datanode
D.Secondary namenode
25.编译后的CDH版本hadoop支持的压缩算法中性能最好的是:(B)
A.LZO
B.Snappy
C.gzip
D.bzip
26.在MapReduce中,哪个阶段是用户不指定也不会有默认的:(B)
A.OutputFormat
B.Combiner
C.Partitioner
D.InputFormat
27.Hadoop启动jobhistory服务后,浏览器查看启动页面jobhistory访问地址端口是是:(A)
A.19888
B.8088
C.8080
D.50070
28.在客户端读取hdfs文件的过程中,当读完列表的 block 后,若文件读取还没有结束的情况下,保证读取 DataNode 时无错误的情况下,客户端在整个读取hdfs数据的过程中最少向NameNode请求几次是:(B)
A.1
B.2
C.3
D.4
29.HDFS集群中的DataNode的主要职责是:( C )
A.维护 HDFS 集群的目录树结构
B.维护 HDFS 集群的所有数据块的分布副本数和负载匀衡
C.负责保存客户端上传的数据
D.晌应客户端的所有读写数据请求

30.以下不属于Hive的特点的是:(D)
A.可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
B.延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
C.良好的容错性:节点出现问题SQL仍可完成执行。
D. 精确查询:可支持低延迟少量数据精确查询

31.Hive中从命令行执行指定Sql的参数是:(B)
A.hive -i
B.hive -e
C.hive -f
D. hive –v

32.下列不属于自定义函数的类型是:(D)
A.UDF
B.UDAF
C.UDTF
D.UDCF

33.hive主流文件存储格式压缩对比正确的是:(A)
A.ORC > Parquet > textFile
B.ORC > textFile > Parquet
C.textFile > Parquet > ORC
D.textFile > ORC > Parquet

34.以下不属于Hive中的复合数据类型的是:( C )
A.Array
B.Map
C.Set
D.Struct

35.下列不是NameNode的作用是:(D)
A.维护 管理文件系统的名字空间(元数据信息)
B.负责确定指定的文件块到具体的Datanode结点的映射关系
C.维护管理 DataNode上报的心跳信息
D.执行数据的读写

36.下列不是DataNode的作用是:(A)
A.维护 管理文件系统的名字空间
B.执行数据的读写
C.周期性向NameNode做汇报(数据块的信息、校验和)
D.执行流水线的复制

37.以下哪个不是HDFS的守护进程:( C )
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode

38.以下哪种不是Hive支持的数据类型:(D)
A.Struct
B.Int
C.Map
D.Long

39.下面关于使用hive的描述中不正确的是:(D)
A.hive中的join查询只支持等值链接,不支持非等值连接
B.hive的表一共有两种类型,内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改

40.MapReduce的Shuffle过程中哪个操作是最后做的:(D)
A.溢写
B.分区
C.排序
D.合并

判断题

  1. HBASE的适用场景海量数据、精确查询、快速返回:(对)
  2. Hbase不支持SQL查询不支持事务支持Join:(错)
  3. 集群启动成功时会进入安全模式 :(对)
  4. HDFS 大量数据的吞吐量导致HDFS的高延迟性,所以不能做低延迟的场景 :(错)
  5. 文件很小时:影响map数量的因素是块的数量
    文件很大时:影响map数量的因素是文件数量 :(错)
  6. Hbase 适用一次扫描少量数据。适合多次写入多次读取:(对)
  7. Hive数据库、表在HDFS上存储的默认路径是/user/hive/warehouses :(错)
  8. HDFS:海量数据的存储管理者:NameNode.辅助管理者:secondaryNameNode :(对)
  9. Namenode 管理维护HDFS文件系统的元数据信息,名字空间 :(对)
  10. HBase中master只维护表和region的元数据,不参与表数据IO的过程,所以master下线短时间内对整个hbase集群没有影响。表的数据读写还可以正常进行。:(对)
  11. Haoop 支持数据的随机读写。(hbase支持,hadoop不支持):(错)
  12. NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取):(错)
  13. MapReduce 的 input split 一定是一个 block。(默认是):(错)
  14. MapReduce适于PB级别以上的海量数据在线处理。(离线):(错)
  15. MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。:(对)
  16. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。:(对)
  17. HBase对于空(NULL)的列,不需要占用存储空间。(没有则空不存储):(对)
  18. HBase可以有列,可以没有列族(column family)(有列族):(错)
  19. 如果namenode意外终止,那么SecondaryNameNode会接替它,使集群继续工作:(错)
  20. 集群内每个节点都应该做RAID,以此来防止硬盘损坏 :(错)
  21. Hadoop 是 Java开发的,所以 MapReduce 只支持 Java语言编写:(错)
  22. Hadoop 支持数据的随机写:(错)
  23. NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写 入 metadata 信息并反馈 client 端:(错)
  24. NameNode 本地磁盘保存了 Block 的位置信息:(错)
  25. Slave节点要存储数据,所以它的磁盘越大越好:(错)
  26. 如果 NameNode 意外终止, SecondaryNameNode 会接替它使集群继续工作:(错)
  27. Mapreduce 的 input split 就是一个 block:(错)
  28. drop 内部表时,会删除 hdfs 上的文件夹和元数据:(对)
  29. HDFS系统不支持数据的修改:(对)
  30. HDFS中 - append 参数是将数据追加到 HDFS 上一个已存在的数据集上:(对)
  31. HBase 是 bigtable 的 非开源java版本:(错)
  32. 对于少量的空(null)的列,在HBase中仍占一定的存储空间:(错)
  33. HDFS为分布式存储提供文件系统:(对)
  34. HBase具有ACID支持:(错)
  35. HBase具有高并发的特点:(对)
  36. 热点发生在大量的client直接访问集群的一个节点 :(错)
  37. 列族理论上可以有无限个:(对)
  38. Rowkey 建议越短越好,不要超过26 个字节:(错)
  39. HBase的比较过滤器常用的有列族过滤器,列过滤器,列值过滤器:(对)
  40. Hive适用于离线的数据分析和清洗,延迟较高:(对)

填空题

1、Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。
2、HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
3、在HDFS中为了容错,文件的所有block都会有副本。
4、HDFS中的文件在物理上是分块存储(block)的,块的大小可以通过配置参数来规定,默认大小在hadoop2.x版本中是128M。
5、HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。
6、MapReduce的思想核心是“分而治之”。
7、数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策 。
8、Reducetask数量的决定是可以直接手动设置。
9、YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager、NodeManager、ApplicationMaster。
10、维度建模三种模式:星形模式,雪花模式,星座模式。
11、使用yum安装mlocate服务的命令是 yum -y install mlocate
12、网络通信三要素,IP 地址,端口号,传输协议。

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值