hive,spark,kafka,hbas习题

最新推荐文章于 2024-07-28 21:46:50 发布

秋雨ヾ

最新推荐文章于 2024-07-28 21:46:50 发布

阅读量702

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/weixin_45271668/article/details/106482060

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、单选题

NodeManager下面不是它的功能的是（）
A. 单个节点上的资源管理
B. 处理来自ResourceManager的命令
C. 处理来自ApplicationMaster的命令

D. 资源分配与调度（yarn）
下面那个语句不会生成MapReduce 任务（）
A. select * from table order by name;
B. select * from table where col=‘305’;
C. select * from table;
D. select * from table sort by name;
下面那个是设置动态分区模式（）
A. hive.exec.max.dynamic.partition
B. hive.exec.dynamic.partition.mode
C. hive.exec.compress.intermediate
D. hive.exec.max.dynamic.partitions.pernode
HBase创建表时（）
A. 有数据类型
B. 没有数据类型
C. 可以配置有无数据类型
D. 以上均不正确
下面输出与其他不一致的是 ()
A. println(“Hello World”)
B. print(“Hello World\n”)
C. printf("Hello %s", "World\n")
D.val w = “World” ; println(“Hello $w”)
解析：printf("Hello %s", "World\n") 是C语言， printf("Hello,world!\n") 输出的结果是：" Hello World " , 而A、B、D 三个选项输出的结果也是：" Hello World "
Kafka如何保证数据不丢失？（）
A. Kafka采用ackfail机制保证数据的安全性
B. 如果Kafka集群宕机，重启集群后会有断点续传的机制保证数据的继续读取。
C. Kafka会在数据的每个字段生成一个ID号来保证数据的连续性
D. Kafka有数据备份机制，broker接收到数据后，数据会写入到对应的Partition的Segment文件中，并且也会写入到备份文件中
Spark RDD中没有的特性是（）
A. 位置优先
B. 分布式
C. 弹性
D. 固定大小
Spark中跟storm对应的部分是（）
A. shark
B. SparkCore
C. RDD
D. SparkStreaming
Spark中的资源管理模块可以使用（）
A. YARN
B. Scala
C. Java
D. HDFS
关于广播变量，下面哪个是错误的 ( )
A. 任何函数调用
B. 是只读的
C. 存储在各个节点
D. 存储在磁盘或 HDFS
hbase集群中的角色( )
A. 一个或者多个NameNode
B. 多个从节点的HregionServer
C. 多个DataNode
D. 多个ResourceManager
Spark 支持的分布式部署方式中哪个是错误的 ( )
A. standalone
B. spark on mesos
C. spark on YARN
D. Spark on local
Stage 的 Task 的数量由什么决定 ()
A. Partition
B. Job
C. Stage
D. TaskScheduler
Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
A. Driver program
B. spark master
C. worker node
D. Cluster manager

二、多选题

MapReducer框架在Reducer阶段给用户提供一些哪些方法()
A. setup()
B. reduce()
C. map()
D. cleanup()
Linux系统安全管理的内容包括()
A. 普通用户的系统安全
B. 文件系统的安全
C. 进程安全
D. 文件内容安全
Flume NG的 agent 由（）组成？
A. Source
B. Sink
C. Channel
D. Master
关于定义类正确的说法是（）
A. 定义类时可以不用publiC. private来修饰
B. 定义类时类名前需用class关键字
C. 一个类文件中可以有多个类
D. 定义的所有的类都具有共有可见性
Master 的 ElectedLeader 事件后不做哪些操作（）
A. 通知 driver
B. 通知 worker
C. 注册 application
D. 直接 ALIVE
关于累加器，下面哪个是正确的的（）
A. 支持加法
B. 支持数值类型
C. 不可并行
D. 支持自定义类型
Task 不运行在下来哪里个选项中 Executor 上的工作单元（）
A. Driver program
B. spark master
C. worker node
D. Cluster manager
下列哪个是 RDD 的缓存方法 ( )
A. persist()
B. Cache()
C. Memory()
D. MemoryCache()
Spark的算子类型（）
A. 转换算子
B. 迭代算子
C. 动作算子
D. 核心算子
关于spark中数据倾斜引发原因正确的选项有（）
A. key本身分布不均衡
B. 计算方式有误
C. 过多的数据在一个task里面
D. shuffle并行度不够

三、判断题

Container封装某个节点上多维度资源包括内存、CPU、磁盘、网络等( )
A. 正确
B. 错误
查看表信息的命令DEC表名( )
A. 正确
B. 错误
解析：desc 表名，显示表结构，字段类型，主键，是否为空等属性，但不显示外键。
查看user表中所有信息 select * from user;( )
A. 正确
B. 错误
HBase是hadoop数据库，一个分布式的，不可扩展的大数据存储( )
A. 正确
B. 错误
解析：HBase是hadoop数据库，一个分布式的，可扩展的大数据存储
Kafka是一个分布式消息队列：生产者、消费者的功能。它实现了JMS规范( )
A. 正确
B. 错误
HBase是非关系型数据库（）
A. 正确
B. 错误
Stage 的 Task 的数量由Partition决定 ( )
A. 正确
B. 错误
spark中sparkStreaming的核心是DataFrame( )
A. 正确
B. 错误
解析：spark中sparkStreaming的核心库是spark core
具体的task运行在那他机器上，dag划分stage的时候确定的这是数据本地性( )
A. 正确
B. 错误

四、问答题

Hive内部表和外部表的区别？

https://blog.csdn.net/weixin_45271668/article/details/106481877
hregionserver 挂掉之后怎么处理？
https://blog.csdn.net/weixin_45271668/article/details/106480906
driver的功能是什么？

1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的人口点；
2）功能：负责向集群申请资源，向master注册信息，负责了作业的调度，，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。
cache和pesist的区别

https://blog.csdn.net/weixin_45271668/article/details/106401747
为什么要进行序列化
https://blog.csdn.net/weixin_45271668/article/details/106481220
对于Spark中的数据倾斜问题你有什么好的方案？
1）前提是定位数据倾斜，是OOM了，还是任务执行缓慢，看日志，看WebUI
2)解决方法，有多个方面
- 避免不必要的shuffle，如使用广播小表的方式，将reduce-side-join提升为map-side-join
- 拆发生数据倾斜的记录，分成几个部分进行，然后合并join后的结果
- 改变并行度，可能并行度太少了，导致个别task数据压力大
- 两阶段聚合，先局部聚合，再全局聚合
- 自定义paritioner，分散key的分布，使其更加均匀
  详细解决方案参考博文《Spark数据倾斜优化方法》