一、单选题
-
NodeManager下面不是它的功能的是()
A. 单个节点上的资源管理
B. 处理来自ResourceManager的命令
C. 处理来自ApplicationMaster的命令D. 资源分配与调度(yarn)
-
下面那个语句不会生成MapReduce 任务()
A. select * from table order by name;
B. select * from table where col=‘305’;
C. select * from table;
D. select * from table sort by name; -
下面那个是设置动态分区模式()
A. hive.exec.max.dynamic.partition
B. hive.exec.dynamic.partition.mode
C. hive.exec.compress.intermediate
D. hive.exec.max.dynamic.partitions.pernode -
HBase创建表时()
A. 有数据类型
B. 没有数据类型
C. 可以配置有无数据类型
D. 以上均不正确 -
下面输出与其他不一致的是 ()
A. println(“Hello World”)
B. print(“Hello World\n”)
C. printf("Hello %s", "World\n")
D.val w = “World” ; println(“Hello $w”)
解析:printf("Hello %s", "World\n") 是C语言, printf("Hello,world!\n") 输出的结果是:" Hello World " , 而A、B、D 三个选项输出的结果也是:" Hello World "
-
Kafka如何保证数据不丢失?()
A. Kafka采用ackfail机制保证数据的安全性
B. 如果Kafka集群宕机,重启集群后会有断点续传的机制保证数据的继续读取。
C. Kafka会在数据的每个字段生成一个ID号来保证数据的连续性
D. Kafka有数据备份机制,broker接收到数据后,数据会写入到对应的Partition的Segment文件中,并且也会写入到备份文件中
-
Spark RDD中没有的特性是()
A. 位置优先
B. 分布式
C. 弹性
D. 固定大小
-
Spark中跟storm对应的部分是()
A. shark
B. SparkCore
C. RDD
D. SparkStreaming
-
Spark中的资源管理模块可以使用()
A. YARN
B. Scala
C. Java
D. HDFS -
关于广播变量,下面哪个是错误的 ( )
A. 任何函数调用
B. 是只读的
C. 存储在各个节点
D. 存储在磁盘或 HDFS
-
hbase集群中的角色( )
A. 一个或者多个NameNode
B. 多个从节点的HregionServer
C. 多个DataNode
D. 多个ResourceManager -
Spark 支持的分布式部署方式中哪个是错误的 ( )
A. standalone
B. spark on mesos
C. spark on YARN
D. Spark on local
-
Stage 的 Task 的数量由什么决定 ()
A. Partition
B. Job
C. Stage
D. TaskScheduler -
Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
A. Driver program
B. spark master
C. worker node
D. Cluster manager
二、多选题
-
MapReducer框架在Reducer阶段给用户提供一些哪些方法()
A. setup()
B. reduce()
C. map()
D. cleanup() -
Linux系统安全管理的内容包括()
A. 普通用户的系统安全
B. 文件系统的安全
C. 进程安全
D. 文件内容安全
-
Flume NG的 agent 由()组成?
A. Source
B. Sink
C. Channel
D. Master -
关于定义类正确的说法是()
A. 定义类时可以不用publiC. private来修饰
B. 定义类时类名前需用class关键字
C. 一个类文件中可以有多个类
D. 定义的所有的类都具有共有可见性 -
Master 的 ElectedLeader 事件后不做哪些操作()
A. 通知 driver
B. 通知 worker
C. 注册 application
D. 直接 ALIVE -
关于累加器,下面哪个是正确的的()
A. 支持加法
B. 支持数值类型
C. 不可并行
D. 支持自定义类型 -
Task 不运行在下来哪里个选项中 Executor 上的工作单元()
A. Driver program
B. spark master
C. worker node
D. Cluster manager
-
下列哪个是 RDD 的缓存方法 ( )
A. persist()
B. Cache()
C. Memory()
D. MemoryCache() -
Spark的算子类型()
A. 转换算子
B. 迭代算子
C. 动作算子
D. 核心算子 -
关于spark中数据倾斜引发原因正确的选项有()
A. key本身分布不均衡
B. 计算方式有误
C. 过多的数据在一个task里面
D. shuffle并行度不够
三、判断题
-
Container封装某个节点上多维度资源包括内存、CPU、磁盘、网络等( )
A. 正确
B. 错误 -
查看表信息的命令DEC表名( )
A. 正确
B. 错误
解析:desc 表名 , 显示表结构,字段类型,主键,是否为空等属性,但不显示外键。
-
查看user表中所有信息 select * from user;( )
A. 正确
B. 错误 -
HBase是hadoop数据库,一个分布式的,不可扩展的大数据存储( )
A. 正确
B. 错误
解析:HBase是hadoop数据库,一个分布式的,可扩展的大数据存储
-
Kafka是一个分布式消息队列:生产者、消费者的功能。它实现了JMS规范( )
A. 正确
B. 错误 -
HBase是非关系型数据库()
A. 正确
B. 错误 -
Stage 的 Task 的数量由Partition决定 ( )
A. 正确
B. 错误 -
spark中sparkStreaming的核心是DataFrame( )
A. 正确
B. 错误
解析:spark中sparkStreaming的核心库是spark core
-
具体的task运行在那他机器上,dag划分stage的时候确定的这是数据本地性( )
A. 正确
B. 错误
四、问答题
-
Hive内部表和外部表的区别?
https://blog.csdn.net/weixin_45271668/article/details/106481877
-
hregionserver 挂掉之后怎么处理?
https://blog.csdn.net/weixin_45271668/article/details/106480906
-
driver的功能是什么?
1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;
2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。
-
cache和pesist的区别
https://blog.csdn.net/weixin_45271668/article/details/106401747
-
为什么要进行序列化
https://blog.csdn.net/weixin_45271668/article/details/106481220 -
对于Spark中的数据倾斜问题你有什么好的方案?
1)前提是定位数据倾斜,是OOM了,还是任务执行缓慢,看日志,看WebUI
2)解决方法,有多个方面
避免不必要的shuffle,如使用广播小表的方式,将reduce-side-join提升为map-side-join
拆发生数据倾斜的记录,分成几个部分进行,然后合并join后的结果
改变并行度,可能并行度太少了,导致个别task数据压力大
两阶段聚合,先局部聚合,再全局聚合
自定义paritioner,分散key的分布,使其更加均匀
详细解决方案参考博文
《Spark数据倾斜优化方法》