大数据实时部分面试题

本文涵盖了大数据面试中的重点,包括Flume的source、channel和sink组件,SQL优化策略,如创建索引、避免全表扫描等,深入解析Spark的宽窄依赖和执行流程,以及Flink在Yarn模式下的提交流程。同时讨论了闭包、柯里化等编程概念,以及client与cluster模式的区别,强调项目经验在面试中的重要性。
摘要由CSDN通过智能技术生成

1、flume的组件有哪些?

 source组件,channel组件,sink组件

2、sql怎么优化

(1)、创建索引时,尽量避免全表扫描

(2)、避免在索引上使用计算

(3)、尽量使用参数化sql

(4)、尽量将多条SQL语句压缩到一句sql中

(5)、用where字句替换Having字句

(6)、连接多个表时,使用表的别名

(7)、尽量避免使用游标等等

3、宽窄依赖

窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖

宽依赖:父RDD的一个分区会被子RDD的多个分区所依赖

4、闭包

方法体中,匿名函数的运算调用了方法的参数列表

5、柯里化

将原来一次传入两个参数的函数转为一次传入一个参数的函数

6、spark的执行流程

 7、flink在Yarn模式下提交流程

 

具体步骤:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值