作为大数据开发中最重要技术,spark需要掌握哪些技能呢

作为大数据开发中最重要技术,spark需要掌握哪些技能呢

图一

Spark一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。

欢迎小伙伴们评论、转发和收藏,了解更多大数据知识可以点击“了解更多”

作为大数据开发中最重要的技术点,为了达到工作中的需求,应该学习哪些技术呢?

1、Spark介绍

a、Spark与MR的对比

b、Spark运行模式以及区别

c、RDD的五大特性

2、Spark代码开发流程

a、transformation类算子

b、action类算子

c、统计每一个单词出现的次数 WordCount

d、持久化类算子的原理以及使用方式

3、Spark集群搭建

a、Spark集群的架构,Master Wokrer的作用

b、集群搭建

c、client cluster两种提交任务的方式的区别以及应用场景

d、提交命令 各个选项的作用

4、Spark资源调度原理

a、什么是资源调度

b、资源调度的流程

c、资源调度的源码分析

5、Spark任务调度

a、RDD的宽窄依赖

b、DAGScheduler切割job的原理

c、TaskScheduler的调度以及重试原理

d、什么是推测执行,推测执行的必要条件

6、Spark案例

a、计算topN

b、分组取TopN

c、统计页面的PV UV 最热门的板块,以及最热门的板块下最活跃的top10用户...

7、Spark中两种最重要shuffle

a、什么shuffle

b、shuffle的原理

c、sortShuffle hashShuffle的执行原理以及区别

d、shuffle调优

8、Spark高可用集群的搭建

a、高可用集群的原理

b、搭建步骤

c、Spark WEBUI详解

9、SparkSQL介绍

a、什么是SparkSQL SparkSQL的优势

b、SparkSQL中的DataFrame与RDD的区别

c、SparkSQL支持的数据源

10、SparkSQL实战

a、Spark读取parquet格式的文件

b、SQL语句处理RDD数据

c、数据保存的方式

d、自定义UDF UDAF函数

e、开窗函数的使用

11、SparkStreaming介绍

a、SparkStreaming介绍

b、SparkStreaming的应用场景

c、SparkStreaming运行原理

12、SparkStreaming实战

a、算子讲解

b、有状态的算子(updateStateByKey reduceByKeyAndWindow)

c、SparkStreaming与kafka整合步骤

以上技术点只是简明扼要的进行一个总结和梳理,这些东西是大家在学习中必要理解和掌握的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值