2022.1.1 大数据学习01 Spark简介

Spark简介:

Spark的诞生是基于解决Hadoop数据处理慢的问题 Spark 2013年6月成为Apache基金会下成员。

与Hadoop不同:

提示:这里可以添加要学的内容
1.Spark是一种包含流处理能力的处理框架,主要侧重于内存计算以及处理优化机制加快批处理的工作负载的运行速度。
2.Hadoop 基于一次性数据计算:框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到我们的介质中。Mapper Reduce过程磁盘io严重影响性能

3.Spark提供了更加丰富的数据处理模型,基于内存进行数据的多次迭代,可以更好支持数据挖掘算法和图形计算。
4.实际应用场景如果内存限制较大,则仍会选用Mapper Reduce


Spark的核心模块:

提示:这里可以添加计划学习的时间
例如:
1、 Apache Spark Core: 整个Spark的核心,其他的模块都是基于core来实现的
2、 Spark SQL:Spark操作结构化数据的功能模块
3、 Spark Streaming:Spark对流式数据进行处理的功能模块
4、Spark Milb:对机器学习相关进行处理
5、Sparl Graphx:对图形挖掘进行处理
Spark的核心模块


学习产出:

提示:这里统计学习计划的总量
例如:
1、CSDN 技术博客 1 篇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

燕大扎克伯格

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值