Spark(1)——spark基本原理与启动

spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。
在spark这个大框架下,spark-core和sparksql都是处理离线数据的,但是明显要比mapreduce要快得多。而sparkstreaming是一个准实时(不是立刻处理,而是有一个batch,间隔一段时间后再获取数据)的对数据流处理框架,仅仅比storm和flink这样来一条就立刻处理一条的框架慢一些。
RDD(弹性分布式数据集)
spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。
ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的RDD,而不会在原来的RDD上直接进行修改,这样在新的RDD丢失时,可以回退到上一个RDD重新进行数据处理。
在启动之前,一定要开启hdfs服务和yarn服务,启动Spark,先加入到环境变量中,随后输入pyspark即可启动:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

graceful coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值