Spark
文章平均质量分 78
ZikH~
热爱大数据 喜欢sql
展开
-
【Spark】Streaming常见的算子操作transform,updateByKey,window函数(十)
比如下图中,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过了两秒钟,又会对最近三秒内的数据执行滑动窗口计算。DStream上述提供的所有的transformation操作,都是DStream-2-DStream操作,没有一个DStream和RDD的直接操作,而DStream本质上是一系列RDD,所以RDD-2-RDD操作是显然被需要的,所以此时官方api中提供了一个为了达成此操作的算子——transform操作。简单理解就是:统计截止到目前为止key的状态。原创 2024-05-20 15:42:52 · 298 阅读 · 1 评论 -
【Spark】SparkStreaming实时处理入门案例SparkStreaming编程整合HDFS整合Kafka(九)
1)Kafka中topic的partition与Spark Streaming中生成的RDD的partition无关,因此,在KafkaUtils.createStream()中,增加某个topic的partition的数量,只会增加单个Receiver消费topic的线程数,也就是读取Kafka中topic partition的线程数量,它不会增加Spark在处理数据时的并行性。Receiver接收到的数据,说白了就是一个个的batch数据,是RDD,存储在Executor内存。原创 2024-05-20 15:42:33 · 869 阅读 · 0 评论 -
【Spark】流式计算简介,什么是SparkStreaming,常见的离线和流式计算框架(八)
流式计算简介什么是SparkStreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等,如图-1。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。原创 2024-05-17 09:43:12 · 583 阅读 · 0 评论 -
【Spark】持久化操作,共享变量,broadcast广播变量,accumulator累加器,Spark RDD的分区与依赖关系(七)
Spark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当您持久化RDD时,每个节点将其计算的任何分区存储在内存中,并在该数据集(或从该数据集派生的数据集)上的其他操作中重用这些分区。这使得未来的行动更快(通常超过10倍)。缓存是迭代算法和快速交互使用的关键工具。可以使用persist()或cache()方法将RDD标记为持久化。第一次在动作中计算时,它将保存在节点的内存中。Spark的缓存是容错的——如果RDD的任何分区丢失,它将使用最初创建它的转换自动重新计算。原创 2024-05-15 08:42:08 · 1280 阅读 · 0 评论 -
【Spark】Spark编程体验,RDD转换算子、执行算子操作(六)
Spark编程体验项目依赖管理<dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.12.10</version> </dependency> <d原创 2024-05-10 09:55:33 · 915 阅读 · 0 评论 -
成功解决 reference to Seconds is ambiguous
程序运行过程中报reference to Seconds is ambiguous错误。重新导一下Seconds的包就可以了。原因是Seconds的导包出错。原创 2024-05-10 08:54:08 · 146 阅读 · 0 评论 -
【Spark】 Spark核心概念、名词解释(五)
转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。:在Standalone(上述安装的模式,也就是依托于spark集群本身)模式中即为Master(主节点),控制整个集群,监控Worker。原创 2024-05-08 08:55:06 · 450 阅读 · 1 评论 -
【Spark】Spark分布式Yarn环境安装(四)
注意:在提交任务之前需启动HDFS以及YARN集群。原创 2024-05-08 08:54:25 · 226 阅读 · 0 评论 -
【Spark】 Spark分布式HA环境安装(三)
因为在目前情况下,集群中只有一个Master,如果master挂掉,便无法对外提供新的服务,显然有单点故障问题,解决方法就是master的ha。ha验证,要干掉alive的master,观察standby的master,hadoop102的状态缓慢的有standby转变为alive。1)上线:不需要在现有集群的配置上做任何修改,只需要准备一台worker机器即可,可和之前的worker的配置相同。配置基于Zookeeper的一个ha是非常简单的,只需要在spark-env.sh中添加一句话即可。原创 2024-05-05 20:22:15 · 478 阅读 · 0 评论 -
【Spark】Spark分布式环境安装(二)
将spark-3.5.0-bin-hadoop3.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中不要包含中文或空格,解压缩操作,不再强调。1)Spark的application,可以有非常多的job作业,和mr不同,一个应用就提交一个job就行。2)job的执行,需要action算子操作触发,否则不会执行,触发的操作就是spark作业执行的动因。4)spark job作业的执行stage阶段形成了一个stage的DAG有向无环图。3)spark job作业的执行是分stage阶段的。原创 2024-05-05 20:21:47 · 599 阅读 · 0 评论 -
【Spark】简介概述(一)
Spark特点1)Speed:相比于MR,官方说,基于内存计算spark要快mr100倍,基于磁盘计算spark要快mr10倍。如图-1所示。图-1 Spark和Hadoop运行速度比较2)Ease of Use:Spark提供超过80多个高阶算子函数,来支持对数据集的各种各样的计算,使用的时候,可以使用java、scala、python、R,非常灵活易用。3)Generality:通用性如图-2所示。图-2 Spark通用性特点。原创 2024-04-25 08:57:54 · 1033 阅读 · 0 评论