spark
文章平均质量分 70
一只楠喃
一只大数据路上的程序媛️BUT目前处于自动驾驶仿真行业
展开
-
Spark从Kafka获取数据写入MySQL的实现(流式数据)
Kafka -> spark ->Mysql原创 2022-04-24 09:04:27 · 1687 阅读 · 0 评论 -
Spark(StructuredStreaming)从Mysql读取数据写入Mysql表(自增ID)
import java.sql.{Connection, DriverManager}import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, DataFrameReader, SparkSession}import org.apache.spark.{SparkConf, SparkContext}class RWSpark { def main(args: Array[String]): Unit = { .原创 2021-07-05 17:02:40 · 886 阅读 · 1 评论 -
【3天掌握Spark】--内核调度详解
Spark之内核调度内核调度之引例WordCountSpark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行。以词频统计WordCount程序为例,Job执行是DAG图运行词频统计WordCount,截取4040监控页面上DAG图:当RDD调用Action原创 2021-05-24 21:09:15 · 369 阅读 · 0 评论 -
【3天掌握Spark】--RDD 共享变量
Spark之RDD 共享变量Spark提供了两种类型的变量:广播变量广播变量允许开发人员在每个节点(Worker or Executor)缓存只读变量,而不是在Task之间传递这些变量。 可以通过调用sc.broadcast(v)创建一个广播变量,该广播变量的值封装在v变量中,可使用获取该变量value的方法进行访问。累加器Accumulator只提供了累加的功能,即确提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作,不能读取A原创 2021-05-24 20:57:19 · 246 阅读 · 0 评论 -
【三天掌握Spark】--外部数据源
Spark之外部数据源Spark与Hbase的交互Spark可以从外部存储系统读取数据,比如RDBMs表中或者HBase表中读写数据,这也是企业中常常使用,如下两个场景:1)要分析的数据存储在Hbase中,需要从中读取数据做数据分析~日志数据:操作日志等~订单数据2)使用Spark进行离线分析后,往往将数据保存到Mysql中~ 网站的PV,UV,VV·······Spark如何从HBase数据库表中读(read:RDD)写(write:RDD)数据呢??~ 加载数据:从HBas原创 2021-05-24 20:53:23 · 707 阅读 · 0 评论 -
【3天掌握Spark】--搜狗日志统计分析联系
SogouQ日志分析数据调研和业务分析 使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Spark框架,将数据封装到RDD中进行业务数据处理分析。1)、数据介绍: 搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。2)、数据格式访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL3)、数据下载:分为三个数据集,大小不一样迷你原创 2021-05-22 18:24:50 · 1151 阅读 · 3 评论 -
【3天掌握Spark】-- RDD Checkpoint
RDD CheckpointRDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用。 在Spark Core中对RDD做checkpoint,可以切断做checkpoint RDD的依原创 2021-05-22 17:57:38 · 147 阅读 · 1 评论 -
【3天掌握Spark】-- RDD持久化
RDD 持久化在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。将RDD数据进行缓存时,本质上就是将RDD各个分区数据进行缓存缓存函数但是实际项目中,不会直接使用上述的缓存函数,RDD数据量往往很多,内存放不下的。在实际的项目中缓存RDD数据时,往往使用如下函数,依据具体的业务和数据量,指定缓存的级别:缓存级别在Spark框架中对数据缓存原创 2021-05-21 21:22:36 · 196 阅读 · 0 评论 -
【3天掌握Spark】-- RDD函数
Spark之RDD函数RDD 函数分类RDD 的操作主要可以分为 Transformation 和 Action 两种。Transformation 转换,将1个RDD转换为另一个RDDAction 触发,当1个RDD调用函数以后,触发一个Job执行(调用Action函数以后,返回值不是RDD)RDD中2种类型操作函数:Transformation(lazy)和Action(eager)函数Transformation转换函数Action触发函数,触发一个Job执行RDD原创 2021-05-21 21:19:24 · 435 阅读 · 0 评论 -
【3天掌握Spark】--RDD概念及WordCount案例
Spark之RDDRDD 概念对于大量的数据,Spark 在内部保存计算的时候,都是用一种叫做弹性分布式数据集(ResilientDistributed Datasets,RDD)的数据结构来保存的,所有的运算以及操作都建立在 RDD 数据结构的基础之上在Spark框架中,将数据封装到集合中:RDD,如果要处理数据,调用集合RDD中函数即可。(论文找不到想看的私我私我私我)也就是说RDD设计的核心点为:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集原创 2021-05-21 21:10:05 · 392 阅读 · 0 评论 -
【3天掌握Spark】-- Spark on YARN
Spark on YARN属性配置和服务启动将Spark Application提交运行到YARN集群上,至关重要,企业中大多数都是运行在YANR上文档:http://spark.apache.org/docs/2.4.5/running-on-yarn.html 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,原创 2021-05-21 20:51:54 · 320 阅读 · 3 评论 -
【3天掌握Spark】-- IDEA 应用开发Spark
IDEA 应用开发Spark构建Maven Project创建Maven Project工程【bigdata-spark_2.11】,设置GAV三要素的值如下:创建Maven Module模块【spark-chapter01_2.11】,对应的GAV三要素值如下:至此,将Maven Module模块创建完成,可以开始编写第一个Spark程序。应用入口SparkContextSpark Application程序入口为:SparkContext,任何一个应用首先需要构建SparkContex原创 2021-05-21 20:31:50 · 1266 阅读 · 6 评论 -
【3天掌握Spark】--Standalone集群
Spark之Standalone集群架构组成Spark Stanadlone集群类似Hadoop YARN集群功能,管理整个集群中资源(CUP Core核数、内存Memory、磁盘Disk、网络带宽等)Standalone集群使用了分布式计算中的master-slave模型,master是集群中含有Master进程的节点,slave是集群中的Worker节点含有Executor进程。Standalone集群主从架构:Master-Slave主节点:老大,管理者,Master从节点:小原创 2021-05-20 11:46:50 · 243 阅读 · 1 评论