![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Bitmao888
这个作者很懒,什么都没留下…
展开
-
reduceByKey(_+_)
reduceByKey转载 2022-09-09 16:28:45 · 510 阅读 · 0 评论 -
idea运行spark程序报错scalac: Error: illegal cyclic inheritance involving trait Iterable
spark的scala写的类,报错原创 2022-09-08 10:47:45 · 1046 阅读 · 0 评论 -
Spark17(任务调度机制、Shuffle解析)
文章目录任务调度机制Spark任务提交流程Spark任务调度概述Spark Stage级调度Spark Task级调度Spark Shuffle解析ShuffleMapStage与ResultStageShuffle中的任务个数reduce端数据的读取HashShuffle解析任务调度机制在工厂环境下,Spark集群的部署方式一般为YARN-Cluster模式,之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。Spark任务提交流程下面的时序图清晰地说明了一个Spark应用原创 2020-06-24 23:37:33 · 411 阅读 · 0 评论 -
spark16(运行模式、通讯架构)
文章目录Spark通用运行流程概述YARN模式运行机制YARN Client模式YARN Cluster模式Spark通用运行流程概述图1-1为Spark通用运行流程,不论Spark以何种模式进行部署,任务提交后,都会先启动Driver进程,随后Driver进程向集群管理器注册应用程序,之后集群管理器根据此任务的配置文件分配Executor并启动,当Driver所需的资源全部满足后,Driver开始执行main函数,Spark查询为懒执行,当执行到action算子时开始反向推算,根据宽依赖进行stag原创 2020-06-22 22:45:39 · 245 阅读 · 0 评论 -
SparkStreaming15(DStreams的转换、容错机制)
文章目录DStreams的转换1、无状态转换操作2、有状态转化操作3、Window OperationssparkStreaming的容错检查点机制驱动器程序容错工作节点容错接收器容错处理保证DStreams的转换DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window相关的原语。DStream 的转化操原创 2020-06-20 00:02:36 · 399 阅读 · 0 评论 -
SparkStreaming14(Kafka数据源与spark对接)
文章目录Apache Kafka数据源0.8版本对接方式三台机器安装kafka集群第一种方式对接kafka之CreateDstream方式第二种方式对接kafka之CreateDirectStream方式Apche kafka数据源0.10版本对接Apache Kafka数据源0.8版本对接方式kafka作为一个实时的分布式消息队列,实时的生产和消费消息,这里我们可以利用SparkStreaming实时地读取kafka中的数据,然后进行相关计算。在Spark1.3版本后,KafkaUtils里面提供了原创 2020-06-19 23:46:36 · 463 阅读 · 0 评论 -
sparkSQL13(DStream操作实战、数据源)
文章目录DStream操作实战1、 架构图2、 实现流程3、执行查看效果sparkStreaming数据源1、文件数据源2、自定义数据源3、RDD队列DStream操作实战1 SparkStreaming接受socket数据,实现单词计数WordCount1、 架构图2、 实现流程第一步:创建maven工程并导入jar包<properties> <scala.version>2.11.8</scala.version> <原创 2020-06-17 16:14:11 · 247 阅读 · 0 评论 -
SparkStreaming12(介绍和原理)
文章目录Spark Streaming介绍Spark Streaming原理与架构DStream相关操作Spark Streaming介绍什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原创 2020-06-17 16:01:56 · 179 阅读 · 0 评论 -
sparkSQL11(Spark SQL编程)
文章目录1、编写Spark SQL程序实现RDD转换成DataFrame前面我们学习了如何在Spark Shell中使用SQL完成查询,现在我们通过IDEA编写Spark SQL查询程序。Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是利用反射机制,推导包含某种类型的RDD,通过反射将其转换为指定类型的DataFrame,适用于提前知道RDD的schema。第二种方法通过编程接口与RDD进行交互获取schema,并动态创建DataFrame,在运行时决定列及其类型。原创 2020-06-16 00:35:16 · 194 阅读 · 0 评论 -
sparkSQL09(DataFrame,DataSet)
文章目录1、Spark SQL概述2、RDD以及DataFrame以及DataSetRDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别3、DataFrame创建1、 读取文本文件创建DataFrame2、 读取json文件创建DataFrame3、 读取parquet列式存储格式文件创建DataFrame4、DataFrame常用操作DSL风格语法SQL风格语法5、DataSet常用操作1、创建DataSet2、DataFrame与DataSet互相转换1、Spark SQ原创 2020-06-12 19:06:59 · 258 阅读 · 0 评论 -
spark08(数据读取与保存主要方式)
文章目录文本文件输入输出JSON文件输入输出CSV文件输入输出SequenceFile文件输入输出对象文件输入输出Hadoop输入输出格式数据库的输入输出mysql读取HBase读取文本文件输入输出当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pair RDD, 其中键是文件名,值是文件内容。val input = sc.textFile("./README.md")如果传递目录,则将目录下的所有文件读取作为RDD。文件路原创 2020-06-12 17:45:04 · 183 阅读 · 0 评论 -
spark07(checkpoint、任务调度)
文章目录RDD容错机制之checkpointcheckpoint是什么checkpoint原理机制Spark任务调度Spark运行架构任务调度流程图DAGSchedulerTaskSchedulerRDD容错机制之checkpointcheckpoint是什么(1)、Spark 在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体transformation的RDD本身计算特别复杂或者耗时(例如计算时长超过1个小时),这个时候就要考虑对计算结果数原创 2020-06-12 16:14:02 · 160 阅读 · 0 评论 -
spark06(RDD的依赖关系、缓存、DAG的生成以及shuffle的过程)
文章目录RDD的依赖RDD的缓存DAG的生成以及shuffle的过程什么是DAGshuffle的过程SortShuffleManager基本介绍RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的原创 2020-06-10 23:57:17 · 248 阅读 · 0 评论 -
spark05(实现ip地址查询)
文章目录需求分析城市ip段信息代码开发思路第一步:创建mysql数据库表第二步:代码开发实现需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。我们根据每个用户的IP地址,与我们的IP地址段进行比较,确认每个IP落在哪一个IP端内,获取经纬度,然后绘制热力图。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。城市ip段信息代码开发思路1、原创 2020-06-10 22:22:53 · 182 阅读 · 0 评论 -
spark04(点击流日志分析案例)
文章目录创建maven工程导入jar包访问的pv访问的uv访问的topN创建maven工程导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> <dependen原创 2020-06-10 22:17:06 · 191 阅读 · 0 评论 -
spark03( Resilient Distributed Dataset)
文章目录1、 RDD基本概念什么是RDD为什么会产生RDDRDD的属性RDD特点RDD的创建以及操作方式1、RDD的创建三种方式2、RDD的编程常用API1、 RDD基本概念什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数原创 2020-06-09 11:50:18 · 493 阅读 · 0 评论 -
spark02(spark-shell使用,scala开发spark)
文章目录Spark角色介绍spark任务提交以及spark-shell使用运行spark-shell --master local[N] 读取hdfs上面的文件使用scala开发spark程序代码本地运行Spark角色介绍Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了解其架构原创 2020-06-07 15:38:36 · 1114 阅读 · 0 评论 -
spark01(集群环境安装搭建)
文章目录spark概述spark的架构模块spark的主要架构模块介绍spark的运行角色介绍spark的集群环境安装搭建1、spark local模式运行环境搭建2、spark的standAlone模式3、spark的HA模式4、spark的on yarn模式spark概述park是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一原创 2020-06-03 20:38:52 · 300 阅读 · 0 评论