spark专栏
文章平均质量分 78
spark概念开发等
猿来如此dj
目前西安工作-航天宏图公司大数据开发工程师,欢迎大家交流。
展开
-
spark面试
spark面试1:spark的算子和广播变量算子分为Transformations转换和action行动两种算子转换算子是懒加载的记录算子的操作记录只有行动算子才会触发执行,主要包括,filter,map等操作,action算子主要包括reducebykey,foreach,print等算子,会触发真正的执行动作,只有转换算子程序会报错。广播变量:在driver端定义的变量会分享到每个task任务。为了减小存储空间,可以使用广播变量到每个执行器executor,sc.broadcast进行定义,广播原创 2021-04-06 12:42:03 · 655 阅读 · 0 评论 -
(0)spark基本概念模块介绍
1:spark基本相关概念 Application 运行在集群上的用户程序,包含集群上的driver program 和多个executor线程组成; Driver program application运行的main方法,并生成sparkcontext; Cluster manager ...原创 2019-10-23 14:50:28 · 199 阅读 · 0 评论 -
(一)spark编程指南导向
spark编程指南导向以下版本:2.3.2spark2.3.2编程指南spark入门简介RDD,广播变量等编程指南SparkSQL编程指南SparkStreaming编程指南scala API版本spark编程指南JAVA API的spark编程指南spark调优 指南 spark编程代码示例...原创 2020-07-29 17:35:31 · 121 阅读 · 0 评论 -
(二)RDD算子和共享变量
rdd算子介绍文章目录rdd算子介绍1:Transformations转换算子2:Action触发算子(行动算子)3:一些输出算子4:常见算子使用误区1:foreachRDD1:Transformations转换算子filter:过滤符合条件的记录数,true的保留、false的过滤map:将RDD中的数据项,通过map中的函数映射变为一个新的元素(1进1出)mapPartition:执行结果与map相同,但是可以一次遍历整个patitionmapPartitionWithIndex:类似于ma原创 2020-07-30 15:21:31 · 724 阅读 · 0 评论 -
(三)1:SparkStreaming编程指南学习
Spark编程指南学习1:sparkStreaming编程指南1.1:概述Spark Streaming 是 Spark Core API 的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理1.2:sparkStreaming开发demo1.2.1:开发的maven依赖引入1:sparkStreaming依赖<dependency> <groupId&...原创 2020-03-02 16:40:45 · 1042 阅读 · 0 评论 -
(三)2:SparkStreaming集成kafka0.10及高版本:scala
SparkStreaming集成kafka0.10及高版本文章目录SparkStreaming集成kafka0.10及高版本1:maven依赖2:Sparkstreaming+kafka2.1:创建stream1:kafka读取2:外部数据恢复偏移量2.2:分区位置策略1:LocationStrategies(本地策略)2:策略的特殊情况。2.3:kafka消费者策略1:topic指定2:获取偏移量3:存储偏移3.1:第一种方式:Checkpoint检查点机制3.2:二种方式:Kafka2.4:消费的并行原创 2019-06-23 16:15:49 · 1022 阅读 · 0 评论 -
(三)3:scala版本的sparkstreaming基于Direct连接kafka0.8版本开发详解
sparkstreaming基于Direct连接kafka开发详解连接kafka1:本次/基于Direct的方式读取kafka数据1.1Direct方式讲解/** * 摒弃了高阶的kafkaConsumerAPI直接从kafkaBrokers获取信息,可以保证每条消息只被消费一次 * 特点: * - No receivers:没有receivers接收器,直接从kafk...原创 2019-10-27 13:42:45 · 326 阅读 · 0 评论 -
(三)4:streaming集合kafka架构如何规划?
1:架构组件kafka+streaming+hbase+es+等1.1:kafkatopic的分区数决定了spark第一个stage的并行度,分区数会严重影响分区的数据量和task的处理速度。partition个数:建议为kafka集群的磁盘总数的整倍数并结合数据量进行调优。保证各个磁盘的分区数一致,均衡分布1.2:hbasehbase表的region分裂会严重影响数据写入速度。可采用预分区等方式,预估单表的数据量。表region数=表数据量/region大小;磁盘的整倍数最好1.3:es原创 2020-09-18 12:51:05 · 127 阅读 · 0 评论 -
(三)5:spark UI详解
spark UI详解清楚的理解spark UI 的各个阶段有助于进行调优和分析定位问题如何访问:默认ip:8088,在程序启动时也可看到日志中的UI访问地址1:UI界面导航栏部分主要分为7大部分1:job级别的任务执行记录,可看到具体的executor和task执行时间2:所有stage,stage是按照宽依赖来区分的,因此粒度上要比job更细一些3 :storage页面,我们所做的cache persist等操作,都会在这里看到,可以看出来应用目前使用了多少缓存4: 代表environm原创 2020-09-21 12:32:52 · 5948 阅读 · 0 评论 -
(四)1:spark性能调优:基础篇
本文作为Spark性能优化指南的基础篇,主要讲解开发调优以及资源调优。原创 2019-04-27 15:02:35 · 419 阅读 · 1 评论 -
(四)2:spark性能调优:高级篇(数据倾斜)
Spark性能优化指南——高级篇spark性能调优基础篇调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1...转载 2019-04-27 15:14:26 · 189 阅读 · 0 评论 -
(五)scala版spark开发实例(sparkStreaming+sparkSql)
spark开发实例1:开发准备java,hadoop,scala,maven的windows环境都已配置并验证完毕2:spark的wordcount代码详解先把集群的hdfs-site,xml,core-site.xml都放到resources下面原始数据:data1.txt1 Java bigdata2 Java bigdata/** * 在Spark中,所有的编程入口都是...原创 2019-10-03 11:58:49 · 908 阅读 · 0 评论 -
(六)java的map和scala的map互相转换
1:java的map转scala的map//java的map转为scala的immutable.map private static scala.collection.immutable.Map<String,String> JavaMapToScala(Map kafkaparams) { Map<String, String> javamap ...原创 2019-12-19 15:27:55 · 7198 阅读 · 0 评论 -
(七) sparkSQL编程指南学习
sparkSQL编程指南学习文章目录sparkSQL编程指南学习1:sparkSQL概述1.1:运用1.2:Datasets and DataFrames1:DataFrames2:Datasets2:入门2.1 构建SparkSession2.2 构建数据源1:默认加载2:手动指定数据格式3:sql读取4:格式间转换2.3 全局临时视图:Global Temporary View1:sparkSQL概述1.1:运用Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD原创 2020-08-03 17:35:12 · 239 阅读 · 0 评论 -
(八)spark常见问题解决
1:sparkstreaming1:资源不足解决:关闭不用的application ,减少executor和memory的内存Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe原创 2020-07-29 09:23:19 · 728 阅读 · 0 评论