Spark
文章平均质量分 92
yjgithub
这个作者很懒,什么都没留下…
展开
-
Spark读取数据及保存数据
文章目录创建SparkSession读取数据jdbcjsoncsvparquet保存数据创建SparkSessionsparkSQl 可以读取不同数据源的数据,比如jdbc,json,csv,parquet执行读操作就用sparkSession.read.文件类型,执行写操作就用SparkSession.write.文件类型首先创建一个SparkSession:val spark = SparkSession.builder().appName("load data") .master原创 2020-06-15 18:01:31 · 1004 阅读 · 1 评论 -
RDD,DataFrame,DataSet区别
数据结构原创 2017-03-15 11:38:27 · 446 阅读 · 0 评论 -
安全停止sparkStreaming任务
目的: 1.确保数据处理完后,才停止Job 原因: 因为Spark Streaming流程序比较特殊,所以不能直接执行kill -9 这种暴力方式停掉,如果使用这种方式停程序,那么就有可能丢失数据或者重复消费数据。为什么呢?因为流程序一旦起来基本上是一个7*24小时的状态,除非特殊情况,否则是不会停的,因为每时每刻都有可能在处理数据,如果要停,也一定要确认当前正在处理的数据执行完毕,并且不能在原创 2017-12-18 08:24:06 · 4916 阅读 · 2 评论 -
SparkStreamingj集成Kafka的几个重要参数
sparkstreaming集成kafka原创 2017-12-18 09:31:02 · 392 阅读 · 0 评论 -
Spark RDD Cache缓存使用详解
目录:1.概述 2.缓存类型 3.如何选择缓存类型 4.移除缓存数据1.概述Spark的开发调优有一个原则,即对多次使用的RDD进行持久化。如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。1.1 cache()方法表示:使用非序列化的方式将RDD的数据全部尝试持久化到内存中,cache()只是一个transformtion,是la...原创 2018-05-28 09:20:30 · 9001 阅读 · 0 评论 -
spark推测执行(填坑)
1、spark推测执行开启设置 spark.speculation=true即可额外设置1. spark.speculation.interval 100:检测周期,单位毫秒;2. spark.speculation.quantile 0.75:完成task的百分比时启动推测;3. spark.speculation.multiplier 1.5:比其他的慢多少倍时启动推测。2...原创 2018-07-17 16:13:09 · 1614 阅读 · 0 评论 -
窄依赖和宽依赖
目录:一.简介 二.区别 三.stage划分一.简介Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency)二.区别窄依...原创 2018-07-23 14:07:55 · 11683 阅读 · 0 评论 -
Spark中repartition和coalesce的区别和用法
目录:一.区别 二.使用 三.总结一.区别repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需...原创 2018-07-13 11:15:40 · 5829 阅读 · 0 评论 -
累加器
目录 1.累加器简单使用 2.累加器异常 3.自定义累加器1.累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。/** * @Auther: chenyj * @Date: 2018/9/7 14:23 * @Description: ...原创 2018-09-07 15:33:11 · 4227 阅读 · 0 评论 -
foreachPartition和mapPartitions的区别
目录1.Transformation与Action2.foreachPartition 与 mapPartitions3.1.Transformation与Actionspark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。...原创 2018-11-12 14:56:38 · 1569 阅读 · 2 评论 -
Spark Streaming的恢复机制——Checkpoint
前言: 一个Streaming Application 往往需要7*24 不间断的跑,所以需要有自动恢复失败前的状态(机器冗机,系统挂掉,jvm crash等),为了让上述成为可能,Spark Streaming需要checkpoint 足够多信息至一个具有容错设计的存储系统(HDFS数据备份)才能让Application从失败中恢复过来Spark Streaming 会 checkpoint 两原创 2017-12-13 15:39:45 · 3259 阅读 · 0 评论 -
Spark SQL案例介绍与编程实现
要点 Spark SQL/DataFrame如何理解? 如何使用spark SQL编写统计代码? 如何查看spark任务监控过程? Spark SQL程序开发需要注意哪些内容?1、Spark SQL/DataFrame如何理解Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块,该模块里最重要的概念就是 DataFrame, 相信熟悉 R 语言的工程师对此并不陌生。Spa原创 2017-12-11 10:54:32 · 3985 阅读 · 0 评论 -
Spark经典案例1-通过采集的气象数据分析每年的最高温度
业务场景:通过采集的气象数据分析每年的最高温度 每年的最高温度原创 2017-02-07 17:51:18 · 5399 阅读 · 1 评论 -
Spark经典案例3-数据排序
业务场景:数据排序原创 2017-02-08 09:05:49 · 2150 阅读 · 0 评论 -
Spark经典案例4-求平局值
求平均值原创 2017-02-08 11:31:44 · 655 阅读 · 1 评论 -
Spark经典案例5-求最大最小值
业务场景:求最大最小值原创 2017-02-08 14:17:57 · 7074 阅读 · 2 评论 -
Spark经典案例6-求top值
求topN原创 2017-02-08 14:39:45 · 2558 阅读 · 0 评论 -
Spark经典案例7-非结构数据处理
非结构数据处理原创 2017-02-08 15:07:22 · 3091 阅读 · 0 评论 -
SparkSql官方文档
SparkSql简单翻译,供自己以后翻阅,原创 2017-02-21 17:26:40 · 2868 阅读 · 0 评论 -
SparkSQL操作RDD转DataFrame
SparkSQL操作RDD两种方式对比原创 2017-02-23 15:27:07 · 550 阅读 · 0 评论 -
spark-2.1.0集群搭建
spark2.1搭集群:原创 2017-08-02 16:29:18 · 312 阅读 · 0 评论 -
Spark经典案例2-数据去重
数据去重问题groupByKey, reduceByKey区别原创 2017-02-07 21:30:36 · 21513 阅读 · 0 评论