Spark
Apache Spark是用于大规模数据处理的统一分析引擎
Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。
kismetG
HelloWorld
展开
-
Spark -- StructuredStreaming第三章 与其他技术整合 kafka 生产数据写入MySQL表
整合Kafka官网介绍http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html●Creating a Kafka Source for Streaming Queries// Subscribe to 1 topicval df = spark .readStream...原创 2020-04-20 09:09:30 · 2355 阅读 · 0 评论 -
spark -- Structured Streaming实战代码案例 Structured Streaming输出详解 读取socket实时数据 读取目录下文本数据
Structured Streaming输出详解1.output mode:以哪种方式将result table的数据写入sink2.format/output sink的一些细节:数据格式、位置等。3.query name:指定查询的标识。类似tempview的名字4.trigger interval:触发间隔,如果不指定,默认会尽可能快速地处理数据5.checkpoint地址:一...原创 2020-04-20 08:42:03 · 2935 阅读 · 1 评论 -
Spark -- Structured Streaming入门介绍
介绍●官网http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html●简介spark在2.0版本中发布了新的流计算的API,Structured Streaming/结构化流。Structured Streaming是一个基于Spark SQL引擎的可扩展、容错的流处理引擎。统一...原创 2020-04-20 08:21:48 · 2991 阅读 · 0 评论 -
Spark -- spark on kafka Receiver & Direct Kafka手动维护偏移量
kafka回顾!!!上图完事!常用命令#启动kafka/export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties#停止kafka/export/servers/kafka/bin/kafka-server-stop.sh#查看t...原创 2020-04-16 15:53:42 · 3850 阅读 · 0 评论 -
Spark --Spark Streaming实战 WordCount他来啦!!! updateStateByKey reduceByKeyAndWindow
WordCount需求&准备●图解●首先在linux服务器上安装nc工具nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据yum install -y nc●启动一个服务端并开放9999端口,等一下往这个端口发数据nc -lk 9999●发送数据话不多说!!!上代码!package cn.itcast.st...原创 2020-04-16 15:36:50 · 2945 阅读 · 0 评论 -
Spark -- Spark Streaming 简介,原理,DStream相关操作
Spark Streaming介绍●官网http://spark.apache.org/streaming/●概述Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。●Spark Streaming的特点1.易用可以像编写离线批处理一样去编写流式程序,支...原创 2020-04-16 15:01:28 · 1228 阅读 · 0 评论 -
Spark --Spark SQL自定义函数 UDF UDAF UDTF
自定义函数分类类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.UDF(User-Defined-Function) 输入一行,输出一行2.UDAF(User-Defined Aggregation Funcation) 输入多行,输出一行3...原创 2020-04-12 21:18:42 · 2316 阅读 · 0 评论 -
Spark -- Spark-On-Hive
概述●官网http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.htmlConfiguration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.x...原创 2020-04-11 22:46:58 · 1314 阅读 · 0 评论 -
saprk -- 开窗函数
基础概念●介绍开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚合函数是将多行变成一行,count,avg....开窗函...原创 2020-04-11 22:44:13 · 1447 阅读 · 0 评论 -
spark --IDEA开发Spark SQL( sql查询 RDD、DF、DS之间相互转化 Spark SQL完成WordCount 多数据源交互)
创建DataFrame/DataSetSpark会根据文件信息尝试着去推断DataFrame/DataSet的Schema,当然我们也可以手动指定,手动指定的方式有以下几种:第1种:指定列名添加Schema第2种:通过StructType指定Schema第3种:编写样例类,利用反射机制推断Schema指定列名添加Schemapackage cn.itcast.sql...原创 2020-04-11 22:02:32 · 1477 阅读 · 0 评论 -
Spark -- Spark SQL初体验
Spark SQL初体验入口-SparkSession●在spark2.0版本之前SQLContext是创建DataFrame和执行SQL的入口HiveContext通过hive sql语句操作hive表数据,兼容hive操作,hiveContext继承自SQLContext。●在spark2.0之后SparkSession 封装了SqlContex...原创 2020-04-10 20:24:34 · 848 阅读 · 0 评论 -
Spark -- Spark SQL 简介 数据抽象
Spark SQL 简介Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们...原创 2020-04-10 18:17:39 · 1168 阅读 · 0 评论 -
spark -- RDD数据源 (读取小文件 数据写入MySQL并读取 spark-HadoopAPI SequenceFile 对象文件 数据写入hbase并读取 )
RDD数据源普通文本文件sc.textFile("./dir/*.txt")如果传递目录,则将目录下的所有文件读取作为RDD。文件路径支持通配符。但是这样对于大量的小文件读取效率并不高,应该使用wholeTextFilesdef wholeTextFiles(path: String, minPartitions: Int = defaultMinPartition...原创 2020-04-08 18:34:48 · 1117 阅读 · 0 评论 -
spark -- 第八章 RDD累加器和广播变量
RDD累加器和广播变量在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:1.累加器accumulators:累加器支持在所有不同节...原创 2020-04-08 16:37:10 · 1247 阅读 · 0 评论 -
spark -- Spark原理初探
基本概念http://spark.apache.org/docs/latest/cluster-overview.html●名词解释1.Application:指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。2.Driver:Spark中的Driver即运行上述Application的Main()函...原创 2020-04-08 15:01:42 · 924 阅读 · 0 评论 -
spark --DAG的生成和划分Stage
DAG介绍●DAG是什么DAG(Directed Acyclic Graph有向无环图)指的是数据转换执行的过程,有方向,无闭环(其实就是RDD执行的流程)原始的RDD通过一系列的转换操作就形成了DAG有向无环图,任务执行时,可以按照DAG的描述,执行真正的计算(数据被操作的一个过程)●DAG的边界开始:通过SparkContext创建的RDD结束:触发Action,一旦触...原创 2020-04-08 14:46:33 · 2578 阅读 · 0 评论 -
spark --RDD宽窄依赖关系
宽窄依赖●两种依赖关系类型RDD和它依赖的父RDD的关系有两种不同的类型,即宽依赖(wide dependency/shuffle dependency)窄依赖(narrow dependency)●图解●如何区分宽窄依赖窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)...原创 2020-04-08 13:42:49 · 1017 阅读 · 0 评论 -
spark -- RDD容错机制Checkpoint
RDD容错机制Checkpoint●持久化的局限持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。●问题解决Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的...原创 2020-04-08 13:31:14 · 1139 阅读 · 0 评论 -
spark -- RDD的持久化/缓存
RDD的持久化/缓存在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解●persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后...原创 2020-04-08 10:12:02 · 802 阅读 · 0 评论 -
spark -- RDD-API (创建RDD RDD的方法/算子分类 Transformation转换算子 Action动作算子 统计操作 )
创建RDD1.由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")2.通过已有的RDD经过算子转换生成新的RDDval rdd2=rdd1.flatMap(_....原创 2020-04-08 09:54:59 · 1461 阅读 · 0 评论 -
spark -- RDD详解 (什么是RDD RDD主要属性)
RDD详解什么是RDD 为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),...原创 2020-04-08 09:34:02 · 1638 阅读 · 0 评论 -
spark -- on yarn模式 Spark参数详解 IDEA编写Spark程序
spark on yarnSpark on yarn:Spark 使用了 yarn 管理器。Spark 运行在 YARN 上时,不需要启动 Spark 集群,只需要启动 YARN 即可,YARN 的 ResourceManager 相当于 Spark Standalone 模式下的 Master。spark中的两种模式(Cluster和Client)Cluster和Clien...原创 2020-04-08 09:17:00 · 2787 阅读 · 0 评论 -
Spark --最全的安装部署 local本地模式spark安装 spark--standalone集群安装 spark-HA高可用安装 spark on yarn安装
安装部署之前,先来看看为什么要安装它这个版本!!!我们安装的是Spark2.2.0 目前企业中使用最多的稳定版使用Apache版还是CDH版?1.Apache版直接下载官方编译好的基于Apache Hadoop的Spark即可2.自己下载Spark源码基于CDH Hadoop重新编译因为CDH5.14版 Spark基于Spark1.6...原创 2020-04-03 16:31:52 · 3961 阅读 · 0 评论 -
Spark --入门简介
Spark官方介绍●Spark是什么Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。●官网http://spark.apache.orghttp://spark.apachecn.org ...原创 2020-04-02 21:00:20 · 3565 阅读 · 1 评论