![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
爱学习的小明同学
一名大数据开发工程师。。。
展开
-
SparkStreaming的介绍及原理
一、SparkStreaming的介绍 1.离线和流处理的区别 1)离线处理是针对一个批次,这个批次一般情况下都比较大流处理对应的数据是连续不断产生,处理时间间隔非常短的数据 2)离线处理程序,因为数据是有限的(bounded),所以会终止流数据因为是连续不断的产生,所以数据是无限的(unbounded) 由于数据的特征,一般离线处理比较缓慢,流数据处理相对较快 流处理: ...原创 2019-01-13 14:09:39 · 2293 阅读 · 0 评论 -
Spark调优
Spark调优: 总共分为四点: 1.开发调优 2.资源调优 3.数据倾斜 4.shuffle 1.开发调优 1)避免创建重复的RDD(不包含数据,抽象描述) 如果是需要对一个文件进行多次计算,那么注意,最好就只读一次。RDD:不可变可分区的弹性分布式数据集。 2)尽可能复用同一个RDD 3)对多次使用的RDD进行持久化(cache persist)(内存或磁盘) rdd1.map.reduc...原创 2019-01-13 14:18:27 · 143 阅读 · 0 评论 -
spark任务运行过程的源码分析
spark任务运行的源码分析 在整个spark任务的编写、提交、执行分三个部分: ① 编写程序和提交任务到集群中 ②sparkContext的初始化 ③触发action算子中的runJob方法,执行任务 (1)编程程序并提交到集群: ①编程spark程序的代码 ②打成jar包到集群中运行 ③使用spark-submit命令提交任务 在提交任务时,需要指定 --class 程序的入口(有ma...原创 2019-01-13 14:21:12 · 131 阅读 · 0 评论 -
SparkStreaming的实战案例
废话不多说,直接上干货!!!相关依赖: <properties> <project.build.sourceEncoding>UTF8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> &l...原创 2019-01-13 16:27:18 · 679 阅读 · 0 评论 -
在IDEA中编写spark程序
这里以一个scala版本的word count 程序为例: ①创建一个maven项目: ②填写maven的GAV: ③填写项目名称: ④ 创建好 maven 项目后,点击 Enable Auto-Import ⑤配置pom.xml文件: <properties> <project.build.sourceEncoding>UTF8</project.bui...原创 2019-01-13 16:49:04 · 1231 阅读 · 0 评论 -
SparkCore核心知识
一、Spark作业调度方式 1、local 测试或实验性质的本地运行模式 local[N] 是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。 example: spark-submit --class ...原创 2019-01-09 11:51:42 · 860 阅读 · 1 评论 -
SparkSQL核心知识
一、SparkSQL概述 1、概念 官网:http://spark.apache.org/sql/ Spark SQK是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块 外部的结构化数据源包括 Json,parquet(默认),rmdbs,hive等 2、Spark SQL的优点 mapreduce...原创 2019-01-09 12:01:17 · 1974 阅读 · 3 评论 -
Spark基础理论及安装
一、初始Spark 1、产生背景 由于mapreduce只适用于离线数据处理(批处理),而不能支持对迭代式,交互式,流式数据的处理,因此,spark就诞生了 hive的产生就是为了解决mapreduce的编程复杂的问题 spark的产生就是为了解决mapreduce的计算缓慢的问题 Spark和MapRe...原创 2019-01-09 11:55:00 · 1451 阅读 · 1 评论