spark
spark的相关问题
秋雨ヾ
这个作者很懒,什么都没留下…
展开
-
安装spark
1.上传tar包spark-2.4.3-bin-hadoop2.7.tgz2.解压tar包tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz原创 2020-08-12 12:04:35 · 375 阅读 · 0 评论 -
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源性能尽量进行优化。基础优化这部分主要对程序进行优化,主要考虑stage、cache、partition等方面。Stage在进原创 2020-08-07 20:45:12 · 223 阅读 · 0 评论 -
Spark及Spark Streaming核心原理及实践
原文 https://baijiahao.baidu.com/s?id=1601974694035159583spark 生态及运行原理Spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用场景广泛 => 大数据分析统计,实时数据处理,图计算及机器学习。易用性 => 编写简单,支持80种以上.原创 2020-06-06 16:18:39 · 695 阅读 · 0 评论 -
Transformations算子 , Action算子 , 控制算子(cache,persist,checkpoint)
1.Transformations 转换算子2. Action 行动算子原创 2020-05-30 15:27:35 · 781 阅读 · 0 评论 -
RDD
先配置好spark的高可用,可参考https://blog.csdn.net/weixin_45271668/article/details/103737052测试spark1.先启动zookeeper2.启动hadoop3.启动spark4.启动spark历史服务器5.运行命令#帮助bin/spark-shell --help#命令bin/spark-shell出现的界面...原创 2019-12-30 17:06:28 · 205 阅读 · 0 评论 -
什么是RDD?
什么是RDD?Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。1,RDD 有三个基本特性这三个特性分别为:分区,不可变,并行操作。a, 分区每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD 理解成一个大的数组,数组中的每个元素就代表一个分区 (Partition) 。在物理...原创 2019-12-28 11:33:06 · 868 阅读 · 0 评论 -
RDD 和 spark执行原理
1. RDD概念RDD(Resilient Distributed Dateset),弹性分布式数据集。RDD的五大特性:RDD是由一系列的partition组成的。函数是作用在每一个partition(split)上的。RDD之间有一系列的依赖关系。分区器是作用在K,V格式的RDD上。RDD提供一系列最佳的计算位置。RDD理解图:注意:textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大小是一个block大小。RDD实际上不存储数原创 2020-05-30 14:35:03 · 176 阅读 · 0 评论 -
Spark资源调度和任务调度
Spark资源调度和任务调度的流程:启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGScheduler和TaskScheduler,DAGScheduler是任务调度的高层调度器,是一个对象。DAGScheduler的主要作用就是将DAG根据RDD之间的宽窄依赖关系划分为一个个的S.原创 2020-05-30 14:19:57 · 103 阅读 · 0 评论 -
宽、窄依赖和stage
1.窄依赖和宽依赖RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。宽窄依赖图理解2.StageSpark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,原创 2020-05-30 14:13:17 · 130 阅读 · 0 评论 -
Yarn模式两种提交任务方式
1. yarn-client提交任务方式提交命令./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100或者./spark-submit --master yarn–client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1原创 2020-05-30 14:02:03 · 432 阅读 · 0 评论 -
Standalone模式两种提交任务方式
1. Standalone-client提交任务方式提交命令./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000或者./spark-submit --master spark://node1:7077 --deploy-mode client --cl原创 2020-05-30 13:49:31 · 366 阅读 · 0 评论 -
cache和persist的区别
RDD的cache和persist的区别cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。在使用中一直使用RDD.cache(),系统的学习之后发现还有一个与cache功能类似看起来冗余的persist点进去之后发现cache()是persist()的特例,persist可以指定一个StorageLevel。StorageLevel的列表可以在StorageLevel 伴生单例对象中找到:cache的源码:/** Pers原创 2020-05-28 12:28:35 · 1126 阅读 · 0 评论 -
java.Lang.IlLegalArgumentException: Can not create a Path from an empty string
可以参考参考这位博主的 https://blog.csdn.net/adorechen/article/details/78902932原创 2020-03-18 17:32:58 · 2263 阅读 · 0 评论 -
SparkSql的保存模式
四种保存模式第一种SaveMode.ErrorIfExists第二种SaveMode.Append第三种SaveMode.Overwrite第四种SaveMode.Ignore:CREATE TABLE IF NOT EXISTS原创 2020-03-18 17:27:20 · 484 阅读 · 0 评论 -
spark-HA 高可用,yarn
1.配置spark-env.sh# 配置大哥;在二哥上面,MASTER_PORT=指的是自己SPARK_MASTER_HOST=hadoop102# 设置zookeepr,不能换行SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop101:2181,...原创 2019-12-27 19:04:36 · 281 阅读 · 0 评论 -
spark集群--standlone
1.参见网址:http://spark.apache.org/docs/latest/spark-standalone.html2.对自己的服务器做一个规划3.准备工作网络免密钥把spark的包四台电脑都复制一份4.启动主服务器(haodoop102)sbin/start-master.sh会产生log日志 – 要看日志5.查看网页6.启动小弟(在想当小弟的服务器...原创 2019-12-26 19:38:12 · 103 阅读 · 0 评论 -
spark单机版配置
spark官网:http://spark.apache.org/1.下载spark的包spark-2.4.4-bin-hadoop2.7.tgz2.解压压缩包tar -xzvf spark-2.4.4-bin-hadoop2.7.tgz3.可以选择修改压缩包的名子mv spark-2.4.4-bin-hadoop2.7/ spark4.运行官方示例和shell#计算圆周率#...原创 2019-12-26 19:26:21 · 318 阅读 · 0 评论