![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
hello_zzw
这个作者很懒,什么都没留下…
展开
-
Spark资源调度和任务调度
在了解资源调度和任务调度之前,需要先了解一下宽窄依赖和Stage两个概念1.宽窄依赖RDD之间是有依赖关系的,分为宽依赖和窄依赖宽依赖 父RDD和子RDD之间的对应关系是一对多,即一个RDD中的数据会被放到多个子RDD中窄依赖 父RDD和子RDD之间的对应关系是一对一或多对一,即一个父RDD中的数据去往一个子RDD或多个父RDD中的数据去一个子RDD2.StageSpark任务会...原创 2019-05-25 11:11:28 · 165 阅读 · 0 评论 -
开窗函数
对指定的列进行排序后,赋予序号值,从1开始partition by area_id:以area进行分区,也可以没有order by cars desc:以cars排序,降序排序row_number() over(partition by area_id order by cars desc) as rn ...原创 2019-06-10 22:00:35 · 640 阅读 · 0 评论 -
spark历史服务器配置
查看spark任务日志记录,需要配置历史服务器,将日志记录保存1.在客户端…/spark/conf/spark-defaults.conf中配置:spark.eventLog.enabled truespark.eventLog.dir hdfs://mycluster/spark/logspark.history.fs.logDirecto...原创 2019-06-02 15:19:38 · 1805 阅读 · 0 评论 -
spark搭建
1.上传jar包spark-2.3.1-bin-hadoop2.6.tgz并解压2.去conf下修改slaves.template文件,该文件是worker所在的节点,在文件中加入worker的主节点mv slaves.template slavesvim slaves node2 node33.修改spark-env. shSPARK_MASTER_IP:master的ipSP...原创 2019-06-01 17:23:31 · 212 阅读 · 0 评论 -
累加器
当在Driver端定义一个变量后,在Executor内对该变量的修改,对Driver端内的变量是无影响的。想要在Executor中对Driver端的变量进行修改,可以使用累加器//每次累加整型的值,给累加器起名字:aaa,通过aaa.name可以获取val aaa = sc.longAccumulator("aaa")val bbb = sc.longAccumulator//每次累加小数...原创 2019-05-28 20:41:41 · 1346 阅读 · 0 评论 -
广播变量
当Executor端使用到Driver端的变量时,该变量就会产生副本随着task放到Executor中,一个task对应着一个变量副本,如果使用这个变量的task有1000个,则就会产生1000个副本。广播变量:将Executor端使用到的Driver端的变量生成一个副本,放到Executor端的BlockManager。有几个Executor使用到对用的变量,就有几个副本无论该Executo...原创 2019-05-28 20:03:42 · 1564 阅读 · 3 评论 -
yarn-client|cluster
一、yarn-client任务提交方式1.任务提交方式./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100./spark-submit --master yarn --deploy-mode cli...原创 2019-05-23 21:15:25 · 173 阅读 · 0 评论 -
Spark context stopped while waiting for backend
spark提交任务到yarn上执行时,出现以下问题:ERROR TransportClient:233 - Failed to send RPC 7036352720568735489 to /172.16.96.152:34091: java.nio.channels.ClosedChannelExceptionjava.nio.channels.ClosedChannelException...原创 2019-05-23 20:44:45 · 3920 阅读 · 0 评论 -
Standalone-client|cluster
Standalone-client1.任务提交 ./spark-submit --master spark://node1:7077 #master在那个节点上 --deploy-mode client #任务提交方式,client cluster两种,不写的情况下默认是client --class org.apache.spark.examples.SparkPi #类名...原创 2019-05-23 19:23:02 · 331 阅读 · 0 评论 -
SparkCore
一、RDD:Resilient Distributed DateSet,弹性分布式数据集五大特性是由一系列partition组成函数作用在每个partition上partition之间有一系列依赖关系分区器作用在K,V格式的RDD上RDD提供一些列最佳的计算位置1.默认情况下,一个block对应一个partition2.RDD并不存储数据,我的理解是: RDD就是一些套在数...原创 2019-05-22 22:25:05 · 147 阅读 · 0 评论 -
org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'traffic' not found;
spark向hive中写入数据时,提示找不到已经创建完成的数据库,org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'traffic' not found;我的问题出现原因:没有为spark设置hive的路径解决方案:将hive客户端的hive-site.xml放入到spark的conf目...原创 2019-07-15 10:09:23 · 5611 阅读 · 2 评论