![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
worldchinalee
这个作者很懒,什么都没留下…
展开
-
CDH5.9 离线安装或者升级spark2.x详细步骤
官方安装说明地址:https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.htmlStep1安装spark需要两个文件,一个是csd文件,一个是parcel文件。我安装的是2.1 Release2版本,后面两列分别是这个两个文件的地址。进入parcel的链接地址,如下图:我的系统是centos6,所...原创 2018-06-01 17:26:49 · 2631 阅读 · 0 评论 -
Spark.2.2源码阅读: SPARK SUBMIT任务提交
1.编写程序当我们编写了一个程序后。package com.llcc.sparkSql.textimport org.apache.spark.sql.{Row, SQLContext, SparkSession}import org.apache.spark.sql.types.{StringType, StructField, StructType}object Spar...转载 2018-06-26 10:38:07 · 683 阅读 · 0 评论 -
在Cloudera Manager提交spark任务失败
在hue中配置workflow,提交以后,报如下错误: Log Type: stderr Log Upload Time: Wed Aug 29 10:36:23 +0800 2018 Log Length: 1452 SLF4J: Class path contains mult...原创 2018-08-29 13:47:20 · 1424 阅读 · 0 评论 -
Spark源码分析之Spark Shell(上)
https://www.cnblogs.com/xing901022/p/6412619.html文中分析的spark版本为apache的spark-2.1.0-bin-hadoop2.7。bin目录结构:-rwxr-xr-x. 1 bigdata bigdata 1089 Dec 15 2016 beeline-rw-r--r--. 1 bigdata bigdata 899...转载 2018-09-19 21:50:42 · 240 阅读 · 0 评论 -
spark源码-AppendOnlyMap类
/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding cop...原创 2019-03-20 11:31:46 · 458 阅读 · 0 评论 -
spark源码-PartitionedAppendOnlyMap
/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding cop...原创 2019-03-20 11:32:58 · 269 阅读 · 0 评论 -
PartitionedAppendOnlyMap和PartitionedPairBuffer的区别
1.继承关系不太一样,如下图所示:我们可以看到PartitionedAppendOnlyMap是间接的继承SizeTracker获得估算容量的功能,数据存在父类AppendOnlyMap的data数组中,而PartitionedPairBuffer是数据就存在该类的data数组中,并且是直接继承SizeTracker2.AppendOnlyMap会对元素在内存中进行更新或聚合,而Par...原创 2019-03-20 15:17:04 · 637 阅读 · 0 评论 -
spark源码-SizeTracker特质
/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding cop...原创 2019-03-19 11:27:25 · 289 阅读 · 0 评论 -
如何使用Hue创建Spark2的Oozie工作流
1.Oozie共享库添加Spark21.查看当前Oozie的share-lib共享库HDFS目录oozie admin -oozie http://lefincluster-rt1:11000/oozie -sharelibupdate[ShareLib update status] sharelibDirOld = hdfs://nameservice1/user/oozie/s...转载 2018-06-06 15:10:58 · 5210 阅读 · 4 评论 -
idea中用maven打包spark程序的pom
首先要安装scala,并且在idea中安装scala插件。依赖关系:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2018-05-04 15:14:37 · 1566 阅读 · 0 评论 -
windows系统下在idea中用spark访问远程hive
NO 步骤1安装配置jdk1.82安装配置scala2.11.183 写操作hive的demo4导入pom.xml中依赖jar5下载hadoop的binary包,我的版本是2.7.36下载winutils.exe将其放到$HADOOP_HOME/bin/目录下7在启动类的运行参数中设置环境变量,HADOOP_HOME=D:\software1\hadoop-2.7.3,=后面是hadoop的安装目...原创 2018-05-03 17:35:17 · 10326 阅读 · 0 评论 -
Spark中Utils.getCallSite()的作用
二话不说,亮出源代码def getCallSite(skipClass: String => Boolean = sparkInternalExclusionFunction): CallSite = { // Keep crawling up the stack trace until we find the first function not inside of the sp转载 2017-08-31 14:30:27 · 549 阅读 · 0 评论 -
理解spark闭包
什么叫闭包: 跨作用域访问函数变量。又指的一个拥有许多变量和绑定了这些变量的环境的表达式(通常是一个函数),因而这些变量也是该表达式的一部分。Spark闭包的问题引出: 在spark中实现统计List(1,2,3)的和。如果使用下面的代码,程序打印的结果不是6,而是0。这个和我们编写单机程序的认识有很大不同。为什么呢?object Test { def main(args:Arra...转载 2017-09-26 11:38:20 · 327 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是...转载 2018-03-06 21:13:15 · 247 阅读 · 0 评论 -
深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析
原文地址。 http://blog.csdn.net/u011239443/article/details/53911902目录(?)[-]概述提交JobrddcountSparkContextrunJobDAGSchedulerrunJobDAGSchedulersubmitJobDAGSchedulerEventProcessLoopdoOnReceiveDAGSchedulerhandleJ...转载 2018-03-08 22:30:09 · 229 阅读 · 0 评论 -
spark源码 RangeDependency分析
/** * :: DeveloperApi :: * Represents a one-to-one dependency between ranges of partitions in the parent and child RDDs. * @param rdd the parent RDD * @param inStart the start of the range in the ...原创 2018-03-03 16:15:54 · 685 阅读 · 0 评论 -
spark源码-WritablePartitionedPairCollection特质
/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding cop...原创 2019-03-19 11:59:17 · 239 阅读 · 0 评论