spark
文章平均质量分 55
willwill1101
人老心不老
展开
-
spark on yarn 在HA nn1关闭的时候问题
当 nn1关闭的时候,spark提交任务不能执行报错如下:spark官方文档说明了这个问题的存在,应该很快就解决了,我们提交任务后,需要等待50*2秒,没有太大影响原创 2017-12-11 17:23:55 · 389 阅读 · 0 评论 -
spark on yarn的cpu使用
在yarn-site.xml中,可以配置virutal core的个数,请注意不是physical core的个数,相关配置如下: yarn.nodemanager.resource.cpu-vcores 30 NodeManager总的可用虚拟CPU个数virutal core的概念是将所有physical cpu组成8个可调度的队列,linux转载 2017-12-13 11:08:39 · 481 阅读 · 0 评论 -
spark2学习(1) 之Spark Shell
在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集类似于RDD一样强类型,但在底层有更丰富的优化。这里强调以下,我们使用的ambari去安装集群的,所以不描述安装的问题。使用Spark Shell进行交互式分析启动sparkshell /usr/hdp/current/spark2-client/bi...原创 2018-08-10 22:16:07 · 1352 阅读 · 0 评论 -
spark2学习(2) 之RDD编程
RDD编程指南实际上从spark2开始就不推荐使用rdd了,使用dataset操作更加简单高效,但是我们还是简单介绍一下内容吧弹性分布式数据集(RDD)Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可以并行操作的容错的容错集合。创建RDD有两种方法:并行化 驱动程序中的现有集合,或引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop ...原创 2018-08-10 23:57:38 · 429 阅读 · 0 评论 -
spark2学习(3) 之Spark SQL
Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。创建sparksessionimport org.apache.spark.sql.Spark...原创 2018-08-12 22:27:14 · 2242 阅读 · 0 评论