自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(12)
  • 收藏
  • 关注

原创 Spark on yarn模式的参数设置即调优

1 启动方式执行命令./spark-shell --master yarn默认运行的是client模式。执行./spark-shell --master yarn-client或者./spark-shell --master yarn --deploy-mode client运行的也是client。执行./spark-shell --master yarn-cluster或者./spar...

2018-04-28 21:02:05 6239

原创 Spark on YARN两种运行模式

1 官网地址链接2 Spark on Yarn的两种运行模式Spark on Yarn的两种运行模式:cluster和client;一句话概述两种的区别就是Spark driver到底运行再什么地方,带着这个问题来学习两种的区别;In cluster mode:Driver运行在NodeManage的AM(Application Master)中,它负责向YARN申请资源,并监督...

2018-04-28 16:28:37 1381

原创 spark-submit提交应用程序出现的错误

错误118/04/20 20:51:54 ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Could not parse Master URL: '2' at org.apache.spark.SparkContext$.org$apache$spar...

2018-04-27 20:28:08 4683

原创 IDEA中使用Maven开发Spark应用程序

1 环境搭建1.1 使用maven创建spark项目 如上图所示点击next创建自己的spark项目; 对maven进行修改1.2 修改pom.xml<!--依赖的版本--><properties> <scala.version>2.11.8</scala.versio

2018-04-27 20:17:05 3558

原创 RDD中的一些常用的算子操作

1 算子分类RDD的算子分类可以分为2种,Transformation和Action类 。 Transformation:根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:Map将数据的每个元素经过某个函数计算后,返回一个新的分布式数据集。Action:对数据集计算后返回一个数值value给驱动程序;例如:collect将数据集的所有元素收集完成返回给程序。2 Transf...

2018-04-26 16:05:40 1053 1

原创 RDD的创建方式及注意事项

1 RDD的创建方式1.1 SparkContext’s parallelize(并行化集合)并行化集合通过调用SparkContext的并行化方法在驱动程序(Scala Seq)中的现有集合上创建的。复制集合的元素以形成可并行操作的分布式数据集。val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)...

2018-04-26 14:53:15 683

原创 为什么会产生RDD及其作用

1为什么会产生RDD(1) 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。 (2) RDD是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理...

2018-04-26 11:45:09 1786

原创 spark运行模式中的一些错误

错误一Caused by: ERROR XJ040: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@19105a87, see the next exception for details. ...

2018-04-26 10:57:56 5909 2

原创 从源码中进行详细剖析什么是RDD

1 源码地址源码地址,这里建议搭建使用maven进行项目构建,方便查看源码。2 什么是RDD下图给出了源码中的一段注释: 可以理解为:是弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合;这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 1. Resilient:是指在任何时候都能进行重算,是一种有容错机制的...

2018-04-26 10:37:21 348

原创 Spark的好处及优势

1 官网地址链接地址2 MapReduce局限性1)繁杂:Map和Reduce两种操作 2)处理效率低效。IO:Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调 度和启动开销大;进程级别 Map端和Reduce端均需要排序 3)不适合迭代计算(如机器学习、图计算等),交互式处理(数据挖掘) 和流式处理(点击日志分析)...

2018-04-23 21:41:29 19094

原创 Spark中的一些基本概念,及运行流程

1 Spark中的一些基本概念话不多说,先来一个官网地址:链接 1. Application:用户基于spark的代码,由一个Driver和多个Excutor组成。 2. Application jar:将用户基于spark的代码打包成的jar包。 3. Driver program:运行application的main()函数并自动创建SparkContext。通常SparkCon...

2018-04-23 21:03:46 1427

原创 spark运行模式

1概述saprk的运行模式:local/yarn/standalone/mesos/k8s;local模式是最常用的一种模式。spark目录介绍total 108drwxr-xr-x. 3 hadoop hadoop 4096 Mar 3 08:34 bindrwxrwxr-x. 2 hadoop hadoop 4096 Apr 20 07:47 confdrwxr-...

2018-04-23 17:29:04 344

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除