spark
一枚老T
这个作者很懒,什么都没留下…
展开
-
(九)spark on yarn
YARN是一种统一资源管理机制,在其上面可以运行多套计算框架。目前的大数据技术世界,大多数公司除了使用Spark来进行数据计算,由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架,比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式,由于借助了YARN良好的弹性资源管理机制,不仅部署Application更加方便,...原创 2019-10-16 17:25:02 · 574 阅读 · 1 评论 -
(八)spark学习之数据倾斜
为什么要处理数据倾斜问题什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜原因在Spark中,同一个Stage的不同Partition可以并...原创 2019-07-28 16:50:20 · 234 阅读 · 0 评论 -
(七)Spark实战之 wordCount
一,代码实现之Scala命令行实现 $scala>val rdd1 = sc.textFile("/home/centos/test.txt") //获取文本文件,按行切分,以行为单位的String $scala>val rdd2 = rdd1.flatMap(line=>line.split(" ")) // 压扁打散行数据,获取所有行的所有单...原创 2019-07-20 00:37:19 · 210 阅读 · 0 评论 -
(六) Spark的Transformation和action介绍
RDD支持两种类型的操作:Transformation(从现有的数据集创建新的数据集)和action(在对数据集运行计算后将值返回给驱动程序)。例如,map是一种Transformation,它通过一个函数来传递每个数据集元素,并返回一个表示结果的新RDD。另一方面,reduce是一个action,它使用某个函数聚合RDD的所有元素,并将最终结果返回给driver驱动程序(尽管还有一...原创 2019-07-11 12:13:01 · 611 阅读 · 0 评论 -
(五)Spark学习笔记 之 累加器(Accumulator)及常见问题分析
Accumulator简介Spark提供的Accumulator,主要用于多个节点对一个变量进行共享性的操作。Accumulator只提供了累加的功能。但是确给我们提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作,不能读取它的值。只有Driver程序可以读取Accumulator的值。非常类似于在MR中的一个Counter计数器,主要用于统计...原创 2019-07-05 16:31:29 · 1343 阅读 · 1 评论 -
(四)spark之共享数据--广播变量
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。二、广播变量介绍比如数据库中一份公共配置表格,需要同步给各个节点进行查询。广播变量允许程序在每台机器上面缓存一个只读的变量,每台机器上的所有task共享这个只读变量。而不是每个任务保存一份拷贝。如果将变量声明为广播变量,那么只是每个executo...原创 2019-07-05 14:45:54 · 532 阅读 · 0 评论 -
(三)Spark core之RDD
1.什么是RDD?RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态,数据集是由数据的分区(partition)组成,并(由block)映射成真实数据。RDD属性包括名称、分区类型、父RDD指针、数据本地化、数据依赖关系等。RDD是理解Apache Spark 工作...原创 2019-07-04 11:38:57 · 167 阅读 · 0 评论 -
(一)初识Spark
1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计...原创 2019-07-04 09:59:39 · 164 阅读 · 0 评论 -
(二)spark HA安装部署
一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/回到顶部二、安装基础1、Java8...原创 2019-06-05 17:18:23 · 431 阅读 · 0 评论