spark
文章平均质量分 80
Zzreal
这个作者很懒,什么都没留下…
展开
-
Spark之数据倾斜(一)
写在前面 在任何大数据类的项目中,数据倾斜都是最棘手的性能问题,最能体现人的技术能力,最能体现RD(Research Developer,研发工程师)的技术水平。数据倾斜 = 性能杀手,如果没有丰富的经验,或者没有受过专业的技术培训,是很难解决数据倾斜问题的。 所以,数据倾斜解决方案,在整个项目中,都是非常非常核心、有含金量、有价值的。数据倾斜产生后的现象:原创 2017-12-13 20:25:47 · 3110 阅读 · 0 评论 -
Spark之数据倾斜(二)
数据倾斜解决方案: (四)提高shuffle操作的reduce并行度 一个简单的方法,可以一定程度的缓解数据倾斜,但是,它治标不治本。将reduce task的数量变多,可以让每个reduce task分配到更少的数据量,这样的话,也许就可以缓解或者甚至是基本解决掉数据倾斜的问题。这种方案实施也简单,调用shuffle算子,比如groupByKey、coun原创 2017-12-14 09:01:35 · 3081 阅读 · 0 评论 -
Spark之数据倾斜(三)
数据倾斜解决方案:(六)将reduce join转换为map join对于join这种操作,不光是考虑数据倾斜的问题;即使是没有数据倾斜问题,也完全可以优先考虑。将reduce join转map join的技术,牺牲一点内存资源,不会发生shuffle操作,从根源上避免数据倾斜。 如果两个RDD要进行join,其中一个RDD必须是比较小的,broadcast出去那个小RDD的数据原创 2017-12-28 11:00:03 · 3096 阅读 · 0 评论 -
Spark架构综述
一、Spark概述1、什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎。它集批处理、实时流处理、交互式查询和图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。2、Spark的优点①速度。与hadoop的MR相比,Spark的运算要快100倍以上;而基于硬盘的计算也要快10倍以上。②易用。Spark支持java、python、scala的API,原创 2018-01-27 16:57:42 · 3233 阅读 · 0 评论 -
Spark的常用RDD
1)转换算子--transformations ++ 合并两个RDD。生产一个新的RDD cache 缓存rdd,减少之后使用相同逻辑rdd的计算量,只有一个级别 Memery cartesian 笛卡尔集 coalesce 重新设置分区操作,注意,有两个参数,一个分区个数,是否shuffle。 collect 根据一个原创 2018-01-27 17:01:06 · 3232 阅读 · 0 评论 -
Spark的RDD概述
弹性分布式数据集(RDDS)---RDD是只读的、分区记录的集合,只支持粗粒度转换,即在大量记录上执行的单个操作。Spark 主要以一个弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元素的集合。1、RDD的五个特征:①分区:有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行计算,是数据集的原子组成部分。②函数:计算每个分片,得出一个可遍历的结果,原创 2018-01-18 21:29:53 · 3157 阅读 · 0 评论 -
SparkSQL
SparkSQL的前身是Shark,它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。 1、Spark SQL性能Spark SQL比hive快10-100倍原创 2018-02-03 19:24:33 · 3292 阅读 · 0 评论 -
Spark的运行模式
Spark的运行模式Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及hadoop YARN模式原创 2018-01-29 20:35:34 · 3171 阅读 · 0 评论 -
SparkTroublshooting
加班至深夜,等车回家,发觉好久没写博客了,扒拉点存货,象征性的更新一把。TroubleShooting1、CDH集群默认使用内嵌数据库,要改成mysql①需要自己安装mysql;②提示JDBC driver cannot be found.Unable to find the JDBC databases jar on host解决方案:拷贝mysql-connector-ja...原创 2019-01-24 21:58:01 · 393 阅读 · 0 评论