Spark的这些事
文章平均质量分 68
数据社
欢迎关注公众号:数据社
展开
-
spark异常:missing an output location for shuffle 0
Spark 任务执行报错。。。原创 2022-07-12 14:09:49 · 8625 阅读 · 0 评论 -
Spark的这些事<二>——几个概念
1、SparkContext [经常简称为 sc]spark app 的起点和入口,一般用来加载数据集,生成第一个 rdd。2、定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。加载数据集加载数据集,这里的数据集大概分为两组: - 一种是不变的,静态数据集,大多数场景都是从数据库,文件系统上面加载进来 - 另一种是动态的数据集,一般做 stre原创 2016-08-12 12:59:37 · 1308 阅读 · 0 评论 -
Spark的这些事<四>——SparkSQL功能测试结果
一、Spark与Hive的差异(1)、in 不支持子查询(2.0支持https://issues.apache.org/jira/browse/SPARK-4226) eg: select * from tb_test1 where serv_number in (select serv_number from tb_test1 where serv_number=138);(2)、minus 不原创 2016-12-14 16:43:43 · 2278 阅读 · 0 评论 -
Spark的这些事(五)—Spark on yarn 动态资源配置
一、YARN的配置 首先需要对YARN进行配置,使其支持Spark的Shuffle Service。修改每台集群上的yarn-site.xml: - 修改<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle,spark_shuffle</value></property> - 增加<pro原创 2017-04-12 10:50:02 · 6454 阅读 · 0 评论 -
收藏|Flink比Spark好在哪?
1 Flink介绍Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台。和Spark类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批...原创 2020-09-30 06:49:00 · 12074 阅读 · 0 评论 -
Spark的这些事<一>——Windows下spark开发环境搭建
一、首先准备需要安装的软件 scala-2.10.4 下载地址:http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfinal-2.11-win32.win32.x86_64 下载地址:http://scala-ide.org/ spark-1.6.2-bin-hadoop2.6 下载地址:http://spar原创 2016-07-18 19:09:31 · 2325 阅读 · 0 评论 -
四万字长文 | Spark性能优化实战手册
本文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优篇》《Sp...转载 2020-12-21 07:00:00 · 1079 阅读 · 0 评论 -
三万字,Spark学习笔记
Spark 基础 Spark特性Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景...原创 2021-01-12 07:14:00 · 12368 阅读 · 2 评论 -
Spark的这些事<三>——spark常用的Transformations 和Actions
Transformationsmap,filter spark最长用的两个Transformations:map,filter,下面就来介绍一下这两个。先看下面这张图:从上图中可以清洗的看到 map和filter都是做的什么工作,那我们就代码演示一下。 val input = sc.parallelize(List(1,2,3,4)) val result1 = input.map(x原创 2016-08-17 19:58:21 · 1545 阅读 · 0 评论 -
三面字节总结:Spark+hadoop+数据仓+Flink+kafka 资料一应俱全!
从时间节点上来看,每年的 3月、4月是一年中求职跳槽的黄金季!最近也收到很多小伙伴的后台留言 “有没有大数据学习资源,进阶学习路线,PDF,电子书,面试文档等等...” 一系列问题,这篇文章等于是针对以上的问题统一做回答了。肝了一周,做了一些资源筛选,依照自己的学习经验和相关的资料做个整理,把一些我看过的精品视频,技术书籍,学习路线,面试文档等资源一并打包好分享给大家,质...转载 2022-04-18 13:56:00 · 6348 阅读 · 0 评论 -
Spark如何进行动态资源分配
一、操作场景对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务,若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却...原创 2020-10-16 06:50:00 · 5348 阅读 · 1 评论 -
Spark如何求解中位数
关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。Python计算中位数import numpy as npnums = [1.1,2.2,3.3,4.4,5.5,6.6]均值np.mean(nums)中位数np.median(nums)在hive中没有直接提供相关的mean函数,但官方提供了两个UDAF,percentile和percentile_approx。我们看下官方是怎么说的DOUBLEperce原创 2020-05-29 14:36:02 · 18983 阅读 · 0 评论