![](https://img-blog.csdnimg.cn/20210924103623831.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 64
Apache Spark™是用于大规模数据处理的统一分析引擎。
大数据学习僧
大数据从业者
项目经理背锅者
业务需求对接者
代码灵魂改造者
PPT熬夜设计者
展开
-
Spark常见报错与解决方案【三】
原因:数据量太大,内存不够解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores(2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启(2)节点其他服务多,抢占内存资源,NodeManager处于假死状态解决方案:(1)确保节点没有过多其他服务进程(2)扩大磁盘容量(3)降低内存可分配量,比如为总内存的90%,原创 2022-12-07 16:19:43 · 4149 阅读 · 0 评论 -
几段白话文讲明白Spark工作原理(面试必会)
去面试大数据的时候,面试官一定会问你一些常见的大数据组件以及其工作流程是否熟悉,下面几次会分享大数据面试干货,赶快学起来吧。原创 2022-06-15 13:58:18 · 258 阅读 · 0 评论 -
SparkConf常见参数设置
val sparkConf: SparkConf = new SparkConf() .set("spark.driver.cores","20") //设置driver的CPU核数 .set("spark.driver.maxResultSize","20g") //设置driver端结果存放的最大容量,这里设置成为20G,超过20G的数据,job就直接放弃,不运行了 .set("spark.driver.memory","40g") //dri...原创 2022-01-24 13:59:37 · 4757 阅读 · 0 评论 -
看完本篇文章,下次遇到Spark报错就迎刃而解了,Spark调优再也不用求人解决了
今天和各位聊一聊Spark使用中遇到的问题之Spark调优小伙伴们一定在生产环境中遇到过Spark各种各样的问题,比如在Spark UI界面发现某个Task运行特别缓慢,还存在着内存溢出问题,又比如产生了数据倾斜,某个task处理的数据特别多,拖慢了整个任务的执行时间 等等,我们该如何下手解决这一系列棘手的问题呢?首先我们通过以下几个方面进行调优资源方面JVM方面算子方面Shuffle阶段数据倾斜方面1.资源方面1.1 给任务分配充足的资源在yarn提交任务的时候配置一下参数-.原创 2022-01-20 18:43:48 · 2008 阅读 · 0 评论 -
Spark常见异常: java.util.concurrent.TimeoutException: Futures timed out
执行spark on yarn任务时报错:Caused by : java.util.concurrent.TimeoutException: Futures timed out after 1000s参考此网站This happens because Spark tries to do Broadcast Hash Join and one of the DataFrames is very large, so sending it consumes much time.You can:Set原创 2021-12-06 21:38:38 · 2763 阅读 · 0 评论 -
spark 2.X 版本各种疑难问题汇总
当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。各种版本不一致各种内存溢出其他问题版本不一致1)java版本不一致报错:java.lang.UnsupportedClassVersionError: com/immomo/recommend/RedisDao: Unsupported major.minor version 52.0处理:该问题一般是spa原创 2021-08-19 11:11:27 · 1772 阅读 · 0 评论 -
Spark程序运行常见错误解决方法以及优化
执行spark任务遇到数据量巨大的表时,任务经常出现心跳超时报错org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTime原创 2021-07-07 11:17:42 · 9162 阅读 · 0 评论 -
大数据之SparkHive在生产实际中的如何优雅的解决数据倾斜的问题
问题: 原数据匹配事件名称、定位信息,因某个字段对应的数据条数特别多,任务运行时间较长,在shuffle时候失败。报错信息:ShuffleMapStage has failed the maxinum allowable number of timesCaused by :io.netty.utile.internal.OutOfDirectMemoryError:failed to allocate 16777216 bytes of direct memory(used:3741319168,.原创 2021-01-22 11:58:12 · 759 阅读 · 0 评论 -
Spark广播变量之超大表left join小表时如何进行优化以及小表的正确位置
数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划(physical plan)阶段,Spark 的 JoinSelection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join(equi-join) 还是不等值(non-equi-joins)以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略(join strategies),最后 Spark 会利用选择好的 Join 策略执行最终的计算。BHJ 又称原创 2020-09-22 11:58:10 · 7280 阅读 · 4 评论 -
Spark从SQL的解析、执行与调优到Sparksql的解析的史上最全介绍
从SQL的解析、执行与调优到Sparksql的解析与应用SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sql语句被语法解析(SQL AST)成查询计划,或者我们通过Dataset/DataFrame提供的APIs组织成查询计划,查询计划分为两大类:逻辑计划和物理计划,原创 2020-09-22 11:51:30 · 1467 阅读 · 1 评论