Spark
Spark相关内容
蜗牛^_^
学无止境
展开
-
Spark应用卡住监控
前言本文基于structured streaming开展。spark应用部署后因集群资源不足等问题导致应用出现‘卡住’现象,如下图所示。我们在应用部署后不可能时时关注应用的运行状况,应用可能卡住一晚、一天甚至更长时间,那么及时发现应用‘卡住’现象,排查卡住原因,也是很有必要的。参考1.spark官网提供了Monitoring Streaming Queries板块。有两种用于...原创 2020-03-14 09:15:53 · 677 阅读 · 0 评论 -
Spark应用中断监控
前言本文主要是围绕spark on yarn cluster模式运行spark应用。在实际应用中,会碰到这种情况,应用被中断、应用未中断但是不执行计算、应用中某些任务失败等。我们将应用部署后,不可能时时都关注,当应用被中断时,怎么能尽快恢复应用的正常运行。我这里采用脚本+服务监控的方式进行维护。实践一般情况下,查看应用的运行情况,我的流程:那么我的脚本+服务监控方式是围绕上述流...原创 2019-12-26 13:49:18 · 1427 阅读 · 0 评论 -
Hdfs主备切换导致spark应用中断
场景:使用structured streaming消费kafka中数据写入hdfs中说明:集群有两个namenode,分别为node1,node2。起初node1状态为active,在程序中涉及hdfs路径的地方,写的是hdfs://node1:8020/your path。后来集群中node1为standby状态,node2为active状态,spark应用就会中断,除非将hdfs路径修改为...原创 2019-12-03 14:35:15 · 453 阅读 · 0 评论 -
Spark资源参数调优
目录资源参数参考资料资源参数1)num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Sp...原创 2019-11-25 10:06:33 · 218 阅读 · 0 评论 -
Spark on YARN的cluster模式
目录YARN架构Spark on YARN的cluster模式常用命令日志查看与处理参考资料YARN架构YARN是Hadoop2.0之后出现的集群资源的管理与任务调度的分布式框架。资源管理:集群中的资源(如内存、cpu)使用情况由主节点ResourceManager管理。从节点NodeManager管理自己所在节点的资源使用情况并报告给主节点Resou...原创 2019-10-10 09:24:12 · 754 阅读 · 0 评论 -
spark报错Permission denied: user=test, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
项目背景使用structured streaming消费kafka某个topic数据并写入hdfs上。本地运行没有错误,部署在yarn上报错。问题排查根据报错提示,是test用户没有权限操作hdfs的根目录,hdfs用户有权限。则使用hdfs用户进行部署,运行正常。发现在hdfs根目录下生成文件/yarn/nm/usercache/hdfs/appcache/application...原创 2019-09-18 11:02:35 · 1333 阅读 · 0 评论 -
Structured Streaming写数据到Hbase中
版本:spark 2.2.0,hadoop 3.0.0,hbase 2.0.0实现:1)pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spar...原创 2019-07-20 11:44:59 · 1711 阅读 · 3 评论 -
Spark消费Kafka数据按日期写入Hdfs
需求:将同一天的数据写入到同一个文件中,文件以当天日期命名。版本:spark 2.2.0,hadoop 3.0.0,scala 2.11实现:1)pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> ...原创 2020-12-24 11:01:35 · 1109 阅读 · 0 评论 -
spark报错java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasK
使用场景:通过spark的Structured Streaming消费kafka中指定topic的数据,将分析结果写入到hbase中报错:java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/S...原创 2019-06-26 17:33:19 · 3392 阅读 · 0 评论 -
spark sql+mysql+hbase
背景项目中之前采集的数据存储在MySQL表中,约100万条,现需要将MySQL表中的数据按需求存储在HBase中。准备工作1)表结构(下述表结构仅用于演示)MySQL:CREATE TABLE `test` ( `Id` int(11) NOT NULL AUTO_INCREMENT, `ip` varchar(15) NOT NULL DEFAULT '', `...原创 2019-05-07 15:47:12 · 422 阅读 · 0 评论