spark structure streaming作业没有写checkpoint引起的灾难

最新推荐文章于 2023-03-04 10:55:16 发布

逍锅锅_

最新推荐文章于 2023-03-04 10:55:16 发布

阅读量739

点赞数 2

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/yx_keith/article/details/95184384

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

使用sturcture streaming统计kafka流数据的一些指标，将查询结果输出到mysql，由于中间没有数据落盘，所以就没有写checkpoint，因为心里想着如果程序宕掉其实也不需要保存offset，结果在本地local模式测试没有任何问题，但是提交到集群使用yarn调度就出现了问题，报错如下：

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=

test, access=WRITE, inode="/mnt/disk/hadoop/yarn/local/usercache/test/appcache/application_1561716696111_0215/container_e4

7_1561716696111_0215_02_000001/tmp/temporary-9486fc4b-f907-49dd-80c0-8daf08219974/metadata":hdfs:hdfs:drwxr-xr-x

很明显是 yarn appMaster没有启动起来，yarn运行的时候会在nodemanager节点上创建container，将所需的文件和资源拉到container,这里报了无法写container的错误。

起初一脸懵逼，因为test用户的其他spark任务都是可以正常运行的，唯独这个任务报了权限问题，非常诡异，后来仔细想了一下，这个任务和其他任务唯一的不同就是没有加checkpoint，索性加上checkpoint试试，加上之后果然成功。

原因可能是：structure streaming任务默认都是有checpoint功能，如果不指定checpoint地址，就会使用hdfs上默认的路径,而test用户没有权限写入该路径，所以就报了这个错误，看来以后所有的spark 流作业都需要手动加上checkpoint。

另外需要注意的一点：很多时候针对同一个topic的流数据，会有多个指标统计，比如我要用聚合查询分别统计1小时、半天和1天的某个指标，此时就需要在spark 作业中需要启动多个query，每个query针对不同指标，每个query需要一个start(),并且每个query需要各自的checkpoint，因为每个query都有自己唯一的query id，该id会记录在checkpoint路径中

逍锅锅_

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
spark structure streaming作业没有写checkpoint引起的灾难

使用sturcture streaming统计kafka流数据的一些指标，将查询结果输出到mysql，由于中间没有数据落盘，所以就没有写checkpoint，因为心里想着如果程序宕掉其实也不需要保存offset，结果在本地local模式测试没有任何问题，但是提交到集群使用yarn调度就出现了问题，报错如下：Caused by: org.apache.hadoop.ipc.RemoteExcep...
复制链接

扫一扫