flink cdc全量阶段拉取数据过多导致java heap space

最新推荐文章于 2023-08-23 23:37:34 发布

不跟我会神死

最新推荐文章于 2023-08-23 23:37:34 发布

阅读量770

点赞数

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoye1360715890/article/details/130809902

版权

使用阿里云flink实时计算平台,全新启动flink作业后,作业不报错,无任何异常,也不拉取数据.

更换最新vvr引擎版本再次启动后,作业task manager报错java heap space

排查到这张表的单条数据非常大,有个字段时text类型,而flink cdc 拉取数据是用select *去拉取的,导致查出来的数据非常多,且这些数据全部在内存中

于是调整tm内存到16g后再次全新启动,这次就正常拉取数据了.

实际启动的时候可以根据表的相关数据计算内存应该给到多少,也可以缩小chunk的size.

chunk size = 数据因数 * 基数

基数默认是8096,这个值可以进行配置

数据因数=(主键最大值 - 最小值) / 估算的数据行数,注意,这里数据行数是用 SHOW TABLE STATUS 查出来的,取得是Rows字段

不跟我会神死

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
flink cdc全量阶段拉取数据过多导致java heap space

排查到这张表的单条数据非常大,有个字段时text类型,而flink cdc 拉取数据是用select *去拉取的,导致查出来的数据非常多,且这些数据全部在内存中。数据因数=(主键最大值 - 最小值) / 估算的数据行数,注意,这里数据行数是用 SHOW TABLE STATUS 查出来的,取得是Rows字段。使用阿里云flink实时计算平台,全新启动flink作业后,作业不报错,无任何异常,也不拉取数据.实际启动的时候可以根据表的相关数据计算内存应该给到多少,也可以缩小chunk的size.
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。