![](https://img-blog.csdnimg.cn/2021070710211211.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flink生产实战!
文章平均质量分 70
学习以及生产实践
FishMAN_已存在
热情
展开
-
Flink任务日志写到kafka【最新1.12,1.13】
这篇文章如果对你有帮助,记得点赞哦!有问题也可以给我评论~一、背景公司的日志希望能够同一到一个Kibana去做一个同一的展示,那就需要将任务的日志写到kafka。Flink1.12默认的日志框架就是log4j2,那么配置的方式跟之前log4j的方式有了一些区别,这边也踩了一些坑才解决。二、需要解决的痛点 - 如何区分JobManager和TaskManager的日志 - 如何将jobName信息添加到每条日志中,为后期的日志聚合提供方便三、详细配置介绍1、log4j.proper原创 2021-06-15 19:30:54 · 2866 阅读 · 16 评论 -
解决flink消费kafka过期数据和目前存量数据的计算(未来的方向)
背景:目前公司业务需要统计超过7天以上的特征统计,但是kafka只存7天的数据,如果只想通过flink sql去计算30天的用户特征要求当天生效,这是完不成的,但是看到下面的分享,感觉未来的方向有了。一、2021 Apache Flink Meetup - Hosted by Netflix 的youtobe视频分享目前这是Netflix的分享,目前还未将backfilling 的功能贡献回 iceberg 社区https://www.youtube.com/watch?v=rtz3p_iijP8原创 2021-02-02 18:06:16 · 2082 阅读 · 2 评论 -
java.io.FileNotFoundException: File does not exist: hdfs://xxx
一、产生问题背景我们公司正在准备从cdh迁回社区版hadoop集群,启动flink任务的时候,还未运行就直接报错:Caused by: org.apache.flink.yarn.YarnClusterDescriptor$YarnDeploymentException: The YARN application unexpectedly switched to state FAILED during deployment.Diagnostics from YARN: Application appl原创 2021-01-27 11:35:59 · 7914 阅读 · 2 评论 -
Hadoop和hive-exec-3.1.2的Guava的版本冲突导致Flink任务启动异常
一、背景1、出现异常公司准备从CDH迁回社区版Hadoop集群,直接把Hadoop升级为比较新的3.30版本,Hive升级为3.12版本。Flink编译的是1.12.0版本,启动自己的测试直接报出下面的错,甚至启动官方的demo任务也会报相同的错。Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument (ZLjava/lang/String;Ljava/lang/Object;原创 2021-01-27 11:32:23 · 3765 阅读 · 4 评论 -
Flink部署模式的调研(看完你就知道你公司适合哪种)
一、调研的三种模式:1、Flink On Yarn(1)PerJob模式一个任务一个集群(2)Session模式多个任务一个Session,可以启多个Session2、Standlone模式多个任务一个集群,可以启动多个集群,还可以在每个节点另起多个taskmanager二、不同模式的对比perjob_yarnsession_yarnstandlone_cluster占优集群一个任务一个集群多个任务一个集群,可以有多个集群一个集群perjob_yarn &原创 2021-01-14 15:24:12 · 256 阅读 · 0 评论 -
Flink编译(包括最新Flink1.12编译)
一、源码下载1、github地址(选择对应的release版本)https://github.com/apache/flink/tree/release-1.122、关于flink 分支的选择最好选用release-xxx版本,少用tag版本3、flink不同版本之间的编译区别Flink不同版本间的编译区别,我的另一篇文档二、编译1、编译命令:我的maven版本是3.25,也用了多线程编译,刚好我的版本也是官网推荐是3.25编译cd xxxx/flinkmvn clean instal原创 2021-01-14 15:21:32 · 1583 阅读 · 0 评论 -
Flink不同版本间的编译区别
一、1.11.0版本及以前以前的方式是先编译flink-shaded-hadoop这个包,将hadoop和hive指定你对应生产的版本编译出flink-shaded-hadoop-2-uber_xxx包,然后将这个包放在lib的目录下,flink启动任务的时候去lib加载。想用这种方式可以参考两个链接:https://blog.csdn.net/weixin_44628586/article/details/107106547https://blog.csdn.net/guiyifei/ar原创 2021-01-14 15:20:09 · 1040 阅读 · 2 评论 -
Flink HistoryServer配置(简单三步完成)
#HistoryServer允许您查询JobManager存档的已完成作业的状态和统计信息。(官网原话)最适合用于:了解 flink过去完成任务的状态,以及有状态作业的恢复(保存了最后一次的checkpoint地址)官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.11/monitoring/historyserver.html官网配置参数:https://ci.apache.org/projects/flink/flink原创 2021-01-14 15:18:44 · 2769 阅读 · 1 评论 -
Flink日志配置(基于flink1.11.1)
###滚动日志的配置flink日志的配置主要是将配置放在flink/conf下面才起作用下面是我的滚动日志的配置,能够实现将过期的日志清掉,只保存最新7份50M的日志。实现滚动的日志效果图:配置文件: /flink/conf/log4j.properties# This affects logging for both user code and FlinkrootLogger.level = INFOrootLogger.appenderRef.rolling.ref = Rolli原创 2021-01-14 15:17:05 · 635 阅读 · 0 评论 -
Flink Checkpoint和Savepoint大小差那么大你知道吗?
偶然的“有空”的发现用了flink半年多了,平常有使用checkpoint和savepoint,比较关注任务的checkpoint的大小,但是没有关注两者大小上的区别,正好为了应对国庆节可能会遇到的故障演练,就关注到了两者的区别。flink UI Checkpoint监控图可以看到checkpoint和savepoint的大小差别:1.checkpoint状态大小比较小是因为我开启了rocksDB的增量模式,所以UI上看到的Checkpointed Data Size官网上说明是增量的数据。翻看原创 2021-01-14 15:16:07 · 993 阅读 · 1 评论 -
Flink CDC 原理及生产实践(持续更新中 ...)
MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据ververica官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。一、依赖关系为了设置MySQL CDC连接器,下表提供了使用构建自动化工具(例如Maven或SBT)和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency> <groupId>com.alibaba.ververica</groupI原创 2021-01-14 15:14:17 · 1309 阅读 · 0 评论 -
最新版本Flink 1.12.0 的sql-cli配置连接yarn-session
一、主要参考见:https://mp.weixin.qq.com/s/99ehmNzJVwW3cOrw_UkGsghttps://mp.weixin.qq.com/s/YuR-s5zCtBz_5ku_bttbawhttps://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/#dependencieshttps://ci.apache.org/projects/flink/flink-doc原创 2021-01-14 15:09:47 · 1258 阅读 · 4 评论 -
Flink Sql on Hive 的生产遇到的坑以及优化(持续更新 ...)
1、HiveSource-xxxx.xxxx’s parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.(1)报错这是sql-cli 连接hive,查一张表报的错[ERROR] Could not execute SQL statement. Reason:org.apache.flink.runtime.JobE原创 2021-01-14 15:08:30 · 4397 阅读 · 13 评论