Flink
文章平均质量分 76
别这么骄傲
学习就是在不断的反思和总结,反思自己的不足,总结自己的缺点,迎难而上,向来都是逆水行舟,不进则退,get and bug。
展开
-
lookup join 使用缓存参数和不使用缓存参数的执行前后对比
【代码】lookup join 使用缓存参数和不使用缓存参数的执行前后对比。原创 2024-12-24 01:23:41 · 494 阅读 · 0 评论 -
flink中sql关键字一不小心使用了状态,你真的都知道吗
以下操作会引入状态:(1)聚合:SUM, COUNT, AVG, MAX, MIN 等。(2)窗口:TUMBLE, HOP, SESSION, CUMULATE 等。(3)JOIN:时间窗口 Join、流对表 Join。(4)DISTINCT去重操作 和 GROUP BY 分组操作。(5)OVER 窗口:滑动窗口聚合。(6)TOP N:ROW_NUMBER(), RANK() 等。(7)自定义 UDF/UDAF。(8)使用Lookup Join 开启缓存状态引入的优化建议。原创 2024-12-23 16:18:42 · 312 阅读 · 0 评论 -
FlinkCDC的一些概念
Flink CDC 基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。目前,Flink CDC 的上游已经支持了 MySQL、MariaDB、PG、Oracle、MongoDB 等丰富的数据源,对 Oceanbase、TiDB、SQLServer 等数据库的支持也已经在社区的规划中。原创 2024-12-18 16:52:00 · 1005 阅读 · 0 评论 -
Flink CDC 生产环境常用参数总结
这些参数用于定优化数据处理的性能,减少对生产数据库的影响。原创 2024-12-18 18:50:57 · 1056 阅读 · 0 评论 -
使用Flinkcdc 采集mysql数据
验证 MySQL 配置: Flink CDC 依赖 MySQL 的 binlog 功能进行数据采集。log_bin = mysql-bin # 开启 binlog 功能,文件名为 mysql-bin。expire_logs_days = 30 # binlog 日志保留天数,自动清理超过30天的日志。(2)将下载的 JAR 文件放到 Flink 集群的 lib/ 目录 中,重启flink集群。启动flink sql客户端。(1)或者虚拟机在线下载。原创 2024-12-18 18:36:14 · 1555 阅读 · 0 评论 -
Flink Lookup Join(维表 Join)
Lookup Join 其实就是维表 Join,比如拿离线数仓来说,常常会有用户画像,设备画像等数据,而对应到实时数仓场景中,这种实时获取外部缓存的 Join 就叫做维表 Join。原创 2024-11-19 00:46:30 · 855 阅读 · 0 评论 -
Checkpoint机制和生产配置
Checkpoint机制,又叫容错机制,可以保证流式任务中,不会因为异常时等原因,造成任务异常退出。可以保证任务正常运行。(1)能在集群异常时,保持已计算的数据,下次恢复时能在已保存数据的基础上,继续计算(类似于快照);(2)避免数据丢失(通过Barrier实现)Flink流式任务,需要长期运行,就算遇到一些数据异常问题等,也不能随便退出。Flink为了让任务能够在遇到异常退出时,能够重新启动,正常运行,Flink提出了重启策略的概念。原创 2024-04-24 00:25:29 · 1176 阅读 · 0 评论 -
Flink窗口机制
时间是为窗口服务的。窗口是什么?为什么会有窗口呢?(1)Flink要处理的数据,一般是从Kafka过来的流式数据,如果只是单纯地统计流的数据量,是没办法统计的。(2)所以,要人为的 加上了一个时间区间限制(窗口),才可以进行统计。原创 2024-04-21 01:01:22 · 1022 阅读 · 1 评论
分享