回顾｜Apache Flink Meetup · 北京站（附问题解答 & PPT 下载）

最新推荐文章于 2023-03-23 17:25:03 发布

Apache Flink

最新推荐文章于 2023-03-23 17:25:03 发布

阅读量385

点赞数

文章标签：数据库 java 大数据 kafka spark

原文链接：https://mp.weixin.qq.com/s?__biz=MzU3Mzg4OTMyNQ==&mid=2247500392&idx=1&sn=e1f37eb19efb114ebd7f2d520faf2973&chksm=fd384c2aca4fc53cee54ad709e5f5b2bcfb9b9c69773c3774febdb317688adc7dfc050182035&scene=126&&sessionid=0

版权

Flink 1.16、Flink Batch、更轻量的 Checkpoint、Table Store 0.2、 Streaming Warehouse 、流批一体...这些都是 9 月 24 日 Apache Flink Meetup 的关键词。

Flink Meetup 活动现场

向右滑动查看更多

更多活动现场照片：https://live.photoplus.cn/live/pc/91397712/#/live

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网：

https://flink-learning.org.cn/activity/detail/f30571911e47478ddf4047eeb518d796

移动端

PPT：关注 Apache Flink 公众号，回复 0924

视频：关注 ApacheFlink 视频号，查看直播回放

线上问题解答

01《更快更稳更易用 -- Flink 批处理能力演进》

问：自适应这个是默认开启吗？

答：目前没有默认开启，需要用户配置使用自适应批处理调度器来启用。具体可以参考社区文档

https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/deployment/elastic_scaling/#adaptive-batch-scheduler

问：自适应能不能解决数据倾斜问题？

答：当前版本还不能。但是 Adaptive Batch Scheduler 的实现已经为数据倾斜的解决提供了基础。后续我们会根据各个数据分区的大小，对其进行分组，使得各个下游消费的数据尽可能均衡。当然，这样解决不了非常严重的热点 key 问题。不过动态执行拓扑的引入，使得引入子拓扑来对热点 key 进行拆分整合成为了可能，从而解决热点 key 的问题，我们会持续关注这方面的需求并考虑完善的解决方案。

02《Flink 1.16：Hive SQL 如何平迁到 Flink SQL》

问：能不能把一些额外的组件和 flink 项目分开。感觉和 flink 版本绑定了，用 sqlclient 等组件就必须用那个版本的 flink。

答：目前Flink仓库的一些 connector 正在搬出 Flink 主仓库，之后 Flink 项目会瘦身。SQL Client 正在重构并通过 REST API 对接到 SQL Gateway。届时 SQL Client 可以与 Flink 版本解耦，可以同时对接多个版本的 SQL Gateway 和 Flink 集群版本。

问：sql gateway 后续会支持 spark/trino 引擎吗？

答：SQL Gateway 目前只面向 Flink 引擎。外部的生态系统可以通过 SQL Gateway 搭建多引擎平台。

问：sql gateway 与 kyuubi 的定位是否类似？

答：两者的定位和作用是类似的，都是为查询引擎提供 SQL 服务。但两者又有所不同， Kyuubi 起源于为 Spark/Hive 提供 SQL 服务，主要面向批场景。但是 Flink SQL Gateway 主要面向的是 Flink 引擎，从一开始就将流批一体的能力设计进去了，能同时很好地支撑Streaming SQL和Batch SQL的用户场景。

问：sqlgateway 和 kyuubi flink 引擎有什么不同？有哪些优势吗？

答：目前 SQL Gateway 在功能上对 JDBC 的支持更为完善（getPK，getColumns），支持同步/异步执行SQL，能无缝对接主流 Hive 生态工具。第二个就是 kyuubi 主要依赖 Hive 接口来暴露服务，Hive 的纯批语义无法支持 CDC 的 DELETE、UPDATE_BEFORE、UPDATE_AFTER 等消息类型，但是我们的 SQL Gateway 还提供了 REST API，对Streaming SQL提供了原生支持。第三，SQL Gateway 的 HiveServer2 Endpoint 与 Hive 做了深度集成，便于用户直接将 Hive 作业无缝迁移到 Flink。

问：sqlgateway 支持哪几种模式？三种模式都支持吗？

答：目前只支持 session, per-job 模式，但还不支持 application 模式。

问：未来会支持 spark/presto sql 方言么？

答：其实 spark 方言和 hive 方言比较类似。一些 spark sql 任务也可以使用 Hive dialect 来解析然后通过 Flink 来运行。presto sql 方言目前还没规划。

问：sqlgateway 是否提供多租户能力，是否能支持鉴权功能、HA功能？

答：目前支持多租户，但还不支持鉴权功能和 HA 功能，将来后续版本中支持。

03《基于Log的通用增量Checkpoint》

问：这是什么版本的优化

答：1.15开始支持，1.16做了一些性能优化和状态特性的兼容等，基本生产可用，可以参照1.16的文档使用

问：有没有一种场景是要获取上一个成功的任务的状态，接着下一个开始，又不想查数据，可以直接获取到。不想使用流任务占资源。

答：是说在多个任务之间共享状态吗？这个的话可以考虑下State Processor API

问：基于 log 的 checkpoint 是如何影响 flink table store 的？整个过程是怎么样的？

答：可以把table store当成事务性sink来看，目前table store推荐的cp interval是1 mins，近实时，但是否实际cp能在1 mins完成，或者是否能配置更低的interval来让table stroe中的数据更实时，取决于cp完成得多快，changelog是可以在这方面做提升的

问：这个通用增量 checkpoint 是以 rocksdb 为 state backend 时设置增量 checkpoint 的另一选择吗？

答：两者是正交的，可以在state.backend.incremental设置为true的基础上再打开changelog

04《基于 Flink CDC + Kafka 加速业务实时化》

问：如果仅仅是一个库的多张表呢？只能多条语句吗？

答：可以使用 CREATE DATABASE AS (CDAS) 同步同一数据库中的多张表

问：除了 mysql＆kafka 数据同步外，schema 能同步到 registry 吗？

答：暂不支持该功能

问：flink cdc 全量和增量利用 watermark 是怎么切换的？具体是怎么配置的？

答：这里的 watermark 与 Flink watermark 概念不同。为避免全量读取过程中数据发生变化产生不一致，在进行全量读取之前首先会记录当前 binlog 的位点，记为 low watermark，在全量读取结束后再记录一次 binlog 位点作为 high watermark，然后再将 low / high watermark 之间对全量数据产生的变更 binlog 合并到全量读取的数据中，实现全量数据的完全一致。

问：cdc 将不同数据源同步到 kafka 中，有没有对消息体数据格式做统一，消息体是否带 schema？

答：Kafka 消息统一使用 JSON 格式，不会单独记录 Schema。

问：kafka catalog 在哪里记录的 topic schema 呢？

答：Topic schema 不会单独记录。Kafka JSON Catalog 在读取表时会通过探测的方式首先读取多条数据、解析 JSON 来确定 schema。

问：demo 里用的什么版本的 kafka

答：Demo 使用了 Kafka 2.4.1，但该功能不绑定于某个 Kafka 版本。

问：作业启动后中途要添加一张表的同步要怎么处理？

答：暂时无法处理新表，MySQL CDC source 后续会增加动态加表的能力

问：flink cdc 整库除了入 kafka 外，能入湖和入仓吗？

答：商业版已支持数据同步到 Hologres，其他数据湖/仓库会陆续支持。

问：flink cdc＆kafka 同一个库下大表和小表同步资源使用上有什么不同策略么？

答：默认不会对不同表的资源做特殊处理，但用户可以在平台上手动配置算子并发。

Flink CDC 交流钉群

05《Flink Table Store 典型应用场景》

问：flink table store 什么版本可用？

答：flink table store 0.1.0 是 beta 版本，0.2.1 是生产可用版本。支持 flink 1.14 和 1.15 版本。

问：宽表合并中若两条流没有公共 pk 怎么办？

答：0.3会考虑这种场景的打宽，后续会有单独设计

问：fts 会有小文件问题么？

答：flink table store 在写数据的同时异步 compaction

问：flink sql gateway 的进度能介绍下吗？

答：flink-sql-gateway 会在1.16发布

问：目前 table store 不支持流读是么？还没有changelog

答：支持流读，数据库cdc可以配置changlog-producer=input来优化读取性能

Flink Table Store 交流钉群

Flink Forward Asia 2022 正式启动

点击查看详情

点击「阅读原文」，查看视频 & PPT

Apache Flink

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回顾｜Apache Flink Meetup · 北京站（附问题解答 & PPT 下载）

Flink 1.16、Flink Batch、更轻量的 Checkpoint、Table Store 0.2、 Streaming Warehouse 、流批一体...这些都是 9 月 24 日 Apache Flink Meetup 的关键词。Flink Meetup活动现场向右滑动查看更多更多活动现场照片：https://live.photoplus.cn/live/pc/91397712/...
复制链接

扫一扫