从0到1Flink的成长之路(二十)-Flink 高级特性（二）之存储 State 数据结构

最新推荐文章于 2024-03-02 21:06:33 发布

熊老二-

最新推荐文章于 2024-03-02 21:06:33 发布

阅读量713

点赞数 2

分类专栏： Flink 文章标签： flink 大数据

本文链接：https://blog.csdn.net/weixin_51329630/article/details/118269954

版权

存储 State 数据结构

前面说过：有状态计算其实就是需要考虑历史数据，而历史数据需要搞个地方存储起来。
Flink为了方便不同分类的State的存储和管理，提供了如下API/数据结构来存储State。
在这里插入图片描述
1）、Keyed State
Keyed State 通过 RuntimeContext 访问，这需要 Operator 是一个RichFunction。保存
Keyed state的数据结构:  ValueState：即类型为T的单值状态。这个状态与对应的key绑定，是最简单的状态。它可以通过update方法更新状态值，通过value()方法获取状态值，如求按用户id统计用户交易总额
ListState：即key上的状态值为一个列表。可以通过add方法往列表中附加值；也可以通过get()方法返回一个Iterable来遍历状态值，如统计按用户id统计用户经常登录的IP
ReducingState：这种状态通过用户传入的reduceFunction，每次调用add方法添加值的时候，会调用reduceFunction，最后合并到一个单一的状态值
MapState<UK, UV>：即状态值为一个map，用户通过put或putAll方法添加元素需要注意的是，以上所述的State对象，仅仅用于与状态进行交互(更新、删除、清空等)，而真正的状态值，有可能是存在内存、磁盘、或者其他分布式存储系统中，相当于只是持有了这个状态的句柄。

2）、Operator State
Operator State 需要自己实现 CheckpointedFunction 或 ListCheckpointed 接口，保存Operator state的数据结构：ListState和BroadcastState<K,V>。
举例来说，Flink中的FlinkKafkaConsumer，就使用了operator state。它会在每个connector实例中，保存该实例中消费topic的所有(partition, offset)映射。
在这里插入图片描述
State 代码示例

1 Keyed State
下图以WordCount 的 sum 所使用的StreamGroupedReduce类为例，讲解了如何在代码中使用

官网代码示例
managed-keyed-state
需求:
使用KeyState中的ValueState获取数据中的最大值(实际中直接使用maxBy即可)
编码步骤

//-1.定义一个状态用来存放最大值 private transient ValueState maxValueState;
//-2.创建一个状态描述符对象 ValueStateDescriptor

最低0.47元/天解锁文章

熊老二-

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
从0到1Flink的成长之路(二十)-Flink 高级特性（二）之存储 State 数据结构

存储 State 数据结构前面说过：有状态计算其实就是需要考虑历史数据，而历史数据需要搞个地方存储起来。Flink为了方便不同分类的State的存储和管理，提供了如下API/数据结构来存储State。1）、Keyed StateKeyed State 通过 RuntimeContext 访问，这需要 Operator 是一个RichFunction。保存Keyed state的数据结构:  ValueState：即类型为T的单值状态。这个状态与对应的key绑定，是最简单的状态。它可以通过upd
复制链接

扫一扫

专栏目录