【Flink状态】FsStateBackend 下 ValueState > MapState

【Flink状态】FsStateBackend 下 ValueState > MapState

背景:

对程序进行状态后端替换(Rocks —> Fs)时,程序产生了背压。(状态开启了TTL)

分析办法:

利用Arthas生成CPU采样火焰图,分析是否存在性能瓶颈。

分析过程

发现问题

CPU火焰图
在这里插入图片描述
明显看出来,程序在处理MapState时,进行TTL处理时,花费了大量时间,成为了性能瓶颈。

程序主要处理逻辑(已模糊化):
	1、将用户按用户组KeyBy(通过用户ID取余1000);
	2、利用MapState存储状态,该状态存储了多个用户数据;(1万用户/Key)
源码分析
MapState的底层对象。

在这里插入图片描述
如图,无论是Fs还是RocksDB,都采用TtlMapState封装。
当对MapState进行读取, 通过getWrapped拿到封装后的TtlValue返回,里面包含userValue、lastAccessTimestamp,即用户存储的状态,以及最后一次访问时间(用于判断是否过期);

org.apache.flink.runtime.state.ttl.TtlMapState

@Override
	public UV get(UK key) throws Exception {
   
		TtlValue<UV> ttlValue = getWrapped(key);
		return ttlValue == null ? null : ttlValue.getUserValue();
	}

	private TtlValue<UV> getWrapped(UK key) throws Exception {
   
		accessCallback.run();
		return getWrappedWithTtlCheckAndUpdate(
			() -> original.get(key), v -> original.put(key, v), () -> original.remove(key));
	}

TTL处理的主要逻辑就在getWrapped。
其中getWrappedWithTtlCheckAndUpdate,逻辑:对指定Key数据进行过期删除及返回状态,同时对Key的TTL进行更新(读是否更新取决于是否配置StateTtlConfig.UpdateType.OnReadAndWrite)。

org.apache.flink.runtime.state.ttl.AbstractTtlDecorator

<SE extends Throwable, CE extends Throwable, CLE extends Throwable, V> TtlValue<V> getWrappedWithTtlCheckAndUpdate(
		SupplierWithException<TtlValue<V>, SE> getter,
		ThrowingConsumer<TtlValue<V>, CE> updater,
		ThrowingRunnable<CLE> stateClear) throws SE, CE, CLE {
   
		TtlValue<V> ttlValue = getter.get();
		if (ttlValue == null) {
   
			return null;
		} else if (expired(ttlValue)) {
   
			stateClear.run(); // 执行删除 () -> original.remove(key)
			if (!returnExpired) {
    // 若配置了不返回过期状态,则会直接返回null
				return null;
			}
		} else if (updateTsOnRead) {
   
			updater.accept(rewrapWithNewTs(ttlValue));
		}
		return ttlValue;
	}

每次获取数据时必定会调用put方法,将状态放入(无论读写)。

org.apache.flink.runtime.state.ttl.TtlMapState

@Override
	public void put(UK key, UV value) throws Exception {
   
		accessCallback.run();
		original.put(key, wrapWithTs
FlinkValueStateFlink状态编程中的一种状态类型。它用于在算子的处理函数中保存和访问一个单一的值。ValueState可以在算子的不同处理函数中共享和访问,以便跨时间和事件保持状态。 使用ValueState,可以在算子的处理函数中存储和更新一个值。这个值可以是任何类型,比如基本数据类型、自定义对象等。通过ValueState算子可以在处理事件流时维护一些状态信息,从而实现一些有状态的计算逻辑。 要使用ValueState,首先需要在算子的运行时上下文中获取一个ValueStateDescriptor对象,该对象指定了ValueState的名称和类型。然后,可以通过调用ValueStateDescriptor的getState方法来获取具体的ValueState对象。通过这个ValueState对象,可以访问和更新存储在其中的值。 以下是一个示例代码片段,演示了如何在Flink中使用ValueState: ```java // 导入所需的类 import org.apache.flink.api.common.functions.RichFlatMapFunction; import org.apache.flink.api.common.state.ValueState; import org.apache.flink.api.common.state.ValueStateDescriptor; import org.apache.flink.util.Collector; public class MyFlatMapFunction extends RichFlatMapFunction<Integer, String> { // 声明一个ValueState变量 private transient ValueState<Integer> countState; @Override public void open(Configuration parameters) throws Exception { // 初始化ValueState ValueStateDescriptor<Integer> descriptor = new ValueStateDescriptor<>("countState", Integer.class); countState = getRuntimeContext().getState(descriptor); } @Override public void flatMap(Integer value, Collector<String> out) throws Exception { // 获取当前状态值 Integer currentCount = countState.value(); if (currentCount == null) { currentCount = 0; } // 更新状态值 currentCount += value; countState.update(currentCount); // 输出结果 out.collect("Current count: " + currentCount); } } ``` 在上述代码中,我们通过调用`getRuntimeContext().getState(descriptor)`获取了一个`ValueState<Integer>`对象,该对象用于存储和访问一个整数值。在`flatMap`函数中,我们首先通过`countState.value()`获取当前状态值,然后根据业务逻辑更新状态值,并通过`countState.update(currentCount)`方法更新状态。最后,我们使用`out.collect`方法将结果输出。 这只是一个简单的示例,实际中可以根据业务需求使用ValueState来实现更复杂的状态计算逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值