Doris内置函数Split_part()性能影响分析测试

硬件配置及版本:
基础配置
Doris版本0.15.9
BE规模10
FE规模3
BE节点内存大小125G
FE节点内存大小256G
业务表详情:
数据量分区数分桶数tablet数量行数
18.287 GB3720685362502093
业务SQL:
SELECT
	date_format( order_date, '%Y-%m-%d' ) AS order_date,
	age,
	address,
	school,
	NAME,
	region,
	city,
	temp4 
FROM
	test.test_tbl 
WHERE
	order_date >= '2022-09-01' 
	AND order_date <= '2022-11-30' 
	AND split_part ( temp4, '/', 1 ) IN (
		'Z123',
		'Z456',
		'Z793',
		'Z235',
		'Z923',
		'Z552',
		'Z485',
		'Z210',
		'Z395',
		'Z418',
		'Z344',
		'Z433',
		'Z941',
		'Z080',
		'Z779',
		'Z237',
		'Z648',
		'Z296',
		'Z830',
	'Z022' 
	)

这个是业务原始SQL。可以看到,该SQL是一个简单的单表查询SQL,只在SQL的where条件中判断temp4字段时引入了split_part()函数,但根据目前接口监控分析出来发现,该接口查询耗时基本在3000-4000ms,有时候集群压力大,查询可能耗时至6000-7000ms左右,这个对业务来说肯定是接受不了的。耗时分布如下图:
在这里插入图片描述

这个SQL相对简单,目前只能考虑优化表中的数据,我们在数据接入层做了处理,将需要切分判断的数据,提前处理好,在表中冗余一个字段用来做过滤条件,字段temp9就是temp4字段提前切分后的值,具体查询SQL如下:

SELECT
	date_format( order_date, '%Y-%m-%d' ) AS order_date,
	age,
	address,
	school,
	NAME,
	region,
	city,
	temp4 
FROM
	test.test_tbl 
WHERE
	order_date >= '2022-09-01' 
	AND order_date <= '2022-11-30' 
	AND temp9 IN (
		'Z123',
		'Z456',
		'Z793',
		'Z235',
		'Z923',
		'Z552',
		'Z485',
		'Z210',
		'Z395',
		'Z418',
		'Z344',
		'Z433',
		'Z941',
		'Z080',
		'Z779',
		'Z237',
		'Z648',
		'Z296',
		'Z830',
	'Z022' 
	)

连续查询5次,查询耗时分布如下:
在这里插入图片描述

总结:

从两个查询对比可以看出,对数据做了预处理之后,查询耗时基本分布在150ms左右,是在查询时做切分判断的1/20,查询性能提升了近20倍。因此,如果要在SQL中使用split_part()函数时,可以考虑在ODS接入数据时,提前处理数据,尽量减少该函数使用。

最后:

发现一个Doris 的Bug(这个Bug从0.15 -1.2都有,目前提了issue)
在这里插入图片描述

split_part()函数在切分字符串时,如果字符串中没有分隔符,它会返回NULL,这样的结果会导致SQL在过滤数据时,出现少数据情况。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值