Doris内置函数Split_part()性能影响分析测试

最新推荐文章于 2024-06-13 17:09:54 发布

码猿小站

最新推荐文章于 2024-06-13 17:09:54 发布

阅读量1.6k

点赞数 2

分类专栏： Doris 文章标签： apache 数据仓库 big data mysql 数据库

本文链接：https://blog.csdn.net/weixin_43914798/article/details/128118725

版权

Doris 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

硬件配置及版本：

基础配置
Doris版本	0.15.9
BE规模	10
FE规模	3
BE节点内存大小	125G
FE节点内存大小	256G

业务表详情：

数据量	分区数	分桶数	tablet数量	行数
18.287 GB	37	20	685	362502093

业务SQL:

SELECT
	date_format( order_date, '%Y-%m-%d' ) AS order_date,
	age,
	address,
	school,
	NAME,
	region,
	city,
	temp4 
FROM
	test.test_tbl 
WHERE
	order_date >= '2022-09-01' 
	AND order_date <= '2022-11-30' 
	AND split_part ( temp4, '/', 1 ) IN (
		'Z123',
		'Z456',
		'Z793',
		'Z235',
		'Z923',
		'Z552',
		'Z485',
		'Z210',
		'Z395',
		'Z418',
		'Z344',
		'Z433',
		'Z941',
		'Z080',
		'Z779',
		'Z237',
		'Z648',
		'Z296',
		'Z830',
	'Z022' 
	)

这个是业务原始SQL。可以看到,该SQL是一个简单的单表查询SQL,只在SQL的where条件中判断temp4字段时引入了split_part()函数，但根据目前接口监控分析出来发现，该接口查询耗时基本在3000-4000ms,有时候集群压力大，查询可能耗时至6000-7000ms左右，这个对业务来说肯定是接受不了的。耗时分布如下图：
在这里插入图片描述

这个SQL相对简单，目前只能考虑优化表中的数据，我们在数据接入层做了处理，将需要切分判断的数据，提前处理好，在表中冗余一个字段用来做过滤条件，字段temp9就是temp4字段提前切分后的值，具体查询SQL如下：

SELECT
	date_format( order_date, '%Y-%m-%d' ) AS order_date,
	age,
	address,
	school,
	NAME,
	region,
	city,
	temp4 
FROM
	test.test_tbl 
WHERE
	order_date >= '2022-09-01' 
	AND order_date <= '2022-11-30' 
	AND temp9 IN (
		'Z123',
		'Z456',
		'Z793',
		'Z235',
		'Z923',
		'Z552',
		'Z485',
		'Z210',
		'Z395',
		'Z418',
		'Z344',
		'Z433',
		'Z941',
		'Z080',
		'Z779',
		'Z237',
		'Z648',
		'Z296',
		'Z830',
	'Z022' 
	)