硬件配置及版本:
基础配置 | |
---|---|
Doris版本 | 0.15.9 |
BE规模 | 10 |
FE规模 | 3 |
BE节点内存大小 | 125G |
FE节点内存大小 | 256G |
业务表详情:
数据量 | 分区数 | 分桶数 | tablet数量 | 行数 |
---|---|---|---|---|
18.287 GB | 37 | 20 | 685 | 362502093 |
业务SQL:
SELECT
date_format( order_date, '%Y-%m-%d' ) AS order_date,
age,
address,
school,
NAME,
region,
city,
temp4
FROM
test.test_tbl
WHERE
order_date >= '2022-09-01'
AND order_date <= '2022-11-30'
AND split_part ( temp4, '/', 1 ) IN (
'Z123',
'Z456',
'Z793',
'Z235',
'Z923',
'Z552',
'Z485',
'Z210',
'Z395',
'Z418',
'Z344',
'Z433',
'Z941',
'Z080',
'Z779',
'Z237',
'Z648',
'Z296',
'Z830',
'Z022'
)
这个是业务原始SQL。可以看到,该SQL是一个简单的单表查询SQL,只在SQL的where
条件中判断temp4
字段时引入了split_part()
函数,但根据目前接口监控分析出来发现,该接口查询耗时基本在3000-4000ms,有时候集群压力大,查询可能耗时至6000-7000ms左右,这个对业务来说肯定是接受不了的。耗时分布如下图:
这个SQL相对简单,目前只能考虑优化表中的数据,我们在数据接入层做了处理,将需要切分判断的数据,提前处理好,在表中冗余一个字段用来做过滤条件,字段temp9
就是temp4
字段提前切分后的值,具体查询SQL如下:
SELECT
date_format( order_date, '%Y-%m-%d' ) AS order_date,
age,
address,
school,
NAME,
region,
city,
temp4
FROM
test.test_tbl
WHERE
order_date >= '2022-09-01'
AND order_date <= '2022-11-30'
AND temp9 IN (
'Z123',
'Z456',
'Z793',
'Z235',
'Z923',
'Z552',
'Z485',
'Z210',
'Z395',
'Z418',
'Z344',
'Z433',
'Z941',
'Z080',
'Z779',
'Z237',
'Z648',
'Z296',
'Z830',
'Z022'
)
连续查询5次,查询耗时分布如下:
总结:
从两个查询对比可以看出,对数据做了预处理之后,查询耗时基本分布在150ms左右,是在查询时做切分判断的1/20,查询性能提升了近20倍。因此,如果要在SQL中使用split_part()函数时,可以考虑在ODS接入数据时,提前处理数据,尽量减少该函数使用。
最后:
发现一个Doris 的Bug(这个Bug从0.15 -1.2都有,目前提了issue)
split_part()函数在切分字符串时,如果字符串中没有分隔符,它会返回NULL,这样的结果会导致SQL在过滤数据时,出现少数据情况。