使用 SPL 高效实现 Flink SLS Connector 下推

阿里云云栖号

于 2024-04-01 17:04:51 发布

阅读量1.1k

点赞数 22

分类专栏：云栖号技术分享文章标签： flink 大数据云原生云计算

本文链接：https://blog.csdn.net/yunqiinsight/article/details/137239705

版权

1.背景

日志服务 SLS 是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务，基于日志服务的便捷的数据接入能力，可以将系统日志、业务日志等接入 SLS 进行存储、分析；阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台，在实时数据分析、风控检测等场景应用广泛。阿里云 Flink 原生支持阿里云日志服务 SLS 的 Connector，可以在阿里云 Flink 平台将 SLS 作为源表或者结果表使用。

在阿里云 Flink 配置 SLS 作为源表时，默认会消费 SLS 的 Logstore 数据进行动态表的构建，在消费的过程中，可以指定起始时间点，消费的数据也是指定时间点以后的全量数据；在特定场景中，往往只需要对某类特征的日志或者日志的某些字段进行分析处理，此类需求可以通过 Flink SQL 的 WHERE 和 SELECT 完成，这样做有两个问题：

1）Connector 从源头拉取了过多不必要的数据行或者数据列造成了网络的开销；

2）这些不必要的数据需要在 Flink 中进行过滤投影计算，这些清洗工作并不是数据分析的关注的重点，造成了计算的浪费。

对于这种场景，有没有更好的办法呢？

答案是肯定的，SLS 推出了 SPL 语言，可以高效的对日志数据的清洗，加工。这种能力也集成在了日志消费场景，包括阿里云 Flink 中 SLS Connector，通过配置 SLS SPL 即可实现对数据的清洗规则，在减少网络传输的数据量的同时，也可以减少 Flink 端计算消耗。

接下来对 SPL 及 SPL 在阿里云 Flink SLS Connector 中应用进行介绍及举例。

2.SLS SPL 介绍

SLS SPL 是日志服务推出的一款针对弱结构化的高性能日志处理语言，可以同时在 Logtail 端、查询扫描、流式消费场景使用，具有交互式、探索式、使用简洁等特点。

SPL 基本语法如下：

<data-source> 
| <spl-cmd> -option=<option> -option ... <expression>, ... as <output>, ...
| <spl-cmd> ...
| <spl-cmd> ...

是 SPL 指令，支持行过滤、列扩展、列裁剪、正则取值、字段投影、数值计算、JSON、CSV 等半结构化数据处理，具体参考 SPL 指令[1]介绍，具体来说包括：

结构化数据 SQL 计算指令：支持行过滤、列扩展、数值计算、SQL 函数调用

extend 通过 SQL 表达式计算结果产生新字段
where 根据 SQL 表达式计算结果过滤数据条目

*
| extend latency=cast(latency as BIGINT)
| where status='200' AND latency>100

字段操作指令：支持字段投影、字段重名、列裁剪

project 保留与给定模式相匹配的字段、重命名指定字段
project-away 保留与给定模式相匹配的字段、重命名指定字段
project-rename 重命名指定字段，并原样保留其他所有字段

*
| project-away -wildcard "__tag__:*"
| project-rename __source__=remote_addr

非结构化数据提取指令：支持 JSON、正则、CSV 等非结构化字段值处理

pars

最低0.47元/天解锁文章

阿里云云栖号

关注

22
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录