(一)从零到一:设计通用型埋点方案的实践与思考

引言

埋点,顾名思义即是在业务代码逻辑中上报某一标识和该标识相关的数据,与业务流程解耦,用于监控或者数据分析。在现代软件开发中,埋点已成为优化用户体验、支持业务决策的关键工具。

本文将从「业务需求初期设计埋点」到「后期重构」的角度,阐述如何设计通用型的埋点方案,希望能为读者提供实用的参考和避坑指南。

1. 起步阶段:初始埋点设计

1.1 业务流程

在业务发展初期,我们的流程相对简单,主要包含两个阶段:stage1和stage2。我们需要记录这两个阶段的耗时、结果,以及整个流程的总耗时。

在这里插入图片描述

1.2 数据结构设计

为了存储埋点数据,我们在数据库中设计了如下的数据表结构:

字段类型说明
idbigInt数据库主键
business_idbigInt业务ID
stage1_timeint阶段1处理时长(单位:毫秒)
stage1_successint阶段1是否成功,枚举值:1:成功、0:失败
stage2_timeint阶段2处理时长(单位:毫秒)
stage2_successint阶段2是否成功,枚举值:1:成功、0:失败
answer_successint请求是否成功(超时或者异常视为失败,返回即算成功),枚举值:1:成功、0:失败

这种设计简单直接,适合初期业务规模较小时使用。

2. 业务发展带来的挑战

2.1 架构变化

随着业务发展,我们采用了链路编排的方式执行请求。整个流程由多个node节点组成,每个node节点包含多个handler执行器,按照不同的策略类型处理具体的业务逻辑。

在这里插入图片描述

2.2 埋点方式的调整

考虑到埋点不在核心业务链路上,我们采用了事件驱动的异步上报方式记录埋点信息,但仍然使用MySQL数据库存储。

2.3 数据结构的膨胀

随着链路编排节点的增多,埋点数据也随之增加。新的数据结构变得更加复杂,包含了更多的监控参数:

字段中文解释归类
businessId业务ID业务基础参数
question问题
answer最终答案
qa_intervals调用总时长
answer_success调用是否成功
dialog_time对话时间
traceId追踪ID监控基础参数
userIP用户IP
serverIP服务器IP
fail_reason失败原因
stage1_start_time阶段一开始时间阶段一监控参数
stage1_end_time阶段一结束时间
stage1_answer阶段一答案
stage1_time阶段一时长
stage1_success阶段一是否成功
stage2_start_time阶段二开始时间阶段二监控参数
stage2_end_time阶段二结束时间
stage2_response_time阶段二响应时间
stage2_answer阶段二答案
stage2_time阶段二总时长
stage2_success阶段二是否成功

2.4 现有方案的局限性

此时,大家可以明显发现,随着业务发展,编排节点增多,埋点数量呈现线性增长,如果继续采用这种数据结构存储,每在编排中接入一个节点到埋点中,数据表就新增若干个字段,这是最直接的致命缺点,数据表将野蛮无限增加字段。

现有方案有以下缺点:

  1. 数据表字段呈线性增长,每增加一个编排节点就需要新增多个字段,不可持续。
  2. 监控代码侵入业务逻辑,难以适应流程编排的灵活性。
  3. 数据库字段设计不通用,链路节点记录不详细,难以快速定位问题。
  4. 链路监控无法降级,难以应对高流量场景(如618/双十一大促)。
  5. 事件驱动异步方式可能存在性能瓶颈,未经过压测验证。

代码参考:
请添加图片描述
请添加图片描述
请添加图片描述

3. 重构:设计新的埋点方案

3.1 埋点的定位与要求

在设计新方案前,我们明确了全链路埋点的定位:

(1)链路闭环:监控埋点虽与外部存在调用关系,但调用逻辑和链路编排由自身控制,可自己形成闭环,无需第三方回执确认

(2)用户群体:链路埋点面向产研和运营观看数据,不对外面向商家和用户使用。

(3)大促降级:埋点监控不影响主流程执行,不侵入业务逻辑代码,尽最大努力保证埋点记录。但必要情况下,可通过细粒度开关和全局开关进行埋点降级,影响是数据看板和数据分析会缺失降级后的数据。

(4)快速定位问题:埋点监控需要记录详细的调用留痕,链路编排存在多个node节点,每个node节点会存在一个或多个handler,埋点监控需要记录到handler级别,且每一步发生的错误和异常需要记录,且留存现场,方便排查。

(5)数据分析:可供运营、产品进行多指标数据分析,如耗时、成功率、PV、UV等。

3.2 新方案设计

基于以上定位和之前方案的缺点,我们设计了新的埋点方案:

在这里插入图片描述

  1. 流程编排自动/手动上报
  • 利用node编排时自动在handler执行前后进行埋点上报。
  • 保留手动上报入口,以应对特殊情况。
  1. 异步上报
  • 通过消息队列(MQ)统一发送和消费,利用MQ的积压和并行消费能力实现异步解耦。
  1. 数据存储
  • 使用Elasticsearch按季度创建索引模板。
  • 只保留近6个月数据,每日离线推送至大数据平台备份。(假设每条请求对应20条链路日志,每日用户提问1W条,每日链路日志总数则为20W条,每季度约1800W)

3.3 新的数据结构

新方案采用通用字段设计,实现横向扩展而非列向扩展:

中文说明字段说明
接入方式accessType
接入系统accessSystem
追踪IDtraceId
业务IDbusinessId
埋点标识(如类名)eventTrackSign唯一标识当前埋点
埋点状态eventTrackStatus开始、结束或为空
节点类型handlerType枚举:串行、并行
节点超时设置handlerTimeOut
埋点结果eventTrackResult枚举:成功、失败
失败原因failReasonCode枚举:code码
现场信息context_info
埋点类型eventTrackType枚举:手动、自动
时间time毫秒级时间戳

新方案与旧方案相比有很多优点,对比如下:

方面旧方案新方案
扩展性列向扩展,字段增长快横向扩展,通用字段设计
灵活性固定字段,难以适应业务变化通用字段,易于适应不同业务场景
性能可能存在性能瓶颈使用MQ和Elasticsearch,性能更好
数据分析直接查询即可需要额外的数据处理步骤,但更灵活
降级能力支持细粒度和全局降级
问题定位难以快速定位问题详细记录每个handler,易于问题定位
代码侵入性高,散布在业务逻辑中低,主要通过自动上报实现
存储成本随业务增长线性增加通过定期清理和离线备份控制成本

到这里,重构后的方案就介绍完了,这里有一点值得注意,新的数据结构由于是通用字段设计,对于原始数据需要多一步数据处理的步骤进行数据分析与统计,不过这并不是太大问题,只要有原始数据存在,就可以针对业务所需要的数据指标做灵活的聚合统计。

4. 结论和最佳实践

经过从初始设计到系统重构的全过程,我们总结出了以下几点关键的最佳实践,希望能为同行提供有价值的参考:

  1. 设计通用字段 通用字段设计是提高埋点系统灵活性和可扩展性的关键。它让我们能够适应不断变化的业务需求,而不必频繁修改数据结构。
  2. 异步解耦 利用消息队列进行异步上报是一个明智之选。这不仅能显著减少对主业务流程的影响,还能提高系统的整体性能和稳定性。
  3. 分层存储策略 采用Elasticsearch进行实时存储,辅以大数据平台进行离线备份,是一种平衡查询性能和存储成本的有效方法。这种策略让我们能够快速检索近期数据,同时保证长期数据的完整性。
  4. 推进自动化埋点 尽可能实现自动化埋点,可以大幅减少代码侵入性。这不仅提高了开发效率,还降低了人为错误的可能性。
  5. 预留降级机制 为高流量场景预留降级开关是非常必要的。这确保了在极端情况下,核心业务不会受到埋点系统的影响,从而保证了整体服务的可靠性。
  6. 全面详细的记录 记录足够详细的信息是快速定位和解决问题的基础。在实践中,我们发现全面的日志记录能够大大缩短问题排查的时间。
  7. 定期评估与优化 随着业务的不断发展,定期评估埋点系统的效果和性能变得尤为重要。我们建立了一个季度评估机制,确保埋点系统能够及时进行优化和调整。

通过这次从初始设计到重构的过程,我们不仅解决了当前面临的问题,还为未来的业务扩展奠定了坚实的基础。这个过程让我们深刻认识到,一个优秀的埋点系统应该是灵活的、高效的、可扩展的,同时又不应该对主业务造成明显影响。

感谢阅读~


在这里插入图片描述

感谢大家的观看!!!创作不易,如果觉得我写的好的话麻烦点点赞👍支持一下,谢谢!!!
相关文章已在掘金发布,体验更佳!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值