实时数仓容量评估实践

一、背景介绍

目前实时数仓提供的投放实时指标优先级别越来越重要,不再是单独的报表展示等功能,特别下游为规则引擎提供的数仓数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失;

从投放管理平台的链路全景图来看,实时数仓是不可或缺的一环,可以快速处理海量数据,并快速分析出有效信息,支持规则引擎的自动化操作,以及投放管理平台的手动控盘,实时节点事故,将可能导致整个投放链路无法正常运行,但是,随着数据增长的速度越来越快,实时数仓也面临着容量问题。因此,实时数仓容量评估变得尤为重要。本文将介绍实时数仓容量评估的过程,并对评估结果进行分析和优化建议;

二、压测流程

整个压测过程分压测前(含梳理阶段、准备阶段)、压测阶段、压测后的分析阶段等,每个阶段对应的内容如下:

三、压测梳理

在项目立项后,提出需要对实时投放链路进行容量评估测试,在压测前,梳理好链路相关的架构及业务数据流转,在明确范围压测范围后,和研发及关联方等相关同事,沟通好压测时间时间点及策略,并由测试同事编写到测试方案中,在完成方案评审后,后续依据方案进行压测;

如下为实时数仓投放链路对应的业务数据流程架构图:

附链路中所有实时任务清单及压测方案

四、压测准备

工欲善其事,必先利其器,在执行压测前,需要准备好前置工作,比如压测环境、压测数据、压测工具/脚本及是否需要关联方资源;

1、环境准备

我们在实时备用链路上进行了压测。实时备用链路是指在主链路出现故障时,备用链路可以接管主链路的工作,保障系统的正常运行。实时备用链路通常需要实时处理数据,因此非常适合用来进行实时数仓容量评估

2、数据准备

压测数据准备,实时压测主要是测试实时flink任务的吞吐极限,即同样特定时间段的数据,多久能处理完成,即在对每个任务压测前,需要将消息积压量到一定级别;

备注:无需人工造数,通过手动修改任务消费source端时间点,比如设置从当天0点开始,就可以堆积流量;由于压测过程中,使用的上游生产数据,未产生脏数据,压测后无需做数据清洗、恢复等;

3、工具/脚本准备

实时计算平台:用于压测脚本编写、执行,任务监控等;

4、关联方协调

压测过程中,依赖的组件或者数据库挂了,可能需要开发、sre、dba等同事支持

五、压测阶段

我们采用了两种压测方案&

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苑心蓝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值