关键词:微博广告 Hubble 监控平台 D+ 大数据 机器学习 LSTM Tensorflow
业务背景
Hubble(哈勃,其含义是数据如浩瀚宇宙之大,Hubble 如太空望远镜,能窥见璀璨的星辰,发现数据的真正价值)平台定位为微博广告智能全景监控、数据透视和商业洞察。
计算广告系统是集智能流量分发、投放、结算、CTR 预估、客户关系管理等为一体的大型互联网业务系统。随着微博业务的快速增长,广告系统复杂度越来越高,成千上万的模块需要不停地进行计算和通信,如何保证这么复杂的系统正常健康运行是一个巨大的挑战。
微博广告 Hubble 平台每日处理 TB 级别的监控数据和万级别的报警规则,Hubble 平台利用机器学习技术进行趋势预测和报警阈值的智能调整,保证商业产品上千台服务器和数百个系统及服务的正常运行。
下面我将详细介绍一下微博商业广告 Hubble 系统的设计原理及在智能全景监控实践中的一些思考。
核心问题
设计系统架构之前,应该首先从业务和系统等角度深度挖掘架构要解决的核心问题,对于监控平台而言,可以从平台化视角、业务视角及系统架构视角三个层面解析核心问题。
从平台化视角考虑,监控报警平台要解决的问题是
是否能指导 RD 快速定位问题?
是否为业务发展的预估提供参考?
从业务视角考虑,监控和报警平台所要解决的核心问题主要有以下几个方面
监控指标:精准性和覆盖率(Accuracy and Coverage rate)
报警:实效性和准确性(real-time performance and Accuracy)
故障诊断(fault diagnosis)
自动处理(Automatic processing)
从系统架构及设计视角考虑,监控报警平台要能解决:
大数据分析处理能力,包括数据采集、ETL和数据抽象分析
数据分析处理实时性
大规模监控指标等时序数据存储、报警规则存储及报警触发
高可用性
数据聚合能力
简单的讲,Hubble 全景监控的核心功能包括提供基础监控、报警、预警服务,如图1所示。
图1 Hubble全景监控服务核心功能
整体架构
Hubble 平台的整体架构如图2所示。
图2 Hubble平台整体架构图
如图2,Hubble 整体设计包含三个层次
数据采集层(data collection layer&#