导读
本文介绍了基于多智能体强化学习的全链路算力调度方案(MaRCA),有效解决了在流量波动大、请求价值差异大、算力资源受限下实现商业价值最大化的复杂博弈难题。MaRCA通过构建用户价值预估、算力预估、动作价值预估和负载感知决策模块,将播放链路上下游的协同关系建模为多智能体强化学习问题,实现了集中式训练与分布式执行,在全链路系统风险显著下降的同时大幅提升了广告收入,推动了算力调度从一般性技术工具向智能化的推荐系统核心基础设施演进,为搜广推行业提供了高动态场景下的全链路算力优化新范式。
01
背景
随着搜广推播放全链路优化进入到深水区,推播放全链路优化进入到深水区,机器增长驱动的业务增长边际效益越来越小。在站外广告业务中,每天需要处理数千亿次用户请求,耗时约束在百毫秒左右,这使得算力问题更加严峻,需要在有限的机器资源下应对流量的波动和价值差异。在站外业务场景中,流量规模随时间段而变化,不同媒体平台和用户群体的流量请求价值也不同。此外,用户请求的数量远超实际曝光,大部分请求没有创造实际的广告收入,这更需要精细化地分配算力资源,将算力向高质量流量倾斜,以最大化商业价值。