多智能体强化学习的算力调度创新,让每一份算力都创造广告价值

导读

本文介绍了基于多智能体强化学习的全链路算力调度方案(MaRCA),有效解决了在流量波动大、请求价值差异大、算力资源受限下实现商业价值最大化的复杂博弈难题。MaRCA通过构建用户价值预估、算力预估、动作价值预估和负载感知决策模块,将播放链路上下游的协同关系建模为多智能体强化学习问题,实现了集中式训练与分布式执行,在全链路系统风险显著下降的同时大幅提升了广告收入,推动了算力调度从一般性技术工具向智能化的推荐系统核心基础设施演进,为搜广推行业提供了高动态场景下的全链路算力优化新范式。

01

背景

随着搜广推播放全链路优化进入到深水区,推播放全链路优化进入到深水区,机器增长驱动的业务增长边际效益越来越小。在站外广告业务中,每天需要处理数千亿次用户请求,耗时约束在百毫秒左右,这使得算力问题更加严峻,需要在有限的机器资源下应对流量的波动和价值差异。在站外业务场景中,流量规模随时间段而变化,不同媒体平台和用户群体的流量请求价值也不同。此外,用户请求的数量远超实际曝光,大部分请求没有创造实际的广告收入,这更需要精细化地分配算力资源,将算力向高质量流量倾斜,以最大化商业价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

银行金融科技

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值