多智能体强化学习的算力调度创新，让每一份算力都创造广告价值

银行金融科技

于 2025-04-10 17:53:52 发布

阅读量460

点赞数 15

分类专栏：银行信息系统架构详解文章标签：强化学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuliangjun/article/details/147124313

版权

银行信息系统架构详解专栏收录该内容

440 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

导读

本文介绍了基于多智能体强化学习的全链路算力调度方案（MaRCA），有效解决了在流量波动大、请求价值差异大、算力资源受限下实现商业价值最大化的复杂博弈难题。MaRCA通过构建用户价值预估、算力预估、动作价值预估和负载感知决策模块，将播放链路上下游的协同关系建模为多智能体强化学习问题，实现了集中式训练与分布式执行，在全链路系统风险显著下降的同时大幅提升了广告收入，推动了算力调度从一般性技术工具向智能化的推荐系统核心基础设施演进，为搜广推行业提供了高动态场景下的全链路算力优化新范式。

01

背景

随着搜广推播放全链路优化进入到深水区，推播放全链路优化进入到深水区，机器增长驱动的业务增长边际效益越来越小。在站外广告业务中，每天需要处理数千亿次用户请求，耗时约束在百毫秒左右，这使得算力问题更加严峻，需要在有限的机器资源下应对流量的波动和价值差异。在站外业务场景中，流量规模随时间段而变化，不同媒体平台和用户群体的流量请求价值也不同。此外，用户请求的数量远超实际曝光，大部分请求没有创造实际的广告收入，这更需要精细化地分配算力资源，将算力向高质量流量倾斜，以最大化商业价值。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

银行金融科技 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。