腾讯太极广告一站式机器学习平台的产品化之路

编者按:秉承“技术提效”理念,腾讯广告不断探索技术能力边界,全面升级广告系统,基于“一大平台、两大模型”持续精进创新研发,提升投放效率与投放效果,助力广告主实现高效的全域经营与生意增长。本篇文章来源于“腾讯技术工程”公众号,是腾讯技术团队在太极机器学习平台的产品化探索。


腾讯自研搭建了业界一流的太极机器学习平台致力于让用户更加聚焦业务AI问题解决和应用,一站式的解决算法工程师在AI应用过程中特征处理,模型训练,模型服务等工程问题。结合对用户的习惯理解和功能沉淀,太极在产品层提供数据/特征工程,模型训练,模型服务三块。闭环了用户离线训练到在线服务的应用,包含了不同场景下的数据访问诉求,不同训练模型的诉求,在线服务可靠性的诉求。算法框架&组件层提供了机器学习、深度学习核心组件。可支持10TB级模型训练、TB级模型推理和分钟级模型发布上线,扩展集群规模则可支持更大的模型训练和推理,为实际业务提供大模型的情况下,同时具有很高的性能,达到行业领先水平。

太极机器学习平台采用了分布式参数服务器架构,这是业界第一梯队企业们公认的最佳选择。这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。太极机器学习平台中的参数服务器系统AngelPS也是腾讯自研的成果,现在不仅可以承载10TB级模型的训练,对多维特征融合、复杂模型结构等更高级、更前瞻性的功能也有优秀支持。同时太极机器学习平台还具备超大模型在线推理服务的能力。推理计算方面,不仅支持常规的CPU计算,还支持复杂模型的GPU计算加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型AngelPS远程查询的部署策略;在线服务运营上,平台具备多级容灾能力,脏模型秒级回滚能力,以及完备的系统和业务运行实时指标监控和报警系统。

“太极”八年进化之路:

2015年,太极机器学习平台 1.0 诞生,是腾讯首个涵盖“数据导入-特征工程-模型训练—在线服务“全流程的一站式机器学习平台。

2018年,太极平台深度学习训练加速上线,提供简洁的任务化体验,聚焦训练及训练加速。

2019年,太极平台联合腾讯云,打造了三环境(内网/公有云/私有云)统一的“TI-ONE机器学习平台”,将机器学习平台能力输出给公网和私有云用户,太极平台服务腾讯内部业务。

2020年,基于5年多技术积累,内部共建,太极平台机器学习研发能力再度升级为统一的云原生架构,平台服务腾讯广告、游戏、信安、金融等多个核心AI业务场景。

2022年,为了解决“广告模型迭代流程研发效率”问题,太极广告一站式平台上线,目标将广告模型迭代业务流程通过“上太极”产品化,为广告业务提供端到端的一站式模型研发体验。

一. 太极平台在腾讯广告践行MLOps

2015年Google的一篇论文 "Hidden Technical Debt in Machine Learning Systems"中,首次提出机器学习生产化带来的挑战,机器学习模型在经过持续的训练交付,会逐渐积累技术债,使得模型迭代越来越慢,最终大量的人力物力消耗在系统建设而非模型本身。为解决这个问题,业内各公司开始谈及工业生产中机器学习生命周期集成化管理的必要性,之后各大公司都开始尝试建立MLOps系统,商业化、开源产品也丰富起来。

太极机器学习平台,作为端到端的MLOps平台,也在腾讯广告业务中,践行了MLOps的理念,通过系统工程的方法,建设了模型全生命周期管理产品能力,提供了从AI开发前期的特征样本处理直至AI开发中后期的模型开发、评估和部署功能,帮助业务更快地训练、实验、上线模型。

随着更多的团队协同共建广告大模型,训练一个广告推荐模型只是全链路生命周期中众多步骤的一个环节,太极广告一站式平台提供了端到端从特征入样本、特征抽取、模型训练、模型评估、模型部署上线、线上推理的全链路产品能力,为腾讯广告平台提供了高效易用的模型迭代产品服务,帮助各数据、算法团队快速探索验证,持续提升广告GMV。

统一平台服务:25个系统统一到太极,60+

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值