腾讯自研万亿级NLP大模型，自动生成和衍生广告文案

腾讯广告算法大赛

已于 2023-03-03 12:24:21 修改

阅读量2.2k

点赞数 1

分类专栏：腾讯算法大赛腾讯广告文章标签：腾讯广告人工智能机器学习

于 2023-03-03 12:22:21 首次发布

本文链接：https://blog.csdn.net/weixin_45676602/article/details/129317704

版权

腾讯推出HunYuan-NLP 1T大模型，这是国内首个低成本、可落地的万亿级NLP模型，登顶CLUE榜单。基于太极机器学习平台，该模型在热启动、模型算法优化等方面降低成本，应用于广告文案生成和衍生，带来业务效益提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

编者按：

随着大数据与AI技术的不断发展，人们越来越看见AI大模型在数据理解、运算以及诸多泛化能力上的潜力，时下，大模型已然成为学术界与工业界探索的重点方向。然而，随着模型规模与容量的不断扩大，其所需训练资源也成倍增长，为模型的规模化应用带来成本与效率的双重挑战。

为此，腾讯持续探索大模型训练方法，基于太极机器学习平台，探索出一系列降本提效的大模型预训练方案，大幅降低了万亿大模型的训练成本，充分发挥了超大预训练模型带来的模型理解和生成能力，获益于此，腾讯在混元AI大模型之上，推出了国内首个低成本、可落地的HunYuan-NLP 1T大模型，再度登顶国内最权威的自然语言理解任务榜单CLUE！并在腾讯广告业务场景规模化应用，带来显著的效益双升。

本文特邀腾讯TEG机器学习平台部的技术同学，为大家揭秘背后的详细技术。

一. 概述

预训练的提出使得人工智能进入全新的时代，引发了学术界和工业界的研究热潮。随着算力的发展，模型容量持续提升，模型通用性和泛化能力也更强，研究大模型成为了近两年的趋势。国内外头部科技公司均有布局，发布了若干千亿规模以上的大模型。然而，面对参数量进一步扩大，业界并没有在高速网络、训练框架、模型算法和落地应用等方面有全面深入的公开性研究。基于腾讯强大的底层算力和低成本高速网络基础设施，混元AI大模型依托腾讯领先的太极机器学习平台，推出了HunYuan-NLP 1T大模型并一度登顶国内最权威的自然语言理解任务榜单CLUE。该模型作为业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型，先后在热启动和课程学习、MOE路由算法、模型结构、训练加速等方面研究优化，大幅降低了万亿大模型的训练成本。用千亿模型热启动，最快仅用256卡在一天内即可完成万亿参数大模型HunYuan-NLP 1T的训练，整体训练成本仅为直接冷启动训练万亿模型的1/8。

此外，业界基于万亿大模型的应用探索极少，对此腾讯研发了业界首个支持万亿级MOE预训练模型应用的分布式推理和模型压缩套件“太极-HCF ToolKit”，实现了无需事先从大模型蒸馏为中小模型进而推理，即可使用低成本的分布式推理组件/服务直接进行原始大模型推理部署，充分发挥了超大预训练模型带来的模型理解和生成能力的跃升。目前HuanYuan-NLP 1T大模型已在腾讯多个核心业务场景落地，并带来了显著的效果提升。

腾讯混元AI大模型协同了腾讯预训练研发力量，旨在打造业界领先的AI预训练大模型和解决方案（如下图），以统一的平台，实现技术复用和业务降本，支持更多的场景和应用。当前腾讯混元AI大模型（以下简称混元AI大模型或HunYuan）完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域任务模型。

二. 背景

2018年提出的BERT模型[1]，其规模最大为3亿参数，随后围绕亿级别参数规模的模型，有各种模型结构和训练方法的探索，包括Roberta[2]、ALBERT[3]等，模型结构和训练方法是提升模型能力的重要手段。各大主流任务和工业界的关键业务（搜索、广告、推荐等）得益于预训练的能力，取得了显著的提升。对于工业界来说，随着业务的发展，小模型已经不能满足业务进一提升的需求，所以在大模型方向探索成为主流。大模型对工业界来说，是一场变革，为业务带来更多的便利和更小的使用成本。以前各个业务各自维护自己的小模型，标注和训练成本集中在下游，当业务需要提升模型规模，则需标注更大量的数据避免过拟合；同时各个业务单独训练模型需要耗费大量资源，但是产出的模型可复用性差，很难迁移到其他业务。预训练大模型将更多的资源和数据转移到上游，集中力量办大事，海量数据训练的大模型提供给各个业务，只需要用很少的标注数据微调，就可以取得较好的效果，从而降低了业务的使用成本。

2.1 大模型的发展

下图展示了近几年NLP预训练模型规模的发展，模型已经从亿级发展到了万亿级参数规模。具体来说，2018年BERT模型最大参数量为340M，引发了预训练的热潮。2019年GPT-2为十亿级参数的模型[4]。2020年发布的百亿级规模有T5[5]和T-NLG[6]，以及千亿参数规模的GPT-3[7]。2021年1.6万亿的MoE模型Switch Transformer[8]发布，首次将模型规模提升到万亿。

△M 百万，B十亿，T万亿

业界做大模型有两种流派，MoE和Dense（稠密）模型流派。下图（a）是Dense模型的Transformer Block，在训练过程中，所有FFN和SA层的参数都是激活的，所以训练成本高。MoE是一种稀疏的模型结构，通过引入路由，只激活部分FFN（专家）的参数参与计算，从而能够节约训练成本。下图（b）是MoE模型的Transformer Block，该样例中FFN由3个专家组成，路由每次只激活其中1个专家。腾讯此次发布的HunYuan-NLP 1T大模型采用了MoE结构。

最低0.47元/天解锁文章