预训练模型在华为推荐中的应用与探索和GNN训练过程动态可视化源码讲解

分享嘉宾:朱杰明 华为诺亚方舟实验室

编辑整理:张奥宇 AWS

出品平台:DataFunTalk

经过多年的技术进步,推荐系统场景已经从最开始的协同过滤,发展到了现在的深度学习为核心的阶段。随着深度学习模型的体量逐渐变大后,其优化的难度也在增大,特别在推理性能上的限制下,最后模型的效果提升受到了很大的局限性,很少能产生质的飞跃。

对于这类问题,今天会和大家讨论怎么借助预训练模型的方法来跨过深水区,辅助推荐系统进一步大幅提高性能。

今天的介绍会围绕下面五点展开:

  • 华为诺亚方舟实验室

  • 信息流推荐场景

  • 推荐技术的发展

  • 预训练模型在信息流推荐的应用

  • 展望

华为诺亚方舟实验室

华为诺亚方舟实验室包含计算视觉,语音语义,推荐搜索,决策推理,AI技术理论和AI系统工程六个子实验室。实验室的定位一方面是面向AI的技术研究,另一方面是面向产品的技术赋能,技术服务于产品。同时,实验室在全球建立广泛合作,目前已经涵盖到10多个国家,并与25所大学建立了联合实验室以及合作项目。

具体到推荐团队,我们有很多研究课题。在学术成果方面,我们团队已经在KDD/SIGIR等顶级会议上发表超过50篇论文,其中比较有代表性的DeepFM,已经有超过1000的引用量。在此基础上,我们持续对华为多个实际的应用业务进行技术支持,包括应用市场、游戏中心、信息流、广告、音乐等场景。

信息流推荐场景

华为的多模态信息流推荐主要包含以下几个场景:华为手机的负一屏图文新闻推荐,华为浏览器的图文和短视频瀑布流,华为视频APP里面的电影/电视剧推荐。大家可以看到,相对于传统的推荐,现在的应用场景越来越向多模态、多元化的技术路线发展。如何构建一个面向多模态的推荐,是当下的一个难点,也是一个转折点。

推荐技术的发展

首先回顾一下推荐技术的发展。在2000年左右,我们使用最多的技术是协同过滤。迄今为止,矩阵分解或者基于物品的协同过滤,依然是业界广泛使用的算法之一,因为不仅简单,而且效果往往很显著。

从2010年开始,随着广义线性模型的提出,很多模型,比如采用了FTRL算法和线性更新的逻辑回归,因子分解或者FM等被提出以及应用。这类方法比传统的协同过滤模型,在性能和效果上有所提升。在排序领域,像BPR,RankSVM等算法也获得了很好的效果。这里面效果的提升主要来源于大规模的训练数据以及很高效的训练迭代机制,比如实时更新。

从2015年开始,深度学习模型受到更多的关注。比如google提出的YoutubeDNN从发表开始就受到了业界各方面的关注,也得到了广泛的应用。还有后来的Wide&Deep架构也受到了很大关注。我们在此基础上提出了DeepFM。与此同时,这个阶段也有阿里的DIN等代表性工作出来。

深度学习模型的成功主要取决于GPU算力的飞跃,进而为各个推荐系统的业务场景带来了效果的提升。但是随着模型体量的增大,我们发现优化的难度也在提升,比如为了保证线上推理性能的要求,上线的模型很难带来质的提升。我们一直在思考什么是推荐技术的下一个突破性方向。从18年的BERT模型提出开始,在NLP领域已经建立了预训练+微调的新范式。同时,在CV领域,也已经开始大规模的进行大规模预训练模型的研究。我们希望借鉴相同的经验,通过预训练模型来辅助推荐系统进行进一步的性能提升。

预训练模型在信息流推荐中的应用

在本次分享中,希望从信息流推荐场景出发,介绍两部分技术,一部分是新闻场景下的预训练和排序建模,另一部分就是用户视角下的新闻界面表征建模。    

从图中可以看出,给定一条新闻内容,现有技术已经能够从文本等相关内容里挖掘出包括类别标签,关键词和实体词等。我们往往并不关心这些具体类别或者标签的含义是什么,而是直接当成一种ID进行向量嵌入加到模型中。这并没有帮助模型去进行语义理解,比如图中标签Tag里面的“养生”,我们并没有建模文本语义。

另一方面,如果只是从文本模态去挖掘的话,很难捕捉到完整的用户行为。当看到新闻界面的时候,用户的第一感觉是什么?这就促使我们去思考如何从用户视角下去捕捉新闻界面的多模态信息,包括图片是否清晰,排版的类型,配大图还是三张小图这些都会对用户的直观感觉产生影响。

1. 新闻场景下的BERT预训练和排序建模

我们首先理解一下基于文本内容的新闻推荐模型。就目前业界的研究来看,微软亚洲研究院做的工作比较多,主要是分为以下几个方面。

第一个是Topic Modeling。随着LDA模型的提出,Topic Modeling在文本内容建模以及基于内容的推荐中得到了广泛的应用。但是LDA是一个无监督学习方法,很多时候它的效果取决于语料的选择,而且LDA得到的embedding与下游任务并不是百分之百匹配,就只能部分地去解决语义理解的问题。

随着深度模型的提出,更多的模型开始采取像Word2Vec或者Glove的word embedding的方式来对词的语义进行建模,但更多时候是以一种token初始化或者相似度来建模并融入到模型中。从2020年开始,很多团队开始尝试将BERT应用到新闻推荐的任务中,比如微软、我们团队。

图中展示了四个微软的前期工作,比如NPA,这是利用TextCNN来建立token之间的相关关系和文本语义表征,然后利用attention的方法来得到用户的兴趣表征。有了用户的兴趣表征和新闻的语义表征,就可以进行语义匹配任务。类似的方法包括NAML和NRMS,分表利用Multi-view和Multi-head技术进行建模。除了这些基于向量表征的方式,也有基于token级别的匹配关系建模的方法,比如FIM,该模型计算的就是文本token与token之间的相似度。但总的来说这些方法比较依赖下游任务的训练,并没有充分利用到NLP领域的语言知识。

详细介绍如下:

预训练模型在华为推荐中的应用与探索和GNN训练过程动态可视化源码讲解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI知识图谱大本营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值