京东零售广告部承担着京东全站流量变现及营销效果提升的重要职责,广告研发部是京东最核心的技术部门,也是京东最主要的盈利来源之一。作为京东广告部的核心方向,我们基于京东海量的用户和商家数据,探索最前沿的深度学习等算法技术,创新并应用到业务实践中,赋能千万商家和数亿消费者的消费连接,不断拓展中国乃至全世界的数字经济边界。
在这里,你将与各业务、产品、工程团队紧密合作,深入京东亿量级的数据与丰富的广告业务场景,进行前沿AI算法和工程架构的研究与应用工作。通过AGI算法创新和行业领先的广告技术,赋能京东多个业务线的广告投放和管理需求,帮助商家实现精准营销,同时提升用户购物体验,推动京东的商业增长,创造数以亿计的业务贡献。
大模型时代的到来,新一代广告系统中,我们目前重点攻坚以下五个方向,欢迎敢于挑战、有梦想的同学,和我们一起共事。让我们一起来看看新一代广告系统中如何实现大模型时代的流量价值预估、流量售卖机制、生成式推荐、智能创意以及承载它的算法工程体系。
文末有最新的机会哟~
一、流量价值预估——更好的人货场理解能力
1、广告用户意图理解
Query意图识别是电商搜索中离用户最近和最基础的一个模块,主要的功能是精确地理解用户的搜索意图,为下游的召回/相关性/排序提供决策信息和特征。Query意图识别主要是做分词、纠错、NER、品牌识别、类目预测和query改写等,需准确捕捉用户意图辅助下游决策,是供需匹配和用户体验的基础。
当前query意图识别训练样本的产生逻辑导致约85%的query预测的类目都是单类目,且多标签样本的标签量较少。因此亟需在保持现有的类目精准度情况下,提升类目的召回率。通过分析,主要存在以下类型的query的高相关召回率不足:
•泛词的多意图:侧重知识类,词与具体商品之间需要知识关联,例如:水果,生日礼物,灯;
•歧义词的多意图:多意图query下,基于样本生成逻辑,会偏向主意图,弱化甚至丢失次意图,导致召回问题,例如:小米(粮食or手机?),苹果(水果or手机?);
•长尾类目冷启:由于用户点击数据的马太效应,使得大量的长尾类目没有曝光机会,类目下商品无法获得点击,加深了模型无法得到长尾类目训练数据的问题,例如: 服务类,健康类,工业品类;
•长尾query的多意图:由于用户背景和表达习惯不同,对同类商品需求,会有多种表达方式,产生很多长尾query。模型给出的类目不准,因此产生的点击数据也不够准确。
生成-判别模型增强长尾类目训练数据
模型的训练依赖query点击商品的类目来作为监督信号。像这些偏冷启动类目的商品,我们希望通过增加商品曝光来让它们获得更多点击。有了点击数据,就能正向影响下次模型迭代,让模型下一次可以预测的更准。从而让整个模型迭代的流程形成良性循环,而不是马太效应的恶性循环。
解决方案:针对训练样本的类目高度不平衡问题,我们设计了生成-匹配模型,预训练一个query生成模型+query-SKU匹配模型,生成模型用来根据SKU的标题/属性信息生成query,匹配模型用于计算生成query和原SKU title的相关性分数,卡掉低质量的query,保证生成query的质量。Sku的类目作为生成query的类目,补充到类目预测的训练样本中,平衡和缓解训练集类目失衡问题,让模型能够学习到用户query中的长尾类目需求,从而让长尾类目商品有一定的曝光机会。
生成数据样例:
基于搜索日志数据预训练的生成-匹配模型不仅可以在类目预测中使用,也可以用在其他相关业务线。例如query suggestion 和 query改写业务,根据sku title生成的query可以作为两者的query召回源。
先验知识注入模型解决中长尾类目召回不足导致的商家获量困难问题
算法训练以用户点击sku的类目为标签。但由于马太效应,高点击商品的类目才能获得展现。模型的更新,反而会加剧马太效应,形成恶性循环。
•用户反馈信号被高频类目主导,需打破仅依赖用户反馈的马太效应闭环。例如:用户搜“耳机”,相关类目包含 862-手机耳机,842-蓝牙耳机... 等9个三级类目。由于马太效应,系统只能展现出1~2个高点击类目的商品,中长尾类目下商品无展现。
•业界最新算法,也高度依赖后验反馈信号,无法召回中长尾类目。
解决方案:通过引入先验知识和模型的优化,增强模型对电商知识的感知,弱化模型对后验反馈的依赖:引入先验知识:类目语义知识、类目共现/语义关系图。通过提取类目名、类目的产品词等,代表类目侧的语义表征。通过类目关系图,反映类目共点击和语义相似关系,实现头部类目带长尾(相关)类目来提升召回率。学习先验知识:设计新模型,以BERT为文本编码器,学习Query和类目表征。以多通道GCN为图结构编码器,学习类目之间的关系。设计半监督Loss,通过query-类目语义匹配分数,作为监督信号增强类目标签。