针对上述技术挑战,本文的算法模型设计结合图神经网络GraphSAGE[15]的双塔检索框架,该框架的优点:
-
通过图网络构建缓解训练样本稀疏和均衡问题。样本1和样本2有点击Pairs标签,样本3和样本2内容表达一致但没有点击Pairs标签,在图网络中拉近样本1和样本3的特征距离来间接拉近样本2和样本3的特征距离。
-
图网络中同模态和跨模态端到端的度量学习进一步保证不同模态的语义一致性和同模态语义的判别性。
-
可以实现高效的大规模检索。
该模型主要包括文本编码模型、视频多模态编码模型、图网络算法模型、度量学习模型。
▐ 文本编码
文本编码将主题标签文本转为定长实数向量,该向量能够反映主题内容信息,与视频编码向量进行相似度计算。本文在实验中尝试过通用预训练BERT、淘内预训练RoBert、Transformer等结构,最后综合考虑性能和效率采用了从头开始训练的6层Transformer结构。其首先对query进行分词,每个分词的word embedding初始参数随机;分词长度固定,不足补零,过长直接截断;整个文本所有参数random初始化,和检索模型一起端到端训练参数更新。
▐ 视频编码
视频编码模型主要是将视频多模态数据转化成反映视频内容的特征向量。为了提升训练效率,本文的视频多模态表征向量采用淘内数据预训练的视频多模态预训练模型离线提取的特征,尝试的模型包括双流网络结构LXMERT[3,13]和单流网络结构UniterVideo[4,5,14]。多模态模型输入每个视频帧提取的inception V4图像特征以及视频对应的描述信息,例如视频标题,summary等信息,设计了4个task,Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM)以及商品类目分类模型(CLS),整体模型结构如下。
LXMERT双流架构
Uniter单流架构
▐ 图网络模型
本文工作在经典双塔模型的技术上嵌入GraphSAGE图神经网络模型,在大规模图上学习结点embedding,集团的GraphLearning图学习框架为本文的算法提供了框架基础。整体的图网络学习框架如下,其中输入特征分别来自文本编码和视频编码的输出特征。
建图的合理性和准确性是影响图结点特征学习的重要因素,从提升结点覆盖率和构边置信度