淘宝视频的跨模态检索

本文介绍了针对淘宝视频检索的跨模态算法,利用GraphSAGE图神经网络和度量学习,解决样本稀疏性和模态对齐问题。模型包含文本编码、视频编码和图网络,通过同构和异构图建模,优化检索性能。实验表明,图结构信息和多模态特征显著提升了检索准确率。
摘要由CSDN通过智能技术生成

针对上述技术挑战,本文的算法模型设计结合图神经网络GraphSAGE[15]的双塔检索框架,该框架的优点:

  1. 通过图网络构建缓解训练样本稀疏和均衡问题。样本1和样本2有点击Pairs标签,样本3和样本2内容表达一致但没有点击Pairs标签,在图网络中拉近样本1和样本3的特征距离来间接拉近样本2和样本3的特征距离。

  2. 图网络中同模态和跨模态端到端的度量学习进一步保证不同模态的语义一致性和同模态语义的判别性。

  3. 可以实现高效的大规模检索。

该模型主要包括文本编码模型、视频多模态编码模型、图网络算法模型、度量学习模型。

  文本编码

文本编码将主题标签文本转为定长实数向量,该向量能够反映主题内容信息,与视频编码向量进行相似度计算。本文在实验中尝试过通用预训练BERT、淘内预训练RoBert、Transformer等结构,最后综合考虑性能和效率采用了从头开始训练的6层Transformer结构。其首先对query进行分词,每个分词的word embedding初始参数随机;分词长度固定,不足补零,过长直接截断;整个文本所有参数random初始化,和检索模型一起端到端训练参数更新。

  视频编码

视频编码模型主要是将视频多模态数据转化成反映视频内容的特征向量。为了提升训练效率,本文的视频多模态表征向量采用淘内数据预训练的视频多模态预训练模型离线提取的特征,尝试的模型包括双流网络结构LXMERT[3,13]和单流网络结构UniterVideo[4,5,14]。多模态模型输入每个视频帧提取的inception V4图像特征以及视频对应的描述信息,例如视频标题,summary等信息,设计了4个task,Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM)以及商品类目分类模型(CLS),整体模型结构如下。

LXMERT双流架构

Uniter单流架构

  图网络模型

本文工作在经典双塔模型的技术上嵌入GraphSAGE图神经网络模型,在大规模图上学习结点embedding,集团的GraphLearning图学习框架为本文的算法提供了框架基础。整体的图网络学习框架如下,其中输入特征分别来自文本编码和视频编码的输出特征。

  • 大规模异构图构建

建图的合理性和准确性是影响图结点特征学习的重要因素,从提升结点覆盖率和构边置信度

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值