在多模态训练中融入“知识+图谱”：方法及电商应用实践

最新推荐文章于 2024-08-10 00:50:16 发布

阿里云技术

最新推荐文章于 2024-08-10 00:50:16 发布

阅读量494

点赞数

文章标签：知识图谱自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_43970890/article/details/120861639

版权

一背景

1 多模态知识图谱

随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。多模态知识图谱与传统知识图谱的主要区别是，传统知识图谱主要集中研究文本和数据库的实体和关系，而多模态知识图谱则在传统知识图谱的基础上，构建了多种模态（例如视觉模态）下的实体，以及多种模态实体间的多模态语义关系。当前典型的多模态知识图谱有DBpedia、Wikidata、IMGpedia和MMKG。

多模态知识图谱的应用场景十分广泛，它极大地帮助了现有自然语言处理和计算机视觉等领域的发展。多模态结构数据虽然在底层表征上是异构的，但是相同实体的不同模态数据在高层语义上是统一的，所以多种模态数据的融合对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域，例如多模态实体链接技术可以融合多种模态下的相同实体，可应用于新闻阅读，同款商品识别等场景中，多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱，完善现有的多模态知识图谱，多模态对话系统可用于电商推荐，商品问答领域。

2 多模态预训练

预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet，以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用，启发了越来越多的研究者将目光投向多模态预训练。本质上，多模态预训练期望学习到两种或多种模态间的关联关系。学术界的多模态预训练方案多基于Transformer模块，在应用上集中于图文任务，方案大多大同小异，主要差异在于采用模型结构与训练任务的差异组合，多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品，它基于BERT训练大量未标记的视频文本对。目前，针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT，B2T2， VisualBERT， Unicoder-VL ， VL-BERT和UNITER使用了单流架构，即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面，LXMERT、ViLBERT和FashionBERT引入了双流架构，首先独立提取图像和文本的特征，然后使用更复杂的cross-attention机制来完成它们的交互。为了进一