基于电商多模态概念知识图谱增强的电商场景图文模型 FashionKLIP

阿里云与复旦大学合作在ACL2023会议上发布FashionKLIP,这是一种利用电商多模态概念知识图谱增强的视觉-语言模型,旨在改善电商场景中的图文检索性能。通过自动化构建多模态概念级知识图谱并将其注入模型,FashionKLIP实现了跨模态图文样本在概念层面的对齐,提高细粒度匹配准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

近日,阿里云机器学习平台PAI与复旦大学肖仰华教授团队、阿里巴巴国际贸易事业部ICBU合作在自然语言处理顶级会议ACL2023上发表基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP。FashionKLIP是一种电商知识增强的视觉-语言模型。该论文首先设计了从大规模电商图文数据中自动化构建多模态概念级知识图谱的方案,随后将概念级多模态先验知识注入到VLP模型中,以实现跨模态图文样本在概念层面进一步对齐。

论文:
Xiaodan Wang, Chengyu Wang, Lei Li, Zhixu Li*, Ben Chen, Linbo Jin, jun huang, Yanghua Xiao* and Ming Gao, FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph. ACL 2023 (Industry Track)

背景

图文检索作为一项流行的跨模态任务,在广泛的工业应用中具有很强的实用价值。视觉-语言预训练(VLP)模型的蓬勃发展大大提高了跨不同模态数据的表示学习,从而带来了显著的性能提升。然而,电商领域的数据具有其自身的特性,如下图(a)所示:1)通用场景的文本大多包含完整的句子结构描述,而电商场景中的描述或查询通常由多个形容性短语组成,描述了产品的材质或风格等细节信息。2)通用领域的图像通常具有复杂的背景;相比之下,商品图像主要包含一个大的商品图,没有很多背景物体。

(a) 电商场景的图像-文本对示例

基于电商图文的VLP模型Fashion-BERT、KaleidoBERT、CommerceMM、EI-CLIP和FashionViL等大大提高了电商图文检索任务的性能,但使用不同角度的商品图或基于图像块的分类方法仍未能解决细粒度的跨模态对齐问题,因而导致了图像和文本之间的细节匹配不准确,模型缺乏跨模态语义级对齐能力。其次,通用领域模型可以通过目标检测、场景图解析或语义分析来实现细粒度交互,但是这些方法难以直接应用于电商场景,也使得电商中的图文检索任务是更具挑战。

基于此,我们提出了一种电商知识增强的VLP模型FashionKLIP。一共包含两部分内容:数据驱动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值