【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation

论文提出LLM4SGG,利用大型语言模型解决弱监督场景图生成中的语义过简化和低密度场景图问题。方法包括使用LLM提取三元组和进行实体/谓词对齐,通过Chain-of-thought策略和上下文少样本学习,无需微调即可改善模型性能,提高Recall@K和mR@K指标。
摘要由CSDN通过智能技术生成

【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation

abstract

由于全监督方法严重依赖昂贵标注,最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上( In this regard),针对WSSGG的研究主要利用图像标题(image caption)来获取非局部三元组,而主要关注将非局部三元组建立在图像区域上。(In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions.)这句话翻译不明白,后续再补充
然而,他们忽略了在三元组形成过程中涉及的两个问题:
1)从标题中提取三元组时存在语义过于简化的问题,导致标题中的细粒度谓词被不理想地转换为粗粒度谓词,从而导致长尾谓词分布;
2)将标题中的三元组与筛选的实体/谓词类对齐时存在低密度的场景图问题,其中许多三元组被丢弃并未用于训练中,导致监督不足。
为解决这两个问题,本文提出了一种新的方法,即弱监督SGG的大型语言模型(LLM4SGG),通过利用LLM在从标题中提取三元组以及实体/谓词类与目标数据对齐期间对语言和推理能力的深入理解来缓解这两个问题。为了进一步让LLM参与这些过程,我们采用了思维链的思想和上下文内的少样本学习策略。 为了验证fllm4sgg的有效性,在Visual Genome和GQA数据集上进行了广泛的实验,与最先进的W

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值