【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation
abstract
由于全监督方法严重依赖昂贵标注,最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上( In this regard),针对WSSGG的研究主要利用图像标题(image caption)来获取非局部三元组,而主要关注将非局部三元组建立在图像区域上。(In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions.)这句话翻译不明白,后续再补充
然而,他们忽略了在三元组形成过程中涉及的两个问题:
1)从标题中提取三元组时存在语义过于简化的问题,导致标题中的细粒度谓词被不理想地转换为粗粒度谓词,从而导致长尾谓词分布;
2)将标题中的三元组与筛选的实体/谓词类对齐时存在低密度的场景图问题,其中许多三元组被丢弃并未用于训练中,导致监督不足。
为解决这两个问题,本文提出了一种新的方法,即弱监督SGG的大型语言模型(LLM4SGG),通过利用LLM在从标题中提取三元组以及实体/谓词类与目标数据对齐期间对语言和推理能力的深入理解来缓解这两个问题。为了进一步让LLM参与这些过程,我们采用了思维链的思想和上下文内的少样本学习策略。 为了验证fllm4sgg的有效性,在Visual Genome和GQA数据集上进行了广泛的实验,与最先进的W