COME2023
接下来,我们为每个OCR文本提出了主对象的概念,并用它来净化面向OCR的场景图。通过探索每个OCR令牌的主对象,我们在主对象的基础上构建了一个纯化的场景图,然后通过图卷积网络(GCN)丰富了视觉嵌入。文本图像字幕旨在理解图像中的场景文本,以生成图像字幕。由于场景文本的视觉和文本特征具有双重模态,准确表达OCR标记的多模态语义特征是一项具有挑战性的任务。此外,由于场景文本不能独立于特定对象而存在,并且总是与其周围环境相关联,因此建立以OCR标记为中心的场景图也是理解其与图像中其他对象关系的重要方法。












