LANGUAGE-DRIVEN SEMANTIC SEGMENTATION
论文地址:
ICLR 2022 open review: https://openreview.net/forum?id=RriDjddCLN
主要工作:
本文提出了一种新的语言驱动语义图像分割的LSeg模型。LSeg使用一个文本编码器来计算描述性输入标签的嵌入(例如,“树木”或“建筑”),以及一个基于转换器的图像编码器,该编码器计算输入图像的密集嵌入。
该方法在测试时可以实现零镜头的语义分割。
具体实现:
Text encoder:
文本编码器将 N 个标签转换到连续的向量空间中,生成 N 个向量: T 1 ,