及时行樂樂樂-CSDN博客

原创【EarthMarker】区域级和点级遥感图像理解的视觉提示学习框架

在这个训练阶段，多尺度的视觉特征和语言表示被集成到LLM中，以发展图像级的理解能力。例如，对于分割，从实例对应的掩码中提取的代表性点被用作点级的视觉提示。大量的实验被用来证明了所提出的EarthMarker的竞争性能，代表了在视觉提示学习框架下多粒度RS图像解释方面的显著进步。通过基于公共数据集的转换和重新标注，有效地开发了具有图像点-文本和图像-区域-文本配对功能的可视化提示数据集RSVP-3M。如表一，图像级、区域级和点级的数据来自于不同的RS数据集。

2024-07-21 15:17:33 531

原创【FineGrip】全光学感知：一种新的通用遥感图像解释任务和细粒度数据集（IEEE TGRS 2024）

可以同时处理多层次解译中的各种子任务，包括前景实例的细粒度实例分割、背景区域的语义分割和图像字幕生成。此外，还详细描述了复杂的语义关系，从全局的角度实现了类人的感知。然而，这些任务的模型通常是独立设计的，而忽略了RSIs中丰富的语义和上下文关系。然而，关于RSI全光学分割的数据集和研究却很少，并且，全光学分割仍然关注于像素级和实例级的解译。包括2,649张遥感图像，具有细粒度的飞机实例分割注释、不同的背景语义和细粒度的句子描述注释。来自不同类别的样本具有不同的语义、广泛的地形场景和复杂的语义关系等特点。

2024-07-12 21:13:36 1100

原创【RSICRC】Towards a multimodal framework for remote sensing image change retrieval and captioning

尽管数据集规模庞大，但是，获得的图像是同一个地理区域（德克萨斯州，美国）发生的变化。在一个对比的学习框架中，这些例子被认为是假阴性的，并可能使训练阶段具有挑战性。从单个图像到一对图像上并不简单，需要一种机制处理假阴性，即被对比损失确定为负的例子，但实际上是正的。如果我们的模型被设置为编码器主干进行微调，只需要更新ResNet系结构的最后两个卷积层的权重，或ViT的变压器层的权重。如前所述，这项工作的目标是将标题功能与仅使用单一模型的文本图像检索相结合。

2024-07-12 17:57:35 1191

原创【TICOD】Transformer based Multitask Learning for ImageCaptioning and Object Detection（PAKDD 2024）

如[18]最近的一项工作使用COCO标题和检测注释将其输入仅文本的GPT-4，以生成多模态指令跟踪数据，其中包括会话、详细描述和复杂的推理数据。提取区域特征的时间密集型特性导致最先进的模型依赖于缓存的视觉特征（通常是预先计算的）来进行训练和评估，对模型设计施加约束，并导致在预测过程中运行时推理效率低下。(c)标题生成网络：将Swin-Transformer主干的最后一个特征图和一个<start>标记作为GPT-2的输入，并以自回归的方式逐字生成标题。在MS-COCO数据集上的综合实验来评估方法的有效性。

2024-07-07 15:29:08 812 1

原创【PromptCC】遥感图像变化字幕的解耦范式

摘要摘要动机方法1) Soft class-specific prompt：通过加权和图像级分类器的预测概率生成：2) Hard class-specific prompt：根据图像级分类器的分类结果，选择中的一个生成：最后，生成的多提示预训练后的LLM具有强大的特征表示能力，受GPT家族（如GPT-2、GPT-3和ChatGP）在语言生成任务上的巨大成功的启发，本文使用GPT-2作为标题生成器。

2024-06-26 15:53:30 1152

原创【Change-Agent】实现交互式综合遥感变化的解释与分析

摘要摘要监测地球表面的变化对理解自然过程和人类的影响至关重要，因此需要采用精确和全面的解译方法。遥感卫星图像为监测这些变化提供了一个独特的视角，导致遥感图像变化解译（RSICI）成为一个重要的研究重点。目前的RSICI技术包括变化检测和变化字幕，每个在提供全面的解释方面都有局限性。为了解决这个问题，提出了一个交互式的Change-Agent，将一个多层此的变化解译MCI模型作为眼睛，LLM作为大脑，可以按照用户指令，实现全面的变化解译和深刻的分析，比如变化检测和变化字幕、变化对象计数、变化原因分析等。

2024-06-26 14:55:24 644

原创【CARD】多变化字幕的上下文感知差异提炼（ACL 2024）

遵循之前的multi-change captioning方法，使用预先训练的ResNet-101提取一对图像的局部特征，特征维数为1024×14×14，将其投影到较低的512维度中，可训练的[CLS]特征的维数也被设置为512，模型的隐藏层大小和单词嵌入大小分别设置为512和300。此外，公共上下文特征引导模型挖掘局部不变的特征，并从这对特征中减去，提取局部不同的特征。前者帮助挖掘局部共性来推断局部差异特征，后者增强局部差异特征，确保所有的变化被提炼出来。的公共上下文特征，第r个after图像。

2024-06-22 15:56:28 784

原创【SITS_CC】卫星图像时间序列的变化字幕（IEEE GRSL）

但是如图3(b)，在SITS数据上不可行，在t0-t3图像没有变化，但在t3和t4的最后一幅图像出现了显著变化，很明显，这种融合策略生成的输出句子不能正确描述时间t3和t4之间某些建筑物的外观。提供了一个明确的方向，使用现有相邻图像之间的变化字幕来训练本文的模型，然后，通过特殊的时间依赖相关正则化，合并非相邻的时间信息，并在SITS。使用改进的ResNet-101架构作为从SITS中提取图像特征的骨干，通过调整池化层，可以保留大部分图像信息，同时适应不同的输入大小，从而确保后续处理的空间大小保持一致。

2024-06-04 22:01:06 921

原创【Lite_Chag2cap】一种用于遥感图像变化字幕的轻型transformer

attention kernels的稀疏分解方法可视化。解码器包括几个transformer解码器层，每个层由一个掩蔽的多头注意力子层和一个前馈网络组成。尽管如此，由于注意力机制的高复杂性和参数量，特别是在transformer架构中，在计算资源有限的工业环境中的部署和实际应用仍然具有挑战性。在各种数据集上的实验结果表明，即使transformer编码器的参数和计算复杂度降低了90%以上，提出的网络仍然可以与其他最先进的RSICC方法相比获得具有竞争力的性能。

2024-05-24 19:33:01 539 1

原创【LiST-Net】利用轻型SAR传感器网络增强洪水测绘（IEEE TGRS）

首先采用ViTAEv2作为主干，省略了最后的全连接层，以适应CD任务，为了优化计算效率，只使用四个主干阶段，将每个阶段的特征图降采样到之前分辨率的一半。具体来说，在编码器中，GNM模块分别从双时态图像中提取多层次特征，增强了语义信息和邻近像素的细节，采用减法加绝对值从层次特征中生成了差异特征Di，使用DIA模块有效降低计算复杂度，增加获取变化图的准确性。最后，计算成本的增加，给CD的训练网络提出了挑战。但是本文方法能够更有效的检测机场的变化信息，并能准确的检测河岸被洪水淹没的像素，表现优于其他方法。

2024-05-23 14:27:39 892 1

原创【CAS-Net】基于比较的开放高分辨率无人机图像数据集变化检测网络（IEEE TGRS）

然后输入核大小为7×7，步幅为2，填充为3的卷积层，以及核大小为3，步幅为2，填充为1的最大池化层。优于其他基于卫星的数据集，因为它包含了多个航空角度拍摄的图像，覆盖了不同的城市和农村地区，并展示了广泛的地理和建筑差异。下图表示由无人机捕获的双时态图像，其中图像(a)和图像(b)红框中的patch代表感兴趣的目标或物理特征，而黄色框中的patch代表研究中不需要的噪声或物理特征。positive和两个negative的图像对和标签，黄色虚线标记的是伪变化，如车辆和阴影，需要忽略伪变化，因此标签中未做标记。

2024-05-22 23:21:24 1067 1

原创【ChangeMamba】利用时空状态模型进行遥感变化检测

因此，只有一个语义解码器用于预测土地覆盖地图，与MambaBCD和MambaSCD一样，一个变化解码器从多时间特征中学习时空关系，将建筑物的损伤水平分类。MambaBCD：孪生编码器网络从输入图像中提取多层特征，多级特性被输入到一个定制的变化解码器中。基于Mamba架构，变化解码器可以通过三种不同的机制从多层次特征中充分学习时空关系，并逐步获得准确的BCD结果。VMamba可以充分地利用Mamba体系结构和高效的二维交叉扫描机制，提取输入图像的鲁棒性和代表性特征（如图3所示）。

2024-05-21 14:20:07 877

原创【RS-Mamba】用于大型遥感图像密集预测的 RS-Mamba

OSSM将输入的tokens沿横向、纵向、斜向、反斜向及其反方向展平成8组序列，然后这些序列独立地通过SSM块进行选择性扫描。所有方向的扫描结果累加在一起形成输出tokens，这些输出tokens综合了8个方向上的特征，使模型能够全方位地捕获和建模遥感图像的大尺度空间特征。OSS块的核心是面向扫描模块（OSSM），它是在图像中跨多个方向的全局上下文建模的核心。OSSM有选择地向不同的方向扫描输入图像，捕捉复杂的空间关系，并提供对上下文的全面理解。

2024-05-21 13:49:12 902

原创【A2Net】利用渐进式特征聚合和监督注意力进行轻量级遥感变化检测（IEEE TGRS）

高级特征通过一个3×3卷积减少通道数，并通过双线性上采样操作将分辨率调整到和中间特征分辨率一致；级联三个特征，聚合多级信息，使用残差学习保存中间特征信息，并确保低级和高级特征作为补充，分别使用1×1卷积和3×3卷积来调整中间特征和级联特征的通道数。主干每个阶段都包含一个步幅为2的卷积层，因此，每个阶段的特征图都被降采样到前一个阶段一半的分辨率。通过应用HAM分别在高级特征和低级特征上进一步加强了对象的语义信息和细粒度细节。详细信息和语义信息可以分别在低级特征和高级特征上得到进一步加强。

2024-05-21 12:24:27 686

原创【USSFC-Net】遥感图像变化检测的超权重空间光谱特征协同网络（IEEE TGRS收录）

在编码器的每个阶段获取一个不同的图像，并将其连接到解码器的相应位置，以获得更丰富的变化对象的特征图。双时遥感图像的光谱信息包含在多维通道的特征谱图中，空间和通道注意的级联经常被用来模拟变化物体的空间光谱依赖性，需要大量额外的内存和计算成本。其次，将网络的每个阶段的特征图的通道数量减半，以使网络更加紧凑。在三个遥感图像CD数据集上的实验表明，所提出的USSFC-Net比大多数基于cnn的方法具有更好的CD精度，拥有更低的计算成本和更少的参数，甚至优于一些基于transformer的方法。

2024-05-20 15:48:51 749 1

原创【LPCDNet】一种基于多层特征压缩和灵敏度引导的网络剪枝的轻量级补丁级变化检测网络（IEEE TGRS收录）

结合像素级CD和patch级CD，本文使用图1(b)中的框架进行大规模图像CD，以实现更有效的推理和准确的检测结果。但是，由于变化的稀疏性，现有的像素级方法在许多不变区域上存在计算成本和内存资源的浪费，降低了在计算和内存资源极其有限的硬件平台上的处理效率。另外，如图4(d)所示，一些通道的特征图包含有限的地面对象信息（例如，只有部分物体边界），但提取过程需要大量的参数和计算。实际上，原始大尺度的遥感图像中的变化区域通常呈现稀疏分布，只占整个图像区域的一小部分，因此，大多数图像。该函数是S型函数的一个变体。

2024-05-18 21:08:06 1134

weixin_44703452的博客