深度学习与在遥感领域的应用 (综述+研究方向+相关期刊)

 目录

1. 图像融合 (Image Fusion)

1.1 图像锐化 (MS+PAN)

  将低分辨率多光谱(MS)图像与高分辨率全色(PAN)图像融合以获得高分辨MS图像。
在这里插入图片描述
在这里插入图片描述
  方向1:与遥感领域知识的结合。根据遥感图像的特点,可利用遥感领域大量现有的特定领域知识有针对性地对深度学习模型进一步改进。
  方向2:自监督的全色图像锐化方法。现有方法都是通过使用大量的根据Wald协议(Wald等,1997)所获得的模拟数据进行监督学习。然而,所获得的模型受限于监督学习中所使用的样本数据,不具备良好的泛化能力。自监督学习可以从未标记的数据中学习到有效的特征表示而无需人工标注的标签信息,这样使得自监督学习得到的模型不会受限于样本数据,具有良好的泛化性能。
  方向3:全色图像锐化标准数据集。当前研究中,训练数据集大多从现有几个卫星数据集中由研究者自主选取,不可避免地存在一定程度的主观性和局限性。
  方向4:轻量级全色图像锐化深度模型。研究者通常构建结构更为复杂的模型,从而造成全色图像锐化模型容量更大、训练时间更久,这限制了全色图像锐化深度模型在实际中的应用。
在这里插入图片描述

1.2 高光谱图像(HSI)和多光谱图像(MSI)融合

  将低分辨率高光谱(HSI)图像与高分辨率(MSI)图像融合以生成高分辨率HSI图像。
  在这里插入图片描述  +  在这里插入图片描述  =  在这里插入图片描述
  方向1:交叉模态信息交互较少。大多数现有的基于变压器的HSI和MSI融合方法都是对单个模态进行特征提取,并在融合的最后阶段进行特征拼接。该方法忽略了空间模态与光谱模态之间的交叉模态信息交互,不利于融合任务的完成。
  方向2:模型优化。模型一直在不断创新迭代。
在这里插入图片描述

2. 图像配准 (Image Registration)

  图像配准是叠加两个或多个来自不同来源、在不同时间和角度拍摄的图像的过程。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  方向1:缺少大样本且开源的标准数据集。同源遥感影像易于获取,相关配准方法也较为成熟,易于构建小样本数据集,但构建大样本同源遥感影像数据集成本大。异源遥感影像获取、筛选难度大,虽然目前已有如SEN1-2、SARptical等高质量、开源的异源遥感影像数据集,但现有数据集也存在覆盖研究范围较窄等问题。
  方向2:难以应用于大范围遥感影像
  方向3:模型优化。网络训练时间长,计算开销大。

3. 场景分类 (Scene Classification)

在这里插入图片描述
在这里插入图片描述
  方向1:大型数据集的开发。现有数据集的数量有限,导致使用预训练模型(通常来自ImageNet)进行迁移学习。然而,迁移学习可能并不总是最优的解决方案,因为预训练的模型可能不能完全适应目标领域的特定特征。
  方向2:Transformer模型的优化。基于Transformer的CNN架构具有捕获和良好保存本地和全局上下文信息的能力,在过去两年中,在遥感场景分类中取得了令人鼓舞的结果,并且识别率有所提高。因此,预计在这一领域将有更大程度的开发利用。
  方向3:Gan模型优化。在基于Gan的方法中探索不同的策略,为利用未标记的数据集提高遥感场景分类的准确性提供了机会。

4. 土地利用/覆盖分类(Land Use and Land Cover Classification, LULC)

在这里插入图片描述
在这里插入图片描述
请添加图片描述
  方向1:跨模态数据融合。因此我们的模型需要不断更新,以适应数据多样性带来的可变性。跨模态数据融合:随着深度学习方法在LULC分类领域的快速发展,遥感数据可能会根据不同的时间、不同的地区、不同的传感器、不同的气候等发生变化,融合遥感影像多模态(如纹理、光谱、时间等)的有效信息,并将其与深度学习模型相结合,以提高网络模型分类的准确性和鲁棒性。
  方向2:开发适配高分辨率数据的模型。未来遥感影像数据的分辨率将不断提高,这对LULC分类提出了更高的要求。因此,开发适应高分辨率数据的算法和模型,更准确地捕捉特征特征的细节和变化,是未来研究的重点之一。
  方向3:迁移学习和自适应学习。两者的结合可以解决由于领域差异导致的模型泛化能力较低的问题。

5. 目标检测 (Object Detection)

  目标检测的流水线大致可分为五个部分:(1)数据预处理,(2)特征提取与处理,(3)生成边界框,(4)检测并分类,(5)后处理。
在这里插入图片描述
在这里插入图片描述

  方向1:改善网络结构。目前,遥感探测器性能提升速度缓慢,表明现有方法已经达到极限,难以实现突破。因此,如何进一步提高该技术是需要解决的关键问题。
  方向2:改进轻量级模型。为了提取具有丰富信息表示的特征,网络大多采用极深结构设计,需要对大量参数进行优化。这增加了模型对数据的需求,同时增加了计算设施的负担。目前的低算法便携式嵌入式设备无法实现如此重的模型。如何减小现有模型的参数尺度以提高模型的实用性显得尤为重要。轻量化模型涉及到网络结构、优化方法等多方面的参与。
  方向3:改进弱监督学习。性能上的缺陷限制了弱监督学习的应用范围,因此这个方向很少被探索。标签的优点也拓宽了发展前景,检测能力的进一步利用是一个值得深入研究的课题。
  方向4:改进方向预测策略。方向是物体位置信息的本质表现之一,为实现准确的物体定位,已经建立了多种方向识别系统。然而,大多数这样的模型将方向设置在0-180◦的范围内,这没有考虑到方向。
  方向5:提高超分辨率检测。对于缺乏足够结构知识的弱目标检测,超分辨率重建技术可以有效扩大目标规模,提供额外的细节,提高识别效果。
  方向6:改进小目标问题。小目标检测一直是目标检测优先级。小目标——其像素占用小且特征难以提取,使其在前向传播过程中容易被遮挡。

6. 语义分割 (Semantic Segmentation)

在这里插入图片描述
在这里插入图片描述
  方向1:训练样本不足。高分辨率遥感图像需要手动标记像素,这是一项艰巨且劳动密集的工作。因此,样本不足的问题仍然存在。今后的工作可以在以下几个方面进行改进:(1)如何构建多角度、多色调等样本分析模型;(2)探索实现更有前景的性能的方法,很少使用精细标注或粗糙品牌,减少训练样本;(3)合并数据集,将不同的光学和SAR数据集组合在一起。鲁棒变压器模型可以用于多源RS数据,包括具有不同空间和光谱分辨率的航空和卫星图像。
  方向2:优化和改进语义分割模型。语义分割技术可以直接推动智慧城市、资源监控等领域的发展。这些任务对模型产生了更高的需求。(1)如何更好地为其高分辨率图像捕获更多差异化的特征和上下文信息。(2)如何设计无监督学习模型来提高高分辨率图像的性能,包括不需要大量标记数据的弱监督和半监督方法。(3)改变卷积模型中卷积的数量或类型。(4)如何在显式增强方法中取代边缘引导的上下文聚合方法,并使用更好的边缘提取器。
  方向3:降低计算复杂度,提高模型的鲁棒性。现有模型规模大、计算量大,阻碍了其广泛应用,因此提高模型的性能和质量是非常重要的。如何平衡语义分割的性能和计算能力是未来的研究方向。(1)构建更小模型尺寸和计算复杂度的实时语义分割模型。(2)设计一种更高效、简洁的特征提取方法。(3)减少延迟。
  方向4:研究更复杂的实际场景。许多实验只在特定的数据集上实现。因此,如何设计出适合实际复杂场景的新方法仍有待研究。
  方向5:小目标分割的研究。由于小目标的像素面积占比较小,多次降采样后会丢失一定的详细信息,从而在一定程度上导致精度下降。在未来,我们可以从小目标开始,通过残余连接、注意机制和金字塔结构等方法来提高精度。

7. CVPR—遥感领域的文章

7.1 从遥感图像提取类不可知的拓扑定向图

  题目:TopDiG: Class-Agnostic Topological Directional Graph Extraction from Remote Sensing Images 时间:CVPR23
  创新点: 该关键创新在于将多样的拓扑结构表述为定向图,有效地缩小了不同类别之间的差距。此外,作者还开发了一种动态图监督策略,允许灵活安排预测节点并稳定不同类别间的性能。
  方法: 方法包括拓扑集中节点探测器(TCND)和定向图(DiG)生成模块,以保留几何形状,如多边形和线形目标。这种方法以端到端的方式执行,无需初始轮廓或额外的后处理。TopDiG优于以前的基于分割、基于轮廓和图生成的方法。
在这里插入图片描述

7.2 基于Vision Transformer的时间序列卫星影像模型TSViT

  题目:ViTs for SITS: Vision Transformers for Satellite Image Time Series
时间:CVPR23
  创新点:
  (1) 时间-空间分解:与自然图像不同,针对SITS(Satellite Image Time Series)数据,研究认为先处理时间维度再处理空间维度更为直观有效,这提供了与现有方法(这些方法要么不分离这些维度,要么遵循空间-时间顺序)不同的新方法。
  (2) 获取时间特定的时间位置编码和多个可学习类别标记:为了增强模型的区分能力,研究提出的TSViT(Temporo-Spatial Vision Transformer )引入了独特的时间位置编码,这些编码随着卫星图像的获取时间变化,解决了不规则获取间隔的挑战。此外,引入多个可学习类别标记,作为提升模型在SITS数据分类能力的新策略。
  方法:
在这里插入图片描述

7.3 GeoChat用于遥感的大视觉-语言模型

  题目: GeoChat : Grounded Large Vision-Language Model for Remote Sensing
时间:CVPR24
  创新点:
  (1) 遥感领域的GeoChat视觉语言模型 (VLM):统一的遥感视觉语言模型,在处理高分辨率遥感图像的多任务会话方面表现出色,包括图像级查询和具有空间坐标定位的区域特定对话。
  (2) 遥感多模态指令遵循数据集:创建了一个全新的遥感多模态指令遵循数据集,包含318k图像指令对,实现了跨多种遥感任务的鲁棒零样本性能。
  (3) 与LLaVA-v1.5架构整合:结合空间位置表示和特定任务的标记,采用创新方式进行模型训练和功能实现,展示了模型训练和功能性的创新途径。
  (4) 评估基准 (Evaluation Benchmark)。为应对缺乏评估基准来评估现有 VLM 在遥感对话方面的能力的问题,研究为 RS 中的对话建立了评估协议,并设置了一套任务,以便与未来在该方向的研究进行比较。研究展示了针对不同遥感任务的各种监督评估和零样本评估,以证明 GeoChat 的通用性。
  方法:
在这里插入图片描述

7.4 由卫星影像生成3D城市场景,基于扩散模型

  题目:Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion
  时间:CVPR24
  创新点:
  (1) 提出了一种基于扩散模型的框架Sat2Scene,能够从卫星图像生成3D城市场景,在该领域是一种新方法。该方法利用扩散模型生成纹理颜色,并通过神经渲染技术转换成场景表示,支持从任意视角渲染。核心贡献在于如何为三维点云上色,以及如何将它们渲染成从任意视角观看时都具有高度真实感的图像或视频。
  (2) 提出了一个新的带有稀疏表示的扩散模型,通过直接在3D空间生成与几何结构紧密关联的场景特征,确保了从任何视角生成一致性图像。根据文中描述,这是首次将扩散模型与3D稀疏表示相结合。
  (3) 模型能够产生具有稳健时间一致性的逼真街景图像序列,性能超过了现有技术基准。

7.5. 根据自然语言描述实现遥感图像指向性分割,旋转多尺度交互网络RMSIN

  题目:Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
  时间:CVPR24
  创新点:
  (1) 旋转多尺度交互网络(RMSIN):为解决指向性遥感图像分割(RRSIS)的挑战而设计的一种新颖架构解决方案,通过处理遥感图像中复杂的空间尺度和方向问题。它引入了两个关键组件:层内跨尺度交互模块(IIM)和层间跨尺度交互模块(CIM),以及用于通过有效处理物体的多样化方向来增强分割精度的自适应旋转卷积(ARC)。
  (2) RRSIS-D 数据集:为RRSIS任务设计的一个包含17,402个图像-描述-掩模三元组的大规模、多样化数据集,在规模和多样性方面有显著优势。该数据集旨在呈现广泛的空间和旋转场景,为性能评估设定了严格的基准。
  方法 :
在这里插入图片描述

7.6. 根据自然语言描述实现遥感图像指向性分割,旋转多尺度交互网络RMSIN

  题目:Poly Kernel Inception Network for Remote Sensing Detection
  时间:CVPR24
  创新点:
  (1) PKINet:一种新的特征提取骨干网络,应对遥感图像目标检测中的对象尺度显著变化和多样化的上下文等问题。PKINet 可以与各种有向框目标检测器(如 Oriented RCNN、R3Det等 )结合。
  (2) 多尺度卷积核:与之前依赖大卷积核或膨胀卷积的方法不同,PKINet利用不同大小的多个深度卷积核,无需膨胀即可提取不同感受野中的多尺度纹理特征。
  (3) 上下文锚点注意力(CAA)模块 :引入了CAA模块来捕捉长距离的上下文信息,利用全局平均池化和1D条形卷积来增强中心区域的特征。
  方法
在这里插入图片描述

7.7. 利用低分辨率数据更新高分辨率土地覆盖图,基于CNN和Transformer的弱监督框架

  题目:Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels
  时间:CVPR24
  创新点:
  (1) 构建了一个高效的弱监督框架Paraformer,设计用于使用低分辨率(LR)历史标签更新大规模高分辨率(HR)土地覆盖图。
  (2) 并行的CNN-Transformer特征提取器,由无下采样的 CNN 分支和 Transformer 分支组成,可有效捕获局部和全局上下文信息。
  (3) 伪标签辅助训练(PLAT)模块,用来应对在LR标签和HR图像之间的空间不匹配的问题。
  方法
在这里插入图片描述

7.8. 重新思考多光谱影像的预训练,基于Transformer的方法SatMAE++

  题目:Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery
  时间:CVPR24
  创新点:
  (1) SatMAE++在预训练过程中纳入多尺度信息,这对于处理卫星图像中固有的各种尺度变化非常重要。
  (2) 基于卷积的上采样:SatMAE++使用基于卷积的上采样块进行更高尺度的图像重建。这种设计选择允许更容易地扩展到更多尺度。
  (3) SatMAE++使用标准位置编码而不是特定于尺度的编码,证明了无需复杂编码方案就能有效学习多尺度表示。
  方法
在这里插入图片描述

7.9. RefDiff, 扩散模型用于遥感数据超分辨率重建,结合参考图像和变化检测信息

  题目:Building Bridges across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion Model
  时间:CVPR24
  创新点:
  (1) 文章提出了一种新的基于参考的超分辨率(RefSR)方法,适用于遥感图像。研究的目的在于超分辨率,而土地覆盖变化则用来帮助实现这一目标。
  (2) 变化感知扩散模型:研究引入了一个名为Ref-Diff的变化感知扩散模型,利用土地覆盖变化先验显式指导去噪过程。这种方法旨在改善变化区域的内容真实性和未变化区域的高效纹理传输。
  (3) 参考信息的利用:将土地覆盖变化的先验注入去噪模型,该方法增强了参考信息的利用,有助于更好地重构发生变化区域的语义相关内容。
  (4) 去噪过程的解耦:模型将语义引导的去噪和参考纹理引导的去噪解耦。
方法:
  输入数据:低分辨率图像(LR)+ 高分辨率参考图像(Ref)+ 土地覆盖变化掩膜
  输出数据:超分辨率重建的高分辨率图像(HR)
在这里插入图片描述

7.10. 从2D到3D,基于航拍影像的城市语义分割及建筑实例分割

  题目:Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery
  时间:CVPR24
  创新点:
  (1) 提出了一种用于从航拍图像进行城市规模语义和建筑级实例分割的新型辐射场方法NeRF,可将2D标签提升到3D,得到了很好的效果。
  (2) 尺度自适应的语义标签融合:提出了一种新颖的方法来提高不同大小对象的分割精度,通过结合不同高度预测的标签,利用NeRF的新视图合成能力。这种策略通过在不同尺度上细化分割,显著减少了不同类别(如建筑和道路)之间的歧义。
  (3) 跨视图实例标签分组:为了解决2D实例标签的多视图不一致问题,引入了一种基于3D场景表示的跨视图实例标签分组策略,以确保建筑实例分割的一致性和准确性。
  (4) 来自多视图立体的深度先验:该方法结合了来自多视图立体的深度先验来增强重建的辐射场的几何质量。这通过强制几何一致性并减少伪影来改进分割结果。
  方法

7.11. 多模态无人机数据目标检测,自适应特征对齐和融合

  题目:Weakly Misalignment-free Adaptive Feature Alignment for UAVs-based Multimodal Object Detection
  时间:CVPR24
  创新点:
  偏移引导的自适应特征对齐 (OAFA):研究提出的OAFA方法通过自适应调整多模态特征的相对位置来解决RGB和IR图像之间的弱对齐问题,而不是强制严格对齐。包括两个关键模块:
  跨模态空间偏移建模 (CSOM):该模块创建了一个通用子空间,用于估计精确的特征级偏移,从而减少模态差距对空间匹配的影响。
  偏移引导的可变形对齐和融合 (ODAF):该模块捕捉检测任务的最佳融合位置,不需要严格对齐。
在这里插入图片描述

7.12. S2MAE: 空间-光谱预训练基础模型,用于多光谱遥感数据

  题目:S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data
  任务:图像重建、单标签分类、多标签分类、变化检测
  时间:CVPR24
  创新点:
  文章提出了空间-光谱掩码自编码器 Spatial-SpectralMAE (S2MAE),为多光谱遥感图像设计的预训练模型。与现有主要针对自然RGB图像开发的模型不同,S2MAE针对多光谱遥感影像的特性进行了优化,这些特性包括多个波段捕获不同的特征信息以及空间对齐和一致的光谱排序。
  用于掩码自编码器建模的3D Transformer:这种方法结合了可学习的光谱-空间嵌入,并采用90%的高掩码率,有效捕捉了局部光谱一致性和空间不变性,使用紧凑的立方体标记表示。
  渐进式预训练方法:S2MAE采用了渐进式预训练方法,使模型能够适应并推广到不同的多光谱遥感数据集。
  方法
在这里插入图片描述

7.13. 弱监督学习用于旋转框遥感目标检测

  题目:Relational Matching for Weakly Semi-Supervised Oriented Object Detection
  时间:CVPR24
  创新点:
  (1) 弱半监督学习框架:文章介绍了一种新的框架,利用弱标注(点标注)来增强旋转框目标检测,平衡检测性能和标注成本。
  (2) 旋转调制关系图匹配:该方法对教师模型和学生模型之间的基于点标注的proposals 的关系图进行对齐,解决了点标注的模糊性问题。
  (3) 关系排序分布匹配:该方法对教师模型和学生模型之间的分类和回归输出的排序分布进行对齐,提取丰富的关系信息。
  (4) 困难点(difficult points)的弱监督学习:引入了弱监督学习方法来处理教师和学生模型都无法准确预测的困难点,提高模型的区分能力。

在这里插入图片描述

7.14. 基于航空影像的多物种动物目标检测和识别

  题目:WildlifeMapper: Aerial Image Analysis for Multi-Species Detection and Identification
  时间:CVPR24
  创新点:
  (1) 单阶段端到端方法:研究提出的WildlifeMapper (WM) 采用一种新的单阶段端到端动物检测方法,结合高频特征生成器(HFG)、特征提炼器(FR)和Query提炼器(QR)模块,提升了传统航空图像中目标检测的效果,并实现了在不同栖息地的泛化能力。
  (2) 高频特征生成器(HFG):HFG模块通过抑制低频成分,使模型能够聚焦于高频成分,减少了同质背景的干扰,从而更准确地检测出动物。该模块有效地捕捉了航空图像中的局部结构和背景信息,有助于提高检测精度。
  (3) 上下文Patch Embedding层:Patch Embedding层用于捕捉上下文信息,有利于准确识别航空图像中的动物种类。该层通过大内核卷积和增加的膨胀率,显著提高了模型对小型和复杂对象的识别能力。
  (4) 新基准数据集:构建了Mara-Wildlife数据集,该数据集包含77,966张图像和28,146个注释,涵盖21个物种。为在复杂、异质环境中开发和评估野生动物检测模型提供了丰富的资源,数据将公开。
在这里插入图片描述

8. ECCV—遥感领域的文章

8.1 使用全景-BEV联合检索网络进行跨视角图像地理定位

  题目:Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network
  时间:ECCV24
  创新点:
  (1) 全景-BEV 协同检索网络:本文提出了一种新的跨视角地理定位方法,通过利用几何关系和地面平面假设,将街景全景图像转换为鸟瞰图 (BEV)。这种转换减少了街景视角和卫星图像之间的视角差异。
  (2) 双分支检索:该网络结合了原有的街景检索分支和基于 BEV 的检索分支。这个组合可以利用全局布局和局部详细信息,解决了 BEV 的局限性,例如感知范围有限的问题。
  (3) 构建CVGlobal 数据集:作者构建了一个新的全球跨视角数据集 CVGlobal,该数据集具有更现实的设置,包括多变的街景方向、跨区域和跨时间检索任务,以及地图数据检索。与现有的数据集(如 CVUSA 和 CVACT)相比,该数据集更接近真实世界的场景。
  方法
在这里插入图片描述

8.2 MA3E: 用于遥感图像的Masked角度感知自编码器

  题目:Masked Angle-Aware Autoencoder for Remote Sensing Images
  任务:场景分类、旋转框检测、语义分割
  时间:ECCV24
  创新点:
  (1) 角度感知自编码器 (MA3E) : 研究提出 Masked Angle-Aware Autoencoder (MA3E),通过在预训练中引入显式的角度变化来感知和学习旋转不变的表示。这种方法专注于恢复经过预设角度变化后的原始图像,从而在自监督学习过程中更好地感知角度信息。
  (2) 优化传输损失: 为了避免直接重建旋转后的裁剪区域带来的偏差,研究提出了优化传输(OT)损失,该损失能够自动为每个旋转后的裁剪区域分配相似的原始图像块作为重建目标,从而更准确地进行重建。
  (3) 缩放中心裁剪操作: 研究设计了一种缩放中心裁剪操作,用于在每个原始图像内创建具有随机角度的旋转裁剪区域,这引入了显式的角度变化,使得模型能够更好地学习到旋转不变的特征表示。
  方法
在这里插入图片描述

8.3 多模态Transformer从卫星影像中估计交通速度, 辅助完成道路分割, 估计行车方向等任务

  题目:Probabilistic Image-Driven Traffic Modeling via Remote Sensing
  时间:ECCV24
  创新点:
  (1) 提出了一种多模态、多任务的基于Transformer的分割架构,并集成了一种新颖的地理-时间位置编码模块,用于结合地理和时间上下文。
  (2) 提出了一种估算交通速度的概率公式,考虑了时间变化并通过概率目标函数纳入不确定性。
  (3) 提出了DTS++数据集,以支持与移动性相关的地点适应实验。
  方法
在这里插入图片描述

8.4 多模态自监督架构用于农作物, 林业, 土地覆盖制图等地球观测任务

  题目:Probabilistic Image-Driven Traffic Modeling via Remote Sensing
  时间:ECCV24
  创新点:
  (1) 新架构: 文章提出OmniSat,一种自监督架构,能够在无需标签数据的情况下融合多种地球观测(EO)数据模态。与传统方法不同,OmniSat将不同模态合并为一个表达性强的表示。
  (2) 多模态数据集扩充: 研究通过增加新对齐模态丰富了现有数据集 (TreeSatAI和PASTIS-R),创建了第一个包含三种不同数据类型(超高分辨率图像、光学时间序列和SAR时间序列)的多模态遥感数据集。
  (3) 自监督学习方案: OmniSat采用多模态对比学习方法和跨模态掩码自编码技术来学习丰富的表示,确保不同遥感数据源的精确对齐。

8.5 LHRS-Bot: 遥感视觉语言多模态大模型; 基于OSM地理信息和遥感影像构建大型数据集

  题目:LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
  时间:ECCV24
  创新点:
  (1) 提出了LHRS-Align,这是一个大规模、语义丰富且特征多样的遥感图像-文本对齐数据集。利用了OpenStreetMap的志愿地理信息VGI和Google Earth的遥感图像,数据集包含115万高质量的RS图像-文本对。
  (2) LHRS-Instruct (RS-Specific Instruction-Following Dataset)为遥感领域的多模态指令跟随设计。重新组织了一系列开源遥感数据集为多任务指令数据集,并使用GPT-4生成复杂的指令数据。
  (3) LHRS-Bot是为遥感图像理解量身定制的MLLM,采用了一种新颖的多级视觉-语言对齐策略和课程学习方法,模型在各种遥感图像理解任务中表现出卓越的性能。
  (4) LHRS-Bench,用于评估MLLM在遥感领域能力的高质量基准。

8.6 两阶段高光谱遥感图像分类(语义分割) 模型DSTC

  题目:Dual-stage Hyperspectral Image Classification Model with Spectral Supertoken
  时间:ECCV24
  创新点:
  (1) 双阶段光谱supertoken分类器 (DSTC):DSTC 模型旨在解决单阶段逐像素分类模型的缺点,使用两阶段的过程来分类高光谱图像。
  (2) 基于光谱导数的像素聚类:该技术将具有相似光谱特征的像素聚类成光谱supertoken,有助于保持区域分类的一致性和精确的边界定义。
  (3) 基于类别比例的软标签:创新的标签方法根据各类别在每个supertoken中的比例分配权重。该方法有效地管理数据分布不平衡问题并提高分类性能。
  方法
在这里插入图片描述
在这里插入图片描述

9. 期刊

9.1 专业性期刊(按影响因子排序)

(1) 期刊名字:IEEE Geoscience and Remote Sensing Magazine
影响因子:16.2
在这里插入图片描述

(2) 期刊名字:REMOTE SENSING OF ENVIRONMENT
影响因子:11.1
在这里插入图片描述

(3) 期刊名字:ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING
影响因子:10.6
在这里插入图片描述

(4) 期刊名字:International Journal of Applied Earth Observation and Geoinformation
影响因子:7.6(OA)
在这里插入图片描述

(5) 期刊名字:IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
影响因子:7.5
在这里插入图片描述

(6) 期刊名字:GIScience & Remote Sensing
影响因子: 6.0 (OA)
在这里插入图片描述

(7) 期刊名字:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing
影响因子:4.7(OA)
在这里插入图片描述

(8) 期刊名字:GPS SOLUTIONS
影响因子:4.5
在这里插入图片描述

(9) 期刊名字:Drones
影响因子:4.4(OA)
在这里插入图片描述

(10) 期刊名字:Remote Sensing
影响因子:4.2(OA)

在这里插入图片描述

(11) 期刊名字:IEEE Geoscience and Remote Sensing Letters
影响因子:4.0
在这里插入图片描述

(12) 期刊名字:JOURNAL OF GEODESY
影响因子:3.9
在这里插入图片描述

(13) 期刊名字:International Journal of Digital Earth
影响因子:3.7
在这里插入图片描述

(14) 期刊名字:Egyptian Journal of Remote Sensing and Space Sciences
影响因子:3.7(OA)

在这里插入图片描述

(15) 期刊名字:European Journal of Remote Sensing
影响因子:3.7(OA)
在这里插入图片描述

(16) 期刊名字:Geocarto International
影响因子:3.3
在这里插入图片描述

(17) 期刊名字:International Journal Of Remote Sensing
影响因子:3.0
在这里插入图片描述

(18) 期刊名字:Journal of Applied Remote Sensing
影响因子:1.4
在这里插入图片描述

9.2 非专业性期刊(按影响因子排序)

(1) 期刊名字:PATTERN RECOGNITION
影响因子:7.5
在这里插入图片描述

(2) 期刊名字:NEUROCOMPUTING
影响因子:5.5
在这里插入图片描述

(3) 期刊名字:Soft Computing
影响因子:3.1
在这里插入图片描述

9.3 会议

武汉大学测绘学院​国际学术会议等级列表

10. 参考来源

 
[0] 微信公众号: 遥感与深度学习—论文赏读系列

[1] Ma L, Liu Y, Zhang X, et al. Deep learning in remote sensing applications: A meta-analysis and review[J]. ISPRS journal of photogrammetry and remote sensing, 2019, 152: 166-177.

[2] Cheng G, e X, Han J, et al. Remote sensing image scene classification meets deep learning: Challenges, methods, benchmarks, and opportunities[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 3735-3756.

[3] 钱园园,刘进锋.遥感图像场景分类综述[J].电脑知识与技术, 2021, 17(15): 187-189.

[4] Li Z, Wang Y, Zhang N, et al. Deep learning-based object detection techniques for remote sensing images: A survey[J]. Remote Sensing, 2022, 14(10): 2385.

[5] Li Z, Wang Y, Zhang N, et al. Deep learning-based object detection techniques for remote sensing images: A survey[J]. Remote Sensing, 2022, 14(10): 2385.

[6] 杨勇,苏昭,黄淑英,等.基于深度学习的像素级全色图像锐化研究综述[J].遥感学报, 2022 , 26(12): 2411-2432.

[7] 方帅,闫明畅,张晶,等.基于细节关注的高光谱与多光谱图像融合算法[J].遥感学报, 2022, 26(12): 2594-2602.

[8] 冯权泷,牛博文,朱德海,等.土地利用/覆被深度学习遥感分类研究综述[J].农业机械学报, 2022, 53(03): 1-17.

[9] Thapa A, Horanont T, Neupane B, et al. Deep learning for remote sensing image scene classification: A review and meta-analysis[J]. Remote Sensing, 2023, 15(19): 4804.

[10] Lv J, Shen Q, Lv M, et al. Deep learning-based semantic segmentation of remote sensing images: a review[J]. Frontiers in Ecology and Evolution, 2023, 11: 1201125.

[11] Zhao S, Tu K, Ye S, et al. Land use and land cover classification meets deep learning: a review[J]. Sensors, 2023, 23(21): 8966.

[12] Wang X, Wang X, Song R, et al. MCT-Net: Multi-hierarchical cross transformer for hyperspectral and multispectral image fusion[J]. Knowledge-Based Systems, 2023, 264: 110362.

[13] 李星华,艾文浩,冯蕊涛,等.遥感影像深度学习配准方法综述[J].遥感学报,2023,27(02):267-284.

[14] Li J, Cai Y, Li Q, et al. A review of remote sensing image segmentation by deep learning methods[J]. International Journal of Digital Earth, 2024, 17(1): 2328827.

[15] Li Z, Li Z, Cui Z, et al. Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 7141-7150.

[16] Gui S, Song S, Qin R, et al. Remote sensing object detection in the deep learning era—a review[J]. Remote Sensing, 2024, 16(2): 327.

  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值