TGRS | FSVLM: 用于遥感农田分割的视觉语言模型

论文介绍

题目:FSVLM: A Vision-Language Model for Remote Sensing Farmland Segmentation

期刊:IEEE Transactions on Geoscience and Remote Sensing

论文:https://ieeexplore.ieee.org/document/10851315

年份:2025

单位:中南大学

图片

创新点 

  • 构建 FIT 数据集:首次建立了农田图像-文本对(Farmland Image-Text Pair, FIT)数据集,包括图像的语义描述和分割掩膜,覆盖中国四个省份的多种地貌与气候类型;

  • 提出 FSVLM 模型:结合语义分割模型与多模态大语言模型(LLM),采用“embedding-as-mask”策略实现语言引导的图像分割;

  • 分析语言描述影响:通过消融实验,发现描述农田属性(如分布、形状等)的文本比描述周边环境的文本对分割精度提升更显著。

【遥感图像分类实战项目】

这才是科研人该学的!基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测、图像配准、辐射校正等7大算法!通俗易懂,新手也能学会!https://www.bilibili.com/video/BV1qYvaePEoE/?spm_id_from=333.337.search-card.all.click

数据

覆盖区域:
  • 中国四个省份的7个城市/地区:

    • 湖南:邵阳、衡阳

    • 广东:梅州、茂名、湛江

    • 安徽:亳州

    • 云南:西双版纳

  • 这些区域地形多样(平原、丘陵、山地、台地),气候类型涵盖亚热带、温带和热带。

 

图像数据:
  • 来源:Google卫星图像(0.5 米分辨率)

  • 时间:涵盖全年不同月份,反映农田物候变化

  • 数量:共 7269 张图像,裁剪为 512×512 尺寸

  • 预处理:

    • 使用 ENVI 进行大气校正和畸变去除

    • 使用 Segment Anything Model (SAM) + Labelme 进行半自动标注

文本描述:
  • 使用 12 个关键因素构建农田描述模板,包括:

    • 农田内部:形状、分布、道路、地形等

    • 周边环境:水体、建筑、植被分布等

    • 时间与地理信息:拍摄时间、地理位置等

  • 通过模板化选项在 Labelme 中实现半自动化生成,显著降低人工成本。

图片

图片

图片

核心步骤:
  • 选取多地区、多气候、多作物的图像,确保数据多样性;

  • 利用大语言模型能力,设计基于12个关键描述因子的文本模板;

  • 结合图像内容,半自动生成语言描述;

  • 使用 Segment Anything Model(SAM)辅助生成图像掩膜,提升标注效率;

  • 最终构建图像、掩膜、文本三元组的数据集(FIT)。

2. LoveDA 数据集(用于模型泛化测试)

  • 来源:由 RSIDEA 团队构建

  • 分辨率:0.3 米

  • 地点:南京、常州、武汉

  • 用于测试区域泛化能力,仅使用其 rural 部分(包含 2358 张图像)

  • 训练中未使用 LoveDA,确保其为“完全未知”的测试集

方法

方法包括FIT数据集构建和FSVLM模型,这里主要介绍模型,FIT见上一节。

FSVLM(Farmland Segmentation Vision-Language Model)是本文提出的一种结合遥感图像与语言描述的多模态模型,旨在提升农田分割的准确性和泛化能力。该模型的设计主要包括两个核心部分:多模态语言模块 和 图像分割模块。

图片

基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测https://www.bilibili.com/video/BV1qYvaePEoE/?spm_id_from=333.337.search-card.all.click&vd_source=75de451a527a341260671f8dfa9534001. 多模态语言模块(基于大语言模型)

✅ 主要功能:
  • 理解输入的农田描述文本;

  • 提取用于引导分割的关键信息;

  • 输出可用于图像分割的引导特征。

🧩 结构特点:
  • 文本输入:包括提示文本(如“请输出农田分割掩膜”)和图像对应的描述文本(基于12个因子,如形状、水体、地形等);

  • 语言模型:使用 LLaVA(一个视觉语言助手)和 Vicuna 作为基础大语言模型;

  • 分割标记嵌入:在语言输入中嵌入特殊标记(如 <SEG>),引导模型输出与分割相关的特征;

  • 特征输出:语言模型输出的嵌入通过多层感知器(MLP)处理,生成语义引导特征,传递给图像模块。

2. 图像分割模块(基于 Segment Anything Model, SAM)

✅ 主要功能:
  • 提取图像的空间视觉特征;

  • 融合语言引导特征;

  • 输出精确的农田掩膜。

🧩 结构特点:
  • 视觉编码器:使用预训练的 ViT(Vision Transformer)提取图像的多尺度特征;

  • 提示编码器:接收语言模块生成的提示特征,生成稀疏引导信息;

  • 解码器:融合视觉特征与提示特征,生成最终的农田分割掩膜;

  • 参数优化:视觉编码器参数冻结,仅训练解码器和提示引导模块;为提高效率,使用 LoRA 进行轻量级微调。

模态融合流程

  • 图像输入 → 提取图像特征;

  • 文本输入(包括提示+描述)→ 语言模型处理,生成分割引导;

  • 将图像特征与引导特征融合 → 解码器输出分割结果。

结果与分析

FSVLM 通过融合图像与语言信息,显著提升了遥感农田分割的精度与鲁棒性。实验结果表明,FSVLM 在多区域、多模型对比中均取得最佳表现,具备出色的泛化能力。

图片

图片

图片

图片

图片

### TGRS 遥感图像语义分割方法和技术 #### 数据集与挑战 遥感图像的语义分割面临诸多独特挑战,包括复杂的背景、多样的物体尺度以及高分辨率带来的计算负担。为了应对这些挑战,研究人员提出了多种针对遥感图像特点的方法和策略[^1]。 #### 自监督学习方法 自监督学习成为解决遥感图像语义分割的一个重要途径。通过利用未标记的数据,可以有效减少对标记数据的需求。例如,SeCo[58] 利用了季节变化来增强正样本间的一致性,这种方法特别适用于具有显著时间变化特性的空中场景。此外,还有研究将时间信息和地理位置融入 MoCo-V2 框架中,进一步提升了模型的表现力[^3]。 #### 多模态融合技术 除了单源遥感影像外,结合来自不同传感器或多时相的信息能够提高语义分割的效果。这不仅限于光学图像与其他类型的电磁波谱(如 SAR),还包括气象条件等外部因素的影响分析。这种跨域特征提取有助于捕捉更丰富的上下文信息,从而改善最终的结果质量[^2]。 #### 特征表达优化 对于特定任务而言,设计有效的网络结构至关重要。一些工作专注于改进基础卷积神经网络的设计,比如引入注意力机制以突出关键区域;或是基于Transformer架构构建更适合处理长距离依赖关系的新颖模块。这类创新使得模型能够在保持较高精度的同时降低过拟合风险。 ```python import torch.nn as nn class AttentionModule(nn.Module): def __init__(self, channels): super(AttentionModule, self).__init__() self.conv = nn.Conv2d(channels, channels//4, kernel_size=1) self.softmax = nn.Softmax(dim=-1) def forward(self, x): b, c, h, w = x.size() proj_query = self.conv(x).view(b,-1,w*h).permute(0,2,1) proj_key = self.conv(x).view(b,-1,w*h) energy = torch.bmm(proj_query,proj_key) attention = self.softmax(energy) out = torch.bmm(attention.permute(0,2,1), x.view(b,c,h*w)).view(b,c,h,w) return out + x ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值