Pytorch实现图像语义分割(初体验)

Pytorch实现图像语义分割(初体验)

这些天在学习图像语义分割相关的知识,并简单写了篇概述。原本想先看几篇经典论文,如全卷积网络FCN,奈何英语水平有限,翻译起来实在费劲。想来不如先直接体验一下语义分割的效果,果然实践起来还挺有趣的。遂将过程记录如下。

代码实现

from torchvision import models
from PIL import Image
import matplotlib.pyplot as plt
import torch
import torchvision.transforms as T
import numpy as np


# Define the helper function
def decode_segmap(image, nc=21):
    label_colors = np.array([(0, 0, 0),  # 0=background
                             # 1=aeroplane, 2=bicycle, 3=bird, 4=boat, 5=bottle
                             (128, 0, 0), (0, 128, 0), (128, 128, 0), (0, 0, 128), (128, 0, 128),
                             # 6=bus, 7=car, 8=cat, 9=chair, 10=cow
                             (0, 128, 128), (128, 128, 128), (64, 0, 0), (192, 0, 0), (64, 128, 0),
                             # 11=dining table, 12=dog, 13=horse, 14=motorbike, 15=person
                             (192, 128, 0), (64, 0, 128), (192, 0, 128), (64, 128, 128), (192, 128, 128),
                             # 16=potted plant, 17=sheep, 18=sofa, 19=train, 20=tv/monitor
                             (0, 64, 0), (128, 64, 0), (0, 192, 0), (128, 192, 0), (0, 64, 128)])

    r = np.zeros_like(image).astype(np.uint8)
    g = np.zeros_like(image).astype(np.uint8)
    b = np.zeros_like(image).astype(np.uint8)

    for l in range(0, nc):
        idx = image == l
        r[idx] = label_colors[l, 0]
        g[idx] = label_colors[l, 1]
        b[idx] = label_colors[l, 2]

    rgb = np.stack([r, g, b], axis=2)
    return rgb


def segment(net, path):
    img = Image.open(path)
    plt.imshow(img)
    plt.axis('off')
    plt.show()
    # Comment the Resize and CenterCrop for better inference results
    trf = T.Compose([T.Resize(256),
                     T.CenterCrop(224),
                     T.ToTensor(),
                     T.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])])
    inp = trf(img).unsqueeze(0)
    out = net(inp)['out']
    om = torch.argmax(out.squeeze(), dim=0).detach().cpu().numpy()
    rgb = decode_segmap(om)
    plt.imshow(rgb)
    plt.axis('off')
    plt.show()


fcn = models.segmentation.fcn_resnet101(pretrained=True).eval()
# dlb = models.segmentation.deeplabv3_resnet101(pretrained=True).eval()

girl = '../img/girl_dog.jpg'
segment(fcn, girl)
# segment(dlb, girl)

参考链接:https://learnopencv.com/pytorch-for-beginners-semantic-segmentation-using-torchvision/
代码整体理解相对比较简单,详细内容在参考链接中讲解得很清除,我也不必再做赘述。

测试结果

下面展示部分代码运行结果。







可能图像分割的效果不是那么得好,但整体而言还是实现了语义分割,大家也可以自己找一些图片进行测试(注意找的图片要求是label_colors中的),如对代码有疑问可留言交流。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 遥感图像语义分割是指将遥感图像中的每个像素点进行分类,确定其对应的地物类别,如建筑、道路、植被等。PyTorch是一种用于构建和训练深度学习模型的开源框架,可以高效地实现遥感图像语义分割。 以下是使用PyTorch实现遥感图像语义分割的简要教程: 1. 数据准备:首先,需要准备用于训练的遥感图像数据集。该数据集应包含遥感图像及对应的标签图像,其中每个像素点都标注了地物类别。可以使用现有的公开数据集,或者通过遥感图像数据集的制作工具对自己的数据进行标注。 2. 数据加载:使用PyTorch中的数据加载器来加载训练数据。可以自定义一个数据加载类,继承PyTorch的Dataset类,实现__getitem__和__len__方法,将遥感图像和对应的标签图像读取并返回。 3. 模型设计:选择适合任务的深度学习模型,如U-Net、DeepLab等。可以使用PyTorch提供的预训练模型作为基础网络,然后根据具体任务进行修改。在模型中添加适当的卷积、池化和上采样层,并加入跳跃连接等技巧以提高模型性能。 4. 损失函数定义:在语义分割中,常使用交叉熵损失函数来度量模型输出与标签之间的差异。可以使用PyTorch提供的交叉熵损失函数或自定义损失函数。 5. 模型训练:使用定义好的数据加载器、模型和损失函数进行训练。通过定义优化器和学习率,使用PyTorch自带的训练函数进行模型的训练。可以设置合适的批量大小、学习率衰减等超参数,根据训练集和验证集的损失和准确率进行调整。 6. 模型评估:训练完成后,使用测试集对模型进行评估,计算准确率、召回率、F1值等指标,评估模型在遥感图像语义分割任务上的性能。 以上是一个简要的遥感图像语义分割PyTorch中的实现教程,希望对你有帮助。当然,实际应用中还可能涉及到更多细节和技巧,需要根据具体情况进行调整和改进。 ### 回答2: 遥感图像语义分割是指使用遥感图像数据进行像素级别的分类和分割,即将图像中的每个像素按照其所属的类别进行标注。PyTorch是一种流行的深度学习框架,可以用于实现遥感图像语义分割。 以下是一个简单的遥感图像语义分割PyTorch实现教程: 1. 数据准备:首先,准备好遥感图像数据集,包括训练集和测试集。每张图像都需要有相应的标注,标注应为像素级别的类别信息。 2. 数据预处理:对于遥感图像数据进行预处理,包括图像增强、尺寸调整和标准化等操作。这可以使用Python的PIL库等工具来实现。 3. 搭建模型:选择适合遥感图像语义分割的模型,比如U-Net、DeepLab等。使用PyTorch搭建网络模型,定义网络结构、损失函数和优化器等。 4. 数据加载和训练:使用PyTorch的数据加载器加载训练数据集,并使用定义的优化器和损失函数进行训练。可以设置适当的批次大小和训练轮数。 5. 模型评估:在训练过程中,可以使用测试集对模型进行评估,计算准确率、召回率、F1分数等指标,以了解模型的性能。 6. 模型优化:根据评估结果,可以尝试调整模型的参数、损失函数或优化器等,以提高模型的准确性和鲁棒性。 7. 模型应用:训练好的模型可以应用于新的遥感图像数据,进行像素级别的语义分割任务。 总结:遥感图像语义分割PyTorch实现可以按照上述步骤进行,其中数据准备、搭建模型、数据加载和训练等是关键步骤。通过不断优化和调整,可以得到高准确性的语义分割模型,从而应用于遥感图像的各种应用场景。 ### 回答3: 遥感图像语义分割是指利用遥感图像对地表进行分类和分割的技术。PyTorch是一个流行的深度学习框架,提供了强大的功能和易于使用的API,因此在遥感图像语义分割任务中也经常被使用。 以下是一个简要的遥感图像语义分割PyTorch实现教程: 1. 数据准备:首先,你需要准备用于训练的遥感图像数据集。这些数据集应包含遥感图像和相应的标签图像,其中标签图像用于指示每个像素的类别。可以使用遥感图像处理软件,如ENVI或GDAL,来预处理和准备数据。 2. 数据加载:使用PyTorch中的数据加载器,如torch.utils.data.DataLoader,加载准备好的数据集。你可以自定义一个子类,继承自torch.utils.data.Dataset,来处理数据加载和转换。 3. 构建模型:在PyTorch中,可以使用torch.nn模块来构建语义分割模型。常用的模型包括U-Net、FCN和DeepLab等。你可以根据任务的具体需求选择适当的模型结构,并根据需要进行修改和调整。 4. 定义损失函数:在语义分割任务中,常用的损失函数是交叉熵损失函数。在PyTorch中,可以使用torch.nn.CrossEntropyLoss来定义损失函数。 5. 训练模型:使用PyTorch的训练循环,将图像输入模型,计算损失函数,更新模型参数,并循环迭代该过程。你需要选择合适的优化器,如SGD或Adam,并选择适当的超参数。 6. 评估和预测:训练完成后,可以使用模型对新的遥感图像进行预测。通过将图像输入模型,可以得到每个像素的类别预测结果。你可以使用各种评估指标,如交并比和准确率,来评估模型的性能。 以上是一个简单的遥感图像语义分割PyTorch实现教程。通过理解和实践这些步骤,你可以开始进行遥感图像语义分割任务,并逐渐提升你的模型和技术水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值