图像分割实战-系列教程1:语义分割与实例分割概述

🍁🍁🍁图像分割实战-系列教程 总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传

下篇内容:
Unet系列算法

1、图像分割任务概述

图像分割分为语义分割和实例分割两种,语义分割是将图像中的每个像素分配给一个类别标签,如“猫”、“狗”、“车”等,实例分割是更加细化的一种图像分割,它不仅区分不同的类别,还区分同一类别中的不同实例。

1.1 图像分割

分割任务就是在原始图像中逐像素的找到你需要的轮廓

如图分别是(物体检测)与(图像分割)两个任务的效果对比,实际上会比检测任务要稍微麻烦一些,将图像会分为几个区域把需要的单独拿出来,不需要的当成背景处理,分割也分为语义分割和实例分割。

1.2 语义分割

  • 语义分割就是把每个像素都打上标签(这个像素点是人,树,背景等)
  • 语义分割只区分类别,不区分类别中具体单位

1.3 实例分割

在右图中将五个人的轮廓都描绘出来了,但是没有把5个人区分出来,这就是一个基本的语义分割

实例分割不光要区别类别,还要区分类别中每一个个体,每一个个体都是不同的

往基本的要求做,就是可以做语义分割,往高级的做就是实例分割

和物体检测的任务对比呢,比如YOLO是将分类任务变成回归,找一些坐标点分别是什么。那分割任务呢?

2 语义分割损失函数解析

2.1 损失函数

  • 逐像素的交叉熵
  • 还经常需要考虑样本均衡问题
  • 交叉熵损失函数公式如下:

p o s w e i g h t = n u m n e g n u m p o s pos_{weight} = \frac{num_{neg}}{num_{pos}} posweight=numposnumneg
这里的 p o s w e i g h t pos_{weight} posweight是一个额外权重,是前景像素点和背景像素点的数量的比例值。

l o s s = − p o s w e i g h t ∗ y t r u e l o g ( y p r e d ) − ( 1 − y t r u e ) l o g ( y p r e d ) loss = -pos_{weight}*y_{true}log(y_{pred})-(1-y_{true})log(y_{pred}) loss=posweightytruelog(ypred)(1ytrue)log(ypred)
首先一张图像有几万几十万甚至更多个像素点,需要对每一个像素点都进行多分类任务,也就是逐像素进行交叉熵的过程。上式就是一个2分类交叉熵的公式再加上前面提到的额外权重

2.2 Focal loss

样本也由难易之分,就跟玩游戏一样,难度越高的BOSS奖励越高
− ( 1 − y p r e d ) γ ∗ y t r u e l o g ( y p r e d ) − y p r e d γ ∗ ( 1 − y t r u e l o g ( 1 − y p r e d ) ) -(1-y_{pred})^γ*y_{true}log(y_{pred})-y^γ_{pred}*(1-y_{true}log(1-y_{pred})) (1ypred)γytruelog(ypred)ypredγ(1ytruelog(1ypred))

正负样本的比例完全就是由数量决定的,每一个像素点都会去做交叉熵,都会产生一个损失值,像素点是不应该相同对待的,有些像素比较好处理,很明显是背景和前景的,难处理的就是轮廓上的,一个人去描边,边里面的好处理外面的也好处理,但是边上的不好处理。但是这些难处理的像素点应该要体现出比较高的重要性

在上面的公式中,Gamma通常设置为2,例如预测正样本概率0.95,那预测效果就非常好,也就是说这个像素处理的比较简单, ( 1 − 0.25 ) 2 = 0.0025 (1-0.25)^2=0.0025 (10.25)2=0.0025,0.0025也就意味着当前这个样本提供的损失值比较低,如果是0.5, ( 1 − 0.5 ) 2 = 0.25 (1-0.5)^2=0.25 (10.5)2=0.25,这个难度高一点,权重也就大一些。可以类似理解为错题本,想要学的更好得高分,错的题比较重要。这里就是对γ值的解释

再结合样本数量的权值就是Focal Loss:
− α ( 1 − y p r e d ) γ ∗ y t r u e l o g ( y p r e d ) − ( 1 − α ) ∗ y p r e d γ ∗ ( 1 − y t r u e l o g ( 1 − y p r e d ) ) -α(1-y_{pred})^γ*y_{true}log(y_{pred})-(1-α)*y^γ_{pred}*(1-y_{true}log(1-y_{pred})) α(1ypred)γytruelog(ypred)(1α)ypredγ(1ytruelog(1ypred))

3 IOU计算

3.1 IOU计算

多分类任务时:iou_dog = 801 /( true_dog + predict_dog - 801)

如图的混淆矩阵,左图中,横轴和纵轴分别为预测值和真实值,单独求某一个类别:真实值为狗的预测值也为狗就是做对的,为801个除以(实际总共有多少个狗的,再加上预测为狗的,再减去801)

看右图,交集就是801,并集就是绿色加上黄色的,上面的公式就是由于加了两次801所以要减去801

3.2 MIOU计算

IoU(Intersection over Union,交并比),下图中,左边是标签值,右边是预测值
Intersection 就是真实值和预测值的交集,Union就是真实值和预测值的并集,这两个值的比例
在这里插入图片描述

MIOU就是计算所有类别的平均值,一般当作分割任务评估指标
在这里插入图片描述

下篇内容:
Unet系列算法

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 要训练自己的数据集,我们首先需要下载Mask R-CNN模型的代码和预训练的权重。我们可以从GitHub上的Mask R-CNN项目中获得代码。将代码克隆到本地后,我们可以安装所需的依赖库。 接下来,我们需要准备我们自己的数据集。数据集应包含图像和相应的实例分割标注。标注可以是标记每个实例的掩码或边界框。确保标注与图像具有相同的文件名,并将它们保存在单独的文件夹中。 一旦准备好数据集,我们需要将它们进行预处理,以便能够与Mask R-CNN模型兼容。为此,我们可以编写一个数据加载器,该加载器将图像和标注转换为模型可以处理的格式。 在准备好数据集和数据加载器后,我们可以开始训练模型。通过运行训练脚本,我们可以指定训练数据集的路径、模型的配置以及需要的其他参数。模型将针对给定的数据集进行迭代,逐步学习实例分割任务。 训练过程可能需要一定时间,具体取决于数据集的大小和复杂性。我们可以利用GPU加速来加快训练速度。 一旦训练完成,我们可以使用自己的数据集进行图像实例分割。导入训练好的模型权重,我们可以提供测试图像并获得模型对实例分割结果。 总之,训练自己的数据集以进行图像实例分割需要下载Mask R-CNN代码和预训练权重。然后,准备和预处理数据集,并编写数据加载器。使用训练脚本进行模型训练,并在训练完成后使用自己的数据集进行图像实例分割。 ### 回答2: 要训练自己的数据集,首先需要下载并设置合适的数据集。可以从各种资源中寻找与自己目标相关的图像数据集,并确保数据集中包含正确的标注信息,例如每个图像实例分割掩模。 接下来,我们需要安装并配置Mask R-CNN的开发环境。可以通过使用Python包管理工具pip来安装所需依赖,并下载Mask R-CNN代码库。然后,根据具体的数据集,需要进行一些配置调整,例如修改配置文件中相关的参数设置,如类别数目、训练和验证数据集的路径等等。 接下来,将数据集准备成模型可接受的格式。一般来说,我们需要将数据集划分为训练集和验证集,并提供每个图像的标注信息。可以使用一些处理工具来将数据集进行预处理,将图像转换为模型可接受的格式,并将标注信息保存为对应的掩模图像。 接下来,我们可以开始训练模型了。通过运行相应的训练脚本,可以开始构建并训练Mask R-CNN模型。训练过程会根据指定的配置和数据集进行迭代更新,直到模型收敛或达到预设的迭代次数。可以根据具体的训练状态和需求来监控训练过程,并根据需要进行调整和优化。 最后,一旦训练完成,我们可以使用训练好的模型对新的图像进行实例分割。可以通过加载训练好的权重文件来恢复模型,并使用模型对输入图像进行预测和推断,得到每个实例分割结果。可以将结果保存为掩模图像或直接可视化展示。 在整个训练过程中,需要注意数据集的质量,合理调整模型的参数和配置,并进行适当的训练和验证策略,以获得更好的实例分割效果。 ### 回答3: Mask R-CNN 是一种用于图像实例分割的深度学习模型,它结合了目标检测和语义分割的特点。在实际应用中,我们需要将模型训练在自己的数据集上,以便能够准确地对我们感兴趣的目标进行实例分割。 首先,我们需要准备自己的数据集。这包括收集具有实例标注的图像,并将它们分成训练集和验证集。实例标注是指为每个图像中的目标对象绘制边界框和遮罩,以指示目标的位置和形状。 接下来,我们需要下载并配置Mask R-CNN的代码库。这可以通过在GitHub上找到Mask R-CNN的实现并进行下载。下载完成后,我们需要根据自己的数据集修改代码中的配置文件,以适应我们的数据集和实验需求。 然后,我们可以开始训练自己的数据集。通过运行训练脚本,并指定数据集路径、模型配置和训练参数,我们可以开始训练模型。训练过程需要一定的时间和计算资源,具体时间取决于数据集的规模和硬件条件。 在训练过程中,模型会逐渐学习到目标的外观和形状特征,并生成准确的边界框和遮罩。可以通过查看训练过程中的损失值和验证指标来监控模型的训练情况,并根据需要进行调整和优化。 最后,当模型训练完成后,我们可以使用它对新的图像进行实例分割。通过加载训练好的权重,并用模型进行预测,我们可以得到每个目标对象的边界框和遮罩。这些结果可以进一步用于目标跟踪、图像分析等应用。 综上所述,训练自己的数据集可以帮助我们将Mask R-CNN模型应用到我们关心的领域,并进行准确的图像实例分割。这需要准备数据集、下载代码库、修改配置文件、进行模型训练和应用预测等步骤。通过这一过程,我们可以获得针对自己数据集的个性化实例分割模型,以满足我们具体的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器学习杨卓越

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值