目录
1. 语义分割任务常见数据集格式
- PASCAL VOC
根据索引在SegmentationClass
文件夹中找到相应的标注图像(.png)。在背景处的像素值为0,目标边缘处用的像素值为255(训练时一般会忽略像素值为255的区域),目标区域内根据目标的类别索引信息进行填充,例如人对应的目标索引是15,所以目标区域的像素值用15填充。
单通道target为何看到的是彩色?
通过调色板,把单通道图转化为伪彩色图,详见 01FCN网络
- MS COCO
针对图像中的每一个目标都记录了多边形坐标
2. 评价指标
- 公式
- 举例说明
3. 标注工具
- Labelme
需要点点,把图像的边描出来
- EISeg
Paddle开发的,只需要把物体框起来,会自动描边
4. 转置卷积
目的:上采样
运算步骤:
k表示转置卷积的kernel_size大小,s表示转置卷积的步距,p为转置卷积的padding
- 在输入特征图元素间填充s-1行、列0
- 在输入特征图四周填充k-p-1行、列0
- 将卷积核参数上下、左右翻转
- 做正常卷积运算(填充0,步距1)
示例:
5. 膨胀卷积(Dilated convolutio)
Pytorch中膨胀卷积和普通卷积共用一个API,只是通过膨胀因子的参数进行区分
膨胀因子设置为1时就是普通卷积。
torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0,
dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)
如图所示,间隔取数
膨胀卷积存在问题:gridding effect
可能导致原图感受野中部分元素未使用;见下图
如何解决上述问题?
假设都使用K*K的卷积核,连续多次卷积,膨胀系数应满足如下两条关系:
Mi 表示第i个卷积;ri表示第i个卷积的膨胀系数
- M2 <= K
- 膨胀系数公约数不能大于1
也就是必须有普通卷积? 例如r = [2 ,4,8]时,存在gradding effect
- 将r 设成锯齿结构(不是必须条件)
简单来讲就是重复所给定的一组系数,如r=[1,2,3,1,2,3],r=[1,2,5,1,2,5]类似这种格式