- 图像分类
- 语义分割
- 目标检测
- 实例分割
语义分割
C是某个像素得到的信息,就是要得到的像素的语义,再进行交叉熵操作,从而反馈调整网络。
解决内存问题:
上采样
下采样
重叠部分多了个加权求和。
这里的滤波器是可以通过学习得到的。
下采样时,转置矩阵,然后相乘,就能实现上采样。
目标检测
单目标
训练出来包括(多任务): 类别,位置。衡量他们的损失。
多目标
- 先产生一些候选区域:Selective search
然后再用边界框回归,修正参数,找到准确的框。
速度问题→改进
Fast R-CNN
提取全局特征,在特征上再提取区域(极大加快速度,不需要重复计算)。再进行区域裁剪。
区域裁剪Rol Pool
输出的尺寸都一样,就能直接输出为长向量,和神经网络进行全连接。
问题:处理后的区域会有轻微对不齐。→Rol Align
将卷积后的图,划分为小量级的像素区域,每个区域是一个anchor, 给定一个anchor box, 检测该像素区域是不是目标。→改进: 用box transform框出更加准确的区域。
区域建议网络
每个像素点都卷积,然后输给FC判断是不是某个分类。
加入anchor, 每个anchor花多个尺寸不同的框(给出多个可能性),各自给出可能的分类结果(分类分数)。
实例检测
在原来Fast RNN基础上增加卷积,和对C进行预测的分类mask