计算机视觉2——视觉识别任务

  • 图像分类
  • 语义分割
  • 目标检测
  • 实例分割

语义分割

在这里插入图片描述
C是某个像素得到的信息,就是要得到的像素的语义,再进行交叉熵操作,从而反馈调整网络。

解决内存问题:
在这里插入图片描述
在这里插入图片描述
上采样
在这里插入图片描述
下采样
在这里插入图片描述
重叠部分多了个加权求和。

在这里插入图片描述
这里的滤波器是可以通过学习得到的。
在这里插入图片描述
下采样时,转置矩阵,然后相乘,就能实现上采样。

目标检测

单目标
在这里插入图片描述
在这里插入图片描述
训练出来包括(多任务): 类别,位置。衡量他们的损失。

多目标
在这里插入图片描述

  • 先产生一些候选区域:Selective search

然后再用边界框回归,修正参数,找到准确的框。
速度问题→改进
Fast R-CNN
在这里插入图片描述
提取全局特征,在特征上再提取区域(极大加快速度,不需要重复计算)。再进行区域裁剪。
区域裁剪Rol Pool
在这里插入图片描述
输出的尺寸都一样,就能直接输出为长向量,和神经网络进行全连接。

问题:处理后的区域会有轻微对不齐。→Rol Align
在这里插入图片描述
在这里插入图片描述

将卷积后的图,划分为小量级的像素区域,每个区域是一个anchor, 给定一个anchor box, 检测该像素区域是不是目标。→改进: 用box transform框出更加准确的区域。

区域建议网络
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每个像素点都卷积,然后输给FC判断是不是某个分类。

加入anchor, 每个anchor花多个尺寸不同的框(给出多个可能性),各自给出可能的分类结果(分类分数)。

在这里插入图片描述
在这里插入图片描述

实例检测

在这里插入图片描述
在这里插入图片描述
在原来Fast RNN基础上增加卷积,和对C进行预测的分类mask

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值