计算机视觉基础加强笔记

KNN分类

目标:分类未知类别案例。
输入:待分类未知类别案例项目。已知类别案例集合D ,其中包含 j个已知类别的案例。
输出:项目可能的类别
优缺点:(1)优点:
算法简单,易于实现,不需要参数估计,不需要事先
练。
(2)缺点:kNN计算量特别大,而且训练样本必须存储在本地,
存开销也特别大。
K的取值:参数k的取值一般通常不大于20

线性分类器:
公式
其中,W为K × D矩阵,x为D × 1矩阵,b为K × 1矩阵
那么,我们该如何从计算机视觉方面理解这个公式呢?
W为K行是因为输出有K个,有D列是因为输入图像打平后长度为D;
W矩阵与x相乘,可看成每一个行向量与x做点乘,结果小,是因为两个向量的夹角大,即相似度小;结果大,是因为两个向量的夹角小,即相似度大
可以将W矩阵的每一行理解为图像分类时,每一类别的特征

cross-entropy loss:
在这里插入图片描述
yi为正确结果,yi^为模型真实输出结果

Hinge loss:
在这里插入图片描述
模型输出的其它结果概率 - 正确结果的概率

前向传递:主要使用链式求导法则
误差反向传播:传播的是误差,是从后往前传递的
在这里插入图片描述
在这里插入图片描述

卷积神经网络CNN

从计算机视觉方面理解,用一个模板特征,和图像进行对比,看其相似度

卷积之后的图像大小 = (inputsize - kernelsize + 2 * padding)/ 2 + 1

在神经网络中,全连接层参数占比占了绝大部分,改进,在conv和FC(full connect)层之间加上全局池化层。例:conv之后输出为 9 × 9 × 128,经过全局池化层之后变为1 × 1 × 128

迁移学习:
迁移学习过程
使用迁移学习的条件:1、现有任务数据较少
2、原任务和现有任务目标相似

一些训练小技巧
交叉验证:
在这里插入图片描述

数据增强技巧:将图片边角修剪一点;将图像进行旋转、镜像等

感受野的实质:某一层特征图中的某一个cell对应到原图输入的响应区域大小

不同方法的表现与data的关系
在这里插入图片描述
Bag-of-Words Model for Text
例如:统计文档中出现的单词的个数

Bag-of-Visual-Words for Computer Vision
将物体分为一个个的特征,与字典进行对比统计,字典就是已经选好的一组高维向量,之后将结果进行对比(欧式距离等),得到合适的结果

注:sift特征描述子进行匹配时,有可能出现错误,可以使用随机一致性采样(RANSAC)

Advanced Bag-of-Visual-Words: Spatial Pyramid Matching
可将一张图片分为多个部分进行对比匹配
在这里插入图片描述
Approximate Nearest Neighbours Search: KD-Tree and LSH
Locality-sensitive hashing (LSH)
将图片转换为一串hash值,之后进行比对,进入到合适的Bucket
LSH

random LSH
随机选取一些直线,将图片进行分割,得到一串hash值
random LSH
如果得到的结果少于实际的结果,如何处理?
1、选择次符合的图片
2、多次进行随机生成直线划分图片,选择重复的结果

Encoder-Decoder Framework

在这里插入图片描述

其中Autoencoder主要用于无监督学习(因为无需标签),和图像传输(加快传输速度,节约成本)

在进行Autoencoder时,常加入随机噪音,这样能够更好地增强系统的鲁棒性

Triplet Loss

有两个目标,一个是Negetive,另一个是Positive,让输入图像更加接近Positive

在这里插入图片描述

在这里插入图片描述

特征aggregation和normalization

可以取多个conv层的输出,池化层可以选择不同的池化层,常用最后两层conv的输出特征和max池化层

一些训练的小技巧

在这里插入图片描述

图像分割

计算机视觉的四种基本任务

在这里插入图片描述

什么是NMS?

一种post-processing方式,用在所有的检测系统里(因为物体检测的指标里,不允许出现多个重复的检测,即使这些结果和真值都比较接近)

那么如何删除多余的检测结果呢?

Non-maximum suppression(NMS)

做法:把所有检测结果按照分值从高到低排序,保留最高分数的box,那么和它距离在一定内的box,就不用保留了

什么是hard mining?

在一个mini-batch中,能让classifier混淆的sample(Rol outputs),标记成hard example,用到下一轮的训练中

深度学习三要素:

1、模型:用了什么结构?

2、在什么数据集上做的?实验效果如何?

3、算法:a. 训练过程:loss,sampling,梯度

​ b. 测试过程:multi-scale,NMS

如果给一张图片,如何检测出物体的类别和位置?

1、先产生一些可能含有物体的目标框(region proposal/ bounding box)

2、对于给定的目标框做分类

那么在深度学习中如何生成目标框呢?

在这里插入图片描述

蓝色系数作用,只回归预测正确的方框
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

RCNN(region CNN)

在这里插入图片描述

Fast RCNN

在这里插入图片描述

RolPool简介

在这里插入图片描述

Faster RCNN

在这里插入图片描述

RFCN (Region-based fully convolutional networks)
在这里插入图片描述

Mask RCNN
在这里插入图片描述

反卷积的定义

在这里插入图片描述

反卷积尺寸计算公式

在这里插入图片描述

注,反卷积stride和卷积的stride有所不同

在这里插入图片描述

在这里插入图片描述

空洞卷积

在这里插入图片描述

RNN

RNN的目的是让有sequential关系的信息得到考虑
RNN

LSTM

加粗样式
在这里插入图片描述
LSTM流程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值