计算机视觉基础加强笔记

最新推荐文章于 2024-08-30 23:35:35 发布

yijizhiming

最新推荐文章于 2024-08-30 23:35:35 发布

阅读量147

点赞数

分类专栏： opencv基础文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/yijizhiming/article/details/115791055

版权

opencv基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

KNN分类

目标：分类未知类别案例。
输入：待分类未知类别案例项目。已知类别案例集合D ，其中包含 j个已知类别的案例。
输出：项目可能的类别
优缺点：（1）优点：
算法简单，易于实现，不需要参数估计，不需要事先
练。
（2）缺点：kNN计算量特别大，而且训练样本必须存储在本地，
存开销也特别大。
K的取值：参数k的取值一般通常不大于20

线性分类器：

其中，W为K × D矩阵，x为D × 1矩阵，b为K × 1矩阵
那么，我们该如何从计算机视觉方面理解这个公式呢？
W为K行是因为输出有K个，有D列是因为输入图像打平后长度为D；
W矩阵与x相乘，可看成每一个行向量与x做点乘，结果小，是因为两个向量的夹角大，即相似度小；结果大，是因为两个向量的夹角小，即相似度大
可以将W矩阵的每一行理解为图像分类时，每一类别的特征

cross-entropy loss：
在这里插入图片描述
yi为正确结果，yi^为模型真实输出结果

Hinge loss：
在这里插入图片描述
模型输出的其它结果概率 - 正确结果的概率

前向传递：主要使用链式求导法则
误差反向传播：传播的是误差，是从后往前传递的
在这里插入图片描述

卷积神经网络CNN

从计算机视觉方面理解，用一个模板特征，和图像进行对比，看其相似度

卷积之后的图像大小 = （inputsize - kernelsize + 2 * padding）/ 2 + 1

在神经网络中，全连接层参数占比占了绝大部分，改进，在conv和FC（full connect）层之间加上全局池化层。例：conv之后输出为 9 × 9 × 128，经过全局池化层之后变为1 × 1 × 128

迁移学习：
迁移学习过程
使用迁移学习的条件：1、现有任务数据较少
2、原任务和现有任务目标相似

一些训练小技巧
交叉验证：
在这里插入图片描述

数据增强技巧：将图片边角修剪一点；将图像进行旋转、镜像等

感受野的实质：某一层特征图中的某一个cell对应到原图输入的响应区域大小

不同方法的表现与data的关系
在这里插入图片描述
Bag-of-Words Model for Text
例如：统计文档中出现的单词的个数

Bag-of-Visual-Words for Computer Vision
将物体分为一个个的特征，与字典进行对比统计，字典就是已经选好的一组高维向量，之后将结果进行对比（欧式距离等），得到合适的结果

注：sift特征描述子进行匹配时，有可能出现错误，可以使用随机一致性采样（RANSAC）

Advanced Bag-of-Visual-Words: Spatial Pyramid Matching
可将一张图片分为多个部分进行对比匹配
在这里插入图片描述
Approximate Nearest Neighbours Search: KD-Tree and LSH
Locality-sensitive hashing (LSH)
将图片转换为一串hash值，之后进行比对，进入到合适的Bucket
LSH

random LSH
随机选取一些直线，将图片进行分割，得到一串hash值

如果得到的结果少于实际的结果，如何处理？
1、选择次符合的图片
2、多次进行随机生成直线划分图片，选择重复的结果

Encoder-Decoder Framework

在这里插入图片描述

其中Autoencoder主要用于无监督学习（因为无需标签），和图像传输（加快传输速度，节约成本）

在进行Autoencoder时，常加入随机噪音，这样能够更好地增强系统的鲁棒性

Triplet Loss

有两个目标，一个是Negetive，另一个是Positive，让输入图像更加接近Positive

在这里插入图片描述

特征aggregation和normalization

可以取多个conv层的输出，池化层可以选择不同的池化层，常用最后两层conv的输出特征和max池化层

一些训练的小技巧

在这里插入图片描述

图像分割

计算机视觉的四种基本任务

在这里插入图片描述

什么是NMS？

一种post-processing方式，用在所有的检测系统里（因为物体检测的指标里，不允许出现多个重复的检测，即使这些结果和真值都比较接近）

那么如何删除多余的检测结果呢？

Non-maximum suppression（NMS)

做法：把所有检测结果按照分值从高到低排序，保留最高分数的box，那么和它距离在一定内的box，就不用保留了

什么是hard mining？

在一个mini-batch中，能让classifier混淆的sample（Rol outputs），标记成hard example，用到下一轮的训练中

深度学习三要素：

1、模型：用了什么结构？

2、在什么数据集上做的？实验效果如何？

3、算法：a. 训练过程：loss，sampling，梯度

b. 测试过程：multi-scale，NMS

如果给一张图片，如何检测出物体的类别和位置？

1、先产生一些可能含有物体的目标框（region proposal/ bounding box）

2、对于给定的目标框做分类

那么在深度学习中如何生成目标框呢？

在这里插入图片描述

蓝色系数作用，只回归预测正确的方框
在这里插入图片描述

在这里插入图片描述

RCNN(region CNN)

在这里插入图片描述

Fast RCNN

在这里插入图片描述

RolPool简介

在这里插入图片描述

Faster RCNN

在这里插入图片描述

RFCN (Region-based fully convolutional networks)
在这里插入图片描述

Mask RCNN
在这里插入图片描述

反卷积的定义

在这里插入图片描述

反卷积尺寸计算公式

在这里插入图片描述

注，反卷积stride和卷积的stride有所不同

在这里插入图片描述

空洞卷积

在这里插入图片描述

RNN

RNN的目的是让有sequential关系的信息得到考虑
RNN

LSTM

加粗样式
在这里插入图片描述
LSTM流程

yijizhiming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉基础加强笔记

KNN分类目标：分类未知类别案例。输入：待分类未知类别案例项目。已知类别案例集合D ，其中包含 j个已知类别的案例。输出：项目可能的类别优缺点：（1）优点：算法简单，易于实现，不需要参数估计，不需要事先练。（2）缺点：kNN计算量特别大，而且训练样本必须存储在本地，存开销也特别大。K的取值：参数k的取值一般通常不大于20线性分类器：其中，W为K × D矩阵，x为D × 1矩阵，b为K × 1矩阵那么，我们该如何从计算机视觉方面理解这个公式呢？W为K行是因为输出有K个，有D列是因为
复制链接

扫一扫

专栏目录