深度之眼Paper学习笔记(cv方向)

深度之眼Paper学习笔记(cv方向)
1.Deep learning
作者:Geoffrey Hinton、Yoshua Bengio、Yann LeCun
深度学习的应用领域:
无人驾驶领域、图片识别领域、自然语言处理(智能搜索、人机对话、文本摘要、机器翻译、医学图像分析、人脸识别、机器自动翻译
反向传播算法:其中正向传播算法是计算,反向传播算法是求补偿
卷积神经网络(CNN):CNN成功的减少了参数
CNN理解图片:
2.Alexnet(ILSVRC大规模图像识别挑战赛)
机器学习:
神经网络:
图像分类:
PyTorch:
基本结构:5个卷积层和三个全连接层
为加快训练:1、非饱和激活函数——ReLU
2、采用GPU训练(2个)
为减轻过拟合:采用DROPOUT
以下为基本结构图示:在这里插入图片描述
ReLU优点:
1、使网络训练更快
2、防止梯度消失(不是饱和激化函数)梯度在正半周为1
![在这里插入图片描述](https://img-blog.csdnimg.cn/97c9f854453b4664b9bd1b0b769098b5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd3d0eTk5OA==,size_16,color_FFFFFF,t_70,g_se,x_16

3、是网络具有稀疏性
LRC(局部相应标准化):利用侧抑制原理,但是在VGG模型中发现对提高准确性无作用,因此无采用
池化层:减少数据数量
全连接层:产生了较大的参数(占总参数的一半)
训练技巧:
1、数据增强(Data Augmentation)
针对位置
针对颜色
2、Dropout(随机失活)
训练和测试两个阶段的数据尺度变化
实验结果及分析:
1、卷积核可视化
卷积核呈现出不同的频率、方向核颜色,其中卷积核大的能看出一些内容,因为卷积神经网络类似于一个黑箱,因此卷积核小的内部的内容较为抽象,因此卷积核可视化后提取的特征较为抽象
2、特征相似性
关键点:
大量带标签的数据——ImageNet
高性能计算资源——GPU
合理算法模型——深度卷积神经网络
3、VGG
特点:1、VGG使用多个小卷积核(3*3)的卷积核代替大的卷积核,一方面可以减少参数,另一方面相当于进行了更多的非线性映射,一增加网络的拟合/表达能力
2、多尺度(训练和测试整张图的不同尺度)
3、层数更深VGG常用结构层数为16层,19层
4、全连接转卷积
网络测试阶段将训练阶段的三个全连接替换为三个卷积
感受野:卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小
4、RCNN
目标检测:找出图像中感兴趣的目标,确定他们的位置和大小
可以分为两种:
1、基于区域提名的目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,)
2、基于端到端学习的目标检测算法(YOLO.SSD)
CNN:
NMS:非极大值抑制,消除多余的窗口
HOG:
SVM:
5、SSD(ECCV)
传统目标检测算法:
特征为为人为设计如对于鸢尾花的特征为花萼、花蕊、花瓣长度,方法有SIFY、HOG、SURF,常用的分类器有SVM、Adaboost
问题
1:基于滑动窗口的区域选择策略,容易产生窗口冗余
2、手工提取的特征缺乏鲁棒性
基于深度学习的目标检测算法:
1、基于区域提名的目标检测算法(实现提出候选区域)(准确性高)
2、基于端到端学习的目标检测算法(速度快)
SSD网络同时融合了以上网络的优点
在这里插入图片描述
SSD网络训练方法:default box设计(用不同大小的卷积核)、匹配策略(正负样本选取)、损失函数(位置损失、置信度损失)、难例挖掘、数据增强(对输入的不同大小和不同形状的目标具有更好地鲁棒性)
空洞卷积:提供了更大的感受野
anchor思想:设计各种形状大小的默认框

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值