深度之眼Paper学习笔记（cv方向）

最新推荐文章于 2023-02-10 17:52:28 发布

wwty998

最新推荐文章于 2023-02-10 17:52:28 发布

阅读量714

点赞数

文章标签：学习深度学习神经网络

本文链接：https://blog.csdn.net/wwty998/article/details/123214948

版权

深度之眼Paper学习笔记（cv方向）
1.Deep learning
作者：Geoffrey Hinton、Yoshua Bengio、Yann LeCun
深度学习的应用领域：
无人驾驶领域、图片识别领域、自然语言处理（智能搜索、人机对话、文本摘要、机器翻译、医学图像分析、人脸识别、机器自动翻译
反向传播算法：其中正向传播算法是计算，反向传播算法是求补偿
卷积神经网络（CNN）:CNN成功的减少了参数
CNN理解图片：
2.Alexnet（ILSVRC大规模图像识别挑战赛）
机器学习：
神经网络：
图像分类：
PyTorch：
基本结构：5个卷积层和三个全连接层
为加快训练：1、非饱和激活函数——ReLU
2、采用GPU训练（2个）
为减轻过拟合：采用DROPOUT
以下为基本结构图示：在这里插入图片描述
ReLU优点：
1、使网络训练更快
2、防止梯度消失（不是饱和激化函数）梯度在正半周为1
![在这里插入图片描述](https://img-blog.csdnimg.cn/97c9f854453b4664b9bd1b0b769098b5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAd3d0eTk5OA==,size_16,color_FFFFFF,t_70,g_se,x_16

3、是网络具有稀疏性
LRC(局部相应标准化)：利用侧抑制原理，但是在VGG模型中发现对提高准确性无作用，因此无采用
池化层：减少数据数量
全连接层：产生了较大的参数（占总参数的一半）
训练技巧：
1、数据增强(Data Augmentation)
针对位置
针对颜色
2、Dropout（随机失活）
训练和测试两个阶段的数据尺度变化
实验结果及分析：
1、卷积核可视化
卷积核呈现出不同的频率、方向核颜色，其中卷积核大的能看出一些内容，因为卷积神经网络类似于一个黑箱，因此卷积核小的内部的内容较为抽象，因此卷积核可视化后提取的特征较为抽象
2、特征相似性
关键点：
大量带标签的数据——ImageNet
高性能计算资源——GPU
合理算法模型——深度卷积神经网络
3、VGG
特点：1、VGG使用多个小卷积核（3*3）的卷积核代替大的卷积核，一方面可以减少参数，另一方面相当于进行了更多的非线性映射，一增加网络的拟合/表达能力
2、多尺度（训练和测试整张图的不同尺度）
3、层数更深VGG常用结构层数为16层，19层
4、全连接转卷积
网络测试阶段将训练阶段的三个全连接替换为三个卷积
感受野：卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小
4、RCNN
目标检测：找出图像中感兴趣的目标，确定他们的位置和大小
可以分为两种：
1、基于区域提名的目标检测算法（R-CNN,Fast R-CNN,Faster R-CNN,）
2、基于端到端学习的目标检测算法（YOLO.SSD）
CNN:
NMS:非极大值抑制，消除多余的窗口
HOG:
SVM:
5、SSD(ECCV)
传统目标检测算法：
特征为为人为设计如对于鸢尾花的特征为花萼、花蕊、花瓣长度，方法有SIFY、HOG、SURF，常用的分类器有SVM、Adaboost
问题
1：基于滑动窗口的区域选择策略，容易产生窗口冗余
2、手工提取的特征缺乏鲁棒性
基于深度学习的目标检测算法：
1、基于区域提名的目标检测算法（实现提出候选区域）（准确性高）
2、基于端到端学习的目标检测算法（速度快）
SSD网络同时融合了以上网络的优点
在这里插入图片描述
SSD网络训练方法：default box设计（用不同大小的卷积核）、匹配策略（正负样本选取）、损失函数（位置损失、置信度损失）、难例挖掘、数据增强（对输入的不同大小和不同形状的目标具有更好地鲁棒性）
空洞卷积：提供了更大的感受野
anchor思想：设计各种形状大小的默认框

wwty998

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
深度之眼Paper学习笔记（cv方向）

深度之眼Paper学习笔记（cv方向）1.Deep learning作者：Geoffrey Hinton、Yoshua Bengio、Yann LeCun深度学习的应用领域：无人驾驶领域、图片识别领域、自然语言处理（智能搜索、人机对话、文本摘要、机器翻译、医学图像分析、人脸识别、机器自动翻译反向传播算法：其中正向传播算法是计算，反向传播算法是求补偿卷积神经网络（CNN）:CNN成功的减少了参数CNN理解图片：2.Alexnet（ILSVRC大规模图像识别挑战赛）机器学习：神经网络：图像
复制链接

扫一扫