神经网络与深度学习笔记3

最新推荐文章于 2024-07-25 14:29:46 发布

weixin_44578479

最新推荐文章于 2024-07-25 14:29:46 发布

阅读量43

点赞数

文章标签：深度学习计算机视觉神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44578479/article/details/129904611

版权

6.基本卷积神经网络

（1）AlexNet

网络结构：

网络一共有8层可学习层—5层卷积层和3层全连接层。

改进：池化层均采用最大池化；选用ReLU替代Tan Sigmoid作为非线性环节激活函数；网络规模扩大，参数数量接近6000万；出现“多个卷积层+一个池化层”的结构；双GPU策略。

普遍规律：随网络深入，宽、高衰减，通道数增加。

（2）VGG-16

网络结构：

改进：网络规模进一步增大，参数数量约为1.38亿；由于各卷积层、池化层的超参数基本相同，整体结构呈现出规整的特点。

普遍规律：随网络深入，高和宽衰减，通道数增多。

（3）残差网络

为什么需要残差网络？

①非残差网络的缺陷：

②残差网络的优势：

③ 梯度消失问题：

构建残差网络：

①残差块：

②残差网络：

普通网络的基准模型受VGG网络的启发。

卷积层主要有3×3的过滤器，并遵循两个简单的设计规则：

1.对输出特征图的尺寸相同的各层，都有相同数量的过滤器；

2.如果特征图的大小减半，那么过滤器的数量就增加一倍，以保证每一层的时间复杂度相同。

ResNet模型比VGG网络更少的过滤器和更低的复杂性。ResNet具有34层的权重层，有36亿FLOPs，只是VGG-19（19.6亿FLOPs）的18%。

7.常用数据集

（1）MNIST

MNIST数据集主要由一些手写数字的图片和相应的标签组成，图片一共有10类，分别对应从0~9。

MNIST数据集是由0〜9手写数字图片和数字标签所组成的，由60000个训练样本和10000个测试样本组成，每个样本都是一张28*28像素的灰度手写数字图片。

Fashion-MNIST数据集：

FashionMNIST是一个替代MNIST手写数字集的图像数据集。它是由Zalando旗下的研究部门提供，涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。

FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分，28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能，且不需要改动任何的代码。

（2）CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。

数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

（3）PASCAL VOC数据集

PASCAL的全称是Pattern Analysis，Statistical Modelling and Computational Learning，VOC的全称是Visual Object Classes。

是目标分类(识别)、检测、分割最常用的数据集之一。

该数据集一共分成20类：person，bird, cat, cow, dog, horse, sheep，aeroplane, bicycle, boat, bus, car, motorbike, train，bottle, chair, dining table, potted plant, sofa, tv/monitor

（4）MS COCO数据集

PASCAL的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集。

数据集以scene understanding为目标，主要从复杂的日常场景中截取，包含目标分类(识别)、检测、分割、语义标注等数据集。

（5）ImageNet数据集与ILSVRC

8.数据集与评价指标

（1）算法评估

相关概念：

TP：被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数。

FP：被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数。

FN：被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数。

TN：被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

P(精确率）：TP/（TP+FP）

R(召回率）： TP/(TP+FN)。召回率越高，准确度越低。

P-R曲线：

P-R的关系曲线图，表示了召回率和准确率之间的关系。精度(准确率)越高,召回率越低。

AP计算：

mAP：均值平均准确率

其中， N代表测试集中所有图片的个数,P(k)表示在能识别出k个图片的时候Precision的值，而

Δr(k)则表示识别图片个数从k-1变化到k时（通过调整阈值）Recall值的变化情况。

weixin_44578479

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习笔记3

网络结构：网络一共有8层可学习层—5层卷积层和3层全连接层。改进：池化层均采用最大池化；选用ReLU替代Tan Sigmoid作为非线性环节激活函数；网络规模扩大，参数数量接近6000万；出现“多个卷积层+一个池化层”的结构；双GPU策略。普遍规律：随网络深入，宽、高衰减，通道数增加。网络结构：改进：网络规模进一步增大，参数数量约为1.38亿；由于各卷积层、池化层的超参数基本相同，整体结构呈现出规整的特点。普遍规律：随网络深入，高和宽衰减，通道数增多。为什么需要残差网络？
复制链接

扫一扫

weixin_44578479 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

180万+: 周排名

227万+: 总排名

258: 访问

: 等级

40: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

神经网络与深度学习笔记4
CSDN-Ada助手: 非常感谢用户对神经网络与深度学习的深入探索，并分享了精彩的笔记。看到用户已经写了第四篇博客，我们真心为您感到高兴，同时也希望您能够持续创作，为大家带来更多有价值的知识分享。下一步的创作建议是可以更加深入地研究一些具体的应用场景，如图像识别、自然语言处理等，让读者更好地理解深度学习的实际应用。再次感谢您的分享，期待更多好文的出现。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。