神经网络与深度学习学习笔记

基本卷积神经网络

AlexNet

  •  在每个全连接层后面使用一个 Dropout 层,以概率 p 随机关闭激活函数.
  • 采用ReLU替代 Tan Sigmoid
  • 池化层均采用最大池化
  • 网络规模扩大,参数数量接近6000万
  • 出现“多个卷积层+一个池化层”的结构

VGG-16

  •  网络规模进一步增大,参数数量约为1.38亿
  • 由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。

残差网络——解决梯度消失问题

在普通网络的基础上,将浅层的激活项通过支路直接传向深层,克服深层神经网络中梯度消失的问题,为训练极深的神经网络提供便利。卷积层主要有3×3的过滤器,并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层,都有相同数量的过滤器; ②如果特征图的大小减半,那么过滤器的数量就增加一倍,以保证每一层的时间复杂度相同。

常用数据集

1.MNIST

主要由一些手写数字的图片和相应的标签组成,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片,图片一共有10类,分别对应从 0~9
加载代码:

def load_data_fashion_mnist(batch_size, resize=None): #@save
"""下载Fashion-MNIST数据集,然后将其加载到内存中。"""
trans = [transforms.ToTensor()]
if resize:
trans.insert(0, transforms.Resize(resize))
trans = transforms.Compose(trans)
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
return (data.DataLoader(mnist_train, batch_size, shuffle=True,
num_workers=get_dataloader_workers()),
data.DataLoader(mnist_test, batch_size, shuffle=False,
num_workers=get_dataloader_workers()))

2.Fashion-MNIST数据集

FashionMNIST 是一个替代MNIST手写数字集的图像数据集,涵盖了来自10种类别的共7万个不同商品的正面图片。可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

3.CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

4.PASCAL VOC数据集

VOC的全称是Visual Object Classes。里面是图像对应的XML标注信息描述,每张图像有一个与之对应同名 的描述XML文件,XML前面部分声明图像数据来源,大小等元信息。

5.MS COCO数据集

提供的标注类别有80 类,有超过33 万张图片,其中20万张有标注,整个数据集中个体的数目超过150 万个。

6.ImageNet数据集

总图像数据:14,197,122;总类别数:21841;带有标记框的图像数:1,034,908。

7.ISLVRC 2012子数据集

训练集:1,281,167张图片+标签;类别数:1,000;验证集:50,000张图片+标签;测试集:100,000张图片。

算法评估

两个最常见的衡量指标是“准确率(precision)”(你给出的结果有多少是正确的)和“召回率(recall)”(正确的结果有多少被你给出了)。这两个通常是此消彼长的(trade off),很难兼得。当我们二分类的临界值是设置的较高时,会得到一个高准确率和低召回率。当我们的二分类的临界值设置较低时,会得到一个低准确率和高召回率。这取决于对那个分类结果的不同情况的不同分析。很多时候用参数来控制,通过修改参数则能得出一个准确率和召回率的曲线(ROC),这条曲线与x和y轴围成的面积就是AUC(ROC  Area)。AUC可以综合衡量一个预测模型的好坏,这一个指标综合了precision和recall两个指标。

mAP:均值平均准确率

 其中𝑁代表测试集中所有图片的个数,𝑃(𝑘)表示在能识别出𝑘个图片的时候 Precision的值,而 Δ𝑟(𝑘)则表示识别图片个数从𝑘 − 1变化到𝑘时(通过调整阈值)Recall值的变化情况。每一个类别均可确定对应的AP。多类的检测中,取每个类AP的平均值,即为mAP。

目标检测——YOLO

目标检测数据集输出表达

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值