深度学习奠基作AlexNet《ImageNet Classification with Deep Convolutional Neural Networks》之论文解读上篇

11年前的这篇论文,现在读也是非常具有价值的。

论文下载:

https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

1、介绍

《ImageNet Classification with Deep Convolutional Neural Networks》

ImageNet Classification:图片分类最大的数据集,100万图片,1000分类

Convolutional Neural Networks:卷积神经网络

Deep Convolutional Neural Networks:深度神经网络

作者:

  • Alex
  • Ilya
  • Hinton

当时Ilya在Google做这篇论文的报告,是Hinton老爷子最新的力作,Google当时的那层楼有20位论文引用超过10万的大佬大多都去了。

在当时报告的标题是3个Dirty Trick,包括图片增强、ReLU、Dropout,效果特别好,赢了ImageNet

2 摘要

我们训练了一个很大很深的卷积神经网络,用来对120万张图片做分类,有1000个类别。

在测试集上TOP-1和TOP-5的错误率分别是37.5%和17%,这比前面的工作都要好。

(SOTA:state-of-the-art,当前最佳的工作、当前做好的模型、当前最好的方法等)

这个神经网络的有6000万个参数和65万个神经元。

这个神经网络有5个卷积层伴随一些MaxPooling池化层,3个全连接层,最后有一个100层的softmax

为了使得训练更加快一点,使用了GPU的实现

为了减少过拟合,使用了Regulatrization正则的方法,叫做Dropout

又把这个模型放到了2012年ImageNet比赛中获得了15.3%的TOP-5的测试率,但是第二名是26.2%

3 结论

(没有结论,是一个讨论)

我们的一个大的很深的神经网络在一个特别难得数据集上能够做一个特别好的结果。如果把一层神经网络去掉会下降2%,所以深度是非常重要的。

但是从现在来看,2个百分点不一定说明深度是最重要的,因为很有可能是参数没设好,实际上AlexNet去掉一些层,中间参数调整一下,还是有办法达到的,但是当时参数调的不够。但是这个结论放到现在来看又是正确的,因为确实越深效果确实越好。

完整的结论是,深度很重要,宽度也很重要,不能特别深特别窄。

为了使得实验更加简单,训练神经网络的时候,把一些没有标号的图片的权重,相对来说受到好的范围再往下训练,主要是深度神经网络在当时是不容易训练的。所以会用一些大量的,没有标号的图片进行预热,也就是说后面不用这些图片也没有关系了。

AlexNet影响了整个深度学习界,带领了一个使用没有标号的数据进行深度学习任务的浪潮,因为人类学习知识的时候是事先不知道结果的,深度学习是一个无监督学习让大家觉得这是一个很信赖的思想。在往后的很长的一段时间才有了有监督学习的浪潮,而在近几年,BERT又将大家带领到了无监督的学习浪潮中 ,当然也包括GAN。

只要我们的网络更大,训练时间更长,有足够的计算资源,结论可以更好。但是和人类的视觉还是差很远。

当然到了今天,深度学习已经比人类做的好很多了。

作者表示后面想用非常大和深的网络用在video上面,因为视频有一些时序信息在里面,时序信息可以帮助神经网络理解很多空间的东西。如果有钱、有机器、有数据,想去训练一下video的数据。然而到了今天,video的训练还是一个很难的事情。过去人类在图片和自然语言处理上都走了非常非常远,但是在video上一直走得比较慢,因为video对于图片数据量增加的不是一点点。而且video很多时候还是有版权的。

4 中间一下重要的图

比如这个摩托车,分对了,第二个go-kart看上去也对

比如雪豹,第二个分类中差不多也是雪豹

比如cherry,分的可能不是很好,可能认的是后面的狗

这个敞篷车预测的也是敞篷车

实际上图片上很多标号,一般的认也不一定认识,比如这个猫就很多人就不认识。

在神经网络最后一层的输出拿出来可以得到一个很长的向量,然后给定一张图片,看一下跟这个向量最近的那些图片是谁,全部找出来,从这张图看出来基本上找出来的都很靠谱。

给一朵花,在最后一层输出向量的输出里面靠的很近的一些花,都差不多是这些花。然后向大象、轮船、南瓜、狗,都长得差不多。虽然这篇论文并没有讨论这个有多重要,实际上来说这是最重要的结果,就是深度学习的图片训练出来最后的那个向量的语义空间里面表示的特别好,就是相似的图片真的会放在一起,也就是说它是一个非常好的特征。非常适合做机器学习一个简单的分离器,这也是深度学习的一大强项

这个表,表示AlexNet的结果跟其他两个当前最好的网络的结果的对比,在top1和top5的错误率是远远高于AlexNet。

 如果不做神经网络可能不了解这个图,在计算机视觉里面多多少少会看到这些图

当然最重要的就是这幅图了,这是这个网络的结构

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器学习杨卓越

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值