【论文阅读】Maxout Networks

最新推荐文章于 2022-08-18 20:52:13 发布

野生的野蛮人

最新推荐文章于 2022-08-18 20:52:13 发布

阅读量771

点赞数

分类专栏：论文阅读文章标签：人工智能神经网络深度学习

本文链接：https://blog.csdn.net/weixin_53563701/article/details/122455209

版权

论文阅读专栏收录该内容

8 篇文章 0 订阅

订阅专栏

看Network in Network的时候，因为作者经常将NIN与maxout进行比较，我有对maxout忘得差不多了，就趁势读一下原论文。

论文地址：https://arxiv.org/pdf/1302.4389.pdf

以下是正文：

maxout网络可以视为一种集成学习手段，其名字可以拆分为“max”+“out”，“max”是指它通过取所有子模型输出的最大值来进行选择，“out”指这个方法被设计和dropout一起使用。

引言

引言对文章进行概括。

作者首先提到dropout本质上可以看做集成学习，提供了一种方法去训练很多模型的集合，这些模型之间以一定程度共享参数，最后近似取所有这些模型的预测的平均作为最终结果。

dropout现在已经被用作一种轻微提高模型性能表现的普适通用的手段。作者认为dropout的威力也被这种普适性给限制了，希望通过设计一种特定的结构来最大化地利用dropout的威力。

作者提出，dropout能力受限来自两个方面：

1.只有每一步训练都会使模型产生很大改变时（比如学习率很大），dropout才能有更好地表现。这点很好理解，因为dropout是一种集成学习，集成学习的原则就是让子模型“好而不同”，在“好”的前提下越“不同”越好。

2.当应用到深层网络时，dropout最后一步平均输出只是一种近似。如果能通过手动设计一种模型能让这一步近似的误差最小化就最好了。

因此作者提出了这个maxout模型，和dropout一起用的时候可以更好地进行优化和平均输出。

Dropout复习

作者贴心地带着我这样新手复习了一下dropout都干了什么。这部分我以后看dropout的论文时再把链接贴在这。

dropout一方面和bagging集成学习很像，另一方面又不一样。

1.dropout中，每一种不同的masked模型都是子模型，子模型之间有共享的参数。而每个模型能训练的次数又很少，因为每个minibatch只会训练一个子模型，这就要求每一次minibatch的训练的跨步要大一些，以使当前的这个子模型能够尽可能地拟合当前的minibatch。

2.bagging一般用的是算术平均，而如果dropout网络的激活函数用的是softmax，那么dropout所有子模型的几何平均可以很简单地通过以权值减半的方式运行全部网络（不进行dropout）来得到，因此一般用几何平均。

$softmax(x^{T}W/2+b)$

但作者也提到这只是单层网络的情况，更深的网络就没有正式的数学证明了。

maxout的描述

maxout模型是多个maxout单元的堆叠。每个maxout单元都是在进行这样的计算：

$h_{i}(x)=max_{j\in[1,k]}z_{ij}$

且有 $z_{ij}=x^{T}W_{...ij}+b_{ij}$ ，关键是W的维度是 $\mathbb{R}^{d*m*k}$ （三个维度），b的维度是 $\mathbb{R}^{m*k}$ （两个维度）。我画个图利于记忆一下：

可以视为一个maxout单元训练了很多种从输入到输出的线性映射，之后取每个位置上所有输出的最大值作为最终输出，这个就是名字中“max”的来源。

这个max的过程也是相当于进行激活函数的计算，因为这个操作会引入非线性，最终的输出相当于是一个分段线性函数（比如relu就是一个分段线性函数）。

如何与dropout一起使用呢？这部分作者一句话说完了，我的理解是（可能不准确）：在输入向量与权重矩阵相乘之前，对权重矩阵进行随机地mask，不对输入向量进行mask。这就是名字中“out”的来源。

maxout是一个通用的近似器

一个拥有足够多隐藏单元的多层感知机可以可以近似任何从输入到输出的映射（或函数），称之为万能近似原理。

同样，一个拥有至少两个maxout单元而且每个maxout单元有足够大的k值（指足够多的子模型，也就是“max”操作有足够多的选择，也就是有很多段的分段线性函数）的maxout模型也能近似任何从输入到输出的映射（或函数）。

作者给了三个定理来证明的，我也不是很懂，就直接跳过了。

性能分析

作者在MNIST、CIFAR-10、CIFAR-100、Street View House Numbers（SVHN）上的模型表现进行了分析，我自己没怎么看，因为我来看原论文的目的不是这个。具体数值请看论文。

对照试验

这一部分的名字是叫“Comparison to rectifiers”，我的理解是作者在进行对照实验。作者为了排除是模型大小以及预处理的影响，用了很多不同尺寸的一般的模型与maxout网络进行比较。最后的结论是只有一般的模型的参数量是maxout模型的k倍时才能让两者有相同的效果，这里的k值我理解是maxout单元的那个参数k。