深度神经网络的正则化

最新推荐文章于 2023-12-31 01:41:39 发布

张荣华_csdn

最新推荐文章于 2023-12-31 01:41:39 发布

阅读量326

点赞数

分类专栏：机器学习基础文章标签：深度神经网络的正则化

本文链接：https://blog.csdn.net/zrh_CSDN/article/details/81235557

版权

机器学习基础专栏收录该内容

119 篇文章 22 订阅

订阅专栏

1. DNN的L1&L2正则化

　 L1正则化和L2正则化原理类似，这里重点讲述DNN的L2正则化。

假如我们的每个样本的损失函数是均方差损失函数,则所有的m个样本的损失函数为：

　则加上了L2正则化后的损失函数是：

　其中,λ即我们的正则化超参数，实际使用时需要调参。而w为所有权重矩阵W的所有列向量。

2. DNN通过集成学习的思路正则化

除了常见的L1&L2正则化，DNN还可以通过集成学习的思路正则化。在DNN中，使用Bagging的思路。不过和随机森林不同的是，这里不是若干个决策树，而是若干个DNN的网络。

　首先我们要对原始的m个训练样本进行有放回随机采样，构建N组m个样本的数据集，然后分别用这N组数据集去训练我们的DNN。即采用我们的前向传播算法和反向传播算法得到N个DNN模型的W,b参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。

3. DNN通过dropout 正则化

　所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。然后用这个去掉隐藏层的神经元的网络来进行一轮迭代，更新所有的W,b。这就是所谓的dropout。

　当然，dropout并不意味着这些神经元永远的消失了。在下一批数据迭代前，我们会把DNN模型恢复成最初的全连接模型，然后再用随机的方法去掉部分隐藏层的神经元，接着去迭代更新W,b。当然，这次用随机的方法去掉部分隐藏层后的残缺DNN网络和上次的残缺DNN网络并不相同。

　从上面的描述可以看出dropout和Bagging的正则化思路还是很不相同的。dropout模型中的W,b是一套，共享的。所有的残缺DNN迭代时，更新的是同一组W,b；而Bagging正则化时每个DNN模型有自己独有的一套W,b参数，相互之间是独立的。当然他们每次使用基于原始数据集得到的分批的数据集来训练模型，这点是类似的。

4. DNN通过增强数据集正则化

增强模型泛化能力最好的办法是有更多更多的训练数据，但是在实际应用中，更多的训练数据往往很难得到。有时候我们不得不去自己想办法能无中生有，来增加训练数据集，进而得到让模型泛化能力更强的目的。

对于我们传统的机器学习分类回归方法，增强数据集还是很难的。你无中生有出一组特征输入，却很难知道对应的特征输出是什么。但是对于DNN擅长的领域，比如图像识别，语音识别等则是有办法的。以图像识别领域为例，对于原始的数据集中的图像，我们可以将原始图像稍微的平移或者旋转一点点，则得到了一个新的图像。虽然这是一个新的图像，即样本的特征是新的，但是我们知道对应的特征输出和之前未平移旋转的图像是一样的。用类似的思路，我们可以对原始的数据集进行增强，进而得到增强DNN模型的泛化能力的目的。

张荣华_csdn

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络的正则化

1. DNN的L1&amp;L2正则化　 L1正则化和L2正则化原理类似，这里重点讲述DNN的L2正则化。假如我们的每个样本的损失函数是均方差损失函数,则所有的m个样本的损失函数为：　则加上了L2正则化后的损失函数是：　其中,λ即我们的正则化超参数，实际使用时需要调参。而w为所有权重矩阵W的所有列向量。2. DNN通过集成学习的思路正则化 ...
复制链接

扫一扫

专栏目录