信息熵可以表达数据的信息量大小;
相对熵,又被称为KL散度或信息散度,是两个概率分布间差异的非对称性度量
在信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为理论(拟合)分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损耗
因此该公式的字面上含义就是真实事件的信息熵与理论拟合的事件的香农信息量与真实事件的概率的乘积的差的累加。
假设理论拟合出来的事件概率分布跟真实的一模一样,那么这就等于真实事件的信息熵。
假设拟合的不是特别好,那么这会比真实事件的信息熵大。
也就是在理论拟合出来的事件概率分布跟真实的一模一样的时候,相对熵等于0。而拟合出来不太一样的时候,相对熵大于0。这个性质很关键,因为它正是深度学习梯度下降法需要的特性。假设神经网络拟合完美了,那么它就不再梯度下降,而不完美则因为它大于0而继续下降。
这也就是说,相对熵的大小并不跟距离有一一对应的关系。
那为什么现在还是很多人用相对熵衍生出来的交叉熵作为损失函数来训练神经网络而不直接用距离相关的均方差呢?
因此虽然相对熵的距离特性不是特别好,但总归好过直接梯度消失玩不下去(用了均方差损失函数之后求导结果包含y(y−1) 这在y接近于0或者1的时候都趋于0,会导致梯度消失,网络训练不下去),因此很多用sigmoid作为激活函数的神经网络还是选择了用相对熵衍生出来的交叉熵作为损失函数。
当然如果你选用的不是sigmoid激活函数,则不需要考虑这些
在机器学习中,无论是分类还是回归,都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有:(1)减少特征,留取最重要的特征。(2)惩罚不重要的特征的权重。
但是通常情况下,我们不知道应该惩罚哪些特征的权重取值。通过正则化方法可以防止过拟合,提高泛化能力。
L2正则化方法
对于之前梯度下降讲到的损失函数来说,在代价函数后面加上一个正则化项,得到
从某种意义上说,更小的权值就意味着模型的复杂度更低,对数据的拟合更好。
- 当权值系数更大时,会过拟合。
(2)在PRML中,正则化就是通过对模型的参数设定一个先验来防止过拟合。
在上图中,如果不加正则化项,那么最优参数对应的等高线离中心点的距离可能会更近,加入正则化项后使得训练出的参数对应的等高线离中心点的距离不会太近,也不会太远。从而避免了过拟合。
L1正则化和L2正则化,不同的是L1正则化得到的权重w是稀疏的
神经网络中的正则化是矩阵L2正则化(正则项是权重矩阵各元素的平方之和):
L2正则化又被称为“权重衰减”weight decay,因为是在原有的权重上乘以一个小于1 的系数。
正是因为权重衰减导致w矩阵中很多项约等于0,致使深层神经网络中很多节点的影响变小了,相当于简化了网络结构,这就是为什么正则化可以减少过拟合(缓解高方差)的原因。
还有一个直观的解释:通过正则化设置lambda,使得w减小,导致z也很靠近0,处在激活函数的线性范围(非饱和)内,每一层都约为线性,这样这个神经网络的线性成分大大增加,减少了过拟合。
https://zhuanlan.zhihu.com/p/35356992