目录
线性代数中退化矩阵
矩阵退化:
研究的是向量组中的向量
模型退化:
研究的是神经元节点
首先,退化矩阵 也叫 奇异矩阵。行列式为0,非满秩,也就是说矩阵内存在线性相关的向量组。
矩阵的退化?什么是线性相关?
--非零常量个数等于1时,对应向量肯定是零向量
--个数大于1时候,说明至少有两个向量线性相关
(零向量和任意向量线性相关)
退化程度越高,线性相关的向量组越多
不太严谨的类比神经网络的模型退化
模型的退化(不太严谨的类比神经网络的模型退化)
权重线性相关,提取到的特征无效。
线性相关性增加,提取到的特征有很多是重复的。本来神经网络为了应对复杂的任务而准备了庞大的参数量,但是矩阵退化导致很多参数形同虚设,难以获得更丰富的特征。模型的表达能力就会随之下降,导致训练的损失也难以下降。
以身份认证任务为例子,可供参考的特征有五官、头发、服饰等。理想的情况是神经元分工合作提取不同特征。通过整体的特征来提高模型的表达能力。因为 模型的退化 ,可能所有的神经元都在盯着一个特征,导致效率低下。虽然也能达到目的,但总没有综合特征来得准确。
论文:
论文提出了模型的三种奇异性:权重=0,权重相等,权重之间线性相关。
矩阵的退化:有零向量组,有相等向量组,都意味着存在线性相关的向量组。
模型退化的缓解
Dropout技术,参数初始化方法,跳跃连接
补充一点:我们常用的ReLU激活函数可能造成神经元坏死(永远无法得到激活的情况),而LeakyReLU左半平面也有梯度所以可以避免这个问题。
参考:【不想读paper】深度神经网络的退化问题 | 一篇总结_哔哩哔哩_bilibili
非常感谢小姐姐的分享!!!