目录
第二课
week1
偏差和方差
机器学习关键:数据集,选择网络,正则化。来解决偏差和方差
正则化
λ \lambda λ 是正则化参数,L2正则化是使用了欧几里德范数(2范数)的平方,L1是加了L1范数,w会是稀疏的,会有很多0,却没有降低太多内存,人们更倾向L2
为什么L2正则化可以减少过拟合:
如果正则化参数变得很大,参数 w 很小, z 也会相对变小,此时忽略 b 的影响, z 会相对变小,
z 的取值范围很小,这个激活函数,也就是曲线函数tanh 会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数(不像前面那个高方差的样子,曲线特别离谱),不会发生过拟合
Dropout正则化
本质: 随机失活
首先要定义向量 d [ 3 ] d^{[3]} d[3]表示一个三层的dropout向量:
d3=np.random.rand(a3.shape[0],a3.shape[1])
然后看它是否小于某数,我们称之为keep-prob,keep-prob是一个具体数字,上个示例中它是0.5,而本例中它是0.8,它表示保留某个隐藏单元的概率,此处keep-prob等于0.8,它意味着消除任意一个隐藏单元的概率是0.2,它的作用就是生成随机矩阵,如果对 a [ 3 ] a^{[3]} a[3]进行因子分解,效果也是一样的。 d [ 3 ] d^{[3]} d[3]是一个矩阵,每个样本和每个隐藏单元,其中 d [ 3 ] d^{[3]}