岭回归,Lasso回归
在拟合回归中回出现过拟合现象,表现为拟合方差的过大,训练系数W的过大,加入正则化L1 L2项训练使得方差减少,偏差增大;Lasso-L1回归特性:某些系数可以为0,变为稀疏特征,但其损失方程不可导,a系数增大收敛比岭回归快;
Ridge-L2回归特性:系数变小但不为0,方程可导,收敛没Lasso回归快;
kappa系数
交叉熵损失函数优缺点
优点:
在用梯度下降法做参数更新的时候,模型学习的速度取决于两个值:一、学习率;二、偏导值。其中,学习率是我们需要设置的超参数,所以我们重点关注偏导值。从上面的式子中,我们发现,偏导值的大小取决于 和 ,我们重点关注后者,后者的大小值反映了我们模型的错误程度,该值越大,说明模型效果越差,但是该值越大同时也会使得偏导值越大,从而模型学习速度更快。所以,使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。
缺点:
Deng [4]在2019年提出了ArcFace Loss,并在论文里说了Softmax Loss的两个缺点:1、随着分类数目的增大,分类层的线性变化矩阵参数也随着增大;2、对于封闭集分类问题,学习到的特征是可分离的,但对于开放集人脸识别问题,所学特征却没有足够的区分性。对于人脸识别问题,首先人脸数目(对应分类数目)是很多的,而且会不断有新的人脸进来,不是一个封闭集分类问题。
另外,sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息,因为它采用了类间竞争机制,它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散。基于这个问题的优化有很多,比如对softmax进行改进,如L-Softmax、SM-Softmax、AM-Softmax等。
Padding,池化层
Padding用于补偿卷积核造成的边缘像素损失,池化层用于模糊像素,增强核心特征,通过stripe步长来收缩图片大小
深度学习的核心思想
深度越深,输入张量大小越来越小,卷积核越来越多,来提取目标分类