如何避免过拟合和欠拟合

最新推荐文章于 2024-05-15 07:48:24 发布

酸菜余

最新推荐文章于 2024-05-15 07:48:24 发布

阅读量552

点赞数

分类专栏：深度学习与PyTorch入门实战教程

本文链接：https://blog.csdn.net/weixin_43821376/article/details/103783547

版权

深度学习与PyTorch入门实战教程专栏收录该内容

13 篇文章 1 订阅

订阅专栏

减少过拟合：减少数据；将模型换成一个浅层模型；正则化；dropout；early stopping

设置交叉验证

将数据集分为训练集、dev和测试集
dev用来提前防止训练过拟合，每隔一段时间观察testperformace，选取最好的性能模型
test是真实交给客户，用来测量模型的真实性能，test不能用来反馈给模型训练
K-fold交叉验证：每次迭代都随机将训练数据集划分为k份，将其中的k-1份用来做训练集，剩余的1份用来做验证
目的：及防治模型的“死记硬背”，也充分利用了所有数据集
实际效果：提升模型性能并不多

正则化

原理：当模型参数的范数越小，模型的复杂度越小
一阶正则：
$J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left[y_{i} \ln \hat{y}_{i}+\left(1-y_{i}\right) \ln \left(1-\hat{y}_{i}\right)\right]+\lambda \sum_{i=1}^{n}\left|\theta_{i}\right|$

regularization_loss+=torch.sum(torch.abs(param))
loss=classify_loss+0.01*regularization_loss
loss.backward()

二阶正则：
$y)+\frac{1}{2} \lambda \cdot\|W\|^{2}$

 optimzer=optim.SGD(net.parameters(),lr=learning_rate,weight_decay=0.01) #L2范数

动量与学习率衰减

考虑历史动量方向

 optimzer=optim.SGD(net.parameters(),lr=learning_rate,momentu=args.momentum,weight_decay=0.01) #adam中内置了动量，不需要自己设置

一般学习率在：0.0001~0.001之间

early stopping ，dropout

early stopping：提前终止训练，因为test.acc达到了最高值
dropout：随机在两层之间的连接中选取部分weight设为0

注意：
torch.nn.Dropout(p=dropout_prob)
tf.nn.dropout(keep_prob)
model.train() ：启用 BatchNormalization 和 Dropout
model.eval() ：不启用 BatchNormalization 和 Dropout

酸菜余

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何避免过拟合和欠拟合

减少过拟合：减少数据；将模型换成一个浅层模型；正则化；dropout；early stopping设置交叉验证将数据集分为训练集、dev和测试集dev用来提前防止训练过拟合，每隔一段时间观察testperformace，选取最好的性能模型test是真实交给客户，用来测量模型的真实性能，test不能用来反馈给模型训练K-fold交叉验证：每次迭代都随机将训练数据集划分为k份，将其中的k...
复制链接

扫一扫