Datawhale 李宏毅苹果书 AI夏令营 笔记2

  • Datawhale 李宏毅苹果书 AI夏令营 笔记2

    • 实践方法论

      • 影响模型准确性的四类问题

        • 模型偏差

          • 当模型过于简单时,损失难以降到最低,难以将损失降到满意的程度。

          • 可重新设计模型,给模型更大的灵活性

            • 增加输入的特征

            • 利用深度学习(增加神经元、增加层数等),提升网络的灵活性

        • 优化问题

          • 梯度下降时可能卡在局部最小值,而难以进入全局最小值

          • 判断存在优化问题的方法

            • 可通过比较不同层数模型的损失函数值来判断,若高层数的模型比低层数的模型的损失值更大,则存在优化问题

            • 可训练简单机器学习模型,看能得到多低的损失,再训练灵活性更高的深度学习网络,若深度学习网络损失更高,则存在优化问题

        • 过拟合

          • 过拟合是一种现象,判断它的依据是:模型在验证集和训练集表现都很好,而在测试集表现却很差。其实就是模型把训练集的样本学的太好了,把训练集中一些细枝末节的,不属于总体特征的信息学习到了;把个性当作了共性。

          • 原因

            • 1.训练数据不足

            • 2.模型复杂度过高

            • 3.样本噪声干扰过大,使模型把噪声误认为特征

            • 4.建模时所做的假定实际并不成立

            • 5.对于神经网络模型:迭代次数过多

          • 解决方法

            • 1. 对模型:使用dropout、早停、正则化等方法改进模型;或者换成复杂度较低的模型(给模型比较少的参数);提供比较少的特征;

              • Dropout 是一种正则化技术,用于防止神经网络的过拟合。在训练过程中,Dropout 会随机将一部分神经元的输出置为零,这相当于在每次训练时创建一个新的神经网络子集。这种方法通过减少神经元之间的相互依赖性,提高模型的泛化能力,进而提升在未见过的数据上的表现。

            • 2. 对数据:扩充训练集,数据增强、使用交叉验证

        • 不匹配

          • 训练集数据和测试集数据的分布不同导致不匹配的问题。增加数据也不能使模型训练的更好。

          • 需要对训练集和测试集数据的产生方式有一定理解,才能判断模型是不是遇到不匹配的问题

      • 从多个模型中寻找最优模型的方法

        • 交叉验证

          • 将数据分为训练集和验证集,在训练集上训练出来的模型会使用验证集来评估他们的效果。

          • K折交叉验证:将训练集数据切成K等份,将其中K-1份当做训练集,剩余1份作为验证集。K份数据每1份轮流作为验证集,测试K次。假设有N个模型,将N个模型在这K次训练验证得到的结果平均起来,看哪个模型的结果最好,则是最优模型。

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值