【学习笔记】李宏毅2021春机器学习课程第二节:机器学习任务攻略

如何做的更好?
image-20210311205104719

如果在Kaggle上的结果不满意的话,第一件事情就是检查你的training data的loss。如果你发现你的模型在training data的loss很大,说明它在训练集上面也没有训练好,这边有两个可能的原因,第一个是model的bias。

Model bias
image-20210311205956634

问题原因:你的model太过简单,function的set太小了,这个function的set中没有包含任何一个function,可以让我们的loss变低,即可以让loss变低的function,不在你的model可以描述的范围内。

用个比喻来说:这就好像是我们想大海捞针,但针根本就不在海里,所以任何努力都是徒劳。

image-20210311212242288

解决方法重新设计一个model,给你的model更大的弹性,举例来说,你可以增加你输入的features,也可以使用Deep Learning,增加网络的层数和复杂度。

但是并不是training的时候,loss大就代表一定是model bias,你可能会遇到另外一个问题,还有可能是optimization做得不好

Optimization Issue
image-20210311213108040

问题原因:你可能会卡在local minima的地方,没有办法找到一个真的可以让loss很低的参数就停下了。

用个比喻来说:这就好像是我们想大海捞针,针确实在海里,但是我们却没有办法把针捞起来

那么training data的loss不够低的时候,到底是model bias,还是optimization的问题呢?

一个建议判断的方法,就是你可以通过比较不同的模型,来得知你的model现在到底够不够大

image-20210311214054168

举一个例子,这一个实验是从residual network那篇paper里面摘录出来的 (http://arxiv.org/abs/1512.03385)。

这里想测2个networks,一个20层,一个56层,训练之后发现20层的loss比较低,56层的loss反而比较高但这个不是overfitting并不是所有的结果不好,都叫做overfitting

你要检查一下训练集上面的结果,发现在训练集上,56层的network loss就比20层的network loss高了,这代表56层的network,它的optimization没有做好。之所以能下这个结论,是因为理论上56层的network一定可以做到20层的network能做到的事情(它只要前20层的参数,跟这个20层的network一样,剩下36层什么事都不做)。

Start from shallower networks

一个小建议:看到一个你从来没有做过的问,也许你可以先跑一些比较小的,比较浅的network,甚至用一些不是deep learning的方法,比如说 linear model,比如说support vector machine,它们可能是比较容易做Optimize的,比较不会有optimization失败的问题。先有个概念说,这些简单的model,到底可以得到什么样的loss,这样也就有了一个参考的基准点

If deeper networks do not obtain smaller loss on training data, then there is optimization issue.

解决方法:更换Optimization的策略,在SGD上加momentum,改用其他策略等等,下节课会具体讲到。

image-20210313204055684

假设你现在经过一番努力,已经可以让你的training data的loss很小了,那接下来就可以看看testing data loss的情况,如果是training的loss小,testing的loss大,这个有可能是真的遇到overfitting问题了

Overfitting
image-20210313204504732

**问题描述:**举一个比较极端的例子,假如我们有一个一无是处的function:如果今天x当做输入的时候,我们就去比对这个x有没有出现在训练集里面,如果x出现在训练集里面,就把它对应的ŷ当做输出,如果x没有出现在训练集里面,就输出一个随机的值。

那你可以想像这个function啥事也没有干,但是在training的data上,它的loss可是0呢!可是在testing data上面,它的loss会变得很大,因为它其实什么都没有预测

image-20210313205918762

如果你的model它的自由度很大的话,它可以产生非常奇怪的曲线,导致训练集上的结果好,但是测试集上的loss很大。

解决方法:

  1. 第一个方向是,往往也是最有效的方向,那就是增加你的训练集。但是人工搜集训练集往往成本很高,可以使用data augmentation技术,注意很少看到有人把影像上下颠倒当作augmentation,也就是说你使用这个技术必须要是reasonable的,并不是随意的。

    image-20210313210406236
  2. 第二个方向是,对你的模型进行一定的限制,让其不要有那么大的弹性。那你可能会问我怎么会知道要用多constrain的model才会好呢,这就取决与你对这个问题的理解,对于数据产生背后原理的理解

那么又有哪些方法可以给model制造限制呢?

image-20210313211849093
  1. 给它比较少的参数,如果是deep learning的话,就给它比较少的神经元的数目。或者是你可以让model共用参数,你可以让一些参数有一样的数值。我们之前讲的network的架构,叫做fully-connected network,那fully-connected network其实是一个比较有弹性的架构,而CNN是一个比较有限制的架构,它是针对影像的特性,来限制模型的弹性,就是因为CNN给了比较大的限制,所以CNN在影像上反而会做得比较好。
  2. 用比较少的features,本来给三天的资料,改成用给两天的资料,其实结果就好了一些。
  3. 采用Early stopping(17条消息) 深度学习技巧之Early Stopping(早停法)_df19900725的博客-CSDN博客_early stopping,基本含义是在训练中计算模型在验证集上的表现,当模型在验证集上的表现开始下降的时候,停止训练,这样就能避免继续训练导致过拟合的问题。
  4. Regularization机器学习之正则化(Regularization) - Acjx - 博客园 (cnblogs.com)在代价函数中加入惩罚项,对于太过复杂的模型进行惩罚。
  5. Dropout(17条消息) 深度学习中Dropout原理解析_Microstrong-CSDN博客_dropout,Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征

但是我们也不要给模型太多的限制,不然我们又会回到model bias的问题。

image-20210313212322570

所以要选择既不简单也不复杂的模型:

image-20210313212632577
Cross Validation

把Training的资料分成两半,一部分叫作Training Set,另一部分用作Validation Set在Training Set上训练出来的模型,在Validation Set上面去衡量它们的分数,最后根据Validation Set上面的分数,去挑选结果,这样就可以很大程度上避免在public上面结果很好,但是在private上面结果很差的情况。

image-20210313215406332

但是这边会有一个问题,就是怎么分Training Set和Validation Set呢,一般就是随机分的,但是如果担心分到很奇怪的Validation Set导致结果很差,那么推荐使用N-fold Cross Validation的方法。

image-20210313215636180

N-fold Cross Validation:[深度概念]·K-Fold 交叉验证 (Cross-Validation)的理解与应用 - 小宋是呢 - 博客园 (cnblogs.com) 就是你先把你的训练集切成N等份,在这个例子里面我们切成三等份,切完以后,你拿其中一份当作Validation Set另外两份当Training Set,然后这件事情你要重复三次

然后接下来你有三个模型,你不知道哪一个是好的,你就把这三个模型在这三个setting下,在这三个Training跟Validation的data set上面,通通跑过一次,然后把这三个模型,在这三种状况的结果都平均起来,再看看谁的结果最好。

Mismatch
image-20210313220434830

mismatch的原因跟overfitting其实不一样,一般的overfitting,你可以用搜集更多的资料来克服,但是mismatch意思是说,你今天的训练集跟测试集,它们的分布是不一样的。就比如HW11中的情况:

image-20210313220457880
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
李宏毅的2020机器学习笔记中,有一个关于注意力制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值