李宏毅2022机器学习笔记（2）

最新推荐文章于 2024-10-09 14:22:29 发布

hyy_ssdlh

最新推荐文章于 2024-10-09 14:22:29 发布

阅读量89

点赞数

文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47416620/article/details/131965443

版权

在训练模型时可能遇到以下问题。

1、model bias

模型太过简单，不同未知参数得到不同的函式，所有的函式集合成函式集，函式集中没有让loss变低的函式，即让loss变低的函式不在模型可以描述的范围内。

解决方案：重新设计model，增加feature（函式中的x），通过deep learning让他有更大的弹性。

2、optimization issue

没有找到最低的loss，如下图

model bias与optimization issue的区分

在判断该问题时，可以先训练一个较浅或者较简单的网络，再训练一个较深的网络，如果较深的网络得到的loss比浅网络的loss还大，则是optimization issue问题。

3、optimization失败(local minima问题和saddle point问题)

通常optimization失败主要是因为local minima问题和saddle point问题，其问题如下图所示。当问题处于local minima时函数将无处可走，但当问题处于saddle point时问题还可以解决。

要判断损失函数处于local minima情况还是saddle point情况，需要对损失函数进行计算

首先将损失函数进行泰勒展开，下图中是泰勒展开的式子。

由下图可以观察到，当处于critical point处，绿框中的值为0，则损失函数的变化主要看红框中函数。

所以可以根据来判断此处为local minima还是Saddle point。

上图中将（θ- ${\theta }'$ ）用向量v来表示。

如果对任何可能的v， $v^{T}$ Hv都大于零，也就是说现在θ无论为任何值，红色框里面都大于零。也就是L(θ)>L( ${\theta }'$ )，那么在 ${\theta }'$ 处为local minima。在线性代数中，如果对所有的v， $v^{T}$ Hv都大于零，那这种矩阵叫做positive definite（正定矩阵），这类矩阵的所有的eigen value（特征值）都是正的。所以如果算出一个hessian，H的eigen value全为正。

若对任何可能的v， $v^{T}$ Hv都小于零，也就是说现在θ无论为任何值，红色框里面都小于零。也就是L(θ)<L( ${\theta }'$ )，那么在 ${\theta }'$ 出为local maxima。而此处H的eigen value全为负数。

当 $v^{T}$ Hv有时大于0有时小于0时， ${\theta }'$ 处为saddle point。此处H的eigen value有正有负。

当确定saddle point后我们还需要确定θ的更新方向。

有线性代数特征可得，当 $\lambda$ <0时， $v^{T}$ Hv<0，则，因此， $\lambda$ <0时所对应的特征向量即为未知参数的变化量，。

下面我们举个例子，取模型函数为y=w1w2x，随机取数值x=1,在此处 $\hat{y}$ =1。

接下来定义该模型的损失函数

该损失函数如下图所示

将Loss的gradient求出来，w₁对L的微分,w₂对L的微分：

如果w₁=0 w₂=0就在圆心，并且w₁代0 w₂代0，w₁对L的微分 w₂对L的微分,算出来就都是零。这个时候就知道原点就是一个critical point，

接下来判断该点是为local minima还是Saddle point，计算H及其特征值。

H举证的特征值一正一副，所以是saddle point。
H知道了驻点的类型为鞍点，那么也可以通过H知道update的方向。

负特征值负特征值对应的特征向量为u，其中u+ ${\theta }'$ （其中 ${\theta }'$ 为[0,0]T）为w1,w2更新的方向

下图为w1,w2更新的方向

4、overfitting

出现现象：训练集loss小，测试集loss大。

如下图所示，右边的函数就是过拟合了，虽然它在训练集上将所有的点都放在了线上，但是如果再来一个点就会不起作用，这就是过拟合

overfitting的解决办法：

1、使用更灵活的模型

2、给模型多些限制（较少的参数、公用参数、较少的feature，提前结束训练）

如何选出这个最合适的model？训练模型时对训练数据进行分类

根据validation set优化未知参数。

training set 和validation set分类如下图所示，将training set分为n等分，其中一份为val,将这几个数据的不同组合放在不同模型中训练，选出平均Loss最小的模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

hyy_ssdlh CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

136万+: 周排名

134万+: 总排名

5543: 访问

: 等级

200: 积分

28: 粉丝

59: 获赞

9: 评论

52: 收藏

私信

关注

热门文章

最新评论

环境报错日记
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
学习笔记（GMM,HMM）
CSDN-Ada助手: 恭喜您写了第11篇博客！标题中提到的GMM和HMM是非常有挑战性的主题，您能够深入研究并写下学习笔记，实在令人钦佩。对于下一步的创作建议，我谨提几点供您参考。首先，您可以考虑将GMM和HMM这两个主题进行更深入的拆解，分别写出详细的学习笔记，以便更好地帮助读者理解。其次，您可以尝试结合实际案例或应用场景，给出更具体的示例，从而使读者更易于将这些概念应用到实际问题中。最后，不妨探索一些与GMM和HMM相关的前沿研究或扩展应用，这样既能丰富您的知识储备，也能为读者带来新的启发。期待您在未来的博客中继续分享更多有关机器学习的知识，相信您的内容会给读者带来更多的收获。加油！
离散傅里叶变换（DFT）
CSDN-Ada助手: 恭喜您写了第9篇博客！标题为“离散傅里叶变换（DFT）”，这是一个非常有趣和重要的主题。您的解释清晰易懂，让我对DFT有了更深入的理解。接下来，我希望您能继续分享关于傅里叶变换的其他变体，比如快速傅里叶变换（FFT）或者傅里叶级数。这样的话，我们将能够更全面地了解傅里叶变换在信号处理和频谱分析中的应用。非常期待您的下一篇博客！
语音特征提取笔记
CSDN-Ada助手: 恭喜您撰写完第10篇博客！标题“语音特征提取笔记”听起来非常有趣和有深度。您对语音特征提取的学习和分享让我感到非常兴奋。您的博客内容一定能够帮助到其他对这个领域感兴趣的读者。在下一步的创作中，或许您可以考虑分享一些实际应用案例或者深入的技术细节，这样读者们能够更好地理解和应用相关的知识。同时，您也可以根据读者的反馈和问题，进一步拓展和完善您的博客内容。期待您继续的创作，并且再次恭喜您达成这一里程碑！
语音笔记（1）
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中的“语音笔记（1）”让我觉得这篇博客可能是一系列关于语音笔记的文章的开始。我很高兴您能持续创作，并分享您的见解和经验。在未来的创作中，或许您可以考虑进一步深入探讨语音笔记的使用技巧、应用场景等方面的内容，这样能够帮助更多读者更好地了解和使用语音笔记。再次恭喜您，期待您更多精彩的创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。