机器学习学习笔记1(李宏毅网课)

机器学习学习笔记1 (李宏毅网课)

一、Regression回归

  • 回归的目的是拟合特定的函数
  • 步骤1:建立模型

    假设为线性模型
    x为特征,w为权重,b为bias。

  • 步骤2:Loss Function

衡量参数的好坏

  • 步骤3:Gradient Descent梯度下降

    计算关于参数w与b关于Loss Function的梯度向量

    接着将梯度乘以学习率 η \eta η,并不断更新参数
    在这里插入图片描述

  • 可能出现的问题

    过拟合:模型可能选得次数太高
    Solution1: 对于不同的信号可以选择不同的模型,降低阶次在这里插入图片描述Solution2: Regularization正则化约束
    在Loss Function中加入惩罚项
    此处惩罚项的意义为使输入拟合函数对输入不敏感,让函数更平滑,且 λ \lambda λ越大,函数越平滑。

  • 误差分析

     Variance太大则为Overfitting, Bias太大为Underfitting。

    如果你的拟合函数直接无法拟合你的训练集,则为bias太大(因为整个拟合函数的set根本无法覆盖到你的target)。
    若是能fit你的训练集,但误差太大,则为overfitting。
    对于bias的问题:解决方法两个:一是增加更多的特征作为输入,二是使用阶次更大的model。
    对于variance的问题:一是使用更多data,二是使用正则化。

  • Note

    对于模型的选择:training set的使用:分为training set和validating set。由此选择出最好的model。
    若认为validating set没有用于训练,可以分为三份如下,轮流使用。在这里插入图片描述

二、梯度下降

自适应的学习率

最简单的想法:学习率随次数增加而减小
Adagrad:学习率每次除以之前所有 ω \omega ω的平方和的均值再开根号,并结合上图的式子。
最终可以化简为:
Note:如何理解这里g既出现在分子又出现在分母上(表征着更大的学习率与更小的学习率)
最佳的学习率应该是一阶导除以二阶导。

Stochastic Gradient Descent

对于之前所讨论的问题,每次更新参数时,我们使用的是整个测试集,而在随机梯度下降中,在每次更新参数时,只使用一个样本。若有20个样本,则相较于之前的整体的方法而言,使用随机梯度下降,则可以一次走20步,可以更快收敛。

Feature Scaling

将所有的输入特征归一化:
则等高线图由椭圆变成圆,更容易收敛。在这里插入图片描述

梯度下降的数学原理

泰勒级数展开:只要范围足够小,就能近似到Loss Function最小的位置。

二、分类:概率生成模型

1. 基本模型

在这里插入图片描述

2. 概率生成模型:

概率生成模型是先验假定服从某种分布的分类模型,而后面在logistic回归中的determistic model并不假定数据服从某种分布,模型相同,直接梯度下降给出判决函数。概率生成模型对于误差较大的数据集表现更好。
1)通常假设数据集特征服从高斯分布

Loss Function形式如上图,其中x是所有符合这一类的数据集,找到最优的均值与方差,使得上式最大。可以得到最优均值与方差如下:
然后再带入分类的公式,可以得到判决函数。>0.5为类别1,否则为类别2。

3. Modefy Model

对于不同的分类可以共享方差,使用相同的方差。减少参数,以防止overfitting。方差由二者的贡献来定:
在方差相等的情况下,判决函数为线性的。

三、Logistic Regression

1.模型

在这里插入图片描述
与线性回归最大的区别就是经过了一个 σ \sigma σ(z)函数,输出一定是在0到1之间的。
在这里插入图片描述
最终求解出的Loss Function的结果是互信息的形式:在这里插入图片描述
互信息表征这两个分布的接近的程度。且两个分布均是伯努利分布。
同样是利用梯度下降求解最佳值。
至于为什么使用互信息,而不使用误差的平方,是因为互信息对于非target的位置的梯度更大,收敛速度更快。在这里插入图片描述

2. 类神经网络

对于logistic regression而言,其判决函数始终未一条直线。而数据的特征不一定能被直线分开。所以需要对数据特征进行transform。具体实现方法 是用多个logistic regression并联,作为transform。再串联一个logistic regression,便可classify。在这里插入图片描述

以上内容均来自李宏毅老师网课。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
李宏毅的2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值