李宏毅机器学习作业1

学习打卡任务内容:

  • 了解什么是Machine learning
  • 学习中心极限定理,学习正态分布,学习最大似然估计
    • 推导回归Loss function
    • 学习损失函数与凸函数之间的关系
    • 了解全局最优和局部最优
  • 学习导数,泰勒展开
    • 推导梯度下降公式
    • 写出梯度下降的代码
  • 学习L2-Norm,L1-Norm,L0-Norm
    • 推导正则化公式
    • 说明为什么用L1-Norm代替L0-Norm
    • 学习为什么只对w/Θ做限制,不对b做限制

machine learning

机器学习,就是“根据所给数据,寻找一个函数,给出适当输出”。通过这个函数,我们可以给它一个输入,得到理想的、正确的输出。我们通常需要给它数据,训练一个机器的学习能力。

机器学习三部曲

Step1: model --a set of function
建立一个模型,该模型中会包含成千上万的function
Step2: Goodness of function
根据某个规则来评价模型的好坏
Step3: pick a best of function
挑选一个最好的模型

Regression

线性回归的定义是:对应输入的数据,能够找到一个函数使得输出值与原来输出值非常接近,输出值是数值型的。

中心极限定理

中心极限定理:
样本的平均值约等于总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

线性回归的loss function推导

假设线性回归的方程式为 y ( i ) = θ T x ( i ) + ε ( i ) y^{(i)} = \theta^Tx^{(i)}+\varepsilon^{(i)} y(i)=θTx(i)+ε(i)其中 y ( i ) y^{(i)} y(i)为第 i i i个样本预测值, x ( i ) x^{(i)} x(i)为第 i i i个样本输入值, θ T \theta^T θT为参数, ε ( i ) \varepsilon^{(i)} ε(i)为第 i i i个样本误差项。
我们假设误差 ε ( i ) \varepsilon^{(i)} ε(i)是独立同分布的,服从均值为0,方差 σ \sigma σ为的Gaussion分布。则有 ε ( i ) ∼ N ( 0 , σ 2 ) \varepsilon^{(i)} \sim N(0,\sigma^2) ε(i)N(0,σ2),则 ε ( i ) \varepsilon^{(i)} ε(i)的密度函数为 p ( ε ( i ) ) = 1 2 π σ e x p ( − ( ε ( i ) ) 2 2 σ 2 ) p(\varepsilon^{(i)}) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(\varepsilon^{(i)})^2}{2\sigma^2}) p(ε(i))=2π σ1exp(2σ2(ε(i))2)由于 ε ( i ) = y ( i ) − θ T x ( i ) \varepsilon^{(i)}=y^{(i)}-\theta^Tx^{(i)} ε(i)=y(i)θTx(i),则有 p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};\theta) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) p(y(i)x(i);θ)=2π σ1exp(2σ2(y(i)θTx(i))2)
由于每个样本是独立同分布的,下面采用极大似然估计来估计 θ \theta θ值,
则有似然函数为
L ( θ ) = p ( Y ∣ X ; θ ) = ∏ i = 1 n 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) L(\theta)=p(Y|X;\theta)=\prod_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) L(θ)=p(YX;θ)=i=1n2π σ1exp(2σ2(y(i)θTx(i))2),
对两边取log有:
l ( θ ) = l n L ( θ ) = l n ∏ i = 1 n p ( y ( i ) ∣ x ( i ) ; θ ) = ∑ i = 1 n 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = n l n 1 2 π σ − 1 σ 2 ∗ 1 2 ∑ i = 1 n ( y ( i ) − θ T x ( i ) ) 2 \begin{aligned} l(\theta)&=lnL(\theta) \\ &= ln \prod_{i=1}^np(y^{(i)}|x^{(i)};\theta) \\ &=\sum_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &=nln\dfrac{1}{\sqrt{2\pi}\sigma} -\dfrac{1}{\sigma^2}* \dfrac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2 \end{aligned} l(θ)

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值