李宏毅机器学习作业1

最新推荐文章于 2024-06-01 14:29:46 发布

winds_lyh

最新推荐文章于 2024-06-01 14:29:46 发布

阅读量2.6k

点赞数 3

分类专栏：李宏毅机器学习

本文链接：https://blog.csdn.net/winds_lyh/article/details/90143532

版权

学习打卡任务内容：

了解什么是Machine learning
学习中心极限定理，学习正态分布，学习最大似然估计
- 推导回归Loss function
- 学习损失函数与凸函数之间的关系
- 了解全局最优和局部最优
学习导数，泰勒展开
- 推导梯度下降公式
- 写出梯度下降的代码
学习L2-Norm，L1-Norm，L0-Norm
- 推导正则化公式
- 说明为什么用L1-Norm代替L0-Norm
- 学习为什么只对w/Θ做限制，不对b做限制

machine learning

机器学习，就是“根据所给数据，寻找一个函数，给出适当输出”。通过这个函数，我们可以给它一个输入，得到理想的、正确的输出。我们通常需要给它数据，训练一个机器的学习能力。

机器学习三部曲

Step1： model --a set of function
建立一个模型，该模型中会包含成千上万的function
Step2: Goodness of function
根据某个规则来评价模型的好坏
Step3: pick a best of function
挑选一个最好的模型

Regression

线性回归的定义是：对应输入的数据，能够找到一个函数使得输出值与原来输出值非常接近，输出值是数值型的。

中心极限定理

中心极限定理：
样本的平均值约等于总体的平均值。
不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。

线性回归的loss function推导

假设线性回归的方程式为 $y^{(i)} = \theta^Tx^{(i)}+\varepsilon^{(i)}$ 其中 $y^{(i)}$ 为第 $i$ 个样本预测值， $x^{(i)}$ 为第 $i$ 个样本输入值， $\theta^T$ 为参数， $\varepsilon^{(i)}$ 为第 $i$ 个样本误差项。
我们假设误差 $\varepsilon^{(i)}$ 是独立同分布的，服从均值为0，方差 $\sigma$ 为的Gaussion分布。则有 $\varepsilon^{(i)} \sim N(0,\sigma^2)$ ，则 $\varepsilon^{(i)}$ 的密度函数为 $p(\varepsilon^{(i)}) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(\varepsilon^{(i)})^2}{2\sigma^2})$ 由于 $\varepsilon^{(i)}=y^{(i)}-\theta^Tx^{(i)}$ ，则有 $p(y^{(i)}|x^{(i)};\theta) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$
由于每个样本是独立同分布的，下面采用极大似然估计来估计 $\theta$ 值，
则有似然函数为
$L(\theta)=p(Y|X;\theta)=\prod_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$ ,
对两边取log有：
$\begin{aligned} l(\theta)&=lnL(\theta) \\ &= ln \prod_{i=1}^np(y^{(i)}|x^{(i)};\theta) \\ &=\sum_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &=nln\dfrac{1}{\sqrt{2\pi}\sigma} -\dfrac{1}{\sigma^2}* \dfrac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2 \end{aligned}$

最低0.47元/天解锁文章

winds_lyh

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习作业1

学习打卡任务内容：了解什么是Machine learning学习中心极限定理，学习正态分布，学习最大似然估计推导回归Loss function学习损失函数与凸函数之间的关系了解全局最优和局部最优学习导数，泰勒展开推导梯度下降公式写出梯度下降的代码学习L2-Norm，L1-Norm，L0-Norm推导正则化公式说明为什么用L1-Norm代替L0-Norm学习为...
复制链接

扫一扫