吴恩达《机器学习》笔记（2）单变量线性回归

最新推荐文章于 2022-10-26 18:16:15 发布

Zhang Weijian

最新推荐文章于 2022-10-26 18:16:15 发布

阅读量111

点赞数

分类专栏：机器学习学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43656083/article/details/95859569

版权

学习笔记同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

模型表示

约定记法：

$x^{(i)}$ 表示输入变量（或输入特征）

$y^{(i)}$ 表示输出变量（或目标变量）

一个 $x^{(i)}, y^{(i)})$ 对是一条训练数据。m条数据组成训练集。

$X$ 表示输入空间

$Y$ 表示输出空间

监督学习的更正式的定义：

给定一个训练集，对于对应的 $y$ 值，学习一个函数 $\rightarrow Y$ 使得 $h (x)$ 是一个好的预测器。

h是单词 hypothesis 的首字母

训练过程

监督学习的两个类型：

当目标变量是连续的，称之为回归问题。

当目标变量是离散的，称之为分类问题。

代价函数

代价函数用来衡量猜想 $h (x)$ 的正确率。

一种代价函数：

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(\hat y_i - y_i)^2 = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x_i)-y_i)^2$

表示预测值和真实值的误差，称之为平方误差函数（Squared error function）或平均平方误差（Mean squared error）

前面乘上 $\frac{1}{2}$ ，为了方便之后进行梯度下降的计算。对平方的微分导致前面出现乘数2，刚好抵消。

一张图总结：

梯度下降

代价函数的可视化：

目标：找到对应的 $\theta_0, \theta_1$ 使得代价函数 $J(\theta_0, \theta_1)$ 最小

方法：梯度下降法

原理：

求代价函数的导数（derivative）
沿着梯度（gradient）相反的方向下降。(对应下方算法的减号)
参数 $\alpha$ 控制学习速率。

算法：

$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta_0, \theta_1)$

注意：每次迭代，同时更新所有的 $\theta$

线性回归中的梯度下降法

将线性回归的代价函数公式

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(\hat y_i - y_i)^2 = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x_i)-y_i)^2$

带入到梯度下降法的算法

$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta_0, \theta_1)$

中，我们得到：

$\{$
$\theta_0 := \theta_0 -\frac{\alpha}{m}\sum_{i=1}^{m}(h_{\theta}(x_i)-y_i)$
$\theta_1 := \theta_1 -\frac{\alpha}{m}\sum_{i=1}^{m}((h_{\theta}(x_i)-y_i)x_i)$
$\}$

上述公式的偏微分项的推导：

因为这个方法对每个 $\theta$ 进行了梯度下降，所以又称为 批量梯度下降法（batch gradient descent）

附：这个方法可能收敛到局部最优，但是因为单变量线性回归模型只有一个最小值，所以必定收敛到全局最优（假设 $\alpha$ 足够小。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。