吴恩达机器学习第四章学习笔记

最新推荐文章于 2023-02-22 19:29:20 发布

一晚好梦

最新推荐文章于 2023-02-22 19:29:20 发布

阅读量258

点赞数

分类专栏：吴恩达机器学习学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/yiwanhaomeng/article/details/104018926

版权

吴恩达机器学习学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

多变量线性回归（linear regression with multiple variables）

基本公式及字母

在这里插入图片描述
一个数据对应着上表中的一行， $\theta^{(2)}$ 代表第二个数据。（也就是表中红线圈出的位置）
$x_j^{(i)}$ ：代表第i个数据，第j个特征量
如 $x_3^{(2)}$ 代表2
多元线性回归公式为：
$h_\theta^{(x^{(i)})}=\theta_0x_0+\theta_1x_1+\theta_2x_2+……+\theta_nx_n$
令 $x_0=0$ 得：
$h_\theta^{(x^{(i)})}=\theta_0+\theta_1x_1+\theta_2x_2+……+\theta_nx_n$
化简得到 $h_\theta^{(x^{(i)})}=\theta^Tx$
$J(\theta_0,……,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta^{(x^{(i)})}-y^{(i)})^2$
梯度下降算法：
$\theta_j:=\theta_j-\alpha\frac{\partial{J}}{\partial\theta_j}$

多元线性回归的梯度下降算法

联立上述各式得：
在这里插入图片描述
代入j的值就如下图所示：

多元线性回归的梯度下降算法与单变量线性回归的梯度下降算法的区别如下所示：

总而言之，单变量是多变量的特殊形式，n=1时为单变量，n>1时为多变量。

特征值缩放（feature scaling）

为了加速梯度下降，我们通常把特征量的取值缩小到一个适当的范围，这个范围不可过大，也不可过小，若-a $x_j<$ a，a通常不大于10，a可以等于 $\frac{1}{3}$ ，但a不能等于像 $0.00001$ 这样过小的数。每个 $x_j$ 的范围要大致相同（相似），但也不要求完全严格一样。如(-4,4)与(0,3)这两个区间就可以看作大致相同（相似）。
均值归一化（mean normalization）：通过这个方法可以确定 $x_j$ 的取值范围
公式为： $x_j:=\frac{x_j-\mu_j}{s_j}$ （ $x_0$ 除外）
$x_j$ ：第j个特征量
$\mu_j$ ：数据集中所有的 $x_j$ 的平均值
$s_j$ ：该特征值的范围（即最大值-最小值）

学习速率 $\alpha$

如何确定梯度下降算法正常工作？

通过代价函数随迭代步数变化的二维曲线图判断。
在这里插入图片描述

像上图都表示未正常工作，为了解决这个问题，我们需要选择一个较小的 $\alpha$ 值。

像上图就表示正常工作了，代价函数可以通过很多步的迭代到达最小值，代价函数从而收敛。

如何选择 $\alpha$ 呢？

在这里插入图片描述
我们可以像上图那样选择 $\alpha$ 的范围，然后画出代价函数与迭代步数的二维曲线图，寻找如上图梯度下降算法正常工作的图像，然后确定 $\alpha$ 的值。

多项式回归（polynomial regression）

上图，我们可以选择一个三次函数拟合数据。

特征量的选择

在这里插入图片描述
通常我们是先有数据，后根据数据选择一个能更好的拟合的算法，这通常与如何选择特征量有关。如上图所示，我们除了选择三次函数拟合数据，也可以选择一个平方平方根函数拟合数据。

标准方程法（normal equation）

一种可以直接求出 $\theta$ 值的算法。并且不用考虑均值归一化。
在这里插入图片描述
如上图所示， $\theta$ 为实数， $J(\theta)$ 是一个以 $\theta$ 为变量的二次函数，在中学我们就学过如何求出 $\theta$ 的值。
上图的X被称为设计矩阵（designed matrix），X的构造过程如下图所示：

由此，我们可以得到原始公式： $y=X\theta$
经过一系列变形得到最终结果： $\theta=(X^TX)^{-1}X^Ty$ （之所以最后是这个结果是因为要考虑到矩阵的维度）