机器学习笔记（二）

最新推荐文章于 2024-07-22 09:16:52 发布

曾英俊

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量227

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yanhu6955/article/details/119180719

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

多元线性回归

多种变量的线性回归称为多元线性回归。

其预测函数为 $H(x) = \theta _{0} +\theta _{1}x_{1} +\theta _{2}x_{2} +...+\theta _{n}x_{n}$

矩阵表示为 $H(x) = \begin{bmatrix} \theta _{0} & \theta _{1} & ... & \theta _{n} \end{bmatrix}\begin{bmatrix} 1 \\ x_{1} \\ ... \\ x_{n} \end{bmatrix} = \theta ^{T}X$

多变量的梯度下降：

$\theta _{j} := \theta _{j} - \alpha \frac {\partial J(\theta )}{\partial \theta _{j}} = \theta _{j} - \alpha \frac{1}{m}\sum_{i = 1}^{m}(h(x^{(i)}) - y^{(i)})x^{(i)}_{j}$

我们可以通过让每个输入值在大致相同的范围内来加速梯度下降。这是因为 θ 会在小范围内快速下降而在大范围内缓慢下降，因此当变量非常不均匀时，它会低效地振荡到最优值。有助于解决此问题的两种技术是特征缩放和均值归一化。特征缩放涉及将输入值除以输入变量的范围（即最大值减去最小值），导致新范围仅为 1。均值归一化涉及从输入变量的值中减去平均值输入变量导致输入变量的新平均值为零。

$x_{i} = \frac{x_{i} - \mu _{i}}{max(x) - min(x)}$

如果 α 太小收敛慢。如果 α 太大可能不会在每次迭代中都减小，因此可能不会收敛。

正规方程

梯度下降提供了一种最小化 J 的方法。让我们讨论第二种方法，这一次明确地执行最小化而不使用迭代算法。在“正规方程”方法中，我们将通过显式取其关于 θj 的导数并将它们设置为零来最小化 J。这使我们无需迭代即可找到最佳 theta。正规方程公式如下：

$\theta = (X^{T}X)^{-1}X^{T}y$

梯度下降	正规方程
需要计算 α	不需要计算 α
需要多次迭代	不需要迭代
O (kn^2)	O (n^3)
当 n 很大时效果很好(10,000以内)	如果 n 非常大，则慢(10,000以上)

关于 X^TX 不可逆有两种可能：