机器学习算法2_梯度下降法

最新推荐文章于 2022-10-17 20:08:51 发布

修修修秀

最新推荐文章于 2022-10-17 20:08:51 发布

阅读量257

点赞数 1

分类专栏：算法文章标签：梯度下降法算法推导多元线性回归

本文链接：https://blog.csdn.net/weixin_44341114/article/details/88539037

版权

算法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习算法第二篇

主要内容:多项式回归模型之梯度下降法算法展开

通俗的讲:

算法目的:

求通过训练集计算出一个最合适的线\面\超平面 $h_\theta(x)$ ,使所有点到它的距离(误差)之和最小,
将测试的特征向量带入该 $h_\theta(x)$ 所得的值即为预测值

步骤:

设一个目标函数(线\面\超平面) $h_\theta(x) = \theta_1x_i^{(1)}+\theta_2x_i^{(2)} +...+\theta_nx_i^{(n)}$ ,一个n维特征带入后可得到预测值 $\hat y_i$
设一个损失函数 $J(\theta_1,\theta_2...\theta_n)=\frac{1}{2m}\sum_{i=1}^m (\hat y_i-y_i)^2$ ,它表示所有点预测值 $\hat y_i$ 到真实值y之间的误差的平方和的平均,数学上可以代表目标函数的好坏,即拟合度的高低
所以我们目标可以理解为在学习阶段:求合适的 $(\theta_1,\theta_2...\theta_n)$ 使损失函数最小
带入训练集数据,通过梯度下降法或标准方程法解出最合适的 $(\theta_1,\theta_2...\theta_n)$ ,然后带入线\面\超平面函数 $h_\theta(x) = \theta_1x_i^{(1)}+\theta_2x_i^{(2)} +...+\theta_nx_i^{(n)}$ 得到目标函数(回归函数)
把需要测试的数据输入该回归函数,可得到预测值(也可测试回归函数的拟合度,即参数的好坏)

展开来说:

有训练集 $T=\{(x_1,y_1),(x_2,y_2),(x_3,y_3)...(x_m,y_m) \}由P(X,Y)独立同分布产生$
$T:\begin{bmatrix} x_1^{(1)} & x_1^{(2)} \quad ...&x_1^{(n)}& y_1 \\ x_2^{(1)} & x_2^{(2)} \quad...&x_2^{(n)}& y_2\\ x_3^{(1)} & x_3^{(2)} \quad...&x_3^{(n)}& y_3 \\ . & . \quad...& .& . \\ . & . \quad...& .& . \\ x_m^{(1)} & x_m^{(2)} \quad...&x_m^{(n)}& y_m \\ \end{bmatrix}$
输入空间 $\mathscr {X}\subsetneq R^*$ 为n维向量的集合
输出空间为标记集合 $\mathscr{Y}=R$ ,为全体实数标量集合
输入为特征向量 $x_i(x_i^{(1)},x_i^{(2)}...x_i^{(n)})\in\mathscr {X}$
输出为类标记 $y\in\mathscr{Y}$
X是定义在输入空间 $\mathscr {X}$ 上的随机向量
Y是定义在输入空间 $\mathscr {Y}$ 上的随机变量
设回归函数 $h_\theta(x)=\theta_1x_i^{(1)}+\theta_2x_i^{(2)} +...+\theta_nx_i^{(n)}$
任意点 $P_i(x_i^{(1)},x_i^{(2)}...x_i^{(n)})$ 带入该式可得到点 $P_i$ 到预测值 $\hat y_i$
带入多项式模型的损失函数 $J(\theta_1,\theta_2...\theta_n)=\frac{1}{2m}\sum_{i=1}^m (\hat y_i-y_i)^2$
即 $J(\theta_1,\theta_2...\theta_n)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x)-y_i)^2\tag 1$
在训练阶段, 代价函数的x 与y 都是已知量 $\theta$ 为变量量
因此算法所述的目标等价于求损失函数 $J(\theta_1,\theta_2...\theta_n)$ 的值取最小值时候的变量 $(\theta_1,\theta_2...\theta_n)$
用梯度下降法求出最适合的 $(\theta_1,\theta_2...\theta_n)$

梯度下降法求解过程:

概念:
通过将各变量 $(\theta_1,\theta_2...\theta_n)$ 不断朝函数取得极值时的变量 $(\omega_1,\omega_2...\omega_n)$ 方向靠拢,从而获得代价函数取最小值时候的各 $(\theta_1,\theta_2...\theta_n)$ 参数

方法一:

方法一更易于理解,但计算复杂度较高,求导难度大

$\$

对变量 $(\theta_1,\theta_2...\theta_n)$ 进行初始随机赋值
$\theta_1=1, \\ \theta_1=5,\\ \theta_3=0.5,\\ \theta_n=10$

$\$
2. 对函数的表达式的逐个变量 $(\theta_1,\theta_2...\theta_n)$ 求偏导,得到 $∇J(\theta_1,\theta_2...\theta_n)=\left(\frac{\partial f}{\partial\theta_1},\frac{\partial f}{\partial\theta_2},\frac{\partial f}{\partial\theta_3}...\frac{\partial f}{\partial\theta_i}\right)$

$\frac{\partial f}{\partial\theta_1}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(1)} \\ \frac{\partial f}{\partial\theta_2}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(2)}\\ ...\\...\\ \frac{\partial f}{\partial\theta_n}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(n)}$
$\$

设定学习率控制每次迭代变量的移动距离
$l R = 0.001, 该参数为示例, 应按照实际情况调整$
$\$
分别对每个变量进行迭代
$\theta_1=\theta_1-lR\frac{\partial f}{\partial\theta_1}\\\theta_2=\theta_2-lR\frac{\partial f}{\partial\theta_2}\\\theta_3=\theta_3-lR\frac{\partial f}{\partial\theta_3}\\...\\...\\\theta_m=\theta_m-lR\frac{\partial f}{\partial\theta_m1}$
$\$

5.重复第四步到足够次数,可得到距离代价函数取最小值时候的变量 $(\omega_1,\omega_2...\omega_n)$ 极为接近的变量 $(\theta_1,\theta_2...\theta_n)$

方法二

方法二:将代价函数矩阵化,从而极大化简计算复杂度和求导复杂度

子式矩阵化

$\theta= \begin{bmatrix} \theta_1 \\ \theta_2\\ \theta_3 \\ . \\ . \\ \theta_m \\ \end{bmatrix}$
$J(\theta_1,\theta_2...\theta_n) \Rightarrow J(\theta)$
$y_i\Rightarrow Y=y\_data=\begin{bmatrix} y_1 \\ y_2\\ y_3 \\ . \\ . \\ y_m \\ \end{bmatrix}$
$x_i\Rightarrow X=x\_data=\begin{bmatrix} x_1^{(1)} & x_1^{(2)} \quad ...&x_1^{(n)} \\ x_2^{(1)} & x_2^{(2)} \quad...&x_2^{(n)}\\ x_3^{(1)} & x_3^{(2)} \quad...&x_3^{(n)} \\ . & . \quad...& . \\ . & . \quad...& . \\ x_m^{(1)} & x_m^{(2)} \quad...&x_m^{(n)} \\ \end{bmatrix}$
$h_\theta(x_i)\Rightarrow \begin{bmatrix} h_\theta (x_1) \\ h_\theta (x_2) \\ h_\theta (x_3 ) \\ . \\ . \\ h_\theta (x_m) \\ \end{bmatrix}=\begin{bmatrix} \theta_1x_1^{(1)}+\theta_2x_1^{(2)} +...+\theta_nx_1^{(n)}\\ \theta_1x_2^{(1)}+\theta_2x_2 ^{2)}+...+\theta_nx_2^{(n)}\\ \theta_1x_3^{(1)}+\theta_2x_3 ^{(2)}+...+\theta_nx_3^{(n)}\\ \quad... . \\ \quad... .\\ \theta_1x_m^{(1)}+\theta_2x_m^{(2)} +...+\theta_nx_m^{(n)}\\ \end{bmatrix}=X \cdot \theta$
$\frac{\partial f}{\partial\theta_i}\Rightarrow ∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}$

2.变换流程

$因为$
$\frac{\partial f}{\partial\theta_1}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(1)} \\ \frac{\partial f}{\partial\theta_2}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(2)}\\ ...\\...\\ \frac{\partial f}{\partial\theta_n}=\frac{1}{m}\sum_{i=1}^m\left(h_\theta(x_i)-y_i\right)x_i^{(n)}$
$\$

$所以$
$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}=\begin{bmatrix} x_1^{(1)}(h_\theta(x_1)-y_1)+x_2^{(1)}(h_\theta(x_2)-y_2)+...+x_m^{(1)}(h_\theta(x_m)-y_m)\\ x_1^{(2)}(h_\theta(x_1)-y_1)+x_2^{(2)}(h_\theta(x_2)-y_2)+...+x_m^{(2)}(h_\theta(x_m)-y_m)\\ x_1^{(3)}(h_\theta(x_1)-y_1)+x_2^{(3)}(h_\theta(x_2)-y_2)+...+x_m^{(3)}(h_\theta(x_m)-y_m)\\ \quad... . \\ \quad... .\\ x_1^{(n)}(h_\theta(x_1)-y_1)+x_2^{(n)}(h_\theta(x_2)-y_2)+...+x_m^{(n)}(h_\theta(x_m)-y_m)\\ \end{bmatrix}$

$\$
套矩阵乘法公式 $\begin{bmatrix}a& b\\ c& d \end{bmatrix}\begin{bmatrix}x\\ y \end{bmatrix}=\begin{bmatrix}ax+by\\cx+dy \end{bmatrix}得:$

$\$
$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}==\begin{bmatrix} x_1^{(1)} & x_1^{(2)} \quad ...&x_1^{(n)} \\ x_2^{(1)} & x_2^{(2)} \quad...&x_2^{(n)}\\ x_3^{(1)} & x_3^{(2)} \quad...&x_3^{(n)} \\ . & . \quad...& . \\ . & . \quad...& . \\ x_m^{(1)} & x_m^{(2)} \quad...&x_m^{(n)} \\ \end{bmatrix}^T\begin{bmatrix} h_\theta(x_1)-y_1\\ h_\theta(x_2)-y_2\\ h_\theta(x_3-y_3\\ ...\\ h_\theta(x_m)-y_m\\ \end{bmatrix}$

$右式分解得$

$∇J(\theta)=\begin{bmatrix} \frac{\partial f}{\partial\theta_1}\\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3}\\ . \\ . \\ \frac{\partial f}{\partial\theta_n}\\ \end{bmatrix}==\begin{bmatrix} x_1^{(1)} & x_1^{(2)} \quad ...&x_1^{(n)} \\ x_2^{(1)} & x_2^{(2)} \quad...&x_2^{(n)}\\ x_3^{(1)} & x_3^{(2)} \quad...&x_3^{(n)} \\ . & . \quad...& . \\ . & . \quad...& . \\ x_m^{(1)} & x_m^{(2)} \quad...&x_m^{(n)} \\ \end{bmatrix}^T \left( \begin{bmatrix} h_\theta(x^1)\\ h_\theta(x^2)\\ h_\theta(x^3\\ ...\\ h_\theta(x^m)\\ \end{bmatrix}-\begin{bmatrix} y^1\\ y^2\\ y^3\\ ...\\ y^m\\ \end{bmatrix} \right)$

$代入子式们得到 :$
$∇J(\theta)=X^T(X\theta-Y)$

$\$
$又因为$
$\theta_1=\theta_1-lR\frac{\partial f}{\partial\theta_1}\\\theta_2=\theta_2-lR\frac{\partial f}{\partial\theta_2}\\\theta_3=\theta_3-lR\frac{\partial f}{\partial\theta_3}\\...\\...\\\theta_m=\theta_m-lR\frac{\partial f}{\partial\theta_m1}$

$代入子式与∇J(\theta)得到最终式子:$
$\theta=\theta-LR(∇J(\theta))$
- $式子里除 L R 外都是矩阵$

$重复上式足够次数,可得到距离代价函数取最小值时候的变量(\omega_1,\omega_2...\omega_n)极为接近的变量(\theta_1,\theta_2...\theta_n)$

修修修秀

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法2_梯度下降法

梯度下降法多元线性回归算法推演一逻辑推演有数据Data( 上标为列号,下标为行号)[x11x21...xn1y1x12x22...xn2y2x13x23...xn3y3..............x1mx2m...xnmym] \begin{bmatrix} x_1^1 &amp;amp;amp;amp; x_2^1 \quad ...&amp;amp;amp;amp;x_n^1&amp;amp;amp;amp; y^1 ...
复制链接

扫一扫

专栏目录