正规方程（normal equation）的三种推导方法

最新推荐文章于 2024-04-27 13:31:32 发布

VIP文章叫我咸鱼就好

最新推荐文章于 2024-04-27 13:31:32 发布

阅读量1.3k

点赞数 7

文章标签：机器学习代码公式推导学习笔记

本文链接：https://blog.csdn.net/yitanjiong4414/article/details/88082099

版权

代码

在机器学习第四节课Linear Regression with Multiple Variables中，实现normal equation的一行代码。代码本身没啥难度，主要难点在于公式怎么推导出来的。

%----X = pinv(A),求矩阵 A 的广义逆矩阵
%----不使用 inv() 的原因在于不确定矩阵 A 是否为方阵
pinv(X'*x)*x'*y

normal equation的推导

在吴恩达老师的机器学习课程中，直接就给出了如下normal equation，无推导过程，像博主这种菜鸡直接懵逼，于是赶紧上网学习了一番，内化（自我感觉…）了三个推导方法后，分享于此，如有错误，还望指正。
$\theta = (X^{T}X)^{-1}X^{T}y$

方法一：矩阵求导法

这个方法来源于吴恩达老师的CS229 machine learning中的课程PDF资料，这门课程与Coursera上的同名课程（也就是大部分人看的公开课版本）有所不同，需要更高的数学水平，更注重公式的推导。

课程图片
推导过程如下：
$\bigtriangledown _{\theta} J(\theta)=\bigtriangledown_{\theta}\frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^{2} =\bigtriangledown_{\theta}\frac{1}{2}(X\theta-\vec y)^{T}(X\theta-\vec y)$
$\because (A\pm B)^{T}=A^T+B^T\quad and\quad (A\times B)^T=B^T\times A^T \\ \therefore \bigtriangledown _{\theta} J(\theta)=\frac{1}{2}\bigtriangledown_{\theta}(\theta^TX^TX\theta-\theta^TX^T\vec y-\vec y^TX\theta+\vec y^T\vec y) \\ \because 如果\alpha是一个实数，则tr(\alpha)=\alpha \\又\because \theta是(n\times 1)的矩阵，X是(m\times n)的矩阵，\vec y是(m\times 1)的向量 \\ \therefore \theta^TX^TX\theta的维数变换(1\times n)\times(n\times m)\times(m\times n)\times(n\times 1)得到一个(1\times 1)的方阵，即一个实数 \\ 同理，\theta^TX^T\vec y，\vec y^TX\theta ，\vec y^T\vec y维数变换后得到的都是一个实数 \\ \because \vec y^T\vec y是一个与\theta无关的常量，对\theta求偏导为0，则在式子中可以省略掉 \\ \therefore \bigtriangledown _{\theta} J(\theta)=\frac{1}{2}\bigtriangledown_{\theta}tr(\theta^TX^TX\theta-\theta^TX^T\vec y-\vec y^TX\theta) \\ \because tr(A\pm B)=A\pm B \quad and \quad tr(A)=tr(A^T) \\ \therefore tr(\theta^TX^T\vec y)=tr((X\theta)^T\vec y)=tr(\vec yX\theta) \\ \therefore \bigtriangledown _{\theta} J(\theta)=\frac{1}{2}\bigtriangledown_{\theta}(tr(\theta^TX^TX\theta)-2tr(\vec y^TX\theta)) \\ \because tr内还是实数，则去掉tr对式子没影响 \\ \therefore \bigtriangledown _{\theta} J(\theta)=\frac{1}{2}\bigtriangledown_{\theta}(\theta^TX^TX\theta-2\vec y^TX\theta) \\ \because 矩阵求导中，\frac{\partial \vec b^TAX}{\partial X}=A^T\vec b \quad and \quad \frac{\partial X^TAX}{\partial X}=(A+A^T)X \\ \therefore \bigtriangledown _{\theta} J(\theta)=\frac{1}{2}(2X^TX\theta-2X^T\vec y)=X^TX\theta-X^T\vec y \\ 令\bigtriangledown _{\theta} J(\theta)=0，则可以得到\theta = (X^{T}X)^{-1}X^{T}y \\ \quad$

最低0.47元/天解锁文章

叫我咸鱼就好

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
正规方程（normal equation）的三种推导方法

吴恩达机器学习课程代码笔记02代码在第四节课Linear Regression with Multiple Variables中，实现normal equation的一行代码。%----X = pinv(A),求矩阵 A 的广义逆矩阵%----不使用 inv() 的原因在于不确定矩阵 A 是否为方阵pinv(X'*x)*x'*ynormal equation的推导在吴恩达老师的机器...
复制链接

扫一扫