Linear Regression 的闭式解以及梯度下降方法【机器学习】

weixin_51177766

于 2022-10-11 19:18:34 发布

阅读量1.4k

点赞数 2

分类专栏：机器学习算法文章标签：机器学习算法线性回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51177766/article/details/127269313

版权

机器学习同时被 2 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

（胡乱写的，仅供自己学习）

机器学习的第一次实验是线性回归的闭式解以及梯度下降。

一、闭式解

闭式解的原理很简单，就是损失函数（Loss Function）进行求导，当导数等于零的时候就是损失函数值最小的时候，这时就可以求出参数了。

我们采用如下的损失函数：

对其进行求导：

当导数等于零时，

w 即我们所求的参数矩阵。

二、梯度下降

梯度就是导数，对损失函数的求导。

在数分中，梯度意味着函数值增加最快的方向。所以要让损失函数值减小得最快，只需要取反方向就好。那么应该让自变量变化多少呢？或者说让自变量变化多快？变化得过快就会导致自变量直接越过最优解得位置。或者还有回来得可能？答案是没有。自变量会在最优解得附件不断徘徊而无法变成最优解。所以自变量变化的速度就需要控制得慢一点了。但是如果太慢了呢？那会导致自变量到达最优解需要的时间和计算机的消耗都会变得很大。所以又需要控制得快一点了。那么问题是这个自变量变化的速度应该多快呢？具体问题具体分析。这个速度就是实际应用的时候应该去调的参数了。

有个比喻就是下山，具体还是看这个博客吧（懒得写了）(42条消息) 机器学习-梯度下降算法原理及公式推导_taoKingRead的博客-CSDN博客_梯度下降公式

至于说，全批量梯度下降的方法，随机梯度下降方法和小批量梯度方法的区别到底在哪里？答案是在于样本的选择。随机梯度只选择了一个样本，小批量顾名思义就是选部分样本，全批量就是选全部样本。

为什么不用闭式解就好，还有这个梯度方法？因为计算机在求解指数函数，对数函数之类的函数的闭式解时效果不是很好，计算机在计算这些函数的时候采用的时近似求解的方法，比如泰勒展开式，所花的时间和计算资源很大。然后就有了梯度下降的方法。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。