Linear Regression 的闭式解以及梯度下降方法【机器学习】

  (胡乱写的,仅供自己学习)

  机器学习的第一次实验是线性回归的闭式解以及梯度下降。

一、闭式解

  闭式解的原理很简单,就是损失函数(Loss Function)进行求导,当导数等于零的时候就是损失函数值最小的时候,这时就可以求出参数了。

  我们采用如下的损失函数:

对其进行求导: 

 

 当导数等于零时,

w 即我们所求的参数矩阵。

二、梯度下降

  梯度就是导数,对损失函数的求导。

  在数分中,梯度意味着函数值增加最快的方向。所以要让损失函数值减小得最快,只需要取反方向就好。那么应该让自变量变化多少呢?或者说让自变量变化多快?变化得过快就会导致自变量直接越过最优解得位置。或者还有回来得可能?答案是没有。自变量会在最优解得附件不断徘徊而无法变成最优解。所以自变量变化的速度就需要控制得慢一点了。但是如果太慢了呢?那会导致自变量到达最优解需要的时间和计算机的消耗都会变得很大。所以又需要控制得快一点了。那么问题是这个自变量变化的速度应该多快呢?具体问题具体分析。这个速度就是实际应用的时候应该去调的参数了。

  有个比喻就是下山,具体还是看这个博客吧(懒得写了)(42条消息) 机器学习-梯度下降算法原理及公式推导_taoKingRead的博客-CSDN博客_梯度下降公式

  至于说,全批量梯度下降的方法,随机梯度下降方法和小批量梯度方法的区别到底在哪里?答案是在于样本的选择。随机梯度只选择了一个样本,小批量顾名思义就是选部分样本,全批量就是选全部样本。

  为什么不用闭式解就好,还有这个梯度方法?因为计算机在求解指数函数,对数函数之类的函数的闭式解时效果不是很好,计算机在计算这些函数的时候采用的时近似求解的方法,比如泰勒展开式,所花的时间和计算资源很大。然后就有了梯度下降的方法。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值