“损失函数”是如何设计出来的?直观理解“最小二乘法”和“极大似然估计法”

【本文内容是自对视频:“损失函数”是如何设计出来的?的整理、补充和修正】

在大多数课程,尤其是帮助大家快速掌握深度学习的课程,损失函数似乎并不是一个需要额外关心的问题。因为它往往都是现成的。

就像是网上非常火的,吴恩达讲深度学习的课程里面,他就提到了两个损失函数。也就是红框里的那两个函数。


对于某个数据x,y^hat是通过机器学习模型对这个数据x估计出来的结果,而y则是x的实际结果,往往也就是x数据的标签值。

在课程里面,吴恩达老师就是给我们演示了一下这两个函数如何用的,至于为什么是这样的却没有给出一个详细解释。

现在做深度学习研究的,往往都会自嘲说自己是炼丹的。炼丹嘛,其实就算是说一个模型它为什么好用,为什么不好用,我们其实也搞不太清楚,反正就是试来试去,试出来的。

我想很多人可能都和我一样,看到这两个损失函数其实都产生过好奇,它们是怎么得出来的,肯定不是硬生生地凑出来的。能写成这样,背后一定有道理。

但是又可能会想,反正都已经是在炼丹了,背后的原理是不是搞明白也无所谓了,能用就行。

如果是这样的话,你就会发现,对于快速上机实践、应付一下学校里的作业,这么做完全没有问题。但是一旦你想稍微系统化地学习一下深度学习,不论去看花书还是西瓜书,损失函数都会成为你理解的障碍。

就是想找深度学习方面的工作,面试官都很有可能会让你现场给出损失函数的推导。


这篇文章的作用,就是希望解决这个问题:

  1. 直观理解损失函数到底是什么,为什么这么重要
  2. 吴恩达老师给出的两个损失函数分布是最小二乘法和最大似然估计,它们是怎么来的,为什么叫这个名字
  3. 最小二乘法和最大似然估计它们之间到底有什么关系

1.损失函数的作用

要想明白损失函数是怎么设计出来的,还要从损失函数的作用开始说起。

我们都知道,机器学习本质上来说就是在学习数据背后的规律。就比如,给了一堆照片,照片里面有猫有狗,我们人去分辨的话,很容易就能分辨出哪些是猫、哪些是狗。虽然我们没有办法清楚地给出一个定义,符合这个的是猫,符合那个的就是狗。但是,我们认为在我们大脑里是有那么一个分辨猫狗的定义和规律的。

而机器学习的作用,就是哪怕你自己都不清楚这些事物的定义和规律,它依然可以通过模型和算法把这个规律找出来。

其实,我们人的学习行为很多时候也是这样的。这个世界从来没有告诉我们它的背后到底有什么规律,但是我们还是可以通过观察世界运行的各种现象,寻找到它背后的规律。这就是智能的一种体现,机器学习为什么是人工智能的重要一环,也正是这个原因。

那么机器是如何学到数据背后规律的呢?不同的学习方法可能会有不同,不过针对神经网络的深度学习,它们寻找规律的方法是先猜测、后比较、再调整。

就比如说,一个还没有训练过的新神经网络,神经网络里的参数W、b还都是初始值。不论效果怎么样,这个神经网络其实已经完成了一次猜测。输入一张图片,不论结果对错,它肯定是会得出一个结论,判断这张图片是猫还是狗。

猜测完了,就是比较了。一下蒙对那是不可能的,所以初始的一个新神经网络肯定不靠谱,但是有多不靠谱呢,就需要拿猜测的这个规律和真实的规律进行比较了。具体怎么比,我们放在后面再说,其实这就是损失函数的作用。

通过比较,就可以得到一个具体的差值,我们猜测的规律和真实的规律到底差了多少。有了这个具体的差距之后,再接下来就是调整了。比如说用梯度下降法,其实就是把损失函数计算出的那个差值分配到各个参数。用梯度下降法的好处就是,这个算法可以知道哪个参数对产生这个差值贡献的多,哪个贡献的少,贡

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值