“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”

最新推荐文章于 2024-05-07 11:10:29 发布

王木头学科学

最新推荐文章于 2024-05-07 11:10:29 发布

阅读量1.9k

点赞数 8

文章标签：深度学习神经网络机器学习人工智能

本文链接：https://blog.csdn.net/wkaing/article/details/122675159

版权

【本文内容是自对视频：“损失函数”是如何设计出来的？的整理、补充和修正】

在大多数课程，尤其是帮助大家快速掌握深度学习的课程，损失函数似乎并不是一个需要额外关心的问题。因为它往往都是现成的。

就像是网上非常火的，吴恩达讲深度学习的课程里面，他就提到了两个损失函数。也就是红框里的那两个函数。

对于某个数据x，y^hat是通过机器学习模型对这个数据x估计出来的结果，而y则是x的实际结果，往往也就是x数据的标签值。

在课程里面，吴恩达老师就是给我们演示了一下这两个函数如何用的，至于为什么是这样的却没有给出一个详细解释。

现在做深度学习研究的，往往都会自嘲说自己是炼丹的。炼丹嘛，其实就算是说一个模型它为什么好用，为什么不好用，我们其实也搞不太清楚，反正就是试来试去，试出来的。

我想很多人可能都和我一样，看到这两个损失函数其实都产生过好奇，它们是怎么得出来的，肯定不是硬生生地凑出来的。能写成这样，背后一定有道理。

但是又可能会想，反正都已经是在炼丹了，背后的原理是不是搞明白也无所谓了，能用就行。

如果是这样的话，你就会发现，对于快速上机实践、应付一下学校里的作业，这么做完全没有问题。但是一旦你想稍微系统化地学习一下深度学习，不论去看花书还是西瓜书，损失函数都会成为你理解的障碍。

就是想找深度学习方面的工作，面试官都很有可能会让你现场给出损失函数的推导。

这篇文章的作用，就是希望解决这个问题：

要想明白损失函数是怎么设计出来的，还要从损失函数的作用开始说起。

我们都知道，机器学习本质上来说就是在学习数据背后的规律。就比如，给了一堆照片，照片里面有猫有狗，我们人去分辨的话，很容易就能分辨出哪些是猫、哪些是狗。虽然我们没有办法清楚地给出一个定义，符合这个的是猫，符合那个的就是狗。但是，我们认为在我们大脑里是有那么一个分辨猫狗的定义和规律的。

而机器学习的作用，就是哪怕你自己都不清楚这些事物的定义和规律，它依然可以通过模型和算法把这个规律找出来。

其实，我们人的学习行为很多时候也是这样的。这个世界从来没有告诉我们它的背后到底有什么规律，但是我们还是可以通过观察世界运行的各种现象，寻找到它背后的规律。这就是智能的一种体现，机器学习为什么是人工智能的重要一环，也正是这个原因。

那么机器是如何学到数据背后规律的呢？不同的学习方法可能会有不同，不过针对神经网络的深度学习，它们寻找规律的方法是先猜测、后比较、再调整。

就比如说，一个还没有训练过的新神经网络，神经网络里的参数W、b还都是初始值。不论效果怎么样，这个神经网络其实已经完成了一次猜测。输入一张图片，不论结果对错，它肯定是会得出一个结论，判断这张图片是猫还是狗。

猜测完了，就是比较了。一下蒙对那是不可能的，所以初始的一个新神经网络肯定不靠谱，但是有多不靠谱呢，就需要拿猜测的这个规律和真实的规律进行比较了。具体怎么比，我们放在后面再说，其实这就是损失函数的作用。

通过比较，就可以得到一个具体的差值，我们猜测的规律和真实的规律到底差了多少。有了这个具体的差距之后，再接下来就是调整了。比如说用梯度下降法，其实就是把损失函数计算出的那个差值分配到各个参数。用梯度下降法的好处就是，这个算法可以知道哪个参数对产生这个差值贡献的多，哪个贡献的少࿰

关注