损失函数与极大似然估计的联系 | 交叉熵的理解与变化

亦梦亦醒乐逍遥

已于 2022-10-28 10:39:29 修改

阅读量1k

点赞数 1

分类专栏：人工智能文章标签：机器学习回归 python

于 2022-07-15 17:49:40 首次发布

本文链接：https://blog.csdn.net/weixin_50295745/article/details/125808702

版权

人工智能专栏收录该内容

10 篇文章 5 订阅

订阅专栏

文章目录

极大似然
平方损失
- 原文
- 解析
交叉熵
交叉熵的信息论理解

深度学习需要定义损失函数，其中，线性回归的损失函数是平方损失MSE，softmax回归（包括logistic回归）使用交叉熵，为什么会选择不同的损失函数，其中有什么原理？这就和最大似然有关系了。

极大似然

极大似然估计是，在已知分布，给定样本的情况下，求一个参数值，使得 $P(\theta|X)$ 最大，即令样本拟合给定分布的概率最大，这恰好对应于我们深度学习中的目标：寻找最优化的w，b参数，令模型对结果的预测概率最大。

所以理论上来说，应该先进行极大似然估计，然后再从极大似然估计的公式中提取损失函数部分。

平方损失

原文

平方损失

解析

线性回归中，模型中有干扰噪声，这个噪声服从正态分布，那么已知分布，就可以对这个噪声进行极大似然估计。

首先写出噪声公式，然后这个噪声符合正态分布，这样就得到一个样本的噪声分布概率。

在这里插入图片描述
将所有噪声的正态分布概率累乘，得到总体样本噪声的正态分布概率，让这个概率最大即可满足我们的模型假设：在线性回归中噪声服从正态分布。

在这里插入图片描述
要让P最大，那就得令右边的损失项最小。

交叉熵

原文

交叉熵损失

解析

假设有三个类型，那么经过softmax计算，结果已经归一化为概率预测。
归一化以后的数据，已经没有了所谓模型分布的假设，那应该取什么为似然概率呢？

粗暴一点，直接一点，对于一个样本，我们不假设分布，直接用对应项的预测概率作为P，比如对于单热点编码为(0,1,0)的项，那预测向量(0.1,0.7,0.2)中的第二项就是P，对于单热点编码为(0,0,1)的项，预测向量为(0.5,0.2,0.3)中的第三项就是P。我们要做的，就是让P最大，越接近1越好。

那为什么还要用交叉熵这个公式呢？这是因为你不知道到底哪项是你要的P值，单热点编码中的0与1就可以实现自动选择，将我们要的P值选出来。原理也很简单，因为交叉熵每一项的系数都是单热点编码值，只有一个是1，其他都是0，最后就只剩下1项，就是我们的目标项。

比如(0.1,0.7,0.2) (0,1,0)，这两个用交叉熵以后， $1\times log(0.7)+0\times log(0.2)+0\times log(0.1)=log(0.7)$ ，发现没，最后只剩一项log( P )，log是单调的，所以log ( P )就可以代表P的大小。