参考了很多文章,绝大多数都是从数学公式上讨论二者的关系。这让之前没怎么接触过似然函数的我,感到非常费解。
本着简单的原则,从 本质思想 上梳理了下二者的关系,就我自己而言,理解起来方便多了。
首先看 伯努利分布下,似然函数的意义: 在知道模型和样本的前提下,求出 样本为正的概率为p 的可能性(即似然值)。
如硬币试验,连续2次为正。 模型是硬币实验(即结果非0即1,满足伯努利分布), 样本是2次为正, 我们的目的是求出正面朝上的概率为p 的可能性(似然值)。设似然值为L, 则L = p**2 * (1-p)**0 = p**2, 那么,p=0.5的似然是0.25。 即有0.25的可能性,正面朝上的概率是0.5。
似然函数存在最大值, 其最大值的意义是,这个点所对应的p值,在所有可能的取值中,是最有可能导致出现观察到的样本结果的。 还是以上述硬币实验为例,当L取得最大值1时, 对应的p=1, 那说明,当 正面朝上 的概率是1时,最有可能出现 连续2次为证 这一观察结果。求解最大似然函数的过程,叫做最大似然估计。
在逻辑回归中,设假设函数为h, 我们知道 h 的取值范围是(0, 1),其意义是, 样本为正的概率, 跟上述硬币试验中,p的地位一致。机器学习的目标是 求得最合适的h, 使得 我们的预测 跟观察到的 结果一致。 从意义上来讲,跟 最大似然估计 不谋而合,他们的目的是一样的。
所以只要求解最大似然估计,就能求得最合适的h。 然而在机器学习领域。我们习惯使用损失函数的概念,算法围绕着 最小化损失函数 进行构建。实际上,只是换个说法而已。 似然函数有最大值, 那么取负数,就有最小值。我们把 损失函数 设为 似然函数的负数, 那么求解最大似然估计,就能求得最小的损失函数。 至于取对数,只是方便数学计算,跟问题的本质没有关系。
最后说下似然函数,在不同的模型和样本数量中,都是不一样的。 这要根据具体的情况去选择似然函数。 这部分则是统计学的内容了。
综上。