前提条件:
- i.i.d
- 模型已知,参数未估
基本思想:
- 采样样本得到数据集,选取合适的模型,采用最大似然的思想估计参数值。
以高斯分布为例:
采样数据集的概率分布是i.i.d. 从而有:
利用最大似然估计的思想:将似然性最大化 -->对未知参数求导得到概率分布的全局(如果有)最大值 -->对下面分布函数分别对期望和方差求导:
从而得到:
注意:上述的期望是和采样的数据密切相关的;而方差更是与采样得到的期望直接有关,所以,上述的期望和方差分别又叫做采样期望和采样方差。
正是因为上述的参数与采样有关,极大似然估计有天生的缺点:方差带有偏差(bias),这也是直接导致over-fitting的一个重要来源:
当然随着采样数据集的增大,上述的误差会越来越小。
总之,不专业的说法就是ML的基本思想就是看到谁的概率最大,然后就认为是它,之后想办法去"凑"这样的一个分布/参数去'迎合'这个结论。