为什么要进行参数估计
参数估计是统计学中的经典问题,常用的方法是最大似然估计和贝叶斯估计。为什么机器学习中,也会用到参数估计呢?我们利用训练样本来估计先验概率和条件概率密度,并以此设计分类器。当假设数据符合某种分布时,其参数均是未知的,此时分类模型是包含未知参数的概率模型,因此要对其进行参数估计。
最大似然估计
最大似然估计的思想:找到一组参数,使得当前样本集出现的可能性最大。
基本步骤:
1. 假设 p(x|wj) 服从某种分布,得到其含有未知参数的概率表达。
2. 根据样本是独立抽取的,得到总样本集的似然函数:
3. 化积为和,取 ln 得到 L(θ)=∑ni=1ln(p(xi|θ))
4. 对未知参数分别求导,令其=0。求解参数极值点。
5. 验证所得的极值点是否是最值点(全局解)。
限制性:
(1) θ^ 始终是真实值 θ 的估计值,其真实性受到训练样本个数的限制。当训练样本个数越多时,其中的样本越具有代表性,那么估计值 θ^ 也就越接近真实值 θ 。
(2) 不正确的模型假设造成的误差很大。在设计分类器之前,要慎重假设数据所服从的分布。
贝叶斯估计
贝叶斯估计的思想:将 θ 作为一个随机变量,进行估计。
贝叶斯分类方法的核心是后验概率 P(wi|x) 的计算: