统计学习方法(第二版)第一章学习笔记

统计学习方法(第二版)第一章学习笔记

废话在前

   本文的名字虽叫学习笔记,但是并不是记录统计学习方法的详细笔记,而只是对一些难以理解的知识点提出自己的一些尚不成熟的看法。

   第一章主要是一些基本概念,第一章的两道习题都是关于贝叶斯估计和极大似然估计的,在读到这两个估计方法的时候(包括之前学这些东西的时候)一直没搞懂这两个方法在干什么。经过了看别人的博客等,结合一些自己的看法,说明一下(这就意味着很可能有错误的理解)。 好了,下面请容许我一本正经的胡说八道。

明确目的

   过多的数学可能让我们脑袋昏昏的,搞得不知所措,那就先放下数学,想一想我们究竟在干什么(也即我们的目的)?

   无论是什么方法,我们的目的其实都是要获得一个模型,也就是 θ \theta θ 这个模型参数,而我们的已知条件是数据 D D D。 也就是说我们要找出在数据 D D D出现的情况下,最可能的 θ \theta θ

   上面这个就是我们朴素的愿望。换成数学语言就是,我们希望找到一个 θ \theta θ使得 P ( θ ∣ D ) P(\theta|D) P(θD)最大,这个概率值在数学中叫做后验概率,所以我们的目的就是:最大化这个后验概率

   同时,根据贝叶斯定理有:
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} P(θD)=P(D)P(Dθ)P(θ)

极大似然估计的假设前提

   极大似然估计和贝叶斯估计是基于两个不同的假设得到的方法,这里先说明极大似然估计的假设前提。 极大似然估计认为模型参数 θ \theta θ是客观存在的,只是我们太菜了,算不出来它到底是多少。 但是,我们太菜关模型什么事呢? 这意味着 θ \theta θ是确定的,哪怕实际上我们需要观察无限多的样本才能确定它的值。 既然模型参数是客观存在的,那么 P ( θ ) P(\theta) P(θ)就是个常数。 同时,注意到数据的分布 P ( D ) P(D) P(D)也是个常数。 这时,最大化后验概率的目标就可以简化为最大化 P ( D ∣ θ ) P(D|\theta) P(Dθ),而这个 P ( D ∣ θ ) P(D|\theta) P(Dθ)在数学上就叫做似然函数,因此这个方法就叫做极大似然估计。

   极大似然估计是典型的频率学派。 啥是个频率学派呢? 可以理解为,他们认为出现的事件就是大概率事件,我们经过大规模的观测样本后,样本的频率就是概率本身。 极大似然估计就是认为我们观测到这个样本,比如数据 D D D,那么说明数据 D D D出现的概率是最大的,只需要最大化 D D D出现的概率就能得到模型参数,也即最大化 P ( D ∣ θ ) P(D|\theta) P(Dθ)

贝叶斯估计的假设前提

   贝叶斯学派与频率学派不同,贝叶斯估计认为 θ \theta θ并不是一个客观存在,它本身也是一个随机的(也就是说,模型本身也具有随机性,不存在一个确定的模型)。 贝叶斯学派认为菜的不是我们,而是模型他自己本身就是随机的,那怎么能说我太菜算不出来呢? 既然 θ \theta θ是随机的,那么我们只能老老实实地根据观测样本来估计参数了。

   好了,还记得我们的目的么? 最大化后验概率(暂时只讨论最大化后验概率的思想)! 由于 P ( D ) P(D) P(D)是常数,而 P ( θ ) P(\theta) P(θ) P ( D ∣ θ ) P(D|\theta) P(Dθ)都不是常数,我们最大化后验概率的目标将转化为最大化 P ( θ ) P ( D ∣ θ ) P(\theta)P(D|\theta) P(θ)P(Dθ)。 由于贝叶斯估计假设 θ \theta θ也是随机变量,我们在构建模型时,首先就要假设出 θ \theta θ的分布。

先验概率、后验概率

   学习概率论的时候,就很头疼,什么先验概率、后验概率、似然函数… 根本就记不住啊。

   我通俗的理解是,在条件概率中,存在一定的因果关系。 具体到上面的一些表述。 θ \theta θ就是“因”,而 D D D就是“果”。也就是说,是因为有了 θ \theta θ这么一个模型参数,才有了 P θ ( Y ∣ X ) P_{\theta}(Y|X) Pθ(YX)这么个映射关系,我们才能观测到具体的 D D D这组数据(就是 X X X Y Y Y啦)。 因和果,因在前,果在后。 所以, P ( θ ) P(\theta) P(θ)叫做先验概率,而 P ( θ ∣ D ) P(\theta|D) P(θD)叫做后验概率(“果”变成了条件概率中的条件)。

似然

   似然的英文是likelihood,而概率的英文是probability。 他们其实有着紧密的联系,而又有所不同。 P ( D ∣ θ ) P(D|\theta) P(Dθ)既可以看作是似然函数也可以看作是一个条件概率。 我们知道, P ( D ∣ θ ) P(D|\theta) P(Dθ)是关于 D D D θ \theta θ的一个函数。 如果我们把 θ \theta θ看作一个常量,那么 P ( D ∣ θ ) P(D|\theta) P(Dθ)就是 D D D的概率函数( D D D是数据,如果你觉得别扭,可以换成 X X X)。 如果我们把 D D D看作常量,那么 P ( D ∣ θ ) P(D|\theta) P(Dθ)就是一个关于 θ \theta θ的函数,这个函数就是似然函。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值