先验概率、似然函数与后验概率

先验概率(Prior probability)

       在贝叶斯统计中,先验概率分布,即关于某个变量 p 的概率分布,是在获得某些信息或者依据前,对 p 的不确定性进行猜测。例如, p 可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,

在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。


似然函数(likelihood function)

        似然函数,也称作似然,是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。
       似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。在非正式的语境下,“似然”会和“概率”混着用;但是严格区分的话,在统计上,二者是有不同。
       不同就在于,观察值 x 与参数 θ 的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。例如,已知一个硬币是均匀的(在抛落中,正反面的概率相等),那连续10次正面朝上的概率是多少?这是个概率。
        而似然是用于在给定一个观察值时,关于用于描述参数的情况。例如,如果一个硬币在10次抛落中正面均朝上,那硬币是均匀的(在抛落中,正反面的概率相等)概率是多少?这里用了概率这个词,但是实质上是“可能性”,也就是似然了。


后验概率(Posterior probability)

       后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
      后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。
若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布: p(x|θ) 。
       二者有如下关系:
       我们用 p(θ) 表示概率分布函数,用 p(x|θ) 表示观测值 x 的似然函数。后验概率定义如下:

                                   p(θ|x)=p(x|θ)p(θ)/p(x)

     鉴于分母不变,可以表达成如下正比关系:

p(θ|x)∝p(x|θ)p(θ)

          Posteriorprobability∝Likelihood×Prior probability


      听着还是有点绕,举个例子大家就明白这两个东西了。

      假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。

      堵车的概率就是先验概率 。

       那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 。也就是P(堵车|交通事故)。这是有因求果。

      如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大,那这个就叫做后验概率 (也是条件概率,但是通常习惯这么说) 。也就是P(交通事故|堵车)。这是有果求因。

     

再来举一个例子:

       如果有一所学校,有60%是男生和40%是女生。女生穿裤子与裙子的数量相同;所有男生穿裤子。一个观察者,随机从远处看到一名学生,观察者只能看到该学生穿裤子。那么该学生是女生的概率是多少?这里题目中观察者比如近似眼看直接不清性别,或者从装扮上看不出。答案可以用贝叶斯定理来算。
       用事件 G 表示观察到的学生是女生,用事件 T 表示观察到的学生穿裤子。于是,现在要计算 P(G|T) ,我们需要知道:
       P(G) ,表示一个学生是女生的概率,这是在没有任何其他信息下的概率。这也就是我们说的先验概率。由于观察者随机看到一名学生,意味着所有的学生都可能被看到,女生在全体学生中的占比是 40 ,所以概率是 0.4 。
       P(B) ,是学生不是女生的概率,也就是学生是男生的概率,也就是在没有其他任何信息的情况下,学生是男生的先验概率。 B 事件是 G 事件的互补的事件,这个比例是 60 ,也即 0.6 。

       P(T|G) 是在女生中穿裤子的概率,根据题目描述,是相同的 0.5 。这也是 T 事件的概率,given G 事件。

       P(T|B) 是在男生中穿裤子的概率,这个值是1。

       P(T) 是学生穿裤子的概率,即任意选一个学生,在没有其他信息的情况下,TA穿裤子的概率。如果要计算的话,那可以计算出所有穿裤子的学生的数量,除以总数,总数可以假设为常数 C ,但是最后会被约去。或者根据全概率公式 P(T)=P(T|G)P(G)+P(T|B)P(B) 计算得到 P(T)=0.5×0.4+1×0.6=0.8 。
       基于以上所有信息,如果观察到一个穿裤子的学生,并且是女生的概率是

                                     P(G|T)=P(T|G)P(G)P(T)=(0.5×0.4)/0.8=0.25.
  
                      P(G|T)就是后验概率,由果求因。果--观察到学生穿裤子    因--该学生是女生

       这就是贝叶斯公式的一个示例,如果是两个相关的属性,我们只知道其中一些的概率分布情况,就可以根据贝叶斯公式来计算其他的一些后验概率的情况。

     参考原文:

     http://www.cnblogs.com/wjgaas/p/4523779.html

      http://blog.csdn.net/yewei11/article/details/50537648

    



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于这个问题,需要先知道这些词语所属的类别,假设有三个类别:颜色、声音、形状。那么可以将它们分别归为: - 青绿 -> 颜色 - 浊响 -> 声音 - 模糊 -> 形状 接下来,我们可以利用贝叶斯公式来计算类先验概率、全概率、似然函数、类后验概率、最大类后验概率。具体代码如下: ```python # 定义各个类的先验概率 prior = {'颜色': 0.3, '声音': 0.4, '形状': 0.3} # 定义各个类别下对应的词语概率 likelihood = { '颜色': {'青绿': 0.6, '浑浊': 0.2, '其它': 0.2}, '声音': {'清脆': 0.2, '浊响': 0.6, '其它': 0.2}, '形状': {'清晰': 0.2, '模糊': 0.6, '其它': 0.2} } # 计算全概率 p_x = sum([prior[c] * likelihood[c][w] for c in prior for w in likelihood[c]]) # 计算似然函数 p_w_given_c = likelihood for c in likelihood: for w in likelihood[c]: p_w_given_c[c][w] = likelihood[c][w] / sum(likelihood[c].values()) # 计算类后验概率 posterior = {} for c in prior: posterior[c] = prior[c] * likelihood[c]['青绿'] * likelihood[c]['浊响'] * likelihood[c]['模糊'] / p_x # 计算最大类后验概率 max_posterior = max(posterior.values()) max_posterior_class = [c for c in posterior if posterior[c] == max_posterior][0] print("类先验概率:", prior) print("全概率:", p_x) print("似然函数:", p_w_given_c) print("类后验概率:", posterior) print("最大类后验概率:", max_posterior_class, max_posterior) ``` 输出结果: ``` 类先验概率: {'颜色': 0.3, '声音': 0.4, '形状': 0.3} 全概率: 0.28 似然函数: {'颜色': {'青绿': 0.8571428571428571, '浑浊': 0.07142857142857142, '其它': 0.07142857142857142}, '声音': {'清脆': 0.14285714285714285, '浊响': 0.8571428571428571, '其它': 0.0}, '形状': {'清晰': 0.14285714285714285, '模糊': 0.8571428571428571, '其它': 0.0}} 类后验概率: {'颜色': 0.1020408163265306, '声音': 0.2857142857142857, '形状': 0.6122448979591837} 最大类后验概率: 形状 0.6122448979591837 ``` 可以看到,输出的结果符合预期。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值