贝叶斯相关(概率论)

贝叶斯相关(概率论)

贝叶斯公式及朴素贝叶斯分类算法应用初探

作者:Marshal

【摘要】

贝叶斯公式在现代发展中扮演着越来越重要的角色,本文通过生动有趣的应用实例详细介绍了贝叶斯公式、贝叶斯推理和朴素贝叶斯分类算法的原理和使用方法。

【关键词】

    贝叶斯公式、贝叶斯推理、朴素贝叶斯分类算法

引言  

贝叶斯公式是英国学者托马斯·贝叶斯最早发现的,首次发表在1763年,当时贝叶斯已经去世,其结果没有受到应有的重视,法国数学家拉普拉斯再一次总结了这一结果.此后,人们逐渐认识到这个著名概率公式的重要性。[3]

现代社会,贝叶斯理论在人们生活中扮演着越来越重要的角色。贝叶斯理论及应用分支众多,其在数学领域,有例如贝叶斯分类算法、贝叶斯风向、贝叶斯统计等,在工程领域,有例如贝叶斯分析、贝叶斯逻辑、贝叶斯网络等,在其他领域,有贝叶斯主义、有信息的贝叶斯决策方法等。

特别是人工智能和机器学习越来越受欢迎的今天,贝叶斯定理、贝叶斯网络、贝叶斯算法、贝叶斯学习等在人工智能和模式识别中有相当大的应用。

本文我们将从概率论中所学的贝叶斯公式出发,对贝叶斯思想进行一个初步了解,从而对以后的工程思想有一定的帮助。

1.定理内容及内涵解析

1.1贝叶斯公式[1]

若A1,A2,…,An为完备事件组,那么对任一事件B,若P(B)>0,P(Ai)>0,i=1,2,…,n,则有

P(Ak|B)=,k=1,2,…,n.

1.2内涵解析

贝叶斯公式再概率论和数理统计中有着广泛的应用,其中的B通常被看作随机试验的某一结果,A1 ,A2 ,…,An 是导致B发生的原因。P(Ai)(i=1,2,…,n)成为先验概率,而条件概率P(Ai|B)(i=1,2,…,n)成为后验概率。贝叶斯公式在一定程度上可以帮助人们分析事情发生的原因,如果将全概率公式和贝叶斯公式作一比较会发现,全概率公式是由因溯果,而贝叶斯公式则是由果溯因。

    1.3趣味实例认识条件概率公式和贝叶斯公式

        假设小美抱着一只小狗,那么所抱的小狗可爱的概率很大,若是以这个作为条件概率分析结果,当假设小美抱着一个可爱的东西,那么这个东西是小狗的概率就很小了,因为这个可爱的东西可能是小狗,小猫,小兔子,甚至是个可爱的宝宝,这个便是对应的贝叶斯推理分析结果,岂不是差异明显?

2.贝叶斯公式应用

实例[5]:

“狼来了”的故事想必大家都知道,小孩子第三次对村民说狼来了的时候,村民们没有相信他的话,从而酿成小孩子被狼吃掉的结局,这个故事告诉我们做人要诚信。小时候,我们都能感性地认识到随着小孩子撒谎次数增加,村民对小孩子越来越不信任了,但村民对小孩子的信任度如何用理性的数学来刻画,让我们从更深层次理解小孩子的结局呢?

解答:设事件A表示小孩子说谎,事件B1表示小孩子可信,B2表示小孩子不可信。

由于本问题是实际问题,我们做如下假设:假设开始村民对小孩子的信任度为0.8,即P(B)=0.8,假设可信的小孩子说谎的概率为0.1,即P(A|B1)=0.1,不可信的小孩子说谎的概率为0.5,即P(A|B2)=0.5

第一次小孩子说了谎,村民上山白跑一趟,由贝叶斯公式知:

这时村民对小孩子的信任度为:

P(B|A)=≈0.44

第二次小孩子又说了谎,村民上山又白跑一趟,由贝叶斯公式知:

这时村民对小孩子的信任度为:

P(B|A)=≈0.13

由此可见,第二次小孩子说谎后,村民对他的信任度已经下降到0.13,他已经是一个非常不可信的孩子了,谁还会去救他呢?

3.应用贝叶斯公式进行贝叶斯推理

实例:

假设在电子科技大学某学期体检中,男生在一个体检室,女生在一个体检室,由于效率有限,你作为一个男生排在浩浩荡荡的男生体检室门口的队伍里。突然,你眼前一亮,前方有一个长发“小姐姐”?不,实际上你并不知道是他还是她,但是排队实在无聊,如果是长发小姐姐的话,你正在预谋这一场搭讪,虽然她极有可能是正在等待她男朋友。那么,你将应用概率论的知识进行一场贝叶斯推理(靠常识和背景知识判断之外的数学实现方式,以实现更精准的预测)来决定是否要去搭讪。

解答:由于是在男生体检室门前,我们假设有100人正在门口等候,其中98个男生,2个是女生,正在等待其男朋友。假设女生中长发、短发人数之比为1:1,男生中短发与长发之比为24:1,记男生体检室门口,女生出现的事件为A1,男生出现的事件为A2,某个人是长发的事件为B,根据假设,则有P(B|A1)=0.5,P(B|A2)=0.04,P(A1)=0.02,P(A2)=0.98.

根据联合概率得:

P(A1B)=P(A1)P(B|A1)=0.02×0.5=0.01

P(A2B)=P(A2)P(B|A2)=0.98×0.04=0.0392

根据贝叶斯公式:

P(A1|B)=

      =

      =0.20

由于0.20<0.25(竟然小于某高校女男比例!),所以不建议前去搭讪,况且在男生体检时门口等候的女生极有可能是有男朋友的,故0.20再乘以某一极小值(搭讪成功系数)得到的必是极小值,故不如拿这时间看看概率论。

4.朴素贝叶斯分类算法初探

4.1贝叶斯分类器表达式[2]

假设有N种可能的类别标记,即y={c1,c2,…,cN}.在机器学习中,基于有限的训练样本集尽可能准确地估计出后验概率P{c|x},大体来说,有两种策略,一种是“判别式模型”,例如决策树、BP神经网络、支持向量机等,一种是生成式模型,而对生成式模型,必然考虑

P(c|x)=,                       (4.1.1)

其中,P(c|x)是类“先验”概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为“似然”;P(x)是用于归一化的“证据因子”。

朴素贝叶斯分类器采用了“属性条件独立性假设”,对已知类别,假设所有属性相互独立。则4.1.1式可写为

P(c|x)==              (4.1.2)

其中d为属性数目,xi为x在第i个属性上的取值。

由于对所有类别来说P(x)相同,因此基于贝叶斯判定准则有

hnb(x)=argmaxc∈y p(c)

这就是朴素贝叶斯分类器的表达式。

4.2朴素贝叶斯分类算法核心公式

朴素贝叶斯分类算法是贝叶斯分类中最简单、最常用的一种算法。分类算法的任务就是构造分类器,分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。

简单明了的表达形式如下:

P(类别|特征)=

上式就是我们的“贝叶斯公式”!

4.3实例演示

某大学生小蒋暗恋一个女同学小江,暗恋了三年之后,对方好像并没有注意到他!到了大四,他觉得有必要主动去表白了,但是他不知道能不能成功。好在在这三年里,小蒋暗中收集到了小江收到的12次表白和恋爱数据(如图4.3.1),而且单身三年的小蒋专心学习,概率论学的也不错,故他想要先分析一下,小蒋照了下镜子,默默写下自己的四个条件:不帅、性格不好、身高矮、上进。

男生序号

帅?

性格好?

身高?

上进?

接受?

1

不好

不上进

不接受

2

不帅

上进

不接受

3

上进

接受

4

不帅

上进

接受

5

不好

上进

不接受

6

不帅

不好

不上进

不接受

7

不上进

接受

8

不帅

上进

接受

9

上进

接受

10

不帅

不好

上进

接受

11

不上进

不接受

12

不上进

不接受

(图4.3.1)

解答:根据朴素贝叶斯算法要求,假设上述各特征相互独立,即每个特征独立地对分类结果产生影响。

待求概率:

P(接受|不帅、性格不好、身高矮、上进)

=                             =,                    (4.3.2)

P(不接受|不帅、性格不好、身高矮、上进)

=

                                  =,             (4.3.3)

根据训练数据集,对每个中间参量的值进行求解得:

P(接受)=6/12=0.5

P(不接受)=6/12=0.5

P(不帅|接受)=3/6=0.5

P(性格不好|接受)=1/6=0.1667

P(身高矮|接受)=1/6=0.1667

P(上进|接受)=5/6=0.8333

P(不帅|不接受)=1/6=0.1667

P(性格不好|不接受)=3/6=0.5

P(身高矮|不接受)=6/6=1

P(上进|不接受)=3/6=0.5

P(不帅)=4/12=0.3333

P(性格不好)=4/12=0.3333

P(身高矮)=7/12=0.5833

P(上进)=8/12=0.6667

将以上概率值分别代入式4.3.2和4.3.3得

P(接受|不帅、性格不好、身高矮、上进)

==

=

=0.1340

P(不接受|不帅、性格不好、身高矮、上进)                            =

=

=0.4823

显然,0.4823>0.1340,且P(不接受|不帅、性格不好、身高矮、上进)是P(接受|不帅、性格不好、身高矮、上进)的3.5993倍!扎心了,老铁!

结论:暗恋是成功的哑剧,说出来就成了悲剧。

5.结语

本文通过详实有趣的实例介绍了贝叶斯公式、贝叶斯推理和朴素贝叶斯算法,没有涉及较深层次的数学和机器学习知识,更偏向于理解原理和实际应用。为以后发展此方面的兴趣提供了开端。

 

参考文献

[1]徐全智,吕恕,概率论与数理统计(第2版),高等教育出版社,2010

[2]周志华,机器学习,清华大学出版社,2016

[3]李春娥,王景艳,贝叶斯公式及其应用的教学研究,大学数学,2015,第31卷第2期,119-121

[4]段智力,全概率公式与贝叶斯公式的推广及应用,长春大学学报,2013,第23卷第10期,1277-1282

[5]任芳玲,刘瑞,全概率公式和贝叶斯公式教学新探,西昌学院学报·自然科学版,2015年,第29卷第1期,14-16

posted @ 2018-03-31 15:31 Edge_of_Eternity 阅读(...) 评论(...) 编辑 收藏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值