引言
朴素贝叶斯分类器是基于贝叶斯定理的一种概率分类
算法。与线性回归和逻辑回归算法等判别回归和分类算法
相比,不是直接学习特征与输出之间的映射函数或者条件
分布,而是采用生成的方法,直接学习特征与输出之间的联合分布概率,然后再采用贝叶斯定理求取特征与输出之间的分布
贝叶斯方法的基本观点
贝叶斯分析方法的特点是用概率去表示所有形式的不确定性
,
学习或其它形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。贝叶斯定理将事件的先验概率与后验概率联系起来。
判别式 vs. 生成
# 贝叶斯定理 ## 随机事件 * 随机实验:随机实验是一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果。随机试验在完全相同的条件下,可能出现不同的结果,但所有可能结果的范围是可以估计的,即随机试验的结果具有不确定性和可预计性。 * 样本空间:样本空间是一个随机实验的全部可能出现的结果的集合,通常记作Ω,Ω中的点(即一个可能出现的实验结果)称为本点,通常记作ω。 * 随机事件:随机事件是一个随机实验的一些可能结果的集合,是样本空间的一个子集。常用大写字母A,B,C,…表示事件间的关系
概率定义
-
定义1:
设Ω为一个随机实验的样本空间,对Ω上的任意事 件A,规定一个实数与之对应,记为P(A),满足以下三条基 本性质,称为事件A发生的概率:
-
定义2: 统计概率
若在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性 大小,则称此常数p为事件A发生的概率,记为P(A), p=P(A) ,可见概率就是频率的稳定中心。任何事件A的概率为不大于1 的非负实数,即 0<P(A)<1
-
定义3: 古典概率
我们设一种次试验有且仅有有限的N个可 能结果,即N个基本事件,而A事件包含着K个可能结果,则称 K/N为事件A的概率,记为P(A)。即 P(A)=K/N
-
定义4: 几何概率
假设Ω是几何型随机试验的基本事件空间, F是Ω中一切可测集的集合,则对于F中的任意事件A的概率 P(A)为A与Ω的体积之比,即 P(A)=V(A)/V(Ω)
运算法则
加法定理
-
两个不相容(互斥)事件(互斥事件:要么A发生,要么B发生,要么两个都不发生)
之和的概率, 等于两个事件概率之和,即
P(A+B)=P(A)+P(B)
-
两个互逆事件(对立事件:A,B中一定发生一件,要么A发生要么B发生)
A和A-1的概率之和为1。即当A+A-1= Ω,且A与A-1互斥,则
P(A)+P(A-1) =1
或常有P(A) =1-P(A -1)
-
A、B为两任意事件
则
P(A+B)=P(A)+P(B)-P(AB)
乘法定理
-
设A、B为两个
不相容(互斥)
非零事件则其乘积的概率等于A和B概率的乘积,即
P(AB)=P(A)P(B) 或 P(AB)=P(B)P(A)
-
设A、B为两个
任意
的非零事件则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的
条件概率
的乘积。P(A·B)=P(A)·P(B|A) 或 P(A·B)=P(B)·P(A|B)
理解为A已经发生,P(A),B在A发生的条件下发生
条件概率
-
条件概率:
设A、B是两个随机事件,且P(B)>0,则在事件B 已经发生的条件下,事件A发生的条件概率
如果A,B互斥则有 P(A|B) = P(A)
-
联合概率:
若对任意两事件A、B都有P(A)>0 ,P(B)>0,则:
P(AB)=P(A)P(B\A)=P(B)P(A\B)
-
边际概率:
若A1、A2构成互斥和完整的两个事件, A1和A2 中的一个出现是事件B发生的必要条件,则事件B的边际概率 公式为(全概率公式):
P(B)=P(B\A1)P(A1)+P(B\A2)P(A2)
贝叶斯定理
通常,事件A在事件B发生的条件下的概率,与事件B在事 件A发生的条件下的概率是不一样的,然而,这两者是有确 定的关系的,贝叶斯定理就是这种关系的陈述。
全概率公式中Ai事件必需是对立事件,即互不相容且概率和为1
-
先验概率P(A)
先验概率是指根据历史的资料或主观判断所 确定的各事件发生的概率,该类概率没能经过实验证实,属 于检验前的概率,所以称之为先验概率。先验概率一般分为 两类,一是客观先验概率,是指利用过去的历史资料计算得 到的概率;二是主观先验概率,是指在无历史资料或历史资 料不全的时候,只能凭借人们的主观经验来判断取得的概率。
-
后验概率P(A/B)
后验概率一般是指利用贝叶斯公式,结合调 查等方式获取了新的附加信息,对先验概率进行修正后得到 的更符合实际的概率。
-
联合概率P(AB)
联合概率也叫乘法公式,是指两个任意事件 的乘积的概率,或称之为交事件的概率。