贝叶斯相关算法学习笔记

本文整理自上师大廉洁老师数据挖掘课堂ppt

目录:

一、贝叶斯公式推导过程

二、朴素贝叶斯

三、最大似然估计
**

一、贝叶斯公式的推导过程

**
1.贝叶斯公式:
在这里插入图片描述
2.乘法公式:

(1) 当P(A)和P(B)不相关时:P(AB)=P(A)*P(B)

(2) 当P(A)和P(B)相关时:
在这里插入图片描述
3.条件概率公式:

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。

(1)B事件发生时A事件发生的概率
B发生时A发生的概率
(2)同理可得到A事件发生时B事件发生的概率

A发生时B发生的概率

4.全概率公式:

当B事件可被分为 B 1 B_1 B1, B 2 B_2 B2 B n B_n Bn等子事件(即 B 1 B_1 B1, B 2 B_2 B2 B n B_n Bn并集为B),且任意两个子事件之间没有交集时,有全概率公式如下:

在这里插入图片描述

具体定义可参考:https://baike.baidu.com/item/%E5%85%A8%E6%A6%82%E7%8E%87%E5%85%AC%E5%BC%8F

图解如下:
在这里插入图片描述

二、朴素贝叶斯

1.定义

设有样本数据集D={ d 1 d_1 d1, d 2 d_2 d2,…, d n d_n dn},对应样本数据的特征属性集为X = { x 1 x_1 x1, x 2 x_2 x2,…, x d x_d xd},类变量为Y = { y 1 y_1 y1, y 2 y_2 y2,…, y m y_m ym} ,即D可以分为 y m y_m ym类别。其中 x 1 x_1 x1, x 2 x_2 x2,…, x d x_d xd相互独立且随机,则Y的先验概率 P ( p r i o r ) P_(prior) P(prior)=P(Y),Y的后验概率 P ( p o s t ) P_(post) P(post)=P(Y|X) ,由朴素贝叶斯算法可得,后验概率 P ( p o s t ) P_(post) P(post)=P(Y|X)可以由先验概率 P ( p r i o r ) P_(prior) P(prior)=P(Y) 、证据P(X) 、类条件概率P(X|Y)计算出:

(1) 类条件概率密度是,假定x是一个连续随机变量,其分布取决于类别状态,表示成p(x|ω)的形式,这就是“类条件概率密度”函数,即类别状态为ω时的x的概率密度函数(有时也称为状态条件概率密度)。
(2) 从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。

个人理解: d 1 d_1 d1表示某一个样本,其中特征属性集类似于描述样本的属性,类变量即分类的标签。

朴素贝叶斯基于各特征之间相互独立,在给定类别为 y 的情况下,上式可以进一步表示为下式:
在这里插入图片描述

个人理解:类标签为y的情况下,满足属性 x 1 x_1 x1, x 2 x_2 x2,…, x d x_d xd的概率,其中由于各特征之间相互独立,故有累乘。

由以上两式可以计算出后验概率为:
在这里插入图片描述
由于的P(X)大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别 y i y_i yi的朴素贝叶斯计算如下图所示:
在这里插入图片描述
2.面对不同变量的使用方法:
(1) 离散变量
类的先验概率可以通过训练集的各类样本出现的次数来估计
(2)连续变量
方法一:把连续变量离散化处理,但是划分粒度影响较大
方法二:假设连续变量服从某种概率分布,使用训练数据估计分布的参数,一般用高斯分布表示连续属性的类条件概率分布。
高斯分布公式如下:

在这里插入图片描述
3.朴素贝叶斯的优缺点

(1) 优点:
• 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
• 对小规模的数据表现很好,能够处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
• 对缺失数据不太敏感,算法也比较简单,常用于文本分类。

(2)缺点:
• 朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
• 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

4.如何克服未知先验概率和类条件概率的缺点
由于实际中,我们能获得的数据可能只有有限数目的样本数据,而先验概率 P(Y) 和类条件概率(各类的总体分布) P(X|Y) 都是未知的。因此我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。
因此我们引入了最大似然估计

三、最大似然估计

在贝叶斯分类器中引用最大似然估计的主要目的是:找到一个最符合当前观测数据的概率分布
1.似然与概率的区别:
概率:在已知一些概率分布参数的情况下,预测观测的结果。
似然:在已知某些观测所得到的结果的情况下,对观测结果所属的概率分布的参数进行估计。
在这里插入图片描述
2.如何计算最大似然函数
设总体分布为f(x, θ θ θ), x 1 x_1 x1, x 2 x_2 x2,… x n x_n xn为该总体采样得到的样本。因为 x 1 x_1 x1, x 2 x_2 x2,… x n x_n xn独立同分布,于是,他们的联合密度函数为:
在这里插入图片描述
θ为未知的参数,L(x, θ)是关于θ的函数,叫做似然函数 likelihood function。求参数θ的值,使得似然函数取极大值,这就是极大似然估计。

个人理解:简单来说就是θ是一个参数,x是观测到的样本,选取合适的概率分布,例如(如果是采样数值,比如考试分数,一般用高斯分布;如果是抽取小球,或者硬币,只有两个状态,就用伯努利分布;还有泊松分布等等,详情见概率论与数理统计),计算θ参数的取值,拟合出和现有观测样本出现情况最相似的函数。此即为最大似然估计。

举例: 有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。重复这个过程,记录球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有70次是白球,30次是黑球罐中白球所占的比例最有可能是多少?

分析如下:
假设罐中白球的比例是p,那么黑球的比例就是1-p。假设球的颜色服从同一独立分布,在一百次抽样中,七十次是白球的概率是P(Data | M),Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2,那么Data = (x1,x2,…,x100)
 P(Data | M) = P(x1,x2,…,x100|M)
     = P(x1|M)P(x2|M)…P(x100|M)
     = p70(1-p)30
那么p在取什么值的时候,P(Data |M)的值最大呢?
对p求导,使其等于零
    70p69(1-p)30-p70*30(1-p)29=0。
    解方程可以得到p=0.7
所以当p=0.7时,P(Data|M)的值最大

3.计算方法总结
求最大似然估计的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数;
(4) 解似然方程。

四、贝叶斯网络、隐马尔可夫等待探索中…


若文章有错误请大家积极留言指出,由于文章由学生学习整理,与ppt内容并不完全相同,故如果由错误均与教师无关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值