step by step.
目录
要看具体章节复习汇总请见👇
自己辛苦总结的,点个赞鼓励一下啦~
贝叶斯方法是主观的。
1. 关于概率
一些简单的关于条件概率的知识。温故一下。
👇
注:
P(A)通常在试验之前已知,因此习惯上称为先验概率。
P(B|A)反映了A发生之后,事件B发生的可能性大小,通常称之为后验概率。
2. 贝叶斯
(1) 贝叶斯公式
贝叶斯公式
👇
(2)例题:
上例题!
考虑一个医疗诊断问题,有两种可能的假设:
(1)病人有癌症。
(2)病人无癌症。
样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。
假设我们已经有先验知识:
(1)在所有人口中只有0.8%的人患癌症。
(2)此外,化验测试对有癌症的患者有98%的可能返回阳性结果,对无癌症患者有97%的可能返回阴性结果。
假设现在有一个新病人,化验测试结果为阳性,是否将病人断定为有癌症呢?
解:
上面的数据可以用以下概率式子表示:
P(cancer)=0.008
P(无cancer)=1- P(cancer)= 1- 0.008=0.992
P(阳性|cancer)=0.98
P(阴性|cancer)=1-P(阳性|cancer)=1-0.98 =0.02
P(阴性|无cancer)=0.97
P(阳性|无cancer)=1-P(阴性|无cancer)=1-0.97=0.03
按我的理解:👇
3. 朴素贝叶斯分类模型算法
(1) 算法流程
(1)对训练样本数据集和测试样本数据集进行离散化处理和缺失值处理;
(2)扫描训练样本数据集,分别统计训练集中类别Ci的个数di和属于类别Ci的样本中属性Ak取值为xi的实例样本个数,构成统计表;
(3)计算先验概率和条件概率,构成概率表;
(4)构建分类模型
(5)扫描待分类的样本数据集,调用已得到的统计表、概率表以及构建好的分类准则,得出分类结果。
(2)例题计算
eg1。
朴素贝叶斯分类器来解决这样一个分类问题:根据天气状况来判断某天是否适合于打网球。
给定表5-1所示的14个训练实例,其中每一天由属性Outlook, Temperature, Humidity, Wind来表征,类属性为Play Tennis。
有一个测试实例x:
<Outlook=sunny, Temperature=cool, Humidity=high, Wind=strong>,
问这一天是否适合于打网球。
day
outlook
temperature
humidity
wind
Play tennis
1
sunny
hot
high
weak
no
2
sunny
hot
high
strong
no
3
overcast
hot
high
weak
yes
4
rain
mild
high
weak
yes
5
rain
cool
normal
weak
yes
6
rain
cool
normal
strong
no
7
overcast
cool
normal
strong
yes
8
sunny
mild
high
weak
no
9
sunny
cool
normal
weak
yes
10
rain
mild
normal
weak
yes
11
sunny
mild
normal
strong
yes
12
overcast
mild
high
strong
yes
13
overcast
hot
normal
weak
yes
14
rain
mild
high
strong
no
解:
(no的概率更大)
eg2.
有一个测试实例x:
(age <=30,Income = medium,Student = yes,Credit rating= Fair)
问这一实例是否会买电脑,我们的任务是要判断给定的测试实例是属于yes还是no?
解:
yes: 0.02821
no: 0.002
∴ 买!
(3) 贝叶斯算法特点
优点逻辑简单、易于实现、开销小,算法稳定;
缺点:属性间接独立。
4. 贝叶斯信念网
(1)两个主要成分
(1)一个有向无环图(Directed Acyclic Graph,DAG),表示变量之间的依赖关系。
(2)一个概率表,把各结点和它的直接父结点关联起来。
(2)举例
∴