1.介绍
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
2.基本方法
对于给定的数据集
学习先验概率
和条件概率:
需要说明的是条件概率有指数级的参数,其估计实际上是不可行的,所以贝叶斯定理对条件概率做了独立性的假设:
朴素贝叶斯对于给定的x分类时,是利用贝叶斯定理求出后验概率最大的y输出的。这里的贝叶斯定理是:
通过上面两个式子可以得到后验概率:
所以朴素贝叶斯分类器为:
由于上式中的分母对所有的y而言都是不变的,所以上式可以简化为:
3.朴素贝叶斯参数的估计,也就是上面各个式子的求法,采用的是极大似然估计法:
先验概率的极大似然估计为:
条件概率的极大似然估计为:
这里需要注意的一点是,用极大似然估计可能会出现某个概率为0的情况,所以一般我们会采用贝叶斯估计:
条件概率的贝叶斯估计:
这里的的取值可以自己设置,下面的S可以取值为特征X的取值个数,比如特征X可能的取值为【1,2,3】,所以这里在求关于X的条件概率时S可以取值为3(呵呵,我的理解了).
先验概率的贝叶斯估计:
这里的K一般取类别Y的取值个数
下面的代码是我在学习《统计学习方法》贝叶斯这一章中例4.1时,结合《机器学习实战》而实现的。
def loadDataSet2():
dataSet=[[1,'s'],[1,'m'],[1,'m'],[1,'s'],[1,'s'],[2,'s'],[2,'m'],
[2,'m'],[2,'l'],[2,'l'],[3,'l'],[3,'m'],[3,'m'],[3,'l'],
[3,'l']]
labels=[-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1]
return dataSet,labels
#求每个类别的数据的个数
def classCounts(labels):
classCount={}
for label in labels:
if label not in classCount:
classCount[label]=0
classCount[label]+=1
return classCount
#某个类别中某个特征的取值的个数
def countOfDataOfLabel(datas,data,label,labels):
count=0
for i in range(len(datas)):
if datas[i]==data and labels[i]==label:
count+=1
return count
def trainNB1(dataSet,labels):
n=np.shape(dataSet)[1]
perts={}
classCount=classCounts(labels)
for i in range(n):
datas=[x[i] for x in dataSet]
dataSets=set(datas)
for data in dataSets:
for label in classCount:
count=countOfDataOfLabel(datas,data,label,labels)
perts[str(data)+'_'+str(label)]=float(count)/classCount[label]
return perts,classCount
def testingNB1():
dataSet,labels=loadDataSet2()
perts,classCount=trainNB1(dataSet, labels)
x=[1,'m']
n=len(dataSet)
max=0
bestLabel=None
for label in classCount:
numPerts=float(classCount[label])/n
for i in range(len(dataSet[0])):
numPerts*=perts[str(x[i])+'_'+str(label)]
print numPerts
if max