朴素贝叶斯分类法

1.介绍

       朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

2.基本方法

对于给定的数据集

学习先验概率

和条件概率:

需要说明的是条件概率有指数级的参数,其估计实际上是不可行的,所以贝叶斯定理对条件概率做了独立性的假设:

朴素贝叶斯对于给定的x分类时,是利用贝叶斯定理求出后验概率最大的y输出的。这里的贝叶斯定理是:


通过上面两个式子可以得到后验概率:


所以朴素贝叶斯分类器为:


由于上式中的分母对所有的y而言都是不变的,所以上式可以简化为:


3.朴素贝叶斯参数的估计,也就是上面各个式子的求法,采用的是极大似然估计法:

先验概率的极大似然估计为:


条件概率的极大似然估计为:


这里需要注意的一点是,用极大似然估计可能会出现某个概率为0的情况,所以一般我们会采用贝叶斯估计:

条件概率的贝叶斯估计:


这里的的取值可以自己设置,下面的S可以取值为特征X的取值个数,比如特征X可能的取值为【1,2,3】,所以这里在求关于X的条件概率时S可以取值为3(呵呵,我的理解了).

先验概率的贝叶斯估计:


这里的K一般取类别Y的取值个数

下面的代码是我在学习《统计学习方法》贝叶斯这一章中例4.1时,结合《机器学习实战》而实现的。

def loadDataSet2():
    dataSet=[[1,'s'],[1,'m'],[1,'m'],[1,'s'],[1,'s'],[2,'s'],[2,'m'],
             [2,'m'],[2,'l'],[2,'l'],[3,'l'],[3,'m'],[3,'m'],[3,'l'],
             [3,'l']]
    labels=[-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1]
    return dataSet,labels
#求每个类别的数据的个数
def classCounts(labels):
    classCount={}
    for label in labels:
        if label not in classCount:
            classCount[label]=0
        classCount[label]+=1
    return classCount
#某个类别中某个特征的取值的个数
def countOfDataOfLabel(datas,data,label,labels):
    count=0
    for i in range(len(datas)):
        if datas[i]==data and labels[i]==label:
            count+=1
    return count
def trainNB1(dataSet,labels):
    n=np.shape(dataSet)[1]
    perts={}
    classCount=classCounts(labels)
    for i in range(n):
        datas=[x[i] for x in dataSet]
        dataSets=set(datas)
        for data in dataSets:
            for label in classCount:
                count=countOfDataOfLabel(datas,data,label,labels)
                perts[str(data)+'_'+str(label)]=float(count)/classCount[label]
    return perts,classCount
def testingNB1():
    dataSet,labels=loadDataSet2()
    perts,classCount=trainNB1(dataSet, labels)
    x=[1,'m']
    n=len(dataSet)
    max=0
    bestLabel=None
    for label in classCount:
        numPerts=float(classCount[label])/n
        for i in range(len(dataSet[0])):
            numPerts*=perts[str(x[i])+'_'+str(label)]
        print numPerts
        if max
   
   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值