朴素贝叶斯分类法

最新推荐文章于 2022-07-09 17:15:52 发布

zqcham

最新推荐文章于 2022-07-09 17:15:52 发布

阅读量498

点赞数

分类专栏：机器学习算法文章标签：朴素贝叶斯分类算法

本文链接：https://blog.csdn.net/zqcham/article/details/66476622

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.介绍

朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

2.基本方法

对于给定的数据集

学习先验概率

和条件概率：

需要说明的是条件概率有指数级的参数，其估计实际上是不可行的，所以贝叶斯定理对条件概率做了独立性的假设：

朴素贝叶斯对于给定的x分类时，是利用贝叶斯定理求出后验概率最大的y输出的。这里的贝叶斯定理是：

通过上面两个式子可以得到后验概率：

所以朴素贝叶斯分类器为：

由于上式中的分母对所有的y而言都是不变的，所以上式可以简化为：

3.朴素贝叶斯参数的估计，也就是上面各个式子的求法，采用的是极大似然估计法：

先验概率的极大似然估计为：

条件概率的极大似然估计为：

这里需要注意的一点是，用极大似然估计可能会出现某个概率为0的情况，所以一般我们会采用贝叶斯估计：

条件概率的贝叶斯估计：

这里的的取值可以自己设置，下面的S可以取值为特征X的取值个数，比如特征X可能的取值为【1,2,3】，所以这里在求关于X的条件概率时S可以取值为3（呵呵，我的理解了）.

先验概率的贝叶斯估计：

这里的K一般取类别Y的取值个数

下面的代码是我在学习《统计学习方法》贝叶斯这一章中例4.1时，结合《机器学习实战》而实现的。

def loadDataSet2():
    dataSet=[[1,'s'],[1,'m'],[1,'m'],[1,'s'],[1,'s'],[2,'s'],[2,'m'],
             [2,'m'],[2,'l'],[2,'l'],[3,'l'],[3,'m'],[3,'m'],[3,'l'],
             [3,'l']]
    labels=[-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1]
    return dataSet,labels
#求每个类别的数据的个数
def classCounts(labels):
    classCount={}
    for label in labels:
        if label not in classCount:
            classCount[label]=0
        classCount[label]+=1
    return classCount
#某个类别中某个特征的取值的个数
def countOfDataOfLabel(datas,data,label,labels):
    count=0
    for i in range(len(datas)):
        if datas[i]==data and labels[i]==label:
            count+=1
    return count
def trainNB1(dataSet,labels):
    n=np.shape(dataSet)[1]
    perts={}
    classCount=classCounts(labels)
    for i in range(n):
        datas=[x[i] for x in dataSet]
        dataSets=set(datas)
        for data in dataSets:
            for label in classCount:
                count=countOfDataOfLabel(datas,data,label,labels)
                perts[str(data)+'_'+str(label)]=float(count)/classCount[label]
    return perts,classCount
def testingNB1():
    dataSet,labels=loadDataSet2()
    perts,classCount=trainNB1(dataSet, labels)
    x=[1,'m']
    n=len(dataSet)
    max=0
    bestLabel=None
    for label in classCount:
        numPerts=float(classCount[label])/n
        for i in range(len(dataSet[0])):
            numPerts*=perts[str(x[i])+'_'+str(label)]
        print numPerts
        if max

zqcham

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯分类法

1.介绍朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。2.基本方法对于给定的数据集学习先验概率和条件概率：需要说明的是条件概率有指数级的参数，其估计实际上是不可行的，所以贝叶斯定理对条件概率做了独立性的假
复制链接

扫一扫

专栏目录