贝叶斯算法扩展（支持多分类处理）

最新推荐文章于 2024-03-10 15:07:11 发布

爱哭的猫ff

最新推荐文章于 2024-03-10 15:07:11 发布

阅读量1.1k

点赞数

分类专栏：算法机器学习分类有监督学习文章标签：机器学习监督学习算法 Python 贝叶斯

本文链接：https://blog.csdn.net/zhangpengfei104/article/details/50865602

版权

算法同时被 3 个专栏收录

29 篇文章 0 订阅

订阅专栏

机器学习

24 篇文章 0 订阅

订阅专栏

有监督学习

19 篇文章 0 订阅

订阅专栏

在前一节中我们已经讨论了关于贝叶斯算法的工作原理以及代码实现，但是它处理的数据是二分类问题，这一节我们就将代码稍微修改一下使其能够实现多分类问题。主要有两个函数需要进行修改一个是trainNB0(),一个是classifyNB()这两个，接下来我们就来讲解一下这两个函数：

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    labeldis = {}
    labelnum = {}
    Num = {}
    Denom = {}
    Vect = {}
    for n in range(len(trainCategory)):
        if trainCategory[n] not in labelnum.keys():
            labelnum[trainCategory[n]] = 1
        labelnum[trainCategory[n]] += 1
    lennum = len(labelnum)
    label = labelnum.keys()
    for i in range(lennum):
        labeldis[label[i]] = labelnum[label[i]]/float(numTrainDocs)
        Num[label[i]] = ones(numWords)
        Denom[label[i]] = 2.0                      
    for i in range(numTrainDocs):
        for n in range(lennum):
            if trainCategory[i] == label[n]:
                Num[label[n]] += trainMatrix[n]
                Denom[label[n]] += sum(trainMatrix[n])
    for i in range(lennum):
        Vect[label[i]] = log(Num[label[i]]/Denom[label[i]])         
    return Vect,labeldis

上面就是修改后的函数，这里新创建了几个字典变量，labelnum用来存储各个标签的个数，用于计算每个标签出现的频率，算出来的值存储在labeldis字典变量中，Num用来存储向量的和，Denom则用来存储总词数。最后的Vect用来存储概率向量。基本和二分类没有太大的差别。

def classifyNB(vec2Classify, Vect, labeldis):
    val = 0.0
    result = ''
    label = Vect.keys()
    for i in range(len(Vect)):
        p = (sum(vec2Classify * Vect[label[i]]) + log(labeldis[label[i]]))
        if p > val or i == 0:
            val = p
            result = str(label[i])
    return result

循环遍历字典计算出概率，选择出概率最高的向量的标签返回。