贝叶斯算法扩展(支持多分类处理)

在前一节中我们已经讨论了关于贝叶斯算法的工作原理以及代码实现,但是它处理的数据是二分类问题,这一节我们就将代码稍微修改一下使其能够实现多分类问题。主要有两个函数需要进行修改一个是trainNB0(),一个是classifyNB()这两个,接下来我们就来讲解一下这两个函数:

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    labeldis = {}
    labelnum = {}
    Num = {}
    Denom = {}
    Vect = {}
    for n in range(len(trainCategory)):
        if trainCategory[n] not in labelnum.keys():
            labelnum[trainCategory[n]] = 1
        labelnum[trainCategory[n]] += 1
    lennum = len(labelnum)
    label = labelnum.keys()
    for i in range(lennum):
        labeldis[label[i]] = labelnum[label[i]]/float(numTrainDocs)
        Num[label[i]] = ones(numWords)
        Denom[label[i]] = 2.0                      
    for i in range(numTrainDocs):
        for n in range(lennum):
            if trainCategory[i] == label[n]:
                Num[label[n]] += trainMatrix[n]
                Denom[label[n]] += sum(trainMatrix[n])
    for i in range(lennum):
        Vect[label[i]] = log(Num[label[i]]/Denom[label[i]])         
    return Vect,labeldis
上面就是修改后的函数,这里新创建了几个字典变量,labelnum用来存储各个标签的个数,用于计算每个标签出现的频率,算出来的值存储在labeldis字典变量中,Num用来存储向量的和,Denom则用来存储总词数。最后的Vect用来存储概率向量。基本和二分类没有太大的差别。

def classifyNB(vec2Classify, Vect, labeldis):
    val = 0.0
    result = ''
    label = Vect.keys()
    for i in range(len(Vect)):
        p = (sum(vec2Classify * Vect[label[i]]) + log(labeldis[label[i]]))
        if p > val or i == 0:
            val = p
            result = str(label[i])
    return result
循环遍历字典计算出概率,选择出概率最高的向量的标签返回。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值