在前一节中我们已经讨论了关于贝叶斯算法的工作原理以及代码实现,但是它处理的数据是二分类问题,这一节我们就将代码稍微修改一下使其能够实现多分类问题。主要有两个函数需要进行修改一个是trainNB0(),一个是classifyNB()这两个,接下来我们就来讲解一下这两个函数:
def trainNB0(trainMatrix,trainCategory):
numTrainDocs = len(trainMatrix)
numWords = len(trainMatrix[0])
labeldis = {}
labelnum = {}
Num = {}
Denom = {}
Vect = {}
for n in range(len(trainCategory)):
if trainCategory[n] not in labelnum.keys():
labelnum[trainCategory[n]] = 1
labelnum[trainCategory[n]] += 1
lennum = len(labelnum)
label = labelnum.keys()
for i in range(lennum):
labeldis[label[i]] = labelnum[label[i]]/float(numTrainDocs)
Num[label[i]] = ones(numWords)
Denom[label[i]] = 2.0
for i in range(numTrainDocs):
for n in range(lennum):
if trainCategory[i] == label[n]:
Num[label[n]] += trainMatrix[n]
Denom[label[n]] += sum(trainMatrix[n])
for i in range(lennum):
Vect[label[i]] = log(Num[label[i]]/Denom[label[i]])
return Vect,labeldis
上面就是修改后的函数,这里新创建了几个字典变量,labelnum用来存储各个标签的个数,用于计算每个标签出现的频率,算出来的值存储在labeldis字典变量中,Num用来存储向量的和,Denom则用来存储总词数。最后的Vect用来存储概率向量。基本和二分类没有太大的差别。
def classifyNB(vec2Classify, Vect, labeldis):
val = 0.0
result = ''
label = Vect.keys()
for i in range(len(Vect)):
p = (sum(vec2Classify * Vect[label[i]]) + log(labeldis[label[i]]))
if p > val or i == 0:
val = p
result = str(label[i])
return result
循环遍历字典计算出概率,选择出概率最高的向量的标签返回。