机器学习实战笔记（三）朴素贝叶斯

最新推荐文章于 2024-08-14 22:32:50 发布

HJ_彼岸

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习朴素贝叶斯 python 分类贝叶斯决策

本文链接：https://blog.csdn.net/whjkm/article/details/80409119

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯决策理论的分类方法。
我们用p1(x,y)表示数据点(x,y)属于类别1的概率，用p2(x,y)表示数据点(x,y)属于类别2的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果 p1(x,y) > p2(x,y)，那么类别为1。
如果 p2(x,y) > p1(x,y)，那么类别为2。

我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

贝叶斯推论

条件概率：
$\frac{p(AB)}{p(B)}$
对条件概率公式和全概率公式进行变形：
$p(A)\frac{p(B|A)}{p(B)}$

我们把P(A)称为“先验概率”（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。
P(A|B)称为“后验概率”（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。
P(B|A)/P(B)称为“可能性函数”（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

后验概率　＝　先验概率ｘ调整因子

这就是贝叶斯推断的含义。我们先预估一个“先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了“先验概率”，由此得到更接近事实的“后验概率”。
在这里，如果“可能性函数”P(B|A)/P(B)>1，意味着“先验概率”被增强，事件A的发生的可能性变大；如果“可能性函数”=1，意味着B事件无助于判断事件A的可能性；如果“可能性函数”<1，意味着”先验概率”被削弱，事件A的可能性变小。

朴素贝叶斯的特点

优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

朴素贝叶斯的一般流程

收集数据：可以使用任何方法。后面的实例使用RSS源。
准备数据：需要数值型或者布尔型数据。
分析数据：有大量特征时，使用直方图效果更好。
训练算法：计算不同的独立特征的条件概率。
测试算法：计算错误率。
使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

使用朴素贝叶斯进行文档分类

以在线社区留言板为例：屏蔽侮辱性的言论，构建一个分类器，过滤侮辱性的言论。

1.准备数据：从文本中构建词向量

def loadDataSet():
    postingList = [['my','dog','has','flea','problem','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop','posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0, 1, 0, 1, 0, 1] #1代表侮辱性文字，0代表正常言论
    return postingList, classVec

创建一个词表

def createVocabList(dataSet):
    vocabSet = set()    #创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)  #创建两个集合的并集
    return  list(vocabSet)

将词表转化为向量

#遍历查看该单词是否出现，出现该单词则将该单词置1
def setOfWordsVec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)   #创建一个其中所含元素都为0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1    #索引位置
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

2.训练算法：通过词向量计算概率

利用贝叶斯准则计算概率，伪代码如下所示：

计算每个类别中的文档数目
对每篇训练文档：
    对每个类别：
        如果词条出现在文档中→ 增加该词条的计数值
        增加所有词条的计数值
    对每个类别：
        对每个词条：
            将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率

python实现的朴素贝叶斯训练函数如下：

#朴素贝叶斯分类器训练函数
from numpy import *
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])       #计算每篇文档的词条数
    #侮辱性文件出现的概率，这个例子只有两个分类，非侮辱性概率 = 1- 侮辱性的概率
    #侮辱性文件的个数除以文件总数 = 侮辱性文件出现的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    #单词出现的次数
    p0Num = zeros(numWords)
    p1Num = zeros(numWords)
    #整个数据集中单词出现的次数
    p0Denom = 0.0
    p1Denom = 0.0

    #遍历所有的文件
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom
    p0Vect = p0Num/p0Denom
    return p0Vect, p1Vect, pAbusive

使用拉普拉斯平滑优化后的训练函数：使用拉普拉斯平滑，为了解决0概率的问题。

#优化版训练函数
def trainNB1(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    p0Num = ones(numWords)
    p1Num = ones(numWords)

    #整个数据集单词出现总数，2.0（主要是为了避免分母为0的情况）
    p0Denom = 2.0  #拉普拉斯平滑
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            #累加侮辱词的频次
            p1Num += trainMatrix[i]
            #对每篇文章的侮辱词的频次进行统计
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #类别1，侮辱性文档的列表[log(P(F1|C1)...]
    p1Vect = log(p1Num / p1Denom)
    #类别0，正常文档的列表
    p0Vect = log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive

3.测试算法：构建分类函数

#朴素贝叶斯分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)     # 对应元素相乘，log中变为相加
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

# 测试函数
def testingNB():
    listOposts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOposts)
    trainMat = []
    for postinDoc in listOposts:
        trainMat.append(setOfWordsVec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB1(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWordsVec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWordsVec(myVocabList, testEntry))
    print(testEntry, 'classified as: ',classifyNB(thisDoc, p0V, p1V, pAb))

测试结果如下图所示：
testNB

使用使用朴素贝叶斯过滤垃圾邮件

1.准备数据：切分文本

使用正则表达式来切分句子，其中分隔符是除单词、数字外的任意字符串。

#文本解析，分词，解析为一共字符串列表
def textParse(bigString):
    import re
    #r表示raw String,自动将反斜杠转义
    listOfTokens = re.split(r'\W+', bigString)  #匹配除单词、数字外的任意字符串
    # 将字符串转化为小写，并返回长度大于2的字符串
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

2.测试算法：使用朴素贝叶斯进行交叉验证

留存交叉验证（hold-out cross validation）：随机选择一部分数据作为训练集，而剩余的数据用于测试集。

#垃圾邮件测试函数
import random
def spamTest():
    docList =[]
    classList = []
    fullText = []
    for i in range(1,26):
        #切分解析文本数据
        try:
            wordList = textParse(open('H:/python/email/spam/{}.txt'.format(i)).read())
        except:
            wordList = textParse(open('H:/python/email/spam/{}.txt'.format(i),encoding = 'Windows 1252').read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        try:
            wordList = textParse(open('H:/python/email/ham/{}.txt'.format(i)).read())
        except:
            wordList = textParse(open('H:/python/email/ham/{}.txt'.format(i), encoding='Windows 1252').read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    # 创建词汇表
    vocabList = createVocabList(docList)
    # 训练数据集，总共50封邮件
    trainingSet = list(range(50))  #range返回的是range对象，不返回数组对象,不用list后面删除会出错
    testSet = []
    #随机取10封邮件用来进行测试
    for i in range(10):
        # random.uniform(x, y) 随机生成一个范围为 x - y 的实数
        randIndex = int(random.uniform(0,len(trainingSet)))
        #留存交叉验证
        testSet.append(trainingSet[randIndex])   #添加到测试集
        del(trainingSet[randIndex])    #在训练集删除添加到测试集中的数据
    trainMat = []
    trainClasses = []
    #用训练集训练
    for docIndex in trainingSet:
        trainMat.append(setOfWordsVec(vocabList,docList[docIndex]))  #构建词向量
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB1(array(trainMat), array(trainClasses))
    errorCount = 0    #错误个数
    #进行测试
    for docIndex in testSet:
        wordVector = setOfWordsVec(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1  #分类错误数+1
    print('the errorCount is: ', errorCount)
    print('the testSet length is: ', len(testSet))
    print('the error rate is:', float(errorCount)/len(testSet))

测试结果如下：
spamTest

使用朴素贝叶斯分类器从个人广告中获取区域倾向

1.收集数据：导入 RSS 源

RSS源分类器及高频词去除函数

# 高频词去除函数
def calcMostFreq(vocabList, fullText):
    #遍历词汇表中的每个词并统计它在文本中出现的次数
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token) #统计每个词在文本中出现的次数
    #根据出现次数从高到低对词典进行排序，最后返回排序最高的30个单词
    sortedFreq = sorted(freqDict.items(), key = operator.itemgetter(1), reverse = True) #True表示降序排列
    return sortedFreq[0:30]

# RSS源分类器
def localWords(feed1, feed0):
    docList = []
    classList = []
    fullText = []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary']) #每次访问一条RSS源
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList, fullText)
    for pairW in top30Words:
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])   #去除出现次数最高的那些词
    trainingSet = list(range(2 * minLen))
    testSet = []
    import random
    for i in range(20):
        rangeIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[rangeIndex])
        del(trainingSet[rangeIndex])
    #testSet = [int(num) for num in random.sample(range(2 * minLen),20)]
    #trainingSet = list(set(range(2 * minLen)) - set(testSet))
    trainMat = []
    trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB1(array(trainMat), array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ', float(errorCount) / len(testSet))
    return vocabList, p0V, p1V

词袋模型：它与函数setOfWords2Vec()几乎完全相同，唯一不同的是每当遇到一个单词时，它会增加词向量中的对应值，而不只是将对应的数值设为1。

#朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)   #创建一个其中所含元素都为0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec