机器学习实战03：朴素贝叶斯

最新推荐文章于 2022-04-12 20:07:29 发布

Evil

最新推荐文章于 2022-04-12 20:07:29 发布

阅读量186

点赞数

分类专栏：机器学习实战文章标签：机器学习实战03：朴素贝叶斯

本文链接：https://blog.csdn.net/weixin_45398231/article/details/103220260

版权

机器学习实战专栏收录该内容

9 篇文章 0 订阅

订阅专栏

- 基于贝叶斯决策理论的分类方法

优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

- 朴素贝叶斯的一般过程

(1) 收集数据：可以使用任何方法。本章使用RSS源。
(2) 准备数据：需要数值型或者布尔型数据。
(3) 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
(4) 训练算法：计算不同的独立特征的条件概率。
(5) 测试算法：计算错误率。
(6) 使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本

- 示例1：使用朴素贝叶斯过滤垃圾邮件

(1) 收集数据：提供文本文件。
(2) 准备数据：将文本文件解析成词条向量。
(3) 分析数据：检查词条确保解析的正确性。
(4) 训练算法：使用我们之前建立的trainNB0()函数。
(5) 测试算法：使用classifyNB()，并且构建一个新的测试函数来计算文档集的错误率。
(6) 使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

1、准备数据：切分文本
2、测试算法：使用朴素贝叶斯进行交叉验证

def texParse(bigString)
    import re
    listofTokens = re.split(r'\w*',bigString)
    return [tok.lower() for tok in listofTokens if len(tok) > 2]
def spamTest():
    docList = [];classList = [];fullText = []
    for i in range(1,26)
        wordList = textParse(open('email/spam/%d.tet'%i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.tet'%i).read())
        docList.append(wordList)
        fullList.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50);testSet = []
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = [];trainClasses = []
    for docIndex in trainingSEt:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam != classList[docIndex]:
            errorCount += 1
        print 'the error rate is: ',float(erroeCount)/len(testSet)

- 示例2：使用朴素贝叶斯分类器从个人广告中获取区域取向

(1) 收集数据：从RSS源收集内容，这里需要对RSS源构建一个接口。
(2) 准备数据：将文本文件解析成词条向量。
(3) 分析数据：检查词条确保解析的正确性。
(4) 训练算法：使用我们之前建立的trainNB0()函数。
(5) 测试算法：观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高
分类结果。
(6) 使用算法：构建一个完整的程序，封装所有内容。给定两个RSS源，该程序会显示最
常用的公共词。

1、收集数据：导入RSS源RSS源分类器及高频词去除函数：计算高频词的出现频率、每次访问一条RSS源、去掉出现次数最多的那些词。为了得到错误率的精确估计，应该多次进行上述实验，然后取平均值。这里的错误率要远高于垃圾邮件中的错误率。由于这里关注的是单词概率而不是实际分类，因此这个问题倒不严重。可以通过函数caclMostFreq()改变要移除的单词数目，然后观察错误率的变化情况。

2、分析数据：显示地域相关的用词

def getTopWords(np,sf):
    import operator
    vocabList,p0V,p1V = localWords(ny,sf)
    topNY = [];topSF = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0:topSF.append((vocabList[i],p0V[i]))
        if p1V[i] > -6.0:topNY,append((vocabList[i].p1V))
    sortedSF = sorted(topSF, key = lambda pair:pair[1],reverse = True)
    print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**"
    for item in sortedNY:
        print item[0]