朴素贝叶斯检测垃圾邮件

Ice-冰鸽

已于 2022-11-27 21:35:32 修改

阅读量1.1k

点赞数

分类专栏：机器学习文章标签： python 人工智能

于 2022-11-27 21:35:23 首次发布

本文链接：https://blog.csdn.net/weixin_51998481/article/details/128069603

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

问题分析

本次实验需要进行垃圾邮件检测，实现原理为统计所有邮件中出现的单词频率，并以此作为其出现概率，假设每个单词的使用都是独立的。设A为检测结果（是或否）， $B_i$ 为检测邮件中的某个单词。因此我们仅需计算
$P(A)=\frac{P(A|B)\times P(B)}{P(B|A)} =\frac{P(A|B)\times \prod_{i=0}^{N}P(B_i)}{P(B|A)}$
即可得到邮件是否为垃圾邮件的概率，通过比较得出最后结果。

数据准备

在这里插入图片描述
将邮件用txt形式存储，并分为两类存放于不同的文件夹中。

代码实现

编写朴素贝叶斯类

导入必要库

from numpy import *

过滤社区侮辱性文字

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 侮辱性文字, 0 正常文字
    return postingList,classVec

建立文档词条

合并所有单词并构造单词集合

#建立文档词条
def createVocabList(dataSet):
    vocabSet=set([])
    for document in dataSet:
        vocabSet=vocabSet|set(document)  #集合合并
    return list(vocabSet)

词集模型

为输入邮件构建单词集合

#词集模型
def setOfWord2Vec(vocabList,inputSet):
    returnVec=zeros(len(vocabList))
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:
            print("这个单词不在所有的单词向量里面") 
    return  returnVec

词袋模型

#词袋模型
def bagOfword2VecMN(vocabList,inputSet):
    returnVec=[0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]+=1
    return  returnVec

朴素贝叶斯训练函数

#朴素贝叶斯训练函数
def trainB0(trainMatrix,trainCategory):
    numTrainDocs=len(trainMatrix)
    numwords=len(trainMatrix[0])
    #对于category为0,1 才可以使用sum
    pAbusive=sum(trainCategory)/float(numTrainDocs)
    p0Num=ones(numwords)
    p1Num=ones(numwords)

    p0Denom=2.0
    p1Denom=2.0
    for i in range(numTrainDocs):
        if trainCategory[i]==1:
            p1Num+=trainMatrix[i]
            p1Denom+=sum(trainMatrix[i])
        else:
            p0Num+=trainMatrix[i]
            p0Denom+=sum(trainMatrix[i])

    p1Vect=log(p1Num/p1Denom)
    p0Vect=log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

朴素贝叶斯分类函数

#朴素贝叶斯分类函数
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1=sum(vec2Classify*p1Vec)+log(pClass1)
    p0=sum(vec2Classify*p0Vec)+log(1-pClass1)
    if p1>p0:
        return 1
    else:
        return 0

朴素贝叶斯预测函数

def testingNB():

    dataSet,classVec=loadDataSet()
    vocabList=createVocabList(dataSet)

    trainMat=[]
    for doc in dataSet:
        trainMat.append(setOfWord2Vec(vocabList,doc))

    p0V,p1V,pAb=trainB0(array(trainMat),array(classVec))
    testEntry=['love','my','dalmation']
    thisDoc=array(setOfWord2Vec(vocabList,testEntry))
    #计算贝叶斯分类结果
    result=classifyNB(thisDoc,p0Vec=p0V,p1Vec=p1V,pClass1=pAb)
    result="正常言论" if result==0 else "侮辱言论"
    print(r"分类结果:",result)

编写预测类

导入必要库

from numpy import *
import re
from os import listdir
from bayes import *
import random

提取单词

#将输入的文本字符串分割成单词list
def textParse(bigString):
    listOfTokens=re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok)>2]

垃圾邮件测试

对所有数据训练出模型后在原数据进行测试得到对应结果

def spamTest():
    docList=[]
    classList=[]
    fullText=[]

    filenameList1=listdir("email/spam")
    for name in filenameList1:
        wordList=textParse(open("email/spam/"+name).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)

    filenameList2=listdir("email/ham")
    for name in filenameList2:
        wordList = textParse(open("email/ham/"+name).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)

    vocabList=createVocabList(docList)
    trainingSet=list(range(len(docList)))

    testSet=[]
    for i in range(int(0.2*len(docList))):
        randIndex=int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[]
    trainClasses=[]
    for docIndex in trainingSet:
        trainMat.append(setOfWord2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])

    p0V,p1V,pSpam=trainB0(array(trainMat),array(trainClasses))
    errorCount=0

    for  docIndex in testSet:
        wordVector=setOfWord2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam)!=classList[docIndex]:
            errorCount+=1
    print (r"错误率:",float(errorCount/float(len(testSet))))