朴素贝叶斯垃圾邮件分类实验

最新推荐文章于 2024-07-31 14:30:10 发布

yggdrasil0117

最新推荐文章于 2024-07-31 14:30:10 发布

阅读量277

点赞数

文章标签：分类 python 数据挖掘

本文链接：https://blog.csdn.net/yggdrasil0117/article/details/128015376

版权

本文介绍了一次朴素贝叶斯算法在垃圾邮件分类中的应用实验。通过Python编程实现，详细阐述了数据预处理、模型训练以及评估过程，展示了如何利用朴素贝叶斯算法有效地区分正常邮件和垃圾邮件。

摘要由CSDN通过智能技术生成

import os
import re
import string
import math

DATA_DIR = 'enron Email dataset/enron'
target_names = ['ham', 'spam']


def get_data(DATA_DIR):
    subfolders = ['enron%d' % i for i in range(1, 7)]
    data = []
    target = []
    for subfolder in subfolders:
        # spam
        spam_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'spam'))
        for spam_file in spam_files:
            with open(os.path.join(DATA_DIR, subfolder, 'spam', spam_file), encoding="latin-1") as f:
                data.append(f.read())
                target.append(1)
        # ham
        ham_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'ham'))
        for ham_file in ham_files:
            with open(os.path.join(DATA_DIR, subfolder, 'ham', ham_file), encoding="latin-1") as f:
                data.append(f.read())
                target.append(0)
    return data, target


X, y = get_data(DATA_DIR)


class SpamDetector_1(object):
    """Implementation of Naive Bayes for binary classification"""

    # 清除空格
    def clean(self, s):
        translator = str.maketrans("", "", string.punctuation)
        return s.translate(translator)

    # 分开每个单词