- 博客(3)
- 收藏
- 关注
原创 利用朴素贝叶斯原理过滤垃圾邮件(TF-IDF算法)
本人是新手,为了还原该过程用了自己的方法,可能时间复杂度较高,并且在训练数据时也没有用到SKlearn模块中的贝叶斯分类器,是为了尝试自己去还原求后验条件概率这个过程。一、简述朴素贝叶斯原理二、导入邮件数据集并提取出邮件正文部分,同时匹配标注好该正文是垃圾邮件还是正常邮件三、将全体邮件的每个邮件正文进行分词,剔除停用词,并计算出每个分词的TF-IDF权重值四、分割出训练集,利用TF-IDF值计算出每个分词出现的先验条件概率五、在测试集中计算每封邮件的预测类,并计算出测试误差率,准确率,精确率,召回率,F1值
2022-08-12 23:35:30 6155 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人