R语言之文本挖掘

文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。

贝叶斯公式:


P(H|X) = P(X|H)P(H)/P(X)

解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几个组合起来的,P(X|H)就不好求了,因为词组合的数太多。所以此时引进了朴素贝叶斯来求,此时准确率没有贝叶斯高,朴素贝叶斯,假定各个词都是独立的(实际上有些词不是独立的,所以才导致准确率下降),P(X|H)=P(X1|H)P(X2|H).......P(Xn|H)  (X有n个独立的词组成),P(X)=P(X1)P(X2).......P(Xn),当H是多类的情况下,要判断属于哪个类,此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值