文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。
贝叶斯公式:
P(H|X) = P(X|H)P(H)/P(X)
解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几个组合起来的,P(X|H)就不好求了,因为词组合的数太多。所以此时引进了朴素贝叶斯来求,此时准确率没有贝叶斯高,朴素贝叶斯,假定各个词都是独立的(实际上有些词不是独立的,所以才导致准确率下降),P(X|H)=P(X1|H)P(X2|H).......P(Xn|H) (X有n个独立的词组成),P(X)=P(X1)P(X2).......P(Xn),当H是多类的情况下,要判断属于哪个类,此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类