公式:P(Y|X) = P(X|Y)P(Y) / P(X)
即在X事件已经确定发生的情况下,Y发生的概率P(Y|X)
等于P(X|Y)即是Y发生的情况下,X发生的概率,乘以Y发生的P(Y)概率,除以X发生的概率P(X).
所以联合概率P(X,Y) = P(X|Y)P(Y) = P(Y|X)P(X)
P(Y)是先验概率,P(Y|X)是后验概率P(X,Y)则是联合概率
用机器学习的角度来了解
其实就是概率性质的转换,把具有某特征同时属于某类的概率转换成属于某类同时具有某特征的概率
属于有监督学习
条件独立假设:
P(X|C) = P(X1,X2,X3...Xn|C)=P(X1|C)*P(X2|C)*P(X3|C)....P(Xn|C)
比如拿垃圾邮件去举例,把邮件内容分割成一个个的词
然后根据单个词在垃圾邮件的出现率求个概率P(X),然后根据单个词在正常邮件里面的出现率求个概率P(Y),然后P(X)/P(Y)>1即是垃圾邮件
既然是分割成一个个词,就代表Niave完全不考虑词汇的顺序,也即是'我''爱''你'=='你''爱''我'
衍生出来的概率叫词袋
朴素贝叶斯的三种模型
伯努利模型
所有词汇只考虑一次并不考虑重复的问题
多项式模型
考虑具体的词汇出来的次数,出现几次就求多少次方的概率
混合模型
在训练的时候考虑重复出现的概率,在判断的时候不考虑
平滑技术
平滑技术就是为了解决当一个词在垃圾和正常邮件均没出现过,使得概率变为0,计