引理
先验概率
先验概率:是指根据以往经验和分析得到的概率.举例来说:比如我们摇色子,我们知道抛到任意一个点数的概率都为六分之一,这就是事先就知道的事情。或者我们有一个数据集,label为1和-1,那么我们知道任意一个数据的label为1的概率为二分之一。
后验概率
就是说我们知道结果,然后求引起这个结果的原因的概率。比如,桌子上如果有一瓶水,你如果喝了一口,然后你觉得是甜的,你说:100%加了糖.OK,你已经进行了一次后验概率的猜测。
朴素贝叶斯算法
朴素贝叶斯算法通过训练数据集学习联合分布概率分布P(X,Y).具体的学习与分类算法是
1、首先计算先验概率及条件概率:
P(Y=ci) = xxxx(简单理解就是每个label对应的概率,如上述的摇色子的每个结果都是1/6)。
P(X^(j) = ajl|Y = ci) (就是说每一个样本在label等于ci时的第j维特征为ajl的条件概率)
2、对于给定的实例x
计算P(Y=ci)*∏P(X^(j) = xj|Y = ci)
3、取第2步中算得的最大值对应的类作为分类结果。
《统计学习方法》-李航:p50