朴素贝叶斯法
总述
朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征独立性假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x x x,利用贝叶斯定理求出后验概率最大的输出 y y y。朴素贝叶斯法实际上学到了生成数据的机制,属于生成模型。
1 朴素贝叶斯法的学习与分类
1.1 基本方法
设输入空间 x x x包含于 R n R^n Rn是 n n n维向量的集合,输出空间为类标记集合 y = y= y={
c 1 , c 2 , . . . , c k c_1, c_2, ..., c_k c1,c2,...,ck}。输入为特征向量 x x x,输出为类标记 y y y。 X X X是定义在输入空间 x x x上的随机变量, Y Y Y是定义在输出空间 y y y上的随机变量。 p ( X , Y ) p(X,Y) p(X,Y)是 X X X和 Y Y Y的联合概率分布。训练数据集
T = T= T={
( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) (x_1,y_1), (x_2,y_2),..., (x_N,y_N) (x1,y1),(x2,y2),...,(xN,yN)}由 p ( X , Y ) p(X,Y) p(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集 T T T学习联合概率分布 p ( X , Y ) p(X,Y) p(X,Y),具体的,学习以下先验分布即条件概率分布:
- 先验分布: p ( Y = c k ) , k = 1 , 2 , . . . , K p(Y=c_k), k=1, 2, ..., K p(Y=c