1 朴素贝叶斯模型
- 定义:基于贝叶斯定理和特征条件独立假设的分类方法。
- 贝叶斯定理(可以参考我的上篇文章朴素贝叶斯(一)知识准备—条件概率、全概率、贝叶斯公式)
- 条件独立假设—后面会介绍
- 贝叶斯模型是通过训练集学习联合分布P(X,Y),从而进一步求解 后验概率P(Y | X)
- 贝叶斯模型是生成模型。
下面我们先来看变量表示
- 变量表示
- 输入变量表示为X–m维向量的集合(m个特征);
- 输出空间为类标记集合表示为 Y = { c 1 . c 2 , . . . , c K } Y=\{c_1.c_2,...,c_K\} Y={ c1.c2,...,cK};
- 训练集为 { ( x 1 , y 1 ) . ( x 2 , y 2 ) , . . . , ( x n , y n ) } \{(x_1,y_1).(x_2,y_2),...,(x_n,y_n)\} { (x1,y1).(x2,y2),...,(xn,yn)}(n个样本),特征向量 x i x_i xi(第i个样本)可以表示为 x i = ( x i 1 , x i 2 , . . . , x i m ) T x_i=(x_i^1,x_i^2,...,x_i^m)^T xi=(xi1,xi2,...,xim)T,其中 x i j x_i^j xij表示为第i个输入变量的第j个特征。
接着介绍几个概念。
- 先验概率分布
P ( Y = c k ) , k = 1 , 2 , . . . , K P(Y=c_k),k=1,2,...,K P(Y=ck),k=1,2,...,K - 条件概率分布
P ( X = x ∣ Y = c k ) = P ( X 1 = x 1 , X 2 = x 2 , . . . , X m = x m ∣ Y = c k ) , k = 1 , 2 , . . . , K P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^m=x^m|Y=c_k),k=1,2,...,K P(X=x∣Y=ck)=P(X1=x1,X2=x2,...,Xm=xm∣Y=ck),k