-
朴素贝叶斯:生成模型
-
预测思路:给定输入,生成在该输入的情况下各类发生的概率,然后选择概率最大的类。
-
具体:结合贝叶斯公式、独立同分布的假设和极大似然估计,运用训练数据。
-
分类问题:从数学角度来说,分类问题可做如下定义:已知集合 C = y 1 , y 2 , . . . , y n C=y_{1},y_{2},...,y_{n} C=y1,y2,...,yn和 I = x 1 , x 2 , . . . , x n I=x_{1},x_{2},...,x_{n} I=x1,x2,...,xn,确定映射规则 y = f ( ) y=f() y=f(),使得任意 x i ∈ I x_{i}\in I xi∈I有且仅有一个 y i ∈ C y_{i}\in C yi∈C, 使得 y i ∈ f ( x i ) y_{i}\in f(x_{i}) yi∈f(xi)成立
其中 C C C叫做类别集合,其中每一个元素是一个类别,而 I I I叫做项集合(特征集合),其中每一个元素是一个待分类项, f f f叫做分类器。分类算法的任务就是构造分类器 f f f。 -
贝叶斯公式:
换个表达形式:
我们最终求的 p ( 类 别 ∣ 特 征 ) p(类别|特征) p(类别∣特征)即可 -
朴素贝叶斯分类的优缺点
优点:
(1) 算法逻辑简单,易于实现
(2)分类过程中时空开销小
缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
算法过程参考:
https://zhuanlan.zhihu.com/p/26262151