一、算法介绍
朴素贝叶斯
有监督学习分类算法
二、算法原理
朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y
三、算法特点
1、算法的逻辑性简单,算法较为稳定
2、数据集独立性不好,分类效果就不好
四、三种朴素贝叶斯
由贝叶斯定理,基于样本特征之间相互独立的假设(在根据特征预测标签时,朴素贝叶斯算法假定特征和特征之间没有关系,
而假定特征相互独立之后,会让问题变得简单,simple - Naive 朴素–就是简单)
假定特征相互独立之后,让效率变高
三种朴素贝叶斯
特征值不同,选择不同的朴素贝叶斯算法
1、伯努利朴素贝叶斯
伯努利分布:特征值只有0 or 1取值
2、高斯朴素贝叶斯
高斯分布(正态分布)
高斯在观察数据中发现有一个现象(一种数据分布);关于均值对称,这种数据成为正态分布的数据
正态分布 normal 正常分布、常见分布
生活中大部分现象都是满足 or 近似 正态分布
3、多项式朴素贝叶斯
多项式分布:特征值[是非负数] 0 1 2 3 4…