一、贝叶斯算法引入
朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法,是一种基于概率分布的分类算法。
贝叶斯分类算法,通俗的来讲,在给定数据集的前提下,对于一个新样本(未分类),在数据集中找到和新样本特征相同的样本,最后根据这些样本算出每个类的概率,概率最高的类即为新样本的类。
哈哈,先用个样例来大体感受下。
这里有大学生恋爱情况的数据集,见下表:
首先要注意的是,贝叶斯算法的特征都是离散值,如果是连续值,得先对连续值进行离散化处理。对于这个数据集,我们有三个特征,即性别、专业和身高,恋爱情况为类别,1代表谈恋爱了,0代表还是single dog。
若我们现在有了一个新样本,特征为(男,计算机技术,高),那怎么用贝叶斯算法来判断这个样本的类呢,首先,我们要在数据集中找出和这个新样本特征相同的样本,即下图的红色部分:
然后,根据恋爱情况所有的类别(即0,