朴素贝叶斯是一种十分简单的分类算法,是一种基于概率的分类器,它源于贝叶斯理论,假设样本属性之间相互独立。
思路:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,那个最大,就认为此待分类项属于那个类别。
三个阶段:
1)准备阶段
主要工作是根据具体情况确定特征属性,并适当划分每个特征属性,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程有重要影响。
2)分类器训练阶段
是生成分类器,主要工作是计算每个类别在训练样本中的出现概率及每个特征属性划分对每个类别的条件概率估计,并记录结果。输入是特征属性和训练样本,输出是分类器。