这次课我们来学习朴素贝叶斯方法,朴素贝叶斯方法和我们上次课讲到的内容信息商来构造决策树模型的id3方法类似,不过它是运用贝叶斯公式来构造分类和预测方法的。
朴素贝叶斯方法基于贝叶斯公式提出,其中的朴素是指假设样本中个属性之间是相互独立和条件独立的。本次课的主要内容分为以下四点,首先对独立和条件独立进行说明,其次重温贝叶斯定理,第三是重点内容讲解朴素贝叶斯分类预测方法,最后给出一个实例对算法进行说明。
概率中的相互独立概念我们已经很清楚了,即 a 。: Ab 事件的联合概率等于 a 的概率乘以 b 的概率,条件独立是 g 事件条件下 ab 的联合概率,等于 g 事件条件下 a 概率乘以 b 事件条件下的 p 概率。我们给出两个实例来说明独立和条件独立的概念。第一个例子是肺癌与性别的联系案例。假设性别为男性的条件下,肺癌的发生概率为6.5‰,而性别为女性的条件下,肺癌的发生概率为4.8‰,
此时思考一个问题,性别为 male 或者 female ,这个性别属性与肺癌 c 属性是否条件独立?此时研究时假定吸烟是肺癌的唯一诱因,那么我们只要计算事件 s smoking 和 m 条件下的 cancel 守联合概率是否等于 smoking 条件下的概率即可。第二个实例是颜色的方块图,一共49个网格,红色和蓝色混合是紫色,紫色渲染的网格有六个,红色渲染的网格是16个,蓝色渲染的网格是18个。可以看出 prob 不等于 pr 乘以 pb