目录
1、一维特征向量下的贝叶斯模型
(1)一维特征向量下的贝叶斯模型
贝叶斯分类是机器学习中应用极为广泛的分类算法之一,其产生来自于贝叶斯对于逆概问题的思考,朴素贝叶斯是贝叶斯模型当中最简单的一种。其算法核心为贝叶斯公式:
其中P(A)为事件A发生的概率
P(B)为事件B发生的概率
P(A|B)表示在事件B发生的条件下事件A发生的概率
同理P(B|A)则表示在事件A发生的条件下事件B发生的概率
首先以一个更详细的例子来讲解一下贝叶斯公式更加偏实战的应用:如何判断一个人是否感冒了。假设已经有5个样本数据,如下表所示:
打喷嚏 (X1) | 感冒 (Y) |
1 | 1 |
1 | 1 |
0 | 1 |
1 | 1 |
1 | 0 |
打喷嚏 (X1):其中数字1表示打喷嚏,0表示不打喷嚏;
感冒 (Y):其中数字1表示感冒了,数字0表示未感冒。
利用贝叶斯公式,一个人打喷嚏 (X1=1),那么他是否感冒了呢,也即预测他处于感冒状态的概率为多少,我们把此概率写作P(Y|X1)。应用贝叶斯公式有:
根据上述数据,我们可以计算在打喷嚏 (X1=1) 的条件下,患上感冒的概率为:
同理在打喷嚏 (X1=1) 的条件下,没有患上感冒的概率为:
(2)二维特征向量下的贝叶斯模型
加入另外一个特征变量:头痛(X2),其中数字1表示头痛,0表示不头痛;这里的目标变量仍为感冒(Y)。
打喷嚏 (X1) | 头痛 (X2) | 感冒 (Y) |
1 | 1 | 1 |
1 | 1 | 1 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
一个人他打喷嚏且头痛 (X1=1, X2=1) ,那么他是否感冒了呢,也即预测他处于感冒状态的概率为多少,在数学上,我们把此概率写作P(Y|X1,X2)。应用贝叶斯公式有:
在比较 P(Y=1|X1,X2) 与 P(Y=0|X1,X2) 时,由于分母 P(X1,X2) 的值是相同的,所以我们在实际计算中可以舍去这部分的计算,直接比较两者分子大小即可。即:
在计算该概率之前,我们首先引入朴素贝叶斯模型的独立性假设:朴素贝叶斯模型中各特征之间相互独立,即,因此上式可以写作:
在独立性假设的条件下,我们可以计算打喷嚏且头痛 (X1=1,X2=1) 的条件下感冒的概率P(Y=1|X1,X2) ,即简化为计算:
同理可以计算打喷嚏且头痛 (X1=1,X2=1) 的条件下没有患感冒的概率 P(Y=0|X1,X2), 即简化为计算P(X1|Y=0)P(X2|Y=0)P(Y=0):
由于9/20大于1/5,我们可以判断在打喷嚏但不头痛(X1=1,X2=1) 的条件下患感冒的概率要高于不患感冒的概率。
(3)n维特征向量下的贝叶斯模型
可以在2个特征变量的基础上推广至n个特征变量 X1, X2, ... , Xn,应用贝叶斯公式有:
朴素贝叶斯模型假设给定目标值后特征之间相互独立,上式可以写作:
(4)朴素贝叶斯模型简单代码演示
朴素贝叶斯模型(这里用的是高斯贝叶斯分类器)的引入方式如下所示:
from sklearn.naive_bayes import GaussianNB
朴素贝叶斯模型简单代码演示如下所示:
from sklearn.naive_bayes import GaussianNB
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [0, 0, 0, 1, 1]
model = GaussianNB()
model.fit(X, y)
print(model.predict([[5, 5]]))
2、案例 - 肿瘤预测模型
(1)案例背景
医疗水平突飞猛进,人们对医院快速识别肿瘤是否为良性的要求同样也越来越高,能否根据患者肿瘤的相关特征水平快速判断肿瘤的性质影响着患者的治疗方式和痊愈速度。传统的做法是医生根据数十个指标来判断肿瘤的性质,不过该方法的预测效果依赖于医生的个人经验而且效率较低,而通过机器学习我们有望能快速预测肿瘤的性质。
(2)数据读取与划分
1、读取数据
import pandas as pd
df = pd.read_excel('肿瘤数据.xlsx')
df.head()
最大周长,最大凹陷度,最大面积,最大半径代表所有肿瘤中最大3个值的平均值,平均凹陷度,平均表面纹理灰度值,代表所有肿瘤度的平均值,对于目标变量肿瘤性质,Y=0 代表肿瘤为恶性,Y=1代表肿瘤为良性。
2、划分特征变量和目标变量
通过如下代码将特征变量和目标变量单独提取出来,代码如下:
X = df.drop(columns='肿瘤性质')
y = df['肿瘤性质']
3、模型预测 - 预测数据结果
搭建模型的目的便是希望利用它来预测数据,这里把测试集中的数据导入到模型中来进行预测,代码如下,其中nb_clf就是上面搭建的朴素贝叶斯回归模型。利用创建DataFrame相关知识点,将预测的y_pred和测试集实际的y_test汇总,代码如下:
X = df.drop(columns='肿瘤性质')
y = df['肿瘤性质']
如果想看所有测试集数据的预测准确度,可以使用如下代码:
from sklearn.metrics import accuracy_score
score=accuracy_score(y_pred,y_test)
将score打印输出,发现score的值为0.947,也即预测准确度为94.7%,说明114(569*0.2)个测试数据中,共有约108个数据预测正确,6个数据预测错误。