机器学习——贝叶斯分类(Bayesian Classification)

学习啊ZzZ

已于 2023-10-09 11:01:35 修改

阅读量4.5k

点赞数 4

分类专栏：机器学习文章标签：机器学习算法人工智能分类

于 2023-10-08 11:24:59 首次发布

本文链接：https://blog.csdn.net/weixin_58427214/article/details/133670647

版权

机器学习专栏收录该内容

9 篇文章 14 订阅

订阅专栏

一、贝叶斯分类

1、贝叶斯分类

贝叶斯分类属于有监督学习算法，基于贝叶斯公式。

2、适用场景

不能被线性分离，但是具有明显的概率分布。

二、贝叶斯分类要素

1、数据

贝叶斯分类的数据即一系列自变量以及对应的因变量（分类标签）。

2、模型

贝叶斯公式

$P(C_{i}|x)=\frac{P(C_{i})P(x|C_{i})}{P(x)}$

其中， x为自变量， $C_{i}$ 为第i个类别， $P(C_{i}|x)$ 为x发生后属于 $C_{i}$ 的后验概率， $P(C_{i})$ 为属于 $C_{i}$ 的先验概率， $P(x|C_{i})$ 为x在 $C_{i}$ 中的概率， $P(x)$ 为x发生的概率。

模型

根据最大后验估计（MAP）：

$C_{i}=argmax_{i}P(C_{i}|x)$ ,

由于 $P(x)$ 为常量，所以：

$C_{i}=argmax_{i}P(C_{i})P(x|C_{i})$ .

对于n维自变量：

$x=\begin{bmatrix} x_{1} & x_{2} & ...... & x_{n} \end{bmatrix}$ ,

$P(x|C_{i})=P(x_{1},x_{2},...,x_{n}|C_{i})=P(x_{1}|C_{i})P(x_{2}|x_{1},C_{i})...P(x_{n}|x_{1},x_{2}...x_{n-1},C_{i})$ ,

根据朴素贝叶斯独立假设，假设所有自变量条件独立，则有：

$P(x|C_{i})=P(x_{1},x_{2},...,x_{n}|C_{i})=\prod_{j=1}^{n}P(x_{j}|C_{i})$ ,

所以朴素贝叶斯模型为：

$C_{i}=argmax_{i}P(C_{i})\prod_{j=1}^{n}P(x_{j}|C_{i})$ .

当类别 $C_{i}$ 中存在自变量 $x_{j}$ 的数量为零的属性值 $x_{j}^{(k)}$ 时，则会出现零数问题，即：

$P(x_{j}^{(k)}|C_{i})=0$ ,

$\prod_{j=1}^{n}P(x_{j}|C_{i})=0$ ,

因此，通常使用拉普拉斯平滑（Laplace Smoothing），给每个属性值增加一个数量：

$P(x_{j}|C_{i})=\frac{count(x_{j}^{(k)},C_{i})+1}{\sum_{x\epsilon\left | x_{j} \right |}(count(x,C_{i})+1)}$

其中， $count(x_{j}^{(k)},C_{i})$ 为类别 $C_{i}$ 中自变量 $x_{j}$ 值为 k 时的数据数量，x为自变量 $x_{j}$ 中所有的可能值情况。

3、朴素贝叶斯算法

训练阶段

外层循环：对于每一个类别 $C_{i} \epsilon C$ ，计算 $P(C_{i})$
内层循环：对于 $C_{i}$ 中每一个属性 $x_{j}\epsilon x$ 的每一个属性值 $x_{j}^{(k)}$ ,计算 $P(x_{j}^{(k)}|C_{i})$

测试阶段

$C_{i}=argmax_{i}P(C_{i})\prod_{j=1}^{n}P(x_{j}|C_{i})$

三、朴素贝叶斯分类实践（sklearn）

以kaggle中数据集"Ionosphere"为例

1、数据准备

直接下载使用"Ionosphere"数据集，并读取数据

import pandas as pd

dataset = pd.read_csv('./ionosphere_data.csv')  # 读取数据集ionosphere_data.csv

独热编码，相较于序数编码，可以消除数值关系，降低噪声

import category_encoders as ce

encoder = ce.OneHotEncoder(cols=['column_a', 'column_b'], use_cat_names=True).fit(
    dataset)  # 对column_a和column_b两列进行独热编码

encoder_dataset = encoder.transform(dataset)

离散化连续变量

# 对数据集中第2到第33列离散化，将每列的数值分成10个区间，并用0到9的标签替换
for i in range(2, 34):
    col = dataset.columns[i]
    encoder_dataset[col] = pd.cut(dataset[col], bins=10, labels=range(0, 10))

2、训练模型

Hold-out,划分训练集和测试集

from sklearn.model_selection import train_test_split

X = encoder_dataset.drop(['column_ai'], axis=1)  # 删除column_ai，作为特征X
y = encoder_dataset['column_ai']  # 将column_ai作为目标y

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33,
                                                    random_state=11)  # 将数据集按照33%的比例划分为训练集和测试集，设置随机种子为11

训练一个分类朴素贝叶斯分类器，强制使用拉普拉斯平滑

from sklearn.naive_bayes import CategoricalNB

CNB = CategoricalNB(force_alpha=True)  # 创建一个CategoricalNB对象，指定强制使用拉普拉斯平滑

CNB.fit(X_train, y_train)  # 使用训练集拟合分类器

3、评估模型

输出分类器分别在训练集和测试集上的准确率

print("Score of train-set : {:.4f}".format(CNB.score(X_train, y_train)))  # 打印分类器在训练集上的准确率
print("Score of test-set : {:.4f}".format(CNB.score(X_test, y_test)))  # 打印分类器在测试集上的准确率

结果如下：

Score of train-set : 0.9191
Score of test-set : 0.9310