2. 感知机 3. k近邻法 4. 朴素贝叶斯

最新推荐文章于 2022-03-07 18:22:45 发布

带刺的厚崽

最新推荐文章于 2022-03-07 18:22:45 发布

阅读量825

点赞数

文章标签：感知机 k近邻朴素贝叶斯

本文链接：https://blog.csdn.net/weixin_45360119/article/details/121411473

版权

2. 感知机 3. k近邻法 4. 朴素贝叶斯

2. 感知机

1．感知机是根据输入实例的特征向量 $x$ 对其进行二类分类的线性分类模型：

输入空间（特征空间）是 $X\subseteq R^n$ ，输出空间是 $y\in \{+1,-1\}$ 。

输入 $\in X$ 表示实例的特征向量，对应于输入空间（特征空间）的点。

输出 $\in Y$ 表示实例的类别，由输入空间到输出空间的如下函数：
$f(x)=\operatorname{sign}(w \cdot x+b)$

感知机模型对应于输入空间（特征空间）中的分离超平面 $\cdot x+b=0$ 。

其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。

数据集的线性可分性：

对所有 $y_i=+1$ 的实例 $i$ ，有 $\cdot x_i + b > 0$ 。

对所有 $y_i=-1$ 的实例 $i$ ，有 $\cdot x_i+b < 0$ 。

2．感知机学习的策略是极小化损失函数：
$\min _{w, b} L(w, b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
损失函数对应于误分类点到分离超平面的总距离。

损失函数是非负的，如果没有误分类点，损失函数值是0。

3．感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。算法简单且易于实现。原始形式中，首先任意选取一个超平面，然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选取一个误分类点使其梯度下降。

原始形式：

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ，其中 $x_i \in X = R^n$ ， $y_i \in Y = \{-1,+1\}$ ， $1,2,\dots,N$ ，学习率 $\eta(0 < \eta \le 1)$

输出： $w, b$ 。感知机模型 $\cdot x + b)$

① 选取初值 $w_0,b_0$

②在训练集中选取数据 $x_i,y_i)$

③如果 $y_i(w \cdot x_i+b) \le 0$
$\to w +\eta y_ix_i \\ b \to b + \eta y_i$
④转至②，直至训练集中没有误分类点

4．当训练数据集线性可分时，感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数 $k$ 满足不等式：
$\leqslant\left(\frac{R}{\gamma}\right)^{2}$

当训练数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或不同的迭代顺序而可能有所不同。

3. k近邻法

1． $k$ 近邻法是基本且简单的分类与回归方法。 $k$ 近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的 $k$ 个最近邻训练实例点，然后利用这 $k$ 个训练实例点的类的多数来预测输入实例点的类。

2． $k$ 近邻模型对应于基于训练数据集对特征空间的一个划分。 $k$ 近邻法中，当训练集、距离度量、 $k$ 值及分类决策规则确定后，其结果唯一确定。

3． $k$ 近邻法三要素：距离度量、 $k$ 值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的pL距离。 $k$ 值小时， $k$ 近邻模型更复杂； $k$ 值大时， $k$ 近邻模型更简单。 $k$ 值的选择反映了对近似误差与估计误差之间的权衡，通常由交叉验证选择最优的 $k$ 。

常用的分类决策规则是多数表决，对应于经验风险最小化。

4． $k$ 近邻法的实现需要考虑如何快速搜索k个最近邻点。kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树，表示对 $k$ 维空间的一个划分，其每个结点对应于 $k$ 维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

距离度量

设特征空间 $x$ 是 $n$ 维实数向量空间， $x_{i}, x_{j} \in \mathcal{X}$ , $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$ , $x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \cdots, x_{j}^{(n)}\right)^{\mathrm{T}}$ ，则： $x_i$ , $x_j$ 的 $L_p$ 距离定义为:

$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{i=1}^{n}\left|x_{i}^{(i)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$

- $p = 1$ 曼哈顿距离

- $p = 2$ 欧氏距离

- $\infty$ 切比雪夫距离

kd树

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。

kd树是二叉树，表示对 $k$ 维空间的一个划分（partition）。构造kd树相当于不断地用垂直于坐标轴的超平面将 $k$ 维空间切分，构成一系列的k维超矩形区域。kd树的每个结点对应于一个 $k$ 维超矩形区域。

构造kd树的方法如下：

构造根结点，使根结点对应于 $k$ 维空间中包含所有实例点的超矩形区域；通过下面的递归方法，不断地对 $k$ 维空间进行切分，生成子结点。在超矩形区域（结点）上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域。这个过程直到子区域内没有实例时终止（终止时的结点为叶结点）。在此过程中，将实例保存在相应的结点上。

通常，依次选择坐标轴对空间切分，选择训练实例点在选定坐标轴上的中位数（median）为切分点，这样得到的kd树是平衡的。注意，平衡的kd树搜索时的效率未必是最优的。

构造平衡kd树

输入： $k$ 维空间数据集 $T＝\{x_1，x_2,…,x_N\}$ ，其中 $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(k)}\right)^{\mathrm{T}}$ ， $i ＝ 1, 2, \dots, N$ ；

输出：kd树。

（1）开始：构造根结点，根结点对应于包含 $T$ 的 $k$ 维空间的超矩形区域。

选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由根结点生成深度为1的左、右子结点：左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应于坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在根结点。

（2）重复：对深度为 $j$ 的结点，选择 $x^{(1)}$ 为切分的坐标轴， $l ＝ j (m o d k) + 1$ ，以该结点的区域中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由该结点生成深度为 $j + 1$ 的左、右子结点：左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在该结点。

（3）直到两个子区域没有实例存在时停止。从而形成kd树的区域划分。

4. 朴素贝叶斯

输入空间 $\subseteq R^n$ 为 $n$ 为向量集合

输出空间为类标记集合 $y=\{c_1,c_2,\dots c_k\}$

$P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$
由 $P (X, Y)$ 独立同分布产生

1．朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (Y ∣ X)$ 。具体来说，利用训练数据学习 $P (X ∣ Y)$ 和 $P (Y)$ 的估计，得到联合概率分布： $P (X, Y) ＝ P (Y) P (X ∣ Y)$

概率估计方法可以是极大似然估计或贝叶斯估计。

2．朴素贝叶斯法的基本假设是条件独立性，
$\begin{aligned} P(X&=x | Y=c_{k} )=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}$
这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。

3．朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

$X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y) P(X | Y)}{\sum_{Y} P(Y) P(X | Y)} \\$

通过上述朴素贝叶斯公式进行带入
$\max_{c_k}\frac{P(Y = c_k)\prod \limits_{j} P(X^{(j)} = x^{(j)} | Y = c_k)}{\sum \limits_k P(Y = c_k)\prod \limits_{j} P(X^{(j)} = x^{(j)} | Y = c_k)} \qquad k = 1, 2, \dots, K$

将输入 $x$ 分到后验概率最大的类 $y$ 。
$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)$

后验概率最大等价于0-1损失函数时的期望风险最小化。

先验概率 $P(Y = c_k)$ 极大似然估计
$c_k) = \frac{\sum \limits_{i=1} ^ {N} I (y _ i = c_k)}{N} \qquad k = 1,2, \dots,K$
设第 $j$ 个特征 $x^{(j)}$ 可能取值集合为 $\{a_{j1},\dots,a_{jS_j}\}$ ，条件概率 $P(X^{(j)} = a_{jl},y_i = c_k)$ 的极大似然估计是：
$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum \limits _ {i=1}^NI(X_i^{(j)}=a_{jl},y_i=c_k)}{\sum \limits_{i=1} ^ N I(y_i = c_k)}$
$x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值

贝叶斯估计

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum \limits _ {i=1}^NI(X_i^{(j)}=a_{jl},y_i=c_k) + \lambda}{\sum \limits_{i=1} ^ N I(y_i = c_k) + s_j \lambda} \\ P_{\lambda}(Y = c_k)=\frac{\sum \limits_{i=1}^{N}I(y_i=c_k)+\lambda}{N + K \lambda}$

模型：

- 高斯模型

- 多项式模型

- 伯努利模型

GaussianNB 高斯朴素贝叶斯

特征的可能性被假设为高斯

概率密度函数：
$P(x_i | y_k)=\frac{1}{\sqrt{2\pi\sigma^2_{yk}}}exp(-\frac{(x_i-\mu_{yk})^2}{2\sigma^2_{yk}})$

数学期望(mean)： $\mu$

方差： $\sigma^2=\frac{\sum(X-\mu)^2}{N}$

带刺的厚崽

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2. 感知机 3. k近邻法 4. 朴素贝叶斯

2. 感知机 3. k近邻法 4. 朴素贝叶斯2. 感知机1．感知机是根据输入实例的特征向量xxx对其进行二类分类的线性分类模型：输入空间（特征空间）是X⊆RnX\subseteq R^nX⊆Rn，输出空间是y∈{+1,−1}y\in \{+1,-1\}y∈{+1,−1}。输入x∈Xx \in Xx∈X 表示实例的特征向量，对应于输入空间（特征空间）的点。输出y∈Yy \in Yy∈Y表示实例的类别，由输入空间到输出空间的如下函数：f(x)=sign⁡(w⋅x+b)f(
复制链接

扫一扫