第三章 k近邻算法

最新推荐文章于 2022-04-06 18:41:05 发布

「已注销」

最新推荐文章于 2022-04-06 18:41:05 发布

阅读量488

点赞数

分类专栏：统计机器学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/94779699

版权

本文详细介绍了k近邻算法，包括算法原理、距离度量、k值选择和分类决策规则。讨论了k值对模型的影响，提出多数表决规则，并引入kd树以优化搜索效率。在kd树的帮助下，k近邻算法的平均计算复杂度降低为O(logN)。

摘要由CSDN通过智能技术生成

$k$ 近邻算法学习日志

第三章 $k$ 近邻算法

$k$ 近邻算法：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 $k$ 个实例，这 $k$ 个实例的多数属于某个类，就把该输入实例分为这个类。
输入：训练数据集
$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ 其中， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ 为实例的特征向量， $y_{i} \in \mathcal{Y}=\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$ 为实例的类别， $\cdots, N$ ；实例特征向量 $x$
输出：实例 $x$ 所属的类 $y$
$(1)$ 根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最近邻的 $k$ 个点，涵盖这 $k$ 个点的的邻域记作 $N_{k}(x)$
$(2)$ 在 $N_{k}(x)$ 中跟分类决策规则(如多数表决)决定 $x$ 的类别 $y$
$y=\arg \max _{c_{j}} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=c_{j}\right), \quad i=1,2, \cdots, N ; \quad j=1,2, \cdots, K \quad (1)$ 在式 $(1)$ 中， $I$ 为指示函数，即当 $y_{i}=c_{j}$ 时为1，否则 $I$ 为0.