K近邻的建模

Monkeyer02

已于 2023-05-21 16:25:17 修改

阅读量148

点赞数

分类专栏：传统机器学习算法原理文章标签：机器学习 python

于 2023-05-20 16:19:10 首次发布

本文链接：https://blog.csdn.net/weixin_59740529/article/details/130782791

版权

传统机器学习算法原理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

K近邻算法（K-Nearest Neighbors Algorithm）是一种简单而常用的监督学习算法，用于分类和回归问题。该算法基于一个假设：相似的样本具有相似的输出值。它的原理可以用以下数学公式描述：

距离度量（Distance Measure）

在K近邻算法中，首先需要定义样本之间的距离或相似度。常用的距离度量方法包括欧氏距离（Euclidean Distance）、曼哈顿距离（Manhattan Distance）、闵可夫斯基距离（Minkowski Distance）等。

对于两个样本向量𝑥和𝑦，欧氏距离可以表示为：
$\sqrt{(\sum(x_i - y_i)^2)}$
曼哈顿距离可以表示为：
$\sum|x_i - y_i|$
闵可夫斯基距离是一种广义的距离度量，可以表示为：
$(\sum({|x_i - y_i|}^p))^{\frac{1}{q}}$

K近邻的选择

在算法的训练阶段，将训练样本的特征向量和对应的标签值存储起来。当需要预测一个新样本的标签时，算法会计算该新样本与训练集中所有样本的距离，并选择与该新样本距离最近的K个样本作为其近邻。

多数表决（Majority Voting）

$k$ 近邻法中分类决策规则往往是多数表决，即由输入实例的 $k$ 个邻近的训练实例中的多数类决定输入实例的类.分类函数为：
$f:{{R}^{n}}\to \left\{ {{c}_{1}},{{c}_{2}},\cdots ,{{c}_{K}} \right\}$
那么误分类的概率是：
$P\left( Y\ne f\left( X \right) \right)=1-P\left( Y\equiv f\left( X \right) \right)$
对给定的实例 $\overrightarrow{x}\in \chi$ ，其最近邻的 $k$ 个训练实例点构成的集合 ${{N}_{k}}\left( \overrightarrow{x} \right)$ 。如果涵盖 ${{N}_{k}}\left( x \right)$ 的区域的类别是 ${{c}_{j}}$ ，那么误分类概率是：
$\frac{1}{k}\sum\limits_{{{\overrightarrow{x}}_{i}}\in {{N}_{k}}\left( \overrightarrow{x} \right)}{I\left( {{y}_{i}}\ne {{c}_{j}} \right)}=1-\frac{1}{k}\sum\limits_{{{\overrightarrow{x}}_{i}}\in {{N}_{k}}\left( \overrightarrow{x} \right)}{I\left( {{y}_{i}}={{c}_{j}} \right)}$
要使误分类率最小即经验风险最小，就要使
$\sum\limits_{{{\overrightarrow{x}}_{i}}\in {{N}_{k}}\left( \overrightarrow{x} \right)}{I\left( {{y}_{i}}={{c}_{j}} \right)}$