第三章 K近邻法

最新推荐文章于 2024-05-19 16:08:29 发布

winds_lyh

最新推荐文章于 2024-05-19 16:08:29 发布

阅读量275

点赞数

分类专栏：统计学习理论文章标签：统计学习

本文链接：https://blog.csdn.net/winds_lyh/article/details/80437638

版权

统计学习理论专栏收录该内容

10 篇文章 0 订阅

订阅专栏

$k$ 近邻法 $(k-NN)$ 是一种基本分类与回归方法。这里只讨论分类问题中的 $k$ 近邻法。
输入：实例的特征向量，对应于特征空间的点；
输出：实例的类别，可以取多类
直观解释：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 $k$ 个实例的多数属于某个类，就把该输入实例分为这个类。
算法 3.1（k近邻法）
输入：训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)},

$T = \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\},$ 其中，

xi∈χ=Rn x i ∈ χ = R n $x_{i}\in \chi=R^n$ 为实例的特征向量,

yi∈Y={c1,c2,...,cK} y i ∈ Y = { c 1 , c 2 , . . . , c K } $y_{i}\in Y=\{c_1,c_2,...,c_K\}$ 为实例的类别，

i=1,2,...,N i = 1 , 2 , . . . , N $i=1,2,...,N$ ；实例特征向量

x x $x$ ；
输出：实例

x

$x$ 所属的类

y y $y$ .
(1) 根据给定的距离度量，在训练集

T

$T$ 中找出与

x x $x$ 最邻近的

k

$k$ 个点，涵盖这个点的

x x $x$ 的邻域记作

N_{k} (x)

$N_k(x)$ ;
(2) 在

Nk(x) N k ( x ) $N_k(x)$ 中根据分类决策规则（如多数表决）决定

x x $x$ 的类别

y

$y$ ：

y = a r g max c j \sum x i \in N k (x) I (y i = c j), i = 1, 2, . . ., N; j = 1, 2, . . ., K

$y=arg\max_{c_j}\sum\limits_{x_i\in N_{k}(x)}I(y_{i}=c_j),i=1,2,...,N;j=1,2,...,K$ 上式中

I I $I$ 为只是函数，即当

y_{i} = c_{j}

$y_i=c_j$ 时

I I $I$ 为1，否则

I

$I$ 为0.

k k $k$ 近邻法的特殊情况是

k = 1

$k=1$ 的情况，称为最近邻算法。对于输入的实例点（特征向量）

x x $x$ ，最近邻法将训练数据集中与

x

$x$ 最邻近点的类作为

x x $x$ 的类。

3.2 $k$ 近邻模型
模型三个基本要素——距离度量、 $k$ 值的选择和分类规则决定。

3.2.1 模型

特征空间中，对每个训练实例点 $x_i$ ，距离该点比其他店更近的所有点组成一个区域，叫作单元（cell）。每个训练实例点拥有一个单元，所有训练实例点的单元构成特征空间的一个划分。最近邻法将实例 $x_i$ 的类 $y_i$ 作为其单元中所有点的类标记（class label）.这样，每个单元的实例点的类别是确定的。

3.2.2 距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。距离可以是：欧式距离， $L_p$ 距离或Minkowski距离。
设特征空间 $\chi$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i,x_j\in \chi$ , $x_i=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)})^T$ , $x_j=(x_{j}^{(1)},x_{j}^{(2)},...,x_{j}^{(n)})^T$ , $x_i,x_j$ 的 $L_p$ 距离定义为

L p (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | p) 1 p

$L_p(x_i,x_j)=\left(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p\right)^{\frac{1}{p}}$ 这里

p≥0 p ≥ 0 $p\ge 0$ .
当

p=2 p = 2 $p=2$ 时，称为欧氏距离，即

L 2 (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | 2) 1 2

$L_2(x_i,x_j)=\left(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2\right)^{\frac{1}{2}}$
当

p=1 p = 1 $p=1$ 时，称为曼哈顿距离，即

L 1 (x i, x j) = \sum l = 1 n | x (l) i - x (l) j |

$L_1(x_i,x_j)=\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|$
当

p=∝ p =∝ $p=\propto$ 时，它是各个坐标距离的最大值，即

L \propto (x i, x j) = max l | x (l) i - x (l) j |

$L_\propto(x_i,x_j)=\max\limits_{l}|x_i^{(l)}-x_j^{(l)}|$

3.2.3 $k$ 值的选择

$k$ 值的选择会对 $k$ 近邻法的结果产生重大影响
当 $k$ 值较小时，
优点：“学习”的近似误差减少，与输入实例较近的（相似的）训练实例会对预测结果起作用。
缺点：“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感。如果邻近的实例点恰巧是噪声，预测就会出错， $k$ 值减少就意味着整体模型变复杂，容易发生过拟合。
当 $k$ 值较大时，
优点：减少学习的估计误差
缺点：学习的近似误差增大。 $k$ 值增大意味着整体的模型变得简单。
如果 $k=N$ ,无论输入实例是什么，都将简单地预测它属于在训练实例中最多的类。这时，模型过于简单，完全忽略训练实例中的大量有用信息，是不可取的。
在应用中， $k$ 值一般取一个比较小的数值，通常采用交叉验证法来选取最优的 $k$ 值。

3.2.4 分类决策规则

$k$ 近邻法中的分类决策规则往往是多数表决，即由输入实例的 $k$ 个邻近的训练实例中的多数类决定输入实例的类。
多数表决规则（majority voting rule）有如下解释：如果分类的损失函数为0-1损失函数，分类函数为

f : R n \to c 1, c 2, . . ., c K

$f:R^n\to{c_1,c_2,...,c_K}$ 那么误分类的概率是

P (Y \neq f (X)) = 1 - P (Y = f (x))

$P(Y\ne f(X))=1-P(Y=f(x))$
对给定的实例

x∈χ x ∈ χ $x\in \chi$ ，其中最近邻的

k k $k$ 个训练实例点构成集合

N_{k} (x)

$N_k(x)$ ,如果涵盖N_k(x)的区域的类别是

cj c j $c_j$ ,那么误分率是

1 k \sum x i \in N k (x) I (y i \neq c j) = 1 - 1 k \sum x i \in N k (x) I (y i = c j)

$\frac{1}{k}\sum\limits_{x_i\in N_k(x)}I(y_i \ne c_j)=1-\frac{1}{k}\sum\limits_{x_i\in N_k(x)}I(y_i = c_j)$
要使误分类率最小即经验风险最小，就要使

∑xi∈Nk(x)I(yi=cj) ∑ x i ∈ N k ( x ) I ( y i = c j ) $\sum\limits_{x_i\in N_k(x)}I(y_i = c_j)$ 最大，所以多数表决规则等价于经验风险最小化。

3.3 $k$ 近邻法的实现： $kd$ 树

$k$ 近邻法最简单的实现方法是线性扫描（linear scan），即计算输入实例与每一个训练实例的距离。当训练集很大是，计算非常耗时，方法不可取。可考虑使用特殊的结构存储训练数据，以减少计算距离的次数。其中包括 $kd$ 树方法。

3.3.1 构造 $kd$ 树

$kd$ 树是一种对 $k$ 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。 $kd$ 树是二叉树，表示对 $k$ 维空间的一个划分。构造 $kd$ 树相当于不断地用垂直于坐标轴的超平面将 $k$ 维空间切分，构成一系列的 $k$ 维超矩形区域， $kd$ 树的每个节点对应于一个 $k$ 维超矩形区域。
构造 $kd$ 树的方法如下：构造根结点，使根结点对应于 $k$ 维空间中包含所有实例点的超矩形区域；通过下面的递归方法，不断地对 $k$ 维空间进行切分，生成子结点。在超矩形区域（结点）上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域。这个过程直到子区域内没有实例时终止（终止时的结点为叶节点）。在此过程中，将实例保存在相应的结点上。
通常，依次选择坐标轴对空间切分，选择训练实例点在选定坐标轴上的中位数为切分点，这样得到的 $kd$ 树是平衡的，注意，平衡的 $kd$ 树搜索时的效率未必是最优的。
下面给出构造 $kd$ 树的算法。
算法3.2 （构造平衡 $kd$ 树）
输入： $k$ 维空间数据集 $T={x_1,x_2,...,x_N}$ ,其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(k)})^T,I=1,2,...,N；$
输出: $kd$ 树
（1）开始：构造根结点，根结点对应于包含 $T$ 的 $k$ 维空间的超矩形区域。
选择 $x^{(1)}$ 为坐标轴，以 $T$ 中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域分为两个子区域，切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。
由根结点生成深度为1的左右子结点；左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应于坐标 $x^{(1)}$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在根结点。
（2）重复：对深度 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l=j(mod k)+1$ ，以该结点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。
由该结点生成深度为 $j+1$ 的左、右子结点：左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(l)}$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在该结点。
（3）直到两个子区域没有实例存在时停止。从而形成 $kd$ 树的区域划分。

3.3.2 搜索 $kd$ 树

利用 $kd$ 树进行 $k$ 近邻搜索。下面以最近邻为例加以叙述。
给定一个目标点，搜索其最近邻。首先找到包含目标点的叶结点；然后从该结点出发，依次退回到父节点；不断查找与目标点最近邻的结点，当确定不可能存在更近的结点时，终止。这样搜索就被限制在空间的局部区域上，效率大为提高。
包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例点作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体的内部。然后返回当前结点的父结点，如果父结点的另一子结点的超矩形区域与超球体相交，那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点，将此点作为新的当前最近点。算法转到更上一级的父结点，继续上述过程。如果父结点的另一子结点的超矩形区域与超球体不相交，或不存在比当前最近点更近的点，则停止搜索。

算法3.3 （用 $kd$ 树的最近邻搜索）
输入：已构造的 $kd$ 树；目标点 $x$ ；
输出： $x$ 的最近邻。
（1）在 $kd$ 树中找出包含目标点 $x$ 的叶结点：从根结点出发，递归地向下访问 $kd$ 树，若目标点 $x$ 当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止。
（2）以此叶结点为“当前最近点”。
（3）递归地向上回退，在每个节点进行一下操作：
（a）如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。
（b）当前最近点一定存在于该结点一个子结点对应的区域，检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心，以目标点与“当前最近点”间的距离为半径的超球体相交。
如果相交，可能在另一子结点对应的区域内存在距目标点更近的点，移动到另一子结点。接着，递归地进行最近邻搜索。
如果不相交，向上回退。
（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为x的最近邻点。
注：如果实例点是随机分布的， $kd$ 树搜索的平均计算复杂度是 $O(\log N)$ ，这里 $N$ 是训练实例数。 $kd$ 树更适用于训练实例数远大于空间维数时的 k <script type="math/tex" id="MathJax-Element-4501">k</script>近邻搜索。当空间维数接近训练实例数时，他的效率会迅速下降，几乎接近线性扫描。

来源：李航《统计学习方法》

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

winds_lyh

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

第三章 K近邻法

kkk近邻法(k−NN)(k−NN)(k-NN)是一种基本分类与回归方法。这里只讨论分类问题中的kkk近邻法。输入：实例的特征向量，对应于特征空间的点；输出：实例的类别，可以取多类直观解释：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的kkk个实例的多数属于某个类，就把该输入实例分为这个类。算法 3.1（k近邻法）输入：训练数据集...
复制链接

扫一扫

专栏目录

第3章 k近邻法

Foveres

10-18 800

3.1 概述 k近邻法（k-nearest neighbor,KNN）是一种基本分类与回归方法。这里只讨论分类问题中的k近邻法。该方法的思路：假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多方表决等方式进行预测。 k近邻法不具有显示的学习过程。实质：k近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的模型。特点...

编程之法：面试和算法心得-样章.pdf

10-15

本书第1章至第6章分别阐述字符串、数组、树、查找、动态规划、海量数据处理等相关的编程面试题和算法，第7章介绍机器学习的两个算法—K近邻和SVM。此外，每一章都有“举一反三”和“习题”，以便读者及时运用所学的...

参与评论您还未登录，请先登录后发表或查看评论

第三章 k近邻法

lbf-523

07-01 161

第三章 kkk 近邻法 kkk 近邻法（k-nearest neighbor, k-NN）是一种基本分类与回归方法。输入：实例的特征向量，对应于特征空间的点；输出：实例的类别，可以去多类。算法思想：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 kkk 个实例，这 kkk 个实例的多数属于某个类，就把该输入实例分为这个类。输入：训练数据集 T={...

机器学习算法总结3:k近邻法

qq_35946628的博客

02-19 435

k近邻法(k-NN)是一种基本分类与回归方法。算法思想：给定一个数据集，对新的输入实例，在训练数据集中找到与其最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为哪个类。 k近邻的特殊情况是k=1的情形，称为最近邻算法。 k近邻算法没有显式的学习过程。 1.模型：k近邻法使用的模型对应于对特征空间的划分。 k近邻法中，当训练集、k值、距离度量(如欧式距离)及分类决策规则确定后，对于...

K近邻法（KNN）

qq_41536160的博客

06-02 1864

KNN（K近邻方法）

K邻近算法中平衡kd_tree的创建与搜索

sinat_35728816的博客

03-26 939

前言 k邻近算法最简单的实现方法是线性扫描（linear scan），这时要计算输入实例与每一个训练实例的距离，当训练集很大时，计算非常耗时，为提高k邻近搜索的效率，可采用特殊的结构来存储训练数据，以减少计算距离的次数，kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。本文将介...

第三章k近邻法

qq_37994598的博客

11-08 149

k近邻法实际上利用训练数据集对特征性向量空间进行划分，并作为其分类的模型。 3.1k近邻法算法（1）根据给定的距离度量，在训练集中找出与x最邻近的k个点，涵盖k个点的x的领域记做Nk(x)；（2）在Nk(x)中根据分类决策规则（如多数表决）决定x的类别y。y=arg maxΣI(yi=ci), i=1,2...N ; j=1,2,...K 其中I为指示函数。 3.2k近邻法模型每个实...

《统计学习方法》 第三章 k近邻法

想买很多漂亮衣服但是买不起的博客

01-29 338

k近邻法（KNN）是一种基本分类和回归方法。k近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的k个最近邻训练实例点，然后利用这k个训练实例点的类的多数来预测输入实例点的类。 k近邻算法 k近邻模型 k近邻法使用的模型实际上对应于对特征空间的划分。模型由三个基本要素——距离度量，k值的选择，分类决策规则决定。当这三个基本要素确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据基本要素将特征空间划分为一些子空间，确定子空间里的每个点所属的类。距离度量 ...

第三章： K近邻法

a131529的博客

05-19 520

一种基本分类与回归方法。大致思想就是已经获得了一个标签打好的训练数据集，分类时，对新的实例，根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测，也即没有显示的学习过程。

统计学习方法第三章 k近邻法

hbkybkzw的博客

07-28 241

k近邻模型的距离划分距离度量 k值选择

全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法（共20页）.pptx

09-21

全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法（共20页）.pptx 全套清华大学数据分析统计学系列课程 04 第四章朴素贝叶斯法（共17页）.pptx 全套清华大学数据分析统计学系列课程 05 第五章决策...

全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法（共20页）.rar

09-29

《全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法》是一门深入探讨数据挖掘与机器学习中的经典算法——k近邻法（k-Nearest Neighbors，简称k-NN）的课程。这门课程以清华大学的教学质量和严谨性为背景，...

全套清华大学数据分析统计学系列课程 04 第四章朴素贝叶斯法（共17页）.pptx

09-21

全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法（共20页）.pptx 全套清华大学数据分析统计学系列课程 04 第四章朴素贝叶斯法（共17页）.pptx 全套清华大学数据分析统计学系列课程 05 第五章决策...

全套清华大学数据分析统计学系列课程 09 第九章 EM算法及其推广（共46页）.pptx

09-21

全套清华大学数据分析统计学系列课程 03 第三章 k 近邻法（共20页）.pptx 全套清华大学数据分析统计学系列课程 04 第四章朴素贝叶斯法（共17页）.pptx 全套清华大学数据分析统计学系列课程 05 第五章决策...

简单Pysimplegui窗口的迷宫python课设

07-09

简单 PySimpleGUI 窗口的迷宫 Python 课设概述本课程设计旨在通过使用 PySimpleGUI 库开发一个简单的迷宫游戏，让学生熟悉 GUI 编程的基础知识，掌握迷宫生成算法，提升 Python 编程能力。PySimpleGUI 是一个易于使用的图形用户界面库，适合快速开发窗口应用。课程目标熟悉 PySimpleGUI 的基本使用方法：了解如何创建窗口、布局控件以及处理事件。掌握迷宫生成算法：学习并实现常见的迷宫生成算法，如深度优先搜索 (DFS) 或递归分割法。实现迷宫导航功能：设计并实现玩家在迷宫中导航的功能，包括处理键盘输入、绘制路径等。提升编程能力：通过实际项目练习，增强学生的编程逻辑思维和问题解决能力。课程设计步骤 1. 环境配置首先，学生需要确保安装了必要的 Python 库，如 PySimpleGUI。安装过程非常简单，可以通过命令行工具安装。 2. 创建基本窗口学生将学习如何使用 PySimpleGUI 创建一个基本的窗口界面。该窗口包含用于显示迷宫的画布和一些控制按钮。通过设计这个基本界面，学生可以理解 GUI 应用的基本结构

数字图像处理第三章二值图像.pptx

最新发布

07-10

数字图像处理第三章二值图像.pptx

洛谷 1059 明明的随机数（附源码）

07-09

C++洛谷上的一道题，内有AC源代码，不懂可以问，难度：普及-

hs.mobileconfig

07-10

hs.mobileconfig

模式识别的一种方法

01-06

综上所述，通过近邻法进行模式识别时，对于twotwolarge数据集，1近邻法的分类率为2%，k近邻法的错误分类率为0。而ultwotwo数据集的分类工作基于twotwolarge的参考集进行。这些结果说明了近邻法在模式识别中的有效性...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交