读书笔记 - 机器学习（Cornell） - 第16节 KD树

最新推荐文章于 2021-03-06 19:18:48 发布

K5niper

最新推荐文章于 2021-03-06 19:18:48 发布

阅读量437

点赞数 1

本文链接：https://blog.csdn.net/zhaoyin214/article/details/94028491

版权

本文介绍了机器学习中的两种空间划分方法：KD树和球状树。KD树通过特征空间划分来加速k-NN算法，而球状树利用超球面边界进行数据组织，尤其适用于数据呈低维流形分布的情况。在高维数据中，球状树通常表现优于KD树。

摘要由CSDN通过智能技术生成

第16节 KD树

KD Trees

%matplotlib inline

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.patches import Circle
from sklearn.neighbors import KDTree, BallTree

k-NN算法时间复杂度（Time Complexity of k-NN）

考虑 $d$ 维空间

训练时：k-NN记录每个数据样本的标签，易知再添加一个数据样本的时间复杂度为 $O (d)$ 。

测试时：需要计算新数据样本与所有训练数据样本间的距离。

$n$ 表示训练数据样本数，则训练时间复杂度为 $O (d n)$ ；分类测试样本时间复杂度也为 $O (d n)$ 。

为提高精度，需要增大的训练数据集规模（ $\gg 0$ ），这严重制约测试阶段性能。

目标：使k-NN在测试阶段更快。

KD树（k-dimensional Trees）

KD树的核心在于划分特征空间（partition feature space）。由于大部分数据样本所处分区位于 $k$ 个最近邻样本之外，因此可不予考虑。

划分方法：

（1）将数据沿某一特征分成两个分区；

（2）记录每个训练样本所处分区。

测试阶段，考虑最近邻情况：

（1）识别测试样本 $x_t$ 所处分区；

（2）查找该分区内 $x_t$ 的最近邻样本（nearest neighbor） $x_{NN}$ ；

（3）计算 $x_t$ 与分区边界的距离 $d_w$

最低0.47元/天解锁文章

K5niper

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫