[Data Mining] kNN: k-nearest neighbor classification

最新推荐文章于 2021-09-12 21:32:29 发布

周大侠

最新推荐文章于 2021-09-12 21:32:29 发布

阅读量751

点赞数

分类专栏： Data Mining

本文链接：https://blog.csdn.net/whzyb1991/article/details/49538487

版权

2 篇文章 0 订阅

订阅专栏

最近在跟着赖博做一个图片配诗的小pro，需要用到kNN算法。
先转一篇左耳朵兔子的一篇文章K Nearest Neighbor算法

k-Means算法，主要用来聚类，将相同类别的样本点聚为同一类。
kNN算法，主要用来归类，给定一个待分类的样本点，通过计算样本空间中与自己最近的K个样本来判断这个待分类数据属于哪个分类。

所以这里一个待分类的样本点的类别主要由最近的K个样本中最多的类别，下面这个图是经典的图，说明K的选择不懂，对最终归类结果的影响。

KNN

上述中k如果取1的话，则待分类点直接被赋予最近点的类别。

常见的距离公式有以下三种
KNN-Distance

对于离散变量而言，需要使用Hamming Distance
KNN-Hamming

考虑一个 $\mathrm{mx-by-n}$ 的数据X、Y，将它们看成 $\mathrm{m}$ 个 $\mathrm{1-by-n}$ 个行向量， $x_s$ 和 $y_t$ 。

Euclidean distance
$d 2 s t = (x s - y t) (x s - y t)'$ $d_{st}^2=(x_s-y_t)(x_s-y_t)'$
Standardized Euclidean distance
$d 2 s t = (x s - y t) V - 1 (x s - y t)'$ $d_{st}^2=(x_s-y_t)V^{-1}(x_s-y_t)'$
V是一个n*n的对角阵，对角线的元素是权重的倒数。
Mahalanobis distance
$d 2 s t = (x s - y t) C - 1 (x s - y t)'$ $d_{st}^2=(x_s-y_t)C^{-1}(x_s-y_t)'$
C是一个方差矩阵。
City block metric
$d s t = \sum j = 1 n | x s j - y t j |$ $d_{st}=\sum_{j=1}^n |x_{sj}-y_{tj}|$
Minkowski metric
$d s t = \sum j = 1 n | x s j - y t j | - - - - - - - - - - -  ⎷   p$ $d_{st}=\sqrt[p]{\sum_{j=1}^n |x_{sj}-y_{tj}|}$
更多的metric可以参考online decumentation

选择一个最优k的最好方法是观察样本数据。一般来说，虽然一个较大的K会减少噪声的影响，得到较准确的结果，但是并不是说K较大就有保证。
有两个方法保证类别的判定，
- 第一个方法是在一个独立的数据集上测试k的有效性，经验而言，K的选择一般是3-10.
- 第二个方法可以滤除一些错误的待测点，检查，，

我们现在有一堆样本，每个样本包含两个数值变量——age和loan，label只有两类——Default和Non-Default。对于一个未知的样本（Age=48，loan=142000），我们使用kNN来对它进行分类。
examle-knn

使用欧式距离统计

D = (48 - 33) 2 + (142000 - 150000) 2 - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt = 8000.01 > > D e f a u l t = Y

$D=\sqrt{(48-33)^2+(142000-150000)^2}=8000.01>>\mathrm{Default=Y}$
KNN_example_2

当K=3时，有两个Default = Y 以及一个Default=N，所以未知样本的label是Default = Y

为了避免不同样本数据中不同尺度的影响，可以将数据集中归一化。

KNN_example_3

归一化的方法

X s = X - M i n M a x - M i n

$X_s=\frac{X-Min}{Max-Min}$

上文主要来自这个tutorialKNN

关注

专栏目录