KNN（K 邻近算法）相关知识

最新推荐文章于 2023-04-01 16:41:01 发布

数字人Writing

最新推荐文章于 2023-04-01 16:41:01 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：算法 k_邻近算法 KNN 数据机器学习

本文链接：https://blog.csdn.net/yuzhou164/article/details/53355047

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

kNN(K 邻近算法)主要根据特征之间的距离来进行分类的。为监督学习算法。

工作原理：

训练数据（tranningdata）：每条数据都有标签（知道所属的类），一个标签代表一类。

测试数据（testingdata）：把新数据（无标签）的每一个特征与样本集中数据对应的特征进行比较，然后提取与训练数据集最相似的（最邻近）的分类标签。

最后提取样本数据集中前K个最相似的数据（kNN的出处）和K 一般小于20的整数。在K个数据中，出现最多的标签作为该数据的标签。

维基百科的解释：

k近邻算法例子。测试样本（绿色圆形）应归入要么是第一类的蓝色方形或是第二类的红色三角形。如果k=3（实线圆圈）它被分配给第二类，因为有2个三角形和只有1个正方形在内侧圆圈之内。

如果k=5（虚线圆圈）它被分配到第一类（3个正方形与2个三角形在外侧圆圈之内）。

步骤：

对于未知类属性集中每一个点依次执行以下操作：

1 计算已知类中的点与当前点之间的距离

2 按照距离递增的次序排序

3 选取与当前点距离最小的k个点

4 确定前k个点所在的类别出现的频率

5 返回前k个点中出现频率最高的类作为当前点的预测分类

主要代码：

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0];
    diffMat=tile(inX,(dataSetSize,1))-dataSet;
    sqDiffMax=diffMat**2;
    sqDistance=sqDiffMax.sum(axis=1);
    distance=sqDistance**0.5;
    sorteDistIndicies=distance.argsort();
    classCount={};
    print (sorteDistIndicies[1])

    for i in range(k):
        voteIlabel=labels[sorteDistIndicies[i]];
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1;
    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True);
    return sortedClassCount[0][0];

效果判断

分类器的错误率=分类器给出的错误结果的次数/测试实行的总数。例如有10数据，2个分错了。错误率为: 2/10=0.2；完美分类器错误率为0.最差分类器效果为0.

结果讨论:

起初，随着k的增长，k近邻分类器的效果逐渐提升;当k增大到某一个点后，随着k的增大，k近邻分类器性能逐渐下降。还可以说，k的增大，偏差逐渐增大而方差逐渐减少。

K的选择

在投票时使用距离加权(distanceweighting)可一定程度上回避给问题。训练数据集与待分类实例的距离越近，其权重越大。

优点：

精度高，对异常值不敏感，无数据输入假定。

注：

异常值（outlier）：一组测定值与平均值的偏差超过两倍标准的测定值。与平均值超过三倍标准差的测定值为高度异常的异常值。

缺点：

计算复杂度高，空间复杂度高

必须保存全部的数据集。如果数据集大将使用大量内存空间。

必须对数据集中每个数据计算距离值，耗时

无法给出任何数据的基础结构信息。

当维数比较多时产生维数灾（feature selection和PCA可以解决）

计算距离的方法

1.欧式距离(Euclidean Distance)

欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。

二维平面上两点a（x1,y1）与b(x2,y2)之间的欧式距离：

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：

也可以变事成向量运算的形式:

2. 曼哈顿距离(Manhattan Distance)

从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。

(1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离

3. 切比雪夫距离 ( Chebyshev Distance )

国际象棋玩过么？国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走试试。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。

(1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离

(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离

　这个公式的另一种等价形式是

用放缩法和夹逼法则来证明两个公式是等价的

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

(1) 闵氏距离的定义

两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：

其中p是一个变参数。

当p=1时，就是曼哈顿距离

当p=2时，就是欧氏距离

当p→∞时，就是切比雪夫距离

根据变参数的不同，闵氏距离可以表示一类的距离。

(2)闵氏距离的缺点

　　闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。

　　举个例子：二维样本(身高,体重)，其中身高范围是150~190，体重范围是50~60，有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm真的等价于体重的10kg么？因此用闵氏距离来衡量这些样本间的相似度很有问题。

简单说来，闵氏距离的缺点主要有两个：(1)将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布（期望，方差等)可能是不同的。

5. 标准化欧氏距离 (Standardized Euclidean distance )

　　标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为（样本集的标准化过程(standardization)用公式描述）：