4.1 最邻近规则分类（K-Nearest Neighbor）KNN算法

最新推荐文章于 2023-10-09 15:23:41 发布

bird-sup

最新推荐文章于 2023-10-09 15:23:41 发布

阅读量1.6k

点赞数

分类专栏：深度学习&机器学习

本文链接：https://blog.csdn.net/zxllll8898/article/details/53398201

版权

深度学习&机器学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

1968年提出的分类算法

输入基于示例的学习（instance-based learning），懒惰学习（lazy learning）

例子：

算法详述步骤：

为了判断未知实例类别，用所有已知类别的实例作为参照

选择参数k

计算未知实例与所有已知实例的距离

选择最近K个已知实例

根据少数服从多数的投票法则（majority-voting），让未知实例归类为K个最邻近样本中最多数的类别

算法详述细节：

关于K

关于距离的衡量方法：

Euclidean Distance定义

其他距离衡量：余弦值（cos），相关度（correlation），曼哈顿距离（Manhattan distance）

计算距离：

import math

def ComputeEuclideanDistance(x1,y1,x2,y2):
    d = math.sqrt(math.pow(x1-x2,2)+math.pow(y1-y2,2))
    return d
    
d_ag = ComputeEuclideanDistance(3,104,18,90)

print("d_ag: ",d_ag)

举例：

算法优点：

简单，易于理解，容易实现，通过对K的选择可具备丢噪音数据的健壮性

算法缺点：

需要大量空间存储所有已知实例

算法复杂度高（需要比较所有已知实例与要分类的实例）

当样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容易被归类为这个主导样本，因为这类样本实例数量过大，但这个新的未知实例实际并没接近目标样本

改进版本：

考虑距离，根据距离加上权重

比如：1/d（d：距离）

bird-sup

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录