机器学习入门（一）—— KNN邻近算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_44546362/article/details/107045879

KNN邻近算法

一、KNN简介

KNN的基本思想简单直观：在处理某些问题时，我们认为两个实例在特征空间中的距离反映了它们之间的相似程度，距离越近则越相似。那么，对于一个输入实例 x 的类别或目标值，可根据训练集中与其距离最近的一些实例(最相似的实例)的类别或目标值进行推断。

假设数据集 D 为训练集，KNN对输入实例 x 进行预测的算法可描述为：
（1）根据某种距离度量方法（通常为欧式距离），找到 D 中与 x 距离最近的 k 个实例。
（2）根据最近的 k 个实例的类别或目标值，对 x 的类别或目标值进行预测：

对于分类问题使用“投票法”，即取 k 个实例中出现最多的类标记作为 x 的预测结果。
对于回归问题使用“平均法”，即取 k 个实例的目标值的平均值作为 x 的预测结果。

下面通过一个简单的例子说明
在这里插入图片描述
当 k 的值设为1时，样本周围有1个红矩形和0个蓝三角形，所以该样例判定为 class2
当 k 的值设为5时，样本周围有2个红矩形和3个蓝三角形，所以该样例判定为 class1

一句话可以总结KNN：近朱者赤近墨者黑

下面是我在学习过程中看到的一个例子，觉得很形象，就拿来做例子
（图来自机器学习之KNN（k近邻）算法详解）
基于电影中的搞笑、拥抱、打斗镜头，使用 k-近邻算法构造程序，就可以自动划分电影的题材类型。
在这里插入图片描述
重复上述操作，计算出所有电影和《唐人街探案》间的距离

由图中可以看到，距离《唐人街探案》最近的5个电影中，有4个喜剧片和1个爱情片，所以《唐人街探案》被判断为是喜剧片