机器学习算法——系统性的学会使用 K近邻算法（KNN）

最新推荐文章于 2023-09-27 20:44:52 发布

VIP文章 Ma Sizhou

最新推荐文章于 2023-09-27 20:44:52 发布

阅读量946

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45901519/article/details/113405327

版权

目录

1、K-近邻算法简介

1.1 什么是K-近邻算法

1.2 K-近邻算法(KNN)概念

（1）定义：

（2）距离公式：

1.3 电影类型分析

1.4 KNN算法流程总结

2、k近邻算法api初步使用

2.1 Scikit-learn工具介绍

2.1.1 安装

2.1.2 Scikit-learn包含的内容

2.2 K-近邻算法API

2.3 案例

2.3.1 步骤分析

2.3.2 代码过程

3、距离度量

3.1 欧式距离(Euclidean Distance)：

3.2 曼哈顿距离(Manhattan Distance)：

3.3 切比雪夫距离 (Chebyshev Distance)：

3.4 闵可夫斯基距离(Minkowski Distance)：

小结：

3.5 标准化欧氏距离 (Standardized EuclideanDistance)：

3.6 余弦距离(Cosine Distance)

3.7 汉明距离(Hamming Distance)：

3.8 杰卡德距离(Jaccard Distance)：

3.9 马氏距离(Mahalanobis Distance)：

总结：

4、k值的选择

4.1 K值选择说明

小结：

5、kd树

5.1 kd树简介

5.1.1 什么是kd树

5.1.2 原理

5.2 构造方法

5.3 案例分析

5.3.1 树的建立

5.3.2 最近领域的搜索

（1）查找点(2.1,3.1)

（2）查找点(2,4.5)

总结：

6、案例：鸢尾花种类预测--数据集介绍

6.1 案例：鸢尾花种类预测

6.2 scikit-learn中数据集介绍

6.2.1 scikit-learn数据集API介绍

（1）sklearn小数据集

（2）sklearn大数据集

6.2.2 sklearn数据集返回值介绍

6.2.3 查看数据分布

6.2.4 数据集的划分

总结：

7、特征工程-特征预处理

7.1 什么是特征预处理

7.1.1 特征预处理定义

7.1.2 包含内容(数值型数据的无量纲化)

7.1.3 特征预处理API

7.2 归一化

7.2.1 定义

7.2.2 公式

7.2.3 API

7.2.4 数据计算

7.2.5 归一化总结

7.3 标准化

7.3.1 定义

7.3.2 公式

7.3.3 API

7.3.4 数据计算

7.3.5 标准化总结

总结：

8、案例：鸢尾花种类预测—流程实现

8.1 再识K-近邻算法API

8.2 案例：鸢尾花种类预测

8.2.1 数据集介绍

8.2.2 步骤分析

8.2.3 代码过程

总结：

9、交叉验证，网格搜索

9.1、什么是交叉验证(cross validation)

9.1.1 分析

9.1.2 为什么需要交叉验证

9.2、什么是网格搜索(Grid Search)

9.3、交叉验证，网格搜索（模型选择与调优）API：

9.4、案例：使用k近邻算法实现，鸢尾花案例增加K值调优

总结：

10、KNN算法总结：

11、案例2：KNN算法预测facebook签到位置

11.1 项目描述

11.2 数据集介绍

11.3 步骤分析

11.4 代码实现

1、K-近邻算法简介

1.1 什么是K-近邻算法

下图所示，根据“邻居”来推断出你的类别，也就是说，根据邻居相隔的远近距离，来判断你所在的地区，离得越近的，则和你的类别就越相近。

在这里插入图片描述

1.2 K-近邻算法(KNN)概念

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法.

（1）定义：
- 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

来源：KNN算法最早是由Cover和Hart提出的一种分类算法

（2）距离公式：
- 两个样本的距离可以通过如下公式计算，又叫欧式距离，关于距离公式会在后面进行讨论。

下面看一个例子说明。

1.3 电影类型分析

假设我们现在有几部电影：
在这里插入图片描述
其中？号电影不知道类别，如何去预测？我们可以利用K近邻算法的思想，如下让序号1-8分别于9做距离计算：

分别计算每个电影和被预测电影的距离，然后求解：

上面我们得到了每个电影和要预测电影的距离，我们选出最近的5（即k=5）来判断，显然我们可以得出9这个序号的电影属于“喜剧片”，这个就是KNN算法。

1.4 KNN算法流程总结

1）计算已知类别数据集中的点与当前点之间的距离

2）按距离递增次序排序

3）选取与当前点距离最小的k个点

4）统计前k个点所在的类别出现的频率

5）返回前k个点出现频率最高的类别作为当前点的预测分类

2、k近邻算法api初步使用

机器学习流程：

1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习
5.模型评估

2.1 Scikit-learn工具介绍

Python语言的机器学习工具
Scikit-learn包括许多知名的机器学习算法的实现
Scikit-learn文档完善，容易上手，丰富的API

2.1.1 安装

pip install scikit-learn

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注：安装scikit-learn需要Numpy, Scipy等库

2.1.2 Scikit-learn包含的内容

分类、聚类、回归
特征工程
模型选择、调优

2.2 K-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)
- n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数

下面通过一个简单的例子来看看API怎么用。

2.3 案例

2.3.1 步骤分析

1.获取数据集
2.数据基本处理（该案例中省略）
3.特征工程（该案例中省略）
4.机器学习
5.模型评估（该案例中省略）

2.3.2 代码过程

导入模块

from sklearn.neighbors import KNeighborsClassifier

构造数据集

x = [[0], [1], [10], [20]]
y = [0, 0, 1, 1]

机器学习 – 模型训练

# 实例化API
estimator = KNeighborsClassifier(n_neighbors=2)
# 使用fit方法进行训练
estimator.fit(x, y)

ret = estimator.predict([[1]])
print(ret) # 离1近，故预测为0

ret = estimator.predict([[7]])
print(ret) # 离10近，故预测为1

问题：

1.距离公式，除了欧式距离，还有哪些距离公式可以使用？
2.选取K值的大小？
3.api中其他参数的具体含义？

3、距离度量

3.1 欧式距离(Euclidean Distance)：

欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。
在这里插入图片描述
举例:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

3.2 曼哈顿距离(Manhattan Distance)：

在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。
在这里插入图片描述

举例:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   2     4     6     2     4     2

3.3 切比雪夫距离 (Chebyshev Distance)：

国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？这个距离就叫切比雪夫距离。
在这里插入图片描述

举例:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   1     2     3     1     2     1

3.4 闵可夫斯基距离(Minkowski Distance)：

闵氏距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的概括性的表述。

两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：
在这里插入图片描述
其中p是一个变参数：

当p=1时，就是曼哈顿距离；
当p=2时，就是欧氏距离；
当p→∞时，就是切比雪夫距离。

根据p的不同，闵氏距离可以表示某一类/种的距离。

小结：

1 闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点:

e.g. 二维样本(身高[单位:cm],体重[单位:kg]),现有三个样本：a(180,50)，b(190,50)，c(180,60)。

a与b的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。

2 闵氏距离的缺点：

(1)将各个分量的量纲(scale)，也就是“单位”相同的看待了;

(2)未考虑各个分量的分布（期望，方差等）可能是不同的。

针对上述的缺点，下面进行纠正：

3.5 标准化欧氏距离 (Standardized EuclideanDistance)：

标准化欧氏距离是针对欧氏距离的缺点而做的一种改进。

思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。

在这里插入图片描述

$S_k$ 表示各个维度的标准差

如果将方差的倒数看成一个权重，也可称之为加权欧氏距离(Weighted Euclidean distance)。

举例:

X=[[1,1],[2,2],[3,3],[4,4]];（假设两个分量的标准差分别为0.5和1）
经计算得:
d =   2.2361    4.4721    6.7082    2.2361    4.4721    2.2361

2.2361

最低0.47元/天解锁文章

Ma Sizhou

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法——系统性的学会使用 K近邻算法（KNN）

目录1、K-近邻算法简介1.1 什么是K-近邻算法1.2 K-近邻算法(KNN)概念（1）定义：（2）距离公式：1.3 电影类型分析1.4 KNN算法流程总结2、k近邻算法api初步使用2.1 Scikit-learn工具介绍2.1.1 安装2.1.2 Scikit-learn包含的内容2.2 K-近邻算法API2.3 案例2.3.1 步骤分析2.3.2 代码过程3、距离度量3.1 欧式距离(Euclidean Distance)：3.2 曼哈顿距离(Manhattan Distance)：3.3 切比雪.
复制链接

扫一扫