KNN算法

最新推荐文章于 2024-06-04 16:42:31 发布

李佳星

最新推荐文章于 2024-06-04 16:42:31 发布

阅读量684

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43975220/article/details/103003805

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.1 为什么选择KNN
其次，KNN算法也很好用，理论成熟，简单粗暴，既可以用来做分类（天然支持多分类），也可以用来做回归。并且与朴素贝叶斯之类的算法相比，由于其对数据没有假设，因此准确度高，对异常点不敏感

1.1.1 KNN思想简介
KNN（K-NearestNeighbor）,也就是K最近邻算法。顾名思义，所谓K最近邻，就是K个最近邻居的意思。也就是在数据集中，认为每个样本可以用离他距离最近的K个邻居来代表。

KNN算法的原理：

近朱者赤，近墨者黑。
step1：计算待分类物体和其他物体之间的距离
step2：统计距离最近的K个邻居
step3：位置物体分类=K个最近的邻居，分类最多的那个类别。

贴出一张从百度百科上找的一张图，我们可以直观地感受到这朴素的思想：我们要判断Xu 是什么颜色的，找到与其距离最近的5个点，有4个是红色的，有1个是绿色的。因此我们认为Xu是属于红色的集合
在这里插入图片描述
因此可以说：

在一个给定的类别已知的训练样本集中，已知样本集中每一个数据与所属分类的对应关系（标签）。在输入不含有标签的新样本后，将新的数据的每个特征与样本集
中数据对应的特征进行比较，然后算法提取样本最相似的k个数据(最近邻)的分类标签。通过多数表决等方式进行预测。即选择k个最相似数据中出现次数最多的分
类，作为新数据的分类。

K近邻法不具有显式的学习过程，而是利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。

1.1.2 KNN算法流程
通过理解算法思想，可以将其简化为“找邻居+投票”。K近邻法使用的模型，实际上是特征空间的划分。模型由三个基本要素决定

距离度量
k值
分类决策规则

K值选择：

K值太小，容易过拟合。
K值太大，容易欠拟合。
交叉验证的方式选取K值。

距离定义：

欧式距离：
曼哈顿距离：
闵可夫斯基距离
切比雪夫距离
余弦距离

KD树：

定义：对数据点在K维空间中划分的一种数据结构，二叉树结构在Sklearn中设置KD树

其中两个实例点之间的距离反映了相似程度。一般来说使用欧氏距离来计算。

梳理kNN算法流程如下：

计算测试对象到训练集中每个对象的距离
按照距离的远近排序
选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居
统计这k个邻居的类别频率
k个邻居里频率最高的类别，即为测试对象的类别

2.2 KNN算法自实现

import numpy as npimport matplotlib.pyplot as plt# raw_data_x是特征，raw_data_y是标签，0为良性，1为恶性raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343853454, 3.368312451],
              [3.582294121, 4.679917921],
              [2.280362211, 2.866990212],
              [7.423436752, 4.685324231],
              [5.745231231, 3.532131321],
              [9.172112222, 2.511113104],
              [7.927841231, 3.421455345],
              [7.939831414, 0.791631213]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]# 设置训练组X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)# 将数据可视化plt.scatter(X_train[y_train==0,0],X_train[y_train==0,1], color='g', label = 'Tumor Size')
plt.scatter(X_train[y_train==1,0],X_train[y_train==1,1], color='r', label = 'Time')
plt.xlabel('Tumor Size')
plt.ylabel('Time')
plt.axis([0,10,0,5])
plt.show()

数据可视化后生成的图片如下图所示。其中横轴是肿块大小，纵轴是发现时间。每个病人的肿块大小和发病时间构成了二维平面特征中的一个点。对于每个点，我们通过label明确是恶性肿瘤（绿色）、良性肿瘤（红色）。在这里插入图片描述
那么现在给出一个肿瘤患者的数据（样本点）x：[8.90933607318, 3.365731514]，是良性肿瘤还是恶性肿瘤

求距离

我们要做的是：求点x到数据集中每个点的距离，首先计算距离，使用欧氏距离

from math import sqrt

distances = []  # 用来记录x到样本数据集中每个点的距离for x_train in X_train:
    d = sqrt(np.sum((x_train - x) ** 2))
    distances.append(d)# 使用列表生成器，一行就能搞定，对于X_train中的每一个元素x_train都进行前面的运算，把结果生成一个列表distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in X_train]

distances

输出：[5.611968000921151, 6.011747706769277, 7.565483059418645, 5.486753308891268, 6.647709180746875, 1.9872648870854204, 3.168477291709152, 0.8941051007010301, 0.9830754144862234, 2.7506238644678445]

在求出距离列表之后，我们要找到最小的距离，需要进行一次排序操作。其实不是简单的排序，因为我们把只将距离排大小是没有意义的，我们要知道距离最小的k个点是在样本集中的位置。

这里我们使用函数：np.argsort(array) 对一个数组进行排序，返回的是相应的排序后结果的索引

nearest = np.argsort(distances)
nearest

输出：array([7, 8, 5, 9, 6, 3, 0, 1, 4, 2])
结果的含义是：距离最小的点在distances数组中的索引是7，第二小的点索引是8... 近到远是哪些点

选k值

然后我们选择k值，这里暂定为6，那就找出最近的6个点（top 6），并记录他们的标签值（y）

k = 6topK_y = [y_train[i] for i in nearest[:k]]
topK_y

输出：[1, 1, 1, 1, 1, 0]

决策规则
下面进入投票环节。找到与测试样本点最近的6个训练样本点的标签y是什么。可以查不同类别的点有多少个。

将数组中的元素和元素出现的频次进行统计

from collections import Counter
votes = Counter(topK_y)
votes

输出：一个字典，原数组中值为0的个数为1，值为1的个数有为5Counter({0:1, 1:5})

# Counter.most_common(n) 找出票数最多的n个元素，返回的是一个列表，列表中的每个元素是一个元组，元组中第一个元素是对应的元素是谁，第二个元素是频次votes.most_common(1)

输出：[(1,5)]

predict_y = votes.most_common(1)[0][0]
predict_y

输出：1

得到预测的y值是1

自实现完整工程代码

我们已经在jupyter notebook中写好了kNN算法，下面我们在外部进行封装。

相关代码可以在 https://github.com/japsonzbz/ML_Algorithms 中看到

import numpy as npimport math as sqrtfrom collections import Counterclass kNNClassifier:

    def __init__(self, k):
        """初始化分类器"""
        assert k >= 1, "k must be valid"
        self.k = k
        self._X_train = None
        self._y_train = None

    def fit(self, X_train, y_train):
        """根据训练数据集X_train和y_train训练kNN分类器"""
        assert X_train.shape[0] == y_train.shape[0], \            "the size of X_train must be equal to the size of y_train"
        assert self.k <= X_train.shape[0], \            "the size of X_train must be at least k"
        self._X_train = X_train
        self._y_train = y_train        return self    def predict(self,X_predict):
        """给定待预测数据集X_predict，返回表示X_predict结果的向量"""
        assert self._X_train is not None and self._y_train is not None, \            "must fit before predict!"
        assert X_predict.shape[1] == self._X_train.shape[1], \            "the feature number of X_predict must be equal to X_train"
        y_predict = [self._predict(x) for x in X_predict]        return np.array(y_predict)    def _predict(self, x):
        distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._X_train]
        nearest = np.argsort(distances)
        topK_y = [self._y_train[i] for i in nearest]
        votes = Counter(topK_y)        return votes.most_common(1)[0][0]    def __repr__(self):

当我们写完定义好自己的kNN代码之后，可以在jupyter notebook中使用魔法命令进行调用：

%run myAlgorithm/kNN.py

knn_clf = kNNClassifier(k=6)
knn_clf.fit(X_train, y_train)
X_predict = x.reshape(1,-1)
y_predict = knn_clf.predict(X_predict)
y_predict

输出：array([1])

现在我们就完成了一个sklearn风格的kNN算法，但是实际上，sklearn封装的算法比我们实现的要复杂得多。

sklearn中的kNN
sklearn的使用：

分类：KNeighborsClassifier.
回归：KNeighborsRegressor
KNeighborsClassifier构造参数：
1.n_neighbors:即KNN中的K值，默认5.
2.weights：用来确定邻居的权重。三种方式：uniform，distance，自定义
3.algorithm：规定计算邻居的方法。四种方式：auto，kd_tree,ball_tree,brute
4.leaf_size:代表构造KD树或球树的叶子数。默认30。
KNeighborsClassifier功能函数：
fit（train_x,train_y）:分类器训练
predict（test_x）:用训练好的分类器进行预测。

代码

对于机器学习来说，其流程是：训练数据集 -> 机器学习算法 -fit-> 模型输入样例 -> 模型 -predict-> 输出结果

我们之前说过，kNN算法没有模型，模型其实就是训练数据集，predict的过程就是求k近邻的过程。

我们使用sklearn中已经封装好的kNN库。你可以看到使用有多么简单。

from sklearn.neighbors import KNeighborsClassifier# 创建kNN_classifier实例kNN_classifier = KNeighborsClassifier(n_neighbors=6)# kNN_classifier做一遍fit(拟合)
的过程，没有返回值，模型就存储在kNN_classifier实例中kNN_classifier.fit(X_train, y_train)# kNN进行预测predict，需要传入一个矩阵，而不能是一个数组。
reshape()成一个二维数组，第一个参数是1表示只有一个数据，第二个参数-1，numpy自动决定第二维度有多少y_predict = kNN_classifier.predict(x.reshape(1,-1))
y_predict

输出：array([1])

在kNN_classifier.fit(X_train, y_train)这行代码后其实会有一个输出

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=6, p=2,
           weights='uniform')

参数

class
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)

我们研究一下参数：

n_neighbors: int, 可选参数(默认为 5)。用于kneighbors查询的默认邻居的数量
weights（权重）: str or callable(自定义类型), 可选参数(默认为 ‘uniform’)。用于预测的权重参数，可选参数如下：
uniform : 统一的权重. 在每一个邻居区域里的点的权重都是一样的。
distance : 权重点等于他们距离的倒数。
使用此函数，更近的邻居对于所预测的点的影响更大。
[callable] : 一个用户自定义的方法，此方法接收一个距离的数组，然后返回一个相同形状并且包含权重的数组。
algorithm（算法）: {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, 可选参数（默认为 ‘auto’）。计算最近邻居用的算法：
ball_tree 使用算法BallTree
kd_tree 使用算法KDTree
brute 使用暴力搜索
auto 会基于传入fit方法的内容，选择最合适的算法。
注意 : 如果传入fit方法的输入是稀疏的，将会重载参数设置，直接使用暴力搜索。
leaf_size（叶子数量）: int, 可选参数(默认为 30)。传入BallTree或者KDTree算法的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或者KDTree所需要的内存大小。此可选参数根据是否是问题所需选择性使用。
p: integer, 可选参数(默认为 2)。用于Minkowski metric（闵可夫斯基空间）的超参数。p = 1, 相当于使用曼哈顿距离，p = 2, 相当于使用欧几里得距离]，对于任何 p ，使用的是闵可夫斯基空间。
metric（矩阵）: string or callable, 默认为 ‘minkowski’。用于树的距离矩阵。默认为闵可夫斯基空间，如果和p=2一块使用相当于使用标准欧几里得矩阵. 所有可用的矩阵列表请查询 DistanceMetric 的文档。
metric_params（矩阵参数）: dict, 可选参数(默认为 None)。给矩阵方法使用的其他的关键词参数。
n_jobs: int, 可选参数(默认为 1)。用于搜索邻居的，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。不会影响fit

方法

对于** KNeighborsClassifier **的方法：

李佳星

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
KNN算法

KNN算法的原理：近朱者赤，近墨者黑。step1：计算待分类物体和其他物体之间的距离step2：统计距离最近的K个邻居step3：位置物体分类=K个最近的邻居，分类最多的那个类别。K值选择：K值太小，容易过拟合。K值太大，容易欠拟合。交叉验证的方式选取K值。距离定义：欧式距离：曼哈顿距离：闵可夫斯基距离切比雪夫距离余弦距离KD树：定义：对数据点在K维空...
复制链接

扫一扫

专栏目录