KNN-K邻近算法

KNN-K邻近算法学习笔记

kNN算法又称为k最近邻分类算法,是一种监督学习类方法,并且kNN算法不需要预先训练,也就是说kNN算法只有测试过程,没有训练过程。所谓的k最近邻,就是指最接近的k个邻居(数据),核心思想是:在一个含未知样本的空间,可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。你可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。

该算法涉及3个主要因素:训练集、距离的衡量、k的大小。

距离的衡量在之前的K-means的笔记里有实现欧式距离和person相似系数来衡量样本之间的距离。

KNN算法过程:
  1. 输入一个测试样本,计算已知类别的点(即训练集)与测试样本的距离。

  2. 在训练集中选取与测试样本距离最小的k个点。

  3. 确定前k个点所在类别的出现次数。

  4. 获得投票最高的类别输入的测试样本的预测分类。

KNN算法的Python实现:

距离的衡量使用的是欧氏距离

# encoing:utf-8

import numpy as np
import math
import pandas as pd
import operator

def KNN(X_test, dataSet,labels,k):
    dataSet = pd.DataFrame(dataSet, index=None)
    dataSetSize = dataSet.shape[0]
    # sqDiffvec = []
    sqDiff = []
    X_test=pd.Series(X_test, index=None)
    for i in range(dataSetSize):
        sqDiffveci = dataSet[i]-X_test
        sqDiffveci = sqDiffveci.apply(lambda x: x**2)
        sqDiffi = math.sqrt(sum(list(sqDiffveci)))
        # sqDiffvec.append(list(sqDiffveci))
        sqDiff.append(sqDiffi) # 存下每个距离

    sortedsqDiffindex = np.argsort(sqDiff)

    classCount={}
    # 选取距离最小的k个点
    for i in range(k):
        votelabel = labels[sortedsqDiffindex[i]]
        classCount[votelabel] = classCount.get(votelabel, 0)+1

    sortedclassCount=sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedclassCount.keys()[0]
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值