机器学习-笔记（k-近邻算法）

Cathy _Mmm

已于 2022-10-22 13:10:42 修改

阅读量364

点赞数 2

分类专栏：机器学习

于 2022-10-21 10:36:01 首次发布

本文链接：https://blog.csdn.net/weixin_46535360/article/details/127439872

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

算法思想

KNN是最简单的机器学习算法之一，该方法思路非常简单：存在一个样本集，在该样本集中每个数据都存在标签。此时输入一个没有标签的新数据后，将新数据与该样本集中数据对应的特征进行比较，选择前k个最相似的数据，且在该k个数据中大多数数据所属的标签可以认定为该数据的标签。

优点：就是思路简单，易于理解，易于实现。对异常值不敏感，倘若有一个异常值不会有太大影响，因为取得k个值。

算法步骤

准备数据：对数据进行预处理
计算测试样本（即新数据）到其他样本点的距离
在第二步完成之后，对所有的距离进行排序，选择出距离最近的k个样本点（即k-近邻）
对k个点所属标签进行比较，那么这个新样本所属标签可以归于这k个样本中所属的标签占比最高的类别

这里要说一下怎么求2中测试样本到其他样本的距离，对于距离可以用欧式距离（也称欧几里得度量）

代码实现

此处的代码实现是参考 Python3《机器学习实战》学习笔记（一）：k-近邻算法(史诗级干货长文)，由于正在学习机器学习的初级阶段，因此只是实现了较为简单的代码，该博主还有一个约会网站配对效果判定，写的非常详细。

数据准备：
判别新输入的样本是属于爱情片还是动作片，训练集只准备了四组数据，每组数据中有两个特征值

def createDataSet():
    #四组二维特征
    group = np.array([[1,101],[5,89],[108,5],[115,8]])
    labels = ['爱情片','爱情片','动作片','动作片']
    return group,labels

KNN算法

def classify0(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]   #numpy函数shape[0]返回dataSet的行数
    diffMat = np.tile(inX,(dataSetSize,1)) - dataSet #在列向量方向上重复inX共1次（横向），行向量方向上重复inX共dataSetSize次（纵向）
    sqDiffMat = diffMat**2   #二维特征相减后平方
    sqDistances = sqDiffMat.sum(axis=1)  #sun()所有元素相加，sum()行相加
    distances = sqDistances**0.5   #开方，计算出距离
    sortedDistIndices = distances.argsort()   #返回distances中元素从小到大排序后的索引值
    classCount = {}
    for i in range(k):
        votelabel = labels[sortedDistIndices[i]]  #取出前K个元素的类别
        classCount[votelabel] = classCount.get(votelabel,0) + 1  #字典的get方法，返回指定键的值，如果值不在字典中返回默认值


    #key=operator.itemgetter(0)根据字典的值进行排序
    # key=operator.itemgetter(1)根据字典的键进行排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]