ML in Action笔记——CH2 K近邻算法-CSDN博客

本文链接：https://blog.csdn.net/zsheng_/article/details/107616933

仅个人代码笔记.

KNN算法

算法介绍
代码展示
输出结果

算法介绍

KNN算法
1.k-近邻算法是分类数据最简单最有效的算法。
2.k-近邻算法是基于实例的学习，使用算法时我们必须有接近实际数据的训练样本数据。
3.k-近邻算法必须保存全部数据集，如果训练数据集的很大，必须使用大量的存储空间。
4.由于必须对数据集中的每个数据计算距离值，实际使用时可能非常耗时。
5.k-近邻算法无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。（使用概率测量方法处理分类问题可以解决这个问题。）

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。
适用数据范围：数值型和标称型。

代码展示

#!usr/bin/python
# -*- coding: utf-8 -*-
from numpy import *
from matplotlib.font_manager import FontProperties
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.lines as mlines
import operator

##创建数据集
def createDataset():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

#实施knn算法
def classify0(inX,dataset,labels,k):
#inX 用于分类的输入向量，array类型1*2
#dataset 输入的训练样本集group，array类型4*2
#labels 标签向量，array类型1*4
#k 表示用于选择最近邻居的数目
    datasetSize = dataset.shape[0]  #shape函数，dataset的行数
    # 标签向量的矩阵数目和dataset的行数相同
    # tile函数表示在XY轴方向进行复制，（）中第一个表示Y轴复制次数，第二个表示X轴复制次数
    diffMat = tile(inX,(datasetSize,1)) - dataset
    #计算欧氏距离
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances **0.5
    sortedDistIndicies = distances.argsort()  #argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出到y。
    #现在我们可以看看argsort()函数的具体功能是什么：
    #x=np.array([1,4,3,-1,6,9])
    #x.argsort()
    #输出定义为y=array([3,0,2,1,4,5])

    classCount = {}  #把字典分解成列表
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #print voteIlabel
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
        #print classCount
        sortedClassCount = sorted(classCount.iteritems(),
                                  key=operator.itemgetter(1),
                                  reverse=True)
        return sortedClassCount[0][0]
#sorted() 函数:https://www.runoob.com/python3/python3-func-sorted.html


#准备数据：将文本记录转换为Numpy的解析程序
def file2matrix(filename):
    fr = open(filename)
    #读取文本
    arrayOLines = fr.readlines()
    #首先要知道文本文件包含多少行
    numberOfLines = len(arrayOLines)
    #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
    #创建以零填充的矩阵，将矩阵的另一维度设置为固定值3
    returnMat = zeros((numberOfLines,3))
    #返回的分类标签向量
    classLabelVector = []
    #行的索引值
    index = 0
    #循环处理文件中的每行数据
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        #根据文本中标记喜欢的程序进行分类,,1代表不喜欢,2代表魅力一般,3代表极具魅力
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat,classLabelVector

#可视化数据
def showdatas(datingDataMat,datingLabels):
    fig = plt.figure()
    #“111”表示“1×1网格，第一子图”
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1],datingDataMat[:,2],
    15.0*array(datingLabels),15.0*array(datingLabels))
    plt.show()

#归一化特征值
def autoNorm(dataset):
    minVals = dataset.min(0)
    maxVals = dataset.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataset))
    m = dataset.shape[0]
    normDataSet = dataset - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

#测试算法：作为完整程序验证分类器
def datingClassTest():
    filename = 'datingTestSet.txt'
    # 将返回的特征矩阵和分类向量分别存储到datingDataMat和datingLabels中
    datingDataMat,datingLabels = file2matrix(filename)
    # 取所有数据的百分之十
    hoRatio = 0.01
    # 数据归一化,返回归一化后的矩阵,数据范围,数据最小值
    normMat,ranges,minVals = autoNorm(datingDataMat)
    # 获得normMat的行数
    m = normMat.shape[0]
    # 百分之十的测试数据的个数
    numTestVecs = int(m*hoRatio)
    #分类错误计数
    errorCount = 0.0

    for i in range(numTestVecs):
        # 前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
        classifierResults = classify0(normMat[i,:],normMat[numTestVecs:m,:],
                                      datingLabels[numTestVecs:m],4)
        print("分类结果：%d\t真实类别：%d" % (classifierResults,datingLabels[i]))
        if classifierResults != datingLabels[i]:
            errorCount += 1.0
    print("错误率：%f%%" % (errorCount/float(numTestVecs)*100))

#使用算法：通过输入一个人的三维特征,进行分类输出
def classifyPerson():
    #输出结果
    resultList = ['讨厌','有些喜欢','非常喜欢']
    #三维特征用户输入
    precentTats = float(input("玩视频游戏所耗时间百分比:"))
    ffMiles = float(input("每年获得的飞行常客里程数:"))
    iceCream = float(input("每周消费的冰激淋公升数:"))
    #打开的文件名
    filename = "datingTestSet.txt"
    #打开并处理数据
    datingDataMat, datingLabels = file2matrix(filename)
    #训练集归一化
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #生成NumPy数组,测试集
    inArr = array([precentTats, ffMiles, iceCream])
    #测试集归一化
    norminArr = (inArr - minVals) / ranges
    #返回分类结果
    classifierResult = classify0(norminArr, normMat, datingLabels, 3)
    #打印结果
    print("你可能%s这个人" % (resultList[classifierResult-1]))

if __name__ == "__main__":
    #1.创建数据集
    group, labels = createDataset()
    a = classify0([0,0], group, labels, 3)
    print a
    
    #2.读取文本文件数据，并解析文件
    filename = 'datingTestSet.txt'
    datingDataMat,datingLabels = file2matrix(filename)
    print datingDataMat
    print datingLabels

    #3.可视化数据
    #showdatas(datingDataMat,datingLabels)

    #4.归一化数据
    normDataSet,ranges,minVals = autoNorm(datingDataMat)
    print normDataSet
    print ranges
    print minVals

    #5.测试数据：计算错误率
    datingClassTest()

    #6.使用算法：判断结果
    classifyPerson()

输出结果

D:\KNN\venv\Scripts\python.exe 
B
[[4.0920000e+04 8.3269760e+00 9.5395200e-01]
 [1.4488000e+04 7.1534690e+00 1.6739040e+00]
 [2.6052000e+04 1.4418710e+00 8.0512400e-01]
 ...
 [2.6575000e+04 1.0650102e+01 8.6662700e-01]
 [4.8111000e+04 9.1345280e+00 7.2804500e-01]
 [4.3757000e+04 7.8826010e+00 1.3324460e+00]]
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3, 2, 1, 2, 3, 2, 3, 2, 3, 2, 1, 3, 1, 3, 1, 2, 1, 1, 2, 3, 3, 1, 2, 3, 3, 3, 1, 1, 1, 1, 2, 2, 1, 3, 2, 2, 2, 2, 3, 1, 2, 1, 2, 2, 2, 2, 2, 3, 2, 3, 1, 2, 3, 2, 2, 1, 3, 1, 1, 3, 3, 1, 2, 3, 1, 3, 1, 2, 2, 1, 1, 3, 3, 1, 2, 1, 3, 3, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3, 3, 1, 2, 3, 2, 1, 3, 1, 2, 1, 1, 2, 3, 2, 3, 2, 3, 2, 1, 3, 3, 3, 1, 3, 2, 2, 3, 1, 3, 3, 3, 1, 3, 1, 1, 3, 3, 2, 3, 3, 1, 2, 3, 2, 2, 3, 3, 3, 1, 2, 2, 1, 1, 3, 2, 3, 3, 1, 2, 1, 3, 1, 2, 3, 2, 3, 1, 1, 1, 3, 2, 3, 1, 3, 2, 1, 3, 2, 2, 3, 2, 3, 2, 1, 1, 3, 1, 3, 2, 2, 2, 3, 2, 2, 1, 2, 2, 3, 1, 3, 3, 2, 1, 1, 1, 2, 1, 3, 3, 3, 3, 2, 1, 1, 1, 2, 3, 2, 1, 3, 1, 3, 2, 2, 3, 1, 3, 1, 1, 2, 1, 2, 2, 1, 3, 1, 3, 2, 3, 1, 2, 3, 1, 1, 1, 1, 2, 3, 2, 2, 3, 1, 2, 1, 1, 1, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 2, 3, 2, 3, 3, 3, 3, 1, 2, 3, 1, 1, 1, 3, 1, 3, 2, 2, 1, 3, 1, 3, 2, 2, 1, 2, 2, 3, 1, 3, 2, 1, 1, 3, 3, 2, 3, 3, 2, 3, 1, 3, 1, 3, 3, 1, 3, 2, 1, 3, 1, 3, 2, 1, 2, 2, 1, 3, 1, 1, 3, 3, 2, 2, 3, 1, 2, 3, 3, 2, 2, 1, 1, 1, 1, 3, 2, 1, 1, 3, 2, 1, 1, 3, 3, 3, 2, 3, 2, 1, 1, 1, 1, 1, 3, 2, 2, 1, 2, 1, 3, 2, 1, 3, 2, 1, 3, 1, 1, 3, 3, 3, 3, 2, 1, 1, 2, 1, 3, 3, 2, 1, 2, 3, 2, 1, 2, 2, 2, 1, 1, 3, 1, 1, 2, 3, 1, 1, 2, 3, 1, 3, 1, 1, 2, 2, 1, 2, 2, 2, 3, 1, 1, 1, 3, 1, 3, 1, 3, 3, 1, 1, 1, 3, 2, 3, 3, 2, 2, 1, 1, 1, 2, 1, 2, 2, 3, 3, 3, 1, 1, 3, 3, 2, 3, 3, 2, 3, 3, 3, 2, 3, 3, 1, 2, 3, 2, 1, 1, 1, 1, 3, 3, 3, 3, 2, 1, 1, 1, 1, 3, 1, 1, 2, 1, 1, 2, 3, 2, 1, 2, 2, 2, 3, 2, 1, 3, 2, 3, 2, 3, 2, 1, 1, 2, 3, 1, 3, 3, 3, 1, 2, 1, 2, 2, 1, 2, 2, 2, 2, 2, 3, 2, 1, 3, 3, 2, 2, 2, 3, 1, 2, 1, 1, 3, 2, 3, 2, 3, 2, 3, 3, 2, 2, 1, 3, 1, 2, 1, 3, 1, 1, 1, 3, 1, 1, 3, 3, 2, 2, 1, 3, 1, 1, 3, 2, 3, 1, 1, 3, 1, 3, 3, 1, 2, 3, 1, 3, 1, 1, 2, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 2, 1, 3, 1, 3, 1, 1, 2, 2, 2, 3, 2, 2, 1, 2, 3, 3, 2, 3, 3, 3, 2, 3, 3, 1, 3, 2, 3, 2, 1, 2, 1, 1, 1, 2, 3, 2, 2, 1, 2, 2, 1, 3, 1, 3, 3, 3, 2, 2, 3, 3, 1, 2, 2, 2, 3, 1, 2, 1, 3, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 3, 1, 1, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 3, 1, 2, 3, 2, 2, 3, 1, 2, 3, 2, 3, 1, 2, 2, 3, 1, 1, 1, 2, 2, 1, 1, 2, 1, 2, 1, 2, 3, 2, 1, 3, 3, 3, 1, 1, 3, 1, 2, 3, 3, 2, 2, 2, 1, 2, 3, 2, 2, 3, 2, 2, 2, 3, 3, 2, 1, 3, 2, 1, 3, 3, 1, 2, 3, 2, 1, 3, 3, 3, 1, 2, 2, 2, 3, 2, 3, 3, 1, 2, 1, 1, 2, 1, 3, 1, 2, 2, 1, 3, 2, 1, 3, 3, 2, 2, 2, 1, 2, 2, 1, 3, 1, 3, 1, 3, 3, 1, 1, 2, 3, 2, 2, 3, 1, 1, 1, 1, 3, 2, 2, 1, 3, 1, 2, 3, 1, 3, 1, 3, 1, 1, 3, 2, 3, 1, 1, 3, 3, 3, 3, 1, 3, 2, 2, 1, 1, 3, 3, 2, 2, 2, 1, 2, 1, 2, 1, 3, 2, 1, 2, 2, 3, 1, 2, 2, 2, 3, 2, 1, 2, 1, 2, 3, 3, 2, 3, 1, 1, 3, 3, 1, 2, 2, 2, 2, 2, 2, 1, 3, 3, 3, 3, 3, 1, 1, 3, 2, 1, 2, 1, 2, 2, 3, 2, 2, 2, 3, 1, 2, 1, 2, 2, 1, 1, 2, 3, 3, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 1, 3, 3, 2, 3, 2, 3, 3, 2, 2, 1, 1, 1, 3, 3, 1, 1, 1, 3, 3, 2, 1, 2, 1, 1, 2, 2, 1, 1, 1, 3, 1, 1, 2, 3, 2, 2, 1, 3, 1, 2, 3, 1, 2, 2, 2, 2, 3, 2, 3, 3, 1, 2, 1, 2, 3, 1, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2, 1, 3, 3, 3]
[[0.44832535 0.39805139 0.56233353]
 [0.15873259 0.34195467 0.98724416]
 [0.28542943 0.06892523 0.47449629]
 ...
 [0.29115949 0.50910294 0.51079493]
 [0.52711097 0.43665451 0.4290048 ]
 [0.47940793 0.3768091  0.78571804]]
[9.1273000e+04 2.0919349e+01 1.6943610e+00]
[0.       0.       0.001156]
分类结果：3	真实类别：3
分类结果：2	真实类别：2
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：3	真实类别：3
分类结果：3	真实类别：3
分类结果：1	真实类别：1
分类结果：3	真实类别：3
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：2	真实类别：2
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：1	真实类别：1
分类结果：2	真实类别：2
分类结果：3	真实类别：3
分类结果：2	真实类别：2
分类结果：1	真实类别：1
分类结果：3	真实类别：2
分类结果：3	真实类别：3
分类结果：2	真实类别：2
分类结果：3	真实类别：3
分类结果：2	真实类别：2
分类结果：3	真实类别：3
分类结果：2	真实类别：2
分类结果：1	真实类别：1
错误率：3.333333%
玩视频游戏所耗时间百分比:1.2345
每年获得的飞行常客里程数:2.1980
每周消费的冰激淋公升数:0.2345
你可能有些喜欢这个人

Process finished with exit code 0