kNN处理iris数据集-使用交叉验证方法确定最优 k 值

最新推荐文章于 2024-07-09 17:43:26 发布

woswod

最新推荐文章于 2024-07-09 17:43:26 发布

阅读量8.7k

点赞数 1

分类专栏：机器学习 python 文章标签： kNN iris数据集机器学习交叉验证

本文链接：https://blog.csdn.net/woswod/article/details/79881425

版权

本文介绍了如何运用kNN算法处理iris鸢尾花数据集，通过交叉验证来确定最佳的k值。基本流程包括计算距离、选择最近邻居及统计结果。实验中，对k值从1到120进行遍历，通过验证集计算错误率，以找到错误率最低的最优k值。

摘要由CSDN通过智能技术生成

基本流程：

1、计算测试实例到所有训练集实例的距离；
2、对所有的距离进行排序，找到k个最近的邻居；
3、对k个近邻对应的结果进行合并，再排序，返回出现次数最多的那个结果。

交叉验证：

对每一个k，使用验证集计算，记录k对应的错误次数，取错误数最小的k

iris鸢尾花数据集

网上有很多下载的
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/

代码

# -*- coding: utf-8 -*-
import os
import pandas as pd
import matplotlib.pyplot as plt
import math
import operator

#按照8:2的比例分割数据
#testSetIndex : 第几组为测试样本，取值范围0 - 4
def splitData(trainSet, testSet, testSetIndex):
    #data = pd.read_csv('iris.txt', skiprows=0, skipfooter=0, sep=r'\s+', encoding="utf-8", engine='python', header=None)
    data = pd.read_csv('iris.txt', encoding="utf-8", engine='python', header=None)

    for i in range(150):
        if testSetIndex == (i % 50) / 10:
            testSet.append(data.iloc[i])
        else:
            trainSet.append(data.iloc[i])
    return

#计算欧氏距离
#instance1 : 实例1
#instance2 : 实例2
#dimension ：维度
def computeDistance(instan