K最近邻分类算法理论与实例分析

本文深入探讨了K最近邻分类算法,包括算法思想、步骤和实例分析。通过实例展示了如何使用KNN算法预测鸢尾花种类,同时提供了数据处理和距离计算的代码实现。讨论了K值选择对算法性能的影响,并指出KNN算法适用于小数据场景。
摘要由CSDN通过智能技术生成

专业

计算机科学与技术

姓名

学号

成绩

江苏科技大学

2021 / 2022 学年第 2 学期)

数据仓库与数据挖掘报告

论文题目:K最近邻分类算法理论与实例分析

论文评语:_________________________

          _________________________

          _________________________

2022年6月6日

K最近邻分类算法理论与实例分析

摘要:

K近邻算法(英文为K-Nearest Neighbor,因而又简称KNN算法)是非常经典的机器学习算法。

K近邻算法的原理非常简单:对于一个新样本,K近邻算法的目的就是在已有数据中寻找与它最相似的K个数据,或者说“离它最近”的K个数据,如果这K个数据大多数属于某个类别,则该样本也属于这个类别。

关键词:KNN算法;离它最近;K近邻算法………(关键词2-4个)

1 算法简介

K 最近邻 (KNN) 系列分类算法和回归算法通常称为基于记忆的学习或基于实例的学习。有时,也称为惰性学习。

这些术语对应于 KNN 的主要概念。此概念是通过记忆训练数据集来替代创建模型,然后使用此数据进行预测。

KNN 算法采用多数表决机制。它从训练数据集收集数据,稍后使用此数据针对新记录进行预测。

2 算法思想

KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的K个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。

如果⼀个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的⼤多数属于某⼀个类别,则该实例也属于这个类别。所选择的邻居都是已经正确分类的实例。

该算法假定所有的实例对应于N维欧式空间Ân中的点。通过计算⼀个点与其他所有点之间的距离,取出与该点最近的K个点,然后统计这K个点⾥⾯所属分类⽐例最⼤的,则这个点属于该分类。该算法涉及3个主要因素:实例集、距离或相似的衡量、k的⼤⼩。⼀个实例的最近邻是根据标准欧⽒距离定义的。更精确地讲,把任意的实例x表⽰为下⾯的特征向量:

3 算法步骤

    (1) 对训练数据进行处理,提出每一个样本数据和其对应的标签

    (2) 对训练数据和测试数据进行归一化处理

    (3) 计算并存储每一个测试样本到所有训练样本的距离

    (4) 对得到的距离集合进行排序

    (5) 选择距离最小的k个样本

(6) 找出k个样本中最公共的类别,即为该测试样本所属的类别

4 算法实例

使用KNN算法预测鸢尾花的种类,其中训练数据集为train.txt,测试集为test.txt。训练样本为120个,测试样本为30个。

5 代码实现

  1. 处理训练数据和测试数据。因为训练数据中的每个样本包含标签而测试数据中的样本不包含,因此使用两个不同的功能函数分别进行处理。我所实现的这两个函数具有兼容性,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值