《昇思25天学习打卡营第22天|K近邻算法实现红酒聚类》

.clean

于 2024-07-28 09:30:49 发布

阅读量209

点赞数 3

文章标签：学习近邻算法聚类

本文链接：https://blog.csdn.net/weixin_45128839/article/details/140746406

版权

在这里插入图片描述
本节学习了利用K近邻算法实现拥有多属性的红酒分类模型：

其中K近邻算法（K-Nearest-Neighbor, KNN）介绍：

K近邻算法是一种用于分类和回归的非参数统计方法，最初由 Cover和Hart于1968年提出(Cover等人,1967)，是机器学习最基础的算法之一。它正是基于以上思想：要确定一个样本的类别，可以计算它与所有训练样本的距离，然后找出和该样本最接近的k个样本，统计出这些样本的类别并进行投票，票数最多的那个类就是分类的结果。KNN的三个基本要素：

1.K值，一个样本的分类是由K个邻居的“多数表决”确定的。K值越小，容易受噪声影响，反之，会使类别之间的界限变得模糊。

2.距离度量，反映了特征空间中两个样本间的相似度，距离越小，越相似。常用的有Lp距离（p=2时，即为欧式距离）、曼哈顿距离、海明距离等。

分类决策规则，通常是多数表决，或者基于距离加权的多数表决（权值与距离成反比）。

分类问题与回归问题的区别：

1.输出变量类型：
分类问题：输出变量是离散的标签。例如，判断邮件是否为垃圾邮件，输出的结果只能是“是”或“否”这样的分类标签。
回归问题：输出变量是连续的数值。例如，预测房屋的价格，输出的是一个具体的数值，如“300,000元”。
2.预测任务：
分类问题：任务是预测一个实例属于哪个类别。它可以是二分类问题（两个类别），如判断肿瘤是否为恶性；也可以是多分类问题（多个类别），如识别图片中的物体类型。
回归问题：任务是预测一个连续值，通常是预测某个数量或程度。例如，预测明天的气温、股票价格等。
3.评估方法：
分类问题：通常使用准确率、召回率、F1分数等指标来评估模型的性能。
回归问题：通常使用均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）等指标来评估模型的性能。
4.应用场景：
分类问题：广泛应用于图像识别、语音识别、文本分类等领域。
回归问题：在房价预测、股票市场分析、天气预报等需要预测具体数值的场景中应用广泛。
在这里插入图片描述

.clean

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《昇思25天学习打卡营第22天|K近邻算法实现红酒聚类》

K近邻算法是一种用于分类和回归的非参数统计方法，最初由 Cover和Hart于1968年提出(Cover等人,1967)，是机器学习最基础的算法之一。它正是基于以上思想：要确定一个样本的类别，可以计算它与所有训练样本的距离，然后找出和该样本最接近的k个样本，统计出这些样本的类别并进行投票，票数最多的那个类就是分类的结果。KNN的三个基本要素：1.K值，一个样本的分类是由K个邻居的“多数表决”确定的。K值越小，容易受噪声影响，反之，会使类别之间的界限变得模糊。
复制链接

扫一扫