四种距离计算方法及鸢尾花分类

欧氏距离:两个点在空间中的距离

曼哈顿距离:城市街区距离,特点是横平竖直

例:A(2,2),B(1,1)则AB=|2-1|+|2-1|=2

切比雪夫距离:国际象棋每次走一步8个邻格。

两点坐标(|x1-x2|,|y1-y2|)中取最大值即为距离。例max(|6-3|,|5-4|)=2

闵可夫斯基距离:多个距离公示的概括性表述。

p是参数:p=1时为曼哈顿距离,p=2时为欧氏距离,p=∞时为切比雪夫距离。

特征预处理:

特征的单位或大小相差大,或某特征的方差比其他的大的多,影响结果。

因此有归一化和标准化两种方法解决。

数据标准化

通过标准化,将原始数据转换为均值为0标准差为1的标准正态分布

代码实现:

API:1.sklearn.preprocessing. StandardScaler()

         2.fit_transform(X)将特征进行归一化缩放

数据归一化:把数据映射到【min,max】之间

代码实现:

API:1.sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)… )feature_range缩放区间                 2.fit_transform(X)将特征进行归一化缩放

鸢尾花分类

加载鸢尾花数据集:

KNN对鸢尾花进行分类——加载鸢尾花数据集

数据集划分

模型训练:

模型评估:

交叉验证与网格搜索

交叉验证:是数据集的分割方法,将训练集划分为n份,拿一份做测试集,其他n-1份做训练集

目的是为了得到更加准确可信的模型评分。

网格搜索:是模型调参的有力工具。

网格搜索+交叉验证的强力组合(模型选择和调优):

交叉验证解决模型的数据输入问题(数据集划分)得到更可靠的模型

网格搜索解决超参数的组合

两个组合再一起形成一个模型参数调优的解决方案

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值