欧氏距离:两个点在空间中的距离
曼哈顿距离:城市街区距离,特点是横平竖直
例:A(2,2),B(1,1)则AB=|2-1|+|2-1|=2
切比雪夫距离:国际象棋每次走一步8个邻格。
两点坐标(|x1-x2|,|y1-y2|)中取最大值即为距离。例max(|6-3|,|5-4|)=2
闵可夫斯基距离:多个距离公示的概括性表述。
p是参数:p=1时为曼哈顿距离,p=2时为欧氏距离,p=∞时为切比雪夫距离。
特征预处理:
特征的单位或大小相差大,或某特征的方差比其他的大的多,影响结果。
因此有归一化和标准化两种方法解决。
数据标准化:
通过标准化,将原始数据转换为均值为0标准差为1的标准正态分布
代码实现:
API:1.sklearn.preprocessing. StandardScaler()
2.fit_transform(X)将特征进行归一化缩放
数据归一化:把数据映射到【min,max】之间
代码实现:
API:1.sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)… )feature_range缩放区间 2.fit_transform(X)将特征进行归一化缩放
鸢尾花分类
加载鸢尾花数据集:
KNN对鸢尾花进行分类——加载鸢尾花数据集
数据集划分
模型训练:
模型评估:
交叉验证与网格搜索
交叉验证:是数据集的分割方法,将训练集划分为n份,拿一份做测试集,其他n-1份做训练集
目的是为了得到更加准确可信的模型评分。
网格搜索:是模型调参的有力工具。
网格搜索+交叉验证的强力组合(模型选择和调优):
交叉验证解决模型的数据输入问题(数据集划分)得到更可靠的模型
网格搜索解决超参数的组合
两个组合再一起形成一个模型参数调优的解决方案