机器学习笔记 第三讲 KNN

学习目标

1、分类问题

2、距离度量

3、KNN算法

4、在分类任务中的应用

5、在回归分析中的应用

分类问题

分类,也就是找一个函数来判断数据属于什么

比如

二分类:是\不是 什么的问题

又比如

多分类:判断数据属于哪个类别(类别一、类别二......)

距离度量 
(1)欧氏距离(Euclidean distance)
是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离。

(2)曼哈顿距离(Manhattan distance)
顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

(3)切比雪夫距离(Chebyshev distance)
国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?你会发现最少步数总是max(| x2-x1| , |y2-y1| ) 步。这种类似的一种距离度量方法就叫切比雪夫距离(L∞范数)。

 (4)闵可夫斯基距离(Minkowski distance)

基于闵氏空间提出,是一个更广泛意义的距离:

p=1时则为曼哈顿距离

p=2即为欧氏距离

p取无穷时的极限情况下,得到切比雪夫距离

(5)汉明距离(Hamming distance) 

(6)余弦相似度(Cosine Similarity)

K最近邻(k-Nearest Neighbor,KNN)分类算法

所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说没有训练阶段,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。与急切学习(eager learning)相对应。

算法思想:近朱者赤近墨者黑

是一种非参数、惰性学习方法:

( 1) 不是用一组固定参数来描述, 参数的个数随着训练数据的增加而增长 ;
( 2) 不是说它看上去简单,而是在于 它不是从训练数据中学习差别函数,而是靠记忆训练过的数据集来完成任务。

在分类任务中的应用

sklearn中的make_regression生成回归样本数据


格式:make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

sklearn中的K近邻回归分析器
sklearn.neighbors.KNeighborsRegressor ()

格式:KNeighborsRegressor(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值