Re:从零开始的机器学习 – 深入浅出KNN

本文深入介绍了K-nearest neighbors(KNN)算法,包括其分类和回归应用,核心思想,超参数K的选择,距离度量方法,以及大数据场景下的性能优化。同时讨论了KNN中的问题,如样本权重和不均衡数据处理。
摘要由CSDN通过智能技术生成
                              Re:从零开始的机器学习 – 深入浅出KNN

本文主要介绍一个被广泛使用的机器学习 分类算法 ,K-nearest neighbors(KNN),中文叫K近邻算法。

在这里插入图片描述
KNN
k近邻算法是一种基本分类和回归方法。

KNN实际上也可以用于回归问题,不过在工业界使用得比较广泛的还是分类问题

KNN的核心思想也非常简单, 如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别 ,比如下图,当K=3时,节点会被预测属于红色椭圆类。有点“近朱者赤,近墨者黑”的感觉。

在这里插入图片描述
算法的原理非常简单,但这其中隐藏了一些值得被探讨的点:

k该如何取值?

距离最近中的“距离”是什幺,怎幺计算会更好?

如果对于一个数据要计算它与模型中所有点的距离,那当数据量很大的时候性能会很差,怎幺改善?

在一些情况下明明数据离某一个点特别近,但有另外两个同类的点离得很远但被K包含在内了,这种情况把数据划为这两个点的同类是不是不太合理?

如果训练数据不均衡(Imbalance data)怎幺办?

特征的纬度量纲跨越很

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值