Python微信订餐小程序课程视频
https://edu.csdn.net/course/detail/36074
Python实战量化交易理财系统
https://edu.csdn.net/course/detail/35475
一、K近邻算法简介
K近邻算法(K-Nearest Neighbor)简称KNN算法,是最简单的预测模型之一,它没有多少数学上的假设,也不要求任何复杂的处理,它所要求的只有以下两点
1.某种距离计算概念
2.彼此接近的点具有相似的性质
即对于一个新样本,算法在已有数据中寻找与它最相似的K个数据,或者说“离它最近”的K个数据,如果这K个数据大多数属于某个类别,则该样本也属于这个类别。
KNN算法只依赖待预测节点附近的少量节点,有意的忽略了数据集中的大量样本,同时该算法也不能帮助我们理解事物现象背后的机制和原理;
预测策略通常采用多数表决的投票法;也就是将k个样本中出现最多的分类作为预测结果;计算公式如下,里边的v是样本的分类标签,yi是第i个样本的分类标签,I是指示函数,如果预测结果属于某个分类就返回1,否则返回0,则最终取出现次数最多的分类作为预测结果;
y=argmaxv∑(xi,yi)∈DzI(v=yi)y = argmax_{v} \sum_{(x_{i},y_{i})\in D_{z}} I(v=y_{i})
相对来说,K近邻学习