机器学习简单来说就是模仿人的行为学习的过程,其中,算法是重中之重,今天来说的就是KNN算法,学习算发首先就是先下载pycharm和Anaconda。
下载地址:
pycharm(下载社区版):Download PyCharm: The Python IDE for data science and web development by JetBrains
Anconda:Distribution | Anaconda
官网下载比较慢,这里推荐清华源镜像下载Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
1 KNN概念 K Nearest Neighbor
• 一个样本最相似的 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别
2 KNN分类流程
1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列
3.取出距离最近的 K 个训练样本
4.进行多数表决,统计 K 个样本中哪个类别的样本个数最多
5.将未知的样本归属到出现次数最多的类别
3 KNN回归流程
1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列
3.取出距离最近的 K 个训练样本
4.把这个 K 个样本的目标值计算其平均值
5.将未知的样本预测的值了
4 K值的选择
• K值过小:过拟合
• K值过大:欠拟合
KNN算法API使用 - 分类问题
结果