KNN的后面两个n的意思是最近邻居,那就是近墨者黑的意思,
计算距离是欧式距离公式,用测试的数据和所有的数据集进行计算,然后把他归类到最接近的数据,然后就给他贴上最接近的那个已知标签的数据的标签。
knn最重要的就是kd tree,就是把数据做方差,最大的方差是维数,然后在这个维度下,把数据的中位数作为根节点,然后大于在右边,小于在左边,然后不断地迭代。
k 不能取太大,容易欠拟合,k 不能去太小 容易过拟合。
欠拟合的意思是它的拟合率很低,过拟合的意思是看起来拟合率很高但是其实实际用起来效果很差