KNN:k-Nearest Neighbor
假设训练集有记录: r1,r2,...,rn 共n条,训练集的特征向量及其对应的类别都是已知的,每个记录的特征向量为: t1,t2,...,tk 共k个特征,待测试的记录为 ru ,
1、计算
ru
的特征向量与训练集的每条记录(即
r1,r2,...,rn
)的特征向量的欧式距离,选取距离最小的K个(这也是k近邻算法中k的来历)。
2、看距离最近的k个记录中那个类别的频数最大,取频数最大的作为
ru
的类别。
注意:在计算欧式距离的时候,可以先将数据归一化,这样利于计算,计算起来比较快。