k紧邻算法用来进行分类。分类方法为:对每个待分类数据,计算该数据与每个训练数据之间的距离,对数据进行排序后,找出前k个距离最近的训练样例。这k个训练样例所属的分类中,最多的分类即判定为该数据的分类。距离计算可以使用欧氏距离,并且要把所有数据归一化。
可以很容易的看出,该方法有个缺点,就是对每一个查询数据,都要和所有的训练数据对比一遍,效率比较低下。另外,想要找到哪个属性对分类的影响最大也比较困难。
《机器学习实战》这本书上有两个不错的实例,约会网站匹配和手写识别。
k紧邻算法用来进行分类。分类方法为:对每个待分类数据,计算该数据与每个训练数据之间的距离,对数据进行排序后,找出前k个距离最近的训练样例。这k个训练样例所属的分类中,最多的分类即判定为该数据的分类。距离计算可以使用欧氏距离,并且要把所有数据归一化。
可以很容易的看出,该方法有个缺点,就是对每一个查询数据,都要和所有的训练数据对比一遍,效率比较低下。另外,想要找到哪个属性对分类的影响最大也比较困难。
《机器学习实战》这本书上有两个不错的实例,约会网站匹配和手写识别。