一.knn算法简介
knn算法( k nearest neighbor也叫K临近算法)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
经典案例
有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。
我们要判别上图中那个绿色的圆是属于哪一类数据,则要从它的邻居下手。但一次性看多少个邻居呢?从上图中,你还能看到:
1.若K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。
2.若K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。
我们看到,当无法判定当前待分类点是从属于已知分类中的哪一类时,我们可以依据统计学的理论看它所处的位置特征,衡量它周围邻居的权重,而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。
KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。(根据距离进行判断)
案例二.
假设我们对男性身高的判断为:矮【150.154.158】,中【170,175,178】,高【180.185,188】,而小明的身高为152,我们人类一眼就可以判断出小明的身高属于矮,因为152离150和154最近。这是我们人为的判断,而knn算法呢,就是通过一些算法告诉计算机,让计算机来判断小明的身高属于哪个级别。
二.算法的三要素
1.***K 值***的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用,但容易发生过拟合;如果 K 值较大,优点是可以减少学习的估计误差,但缺点是学习的近似误差增大,这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。
在实际应用中,K 值一般选择一个较小的数值,通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时,误差率不会超过贝叶斯误差率的2倍,如果K也趋向于无穷,则误差率趋向于贝叶斯误差率。
2.***分类决策***规则往往是多数表决,即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别。
3.***距离度量***一般采用Lp 距离,当p=2时,即为欧氏距离,在度量之前,应该将每个属性的值规范化,这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。
距离度量,说白了就是距离计算公式。常见的距离计算公式有如下:https://www.cnblogs.com/soyo/p/6893551.html
1.曼哈顿距离:
2.欧氏距离:d=sqrt( ∑(xi1-xi2)^2 ) 这里i=1,2n
3.余弦距离:
欧氏距离与余弦距离
4.皮尔逊系数:是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。
5.杰卡德距离:https://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html
6.闵可夫斯基距离:
7.切比雪夫距离;在平面几何中,若二点p及q的直角坐标系坐标为(x1,y1)及(x2,y2),则切比雪夫距离为
8.汉明距离:
9.莱文斯坦距离:被定义为’‘将字符串 s 变换为字符串 t 所需的删除、插入、替换操作的次数’’。
莱文斯坦距离越大,字符串的相似程度越低。
三.算法步骤
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
四.代码示例
from sklearn import neighbors
from sklearn import datasets
knn = neighbors.KNeighborsClassifier() # 申明对象
iris = datasets.load_iris() # 导入数据
print(iris)
knn.fit(iris.data,iris.target) # 生成KNN模型
predicit_label = knn.predict([[0.2,0.3,0.3,0.2]]) # 预测
print(predicit_label)
import csv
import random
import math
import operator
'''
导入数据
filename数据存储路径
radio,按指定比例将数据划分为训练集和测试集
'''
def loadDateset(filename,radio,trainSet=[],testSet=[]):
with open(filename,'rt') as csvfile:
lines = csv.reader(csvfile) # 逐行读取数据
dataset = list(lines) # 转换为列表存储
for x in range(len(dataset)-1): # 循环每行数据,将前4个特征值存入数组
for y in range(4):
dataset[x][y] = float(dataset[x][y])
if random.random()<radio: # 取随机值,小于radio就划分到训练集
trainSet.append(dataset[x])
else:
testSet.append(dataset[x])
#计算2个样例之间的距离(欧氏距离),length表示数据的维度
def evaluateDistance(instance1,instance2,length):
distance = 0
for x in range(length): # 循环每一维度,数值相减并对其平方,然后进行累加
distance += pow((instance1[x]-instance2[x]),2)
return math.sqrt(distance) # 开方求距离
#对于一个实例,找到离他最近的k个实例
def getNeighbors(trainSet,testInstance,k):
distance = []
length = len(testInstance)-1 # 每个测试实例的维度
for x in range(len(trainSet)-1): # 训练集中每一个实例到测试实例的距离
dist = evaluateDistance(testInstance,trainSet[x],length)
distance.append((trainSet[x],dist)) # 将每一个训练实例和其对应到测试实例的距离存储到列表
distance.sort(key=operator.itemgetter(1)) # operator模块提供的itemgetter函数用于获取距离维度的数据并排序
neighbors = [] # 存储离一个实例最近的几个实例
for x in range(k): # 取distance中前k个实例存储到neighbors
neighbors.append(distance[x][0])
return neighbors
在最近的K个实例中投票,少数服从多数,把要预测的实例归到多数那一类
def getResponse(neighbors):
classvotes = {} # 定义一个字典,存储每一类别的数目
for x in range(len(neighbors)):
response = neighbors[x][-1]
if response in classvotes:
classvotes[response] += 1
else:
classvotes[response] = 1
sortedVotes = sorted(classvotes.items(),key=operator.itemgetter(1),reverse=True) # 排序,输出数目最大的类别
return sortedVotes[0][0]
#计算测试集的准确率
def getAccuracy(testSet,predictions):
correct = 0
for x in range(len(testSet)):
if testSet[x][-1] == predictions[x]: # 每行测试用例最后一列的标签与预测标签是否相等
correct += 1
return (correct/float(len(testSet)))*100.0
def main():
trainSet = [] # 存储训练集
testSet = [] # 存储测试集
radio = 0.80 # 按4:1划分
loadDateset('G:/PycharmProjects/Machine_Learning/KNN/irisdata.txt',radio,trainSet,testSet) #导入数据并划分
print("trainSetNum: "+ str(len(trainSet)))
print("testSetNum: "+ str(len(testSet)))
predictions = []
k = 3 # 选取前k个最近的实例
for x in range(len(testSet)): # 循环预测测试集合的每个实例
neighbors = getNeighbors(trainSet,testSet[x],k)
result = getResponse(neighbors)
predictions.append(result)
print('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))
accuracy = getAccuracy(testSet,predictions)
print('Accuracy: ' + repr(accuracy) + '%')
if __name__ == '__main__':
main()
五.算法优缺点
优点:精度高、对异常值不敏感、无数据输入假定。KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。
缺点:样本分布不均衡时,如果一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。