KNN实现鸢尾花分类
KNeighborsClassifier:
class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’,
algorithm=’auto’, leaf_size=30,
p=2, metric=’minkowski’,
metric_params=None,
n_jobs=None, **kwargs)
参数:
-
n_neighbors:选取最近的k个点
weights:uniform(默认)表示所有邻近点的权重相等,distance表示距离近的点比距离远的点影响更大。 -
algorithm:auto(默认)表示算法自己决定适合的搜索算法,其余的不做详细说明。 leaf_size:构造kd树和ball树的大小
-
p:默认为2,表示距离计算方式,1:曼哈顿距离,2:欧氏距离
-
metric:距离度量,默认‘minkowski’(用的较少,知道有这么个参数就行)
-
metric_params:距离公式的其他关键参数,这个可以不管,使用默认的None即可。
-
n_jobs:并行处理设置。默认为1,临近点搜索并行工作数。如果为-1,那么CPU的所有cores都用于并行工作。
实现鸢尾花分类:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report,confusion_matrix
from sklearn import neighbors
import random
# 载入数据
iris = datasets.load_iris()
# 数据预处理,打乱顺序
data_size = iris.data.shape[0] # 求出数据长度
index = [i for i in range(data_size)] # 生成索引
random.shuffle(index) # 打乱索引
iris.data = iris.data[index]
iris.target = iris.target[index]
#切分数据集
test_size = 40
x_train = iris.data[test_size:]
x_test = iris.data[:test_size]
y_train = iris.target[test_size:]
y_test = iris.target[:test_size]
# 构建模型
model = neighbors.KNeighborsClassifier(n_neighbors=5)
model.fit(x_train, y_train)
pre = model.predict(x_test)
# 进行评估
print(classification_report(y_test, pre))
#输出混淆矩阵
print(confusion_matrix(y_test,pre))
建议观看链接:https://blog.csdn.net/sinat_30353259/article/details/80901746