sklearn库之监督实习——k近邻和线性模型

一、如何处理数据集?
from sklearn.dataset import load_iris  # 加载鸢尾花数据集 

使用scikit-learn时,数据通常用大写的 X 表示,而标签用小写的 y 表示。

scikit-learn的model_selection的 train_test_split 函数可以打乱数据集并进行拆分。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( 
    iris_dataset['data'], iris_dataset['target'], random_state=0) 
# 在对数据进行拆分之前,train_test_split 函数利用伪随机数生成器将数据集打乱
# random_state 参数指定了随机数生成器的种子。这样函数输出就是固定不变的

检查数据的最佳方法之一就是将其可视化。一种可视化方法是绘制散点图(scatter plot)。pandas 有一个绘制散点图矩阵的函数scatter_matrix()。矩阵的对角线是每个特征的直方图。

# 利用DataFrame创建散点图矩阵,按y_train着色, 现在函数名为pd.plotting.scatter_matrix()
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={
   'bins': 20}, s=60, alpha=.8)

散点图矩阵:
在这里插入图片描述

二、如何调用算法?

scikit-learn 中所有的机器学习模型都在各自的类中实现,这些类被称为 Estimator 类。我们需要将这个类实例化为一个对象,然后才能使用这个模型。

例如:k 近邻分类算法是在 neighbors 模块的 KNeighborsClassifier 类中实现的。

from sklearn.neighbors import KNeighborsClassifier  # 加载实现KNN算法的类
knn = KNeighborsClassifier(n_neighbors=1)  # 创建一个实例对象,并初始化
knn.fit(X_train, y_train)  
# 调用knn对象的fit方法,fit方法返回的是knn对象本身并做原处修改,得到了分类器的字符串表示。
y_pred = knn.predict(X_test) # 调用knn对象的predict方法,对验证集进行预测。
score = knn.score(X_test,
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值