sklearn库之监督实习——k近邻和线性模型

最新推荐文章于 2021-11-24 21:03:02 发布

xylbill97

最新推荐文章于 2021-11-24 21:03:02 发布

阅读量729

点赞数 3

分类专栏：机器学习文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/xylbill97/article/details/105877730

版权

文章目录

一、如何处理数据集？

from sklearn.dataset import load_iris  # 加载鸢尾花数据集

使用scikit-learn时，数据通常用大写的 X 表示，而标签用小写的 y 表示。

scikit-learn的model_selection的 train_test_split 函数可以打乱数据集并进行拆分。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( 
    iris_dataset['data'], iris_dataset['target'], random_state=0) 
# 在对数据进行拆分之前，train_test_split 函数利用伪随机数生成器将数据集打乱
# random_state 参数指定了随机数生成器的种子。这样函数输出就是固定不变的

检查数据的最佳方法之一就是将其可视化。一种可视化方法是绘制散点图（scatter plot）。pandas 有一个绘制散点图矩阵的函数scatter_matrix()。矩阵的对角线是每个特征的直方图。

# 利用DataFrame创建散点图矩阵，按y_train着色, 现在函数名为pd.plotting.scatter_matrix()
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={
   'bins': 20}, s=60, alpha=.8)

散点图矩阵：
在这里插入图片描述

二、如何调用算法？

scikit-learn 中所有的机器学习模型都在各自的类中实现，这些类被称为 Estimator 类。我们需要将这个类实例化为一个对象，然后才能使用这个模型。

例如：k 近邻分类算法是在 neighbors 模块的 KNeighborsClassifier 类中实现的。

from sklearn.neighbors import KNeighborsClassifier  # 加载实现KNN算法的类
knn = KNeighborsClassifier(n_neighbors=1)  # 创建一个实例对象，并初始化
knn.fit(X_train, y_train)  
# 调用knn对象的fit方法，fit方法返回的是knn对象本身并做原处修改，得到了分类器的字符串表示。
y_pred = knn.predict(X_test) # 调用knn对象的predict方法，对验证集进行预测。
score = knn.score(X_test,

最低0.47元/天解锁文章

xylbill97

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
sklearn库之监督实习——k近邻和线性模型

文章目录一、如何处理数据集？二、如何调用算法？三、监督学习：分类与回归四、主要算法4.1 使用到的数据集4.2 k近邻4.3 线性模型4.4 朴素贝叶斯分类器一、如何处理数据集？from sklearn.dataset import load_iris # 加载鸢尾花数据集使用scikit-learn时，数据通常用大写的 X 表示，而标签用小写的 y 表示。scikit-learn的...
复制链接

扫一扫

专栏目录