sklearn库的使用步骤

最新推荐文章于 2024-08-03 15:34:58 发布

Steven·简谈

最新推荐文章于 2024-08-03 15:34:58 发布

阅读量3.4k

点赞数 4

分类专栏：机器学习文章标签： Python 机器学习 sklearn

本文链接：https://blog.csdn.net/weixin_44613063/article/details/105869192

版权

Python 同时被 2 个专栏收录

49 篇文章 8 订阅

订阅专栏

机器学习

36 篇文章 7 订阅

订阅专栏

sklearn是目前python中十分流行的用来实现机器学习的第三方包，其中包含了多种常见算法如：决策树，逻辑回归、集成算法等。

即使你还不太懂机器学习的具体过程，依旧可以使用此库进行机器学习操作，因为其对各种算法进行了良好的封装，可以在不了解算法实现过程的情况下使用算法，所以可以把 sklearn 库当作学习过程中的一个过度，如果你想快速建立一个模型，这也是一个不错的选择。

数据导入

sklearn 内含有很多数据集，可以用来练手，一些小规模数据可以直接使用，但大规模数据要下载

内部小规模数据的导入方式：

from sklearn import datasets

boston = datasets.load_boston()	# 导入波士顿房价数据
iris = datasets.load_iris() # 导入鸢尾花数据
diabetes = datasets.load_diabetes()	# 导入糖尿病数据
digits = datasets.load_digits()	# 导入手写数字集数据

提取特征和目标，以手写数字集为例：

X = digits.data # 获得其特征向量
y = digits.target # 获得样本label

若使用外部的数据集，则需要另行导入，比如以 csv 文件存储的信息，可以选择使用 Pandas 库导入：

import pandas as pd

df = pd.read_csv('load.csv')

数据预处理

如果原始数据不太标准，为避免后期学习过程太长，可以先对数据进行处理

使用模块

from sklearn import preprocessing

标准化

scaler = preprocessing.StandardScaler().fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

归一化

scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

正则化：

normalized = preprocessing.normalize(X, norm='...')

拆分数据集

为了查看训练出的模型的效果，需要将数据拆分为训练集和测试集，一部分用于训练另一部分用于验证

from sklearn.mode_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

test_size 为测试集的比例，random_state 为随机种子

选择模型

举几个例子

from sklearn.svm import SVC	# 支持向量机
model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)

from sklearn import neighbors	# KNN
model = neighbors.KNeighborsClassifier(n_neighbors=5, n_jobs=1) # 分类
model = neighbors.KNeighborsRegressor(n_neighbors=5, n_jobs=1) # 回归

from sklearn.neural_network import MLPClassifier	# 神经网络
model = MLPClassifier(activation='relu', solver='adam', alpha=0.0001)

模型训练

sklearn 为所有模型提供了非常相似的接口，这样就使训练和验证过程有一个同一的方法

上面所有模型都以 model 变量表示，下面直接运用：

model.fit(X_train, y_train)	# 拟合模型
model.predict(X_test)	# 模型预测
model.get_params()	# 获得这个模型的参数
model.score(X_test, y_test)	# 为模型进行打分

Steven·简谈

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录