【机器学习】Sklearn 库（一）

最新推荐文章于 2024-10-17 17:26:49 发布

weixin_47028243

最新推荐文章于 2024-10-17 17:26:49 发布

阅读量236

点赞数 3

分类专栏： python 文章标签：人工智能 sklearn 机器学习 python

本文链接：https://blog.csdn.net/weixin_47028243/article/details/142004796

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Sklearn 库是 Python 重要的机器学习库，库中包含了大量机器学习算法，为算法实现提供了大量的便捷。

Sklearn 库的算法主要有四类：分类、回归、聚类、降维。
回归问题：主要指用已知数据对某一值进行预测
分类问题：主要指利用已知数据特征判断其余数据属于哪一类
聚类问题：与分类问题类似，但区别在于分类问题属于有监督学习，聚类问题属于无监督学习。

下面依据流程使用 Sklearn 库：
一、对工具包进行导入：
下面展示一些 伪代码段。

from sklearn import 包名称
from sklearn.库名称 import 包名称
from sklearn import datasets //导入数据集

在将工具包导入后，我们开始导入数据：

from sklearn.datasets import 数据名称

sklearn 模块内有许多内置数据集，如波士顿房屋价格，糖尿病，葡萄酒等数据集。
在使用这些数据集时我们可以直接导入。

同样我们也可以在网络上下载其他数据库进行导入。

二、数据预处理
主要有数据划分、数据变换操作，特征选择三个部分
1、数据划分
在机器学习中，我们一般把数据划分为训练集和测试集，数据比例一般为 7:3；

from sklearn.model_selection import train_test_split 
x_train,X_test,y_train,y _test = train_test _split(X, y, random _state=12, stratify = y, test _size =0.3)

2、数据变换操作
Sklearn.preprocessing 模块包含了数据变换的一些操作。

3、特征选择
主要包含过滤式，封装式，嵌入式三种方式。

本节主要偏理论内容，但也是运用 sklearn 的重要基础。

若有不正之处，欢迎大家批评指正，与大家共同学习！

weixin_47028243

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录