【机器学习】Sklearn 库(一)

Sklearn 库是 Python 重要的机器学习库,库中包含了大量机器学习算法,为算法实现提供了大量的便捷。

Sklearn 库的算法主要有四类:分类、回归、聚类、降维。
回归问题:主要指用已知数据对某一值进行预测
分类问题:主要指利用已知数据特征判断其余数据属于哪一类
聚类问题:与分类问题类似,但区别在于分类问题属于有监督学习,聚类问题属于无监督学习。

下面依据流程使用 Sklearn 库:
一、对工具包进行导入:
下面展示一些 伪代码段

from sklearn import 包名称
from sklearn.库名称 import 包名称
from sklearn import datasets //导入数据集

在将工具包导入后,我们开始导入数据:

from sklearn.datasets import 数据名称

sklearn 模块内有许多内置数据集,如波士顿房屋价格,糖尿病,葡萄酒等数据集。
在使用这些数据集时我们可以直接导入。

同样我们也可以在网络上下载其他数据库进行导入。

二、数据预处理
主要有数据划分、数据变换操作,特征选择三个部分
1、数据划分
在机器学习中,我们一般把数据划分为训练集和测试集,数据比例一般为 7:3;

from sklearn.model_selection import train_test_split 
x_train,X_test,y_train,y _test = train_test _split(X, y, random _state=12, stratify = y, test _size =0.3)

2、数据变换操作
Sklearn.preprocessing 模块包含了数据变换的一些操作。

3、特征选择
主要包含过滤式,封装式,嵌入式三种方式。

本节主要偏理论内容,但也是运用 sklearn 的重要基础。

若有不正之处,欢迎大家批评指正,与大家共同学习!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值