使用scikit-learn构建模型——使用sklearn转换器处理数据

最新推荐文章于 2023-04-19 14:27:20 发布

Big-Winda

最新推荐文章于 2023-04-19 14:27:20 发布

阅读量420

点赞数

分类专栏： python 数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/winda_shi/article/details/116948319

版权

python 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

数据分析

9 篇文章 1 订阅

订阅专栏

使用sklearn转换器处理数据

加载datasets模块中的数据集（sklearn自带的数据集）

#加载breast_cancer数据集
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer() #将数据集赋值给cancer变量
print('breast_cancer数据集的长度为：',len(cancer))
print('breast_cancer数据集的类型为：',type(cancer))

#sklearn 自带数据集内部信息获取
cancer_data=cancer['data']
print('breast_cancer数据集的数据为：\n',cancer_data)
cancer_target=cancer['target'] #取出数据集的标签
print('breast_cancer数据集的标签为：\n',cancer_target)
cancer_names=cancer['feature_names'] #取出数据集的特征名
print('breast_cancer数据集的特征名为：\n',cancer_names)
cancer_desc=cancer['DESCR'] #取出数据集的描述信息
print('breast_cancer数据集的描述信息为：\n',cancer_desc)

将数据集划分为训练集和测试集

#使用train_test_split划分数据集
print('原始数据数据集数据的形状：',cancer_data.shape)
print('原始数据数据集标签的形状：',cancer_target.shape)

from sklearn.model_selection import train_test_split
cancer_data_train,cancer_data_test,cancer_target_train,cancer_target_test=\
train_test_split(cancer_data,cancer_target,test_size=0.2,random_state=42)
print('训练集数据的形状为：',cancer_data_train.shape)
print('训练集标签的形状为：',cancer_target_train.shape)
print('测试集数据的形状为：',cancer_data_test.shape)
print('测试集标签的形状为：',cancer_target_test.shape)

使用sklearn转换器进行数据预处理与降维

#对breast_cancer数据集PCA降
from sklearn.decomposition import PCA
pca_model=PCA(n_components=10).fit(cancer_trainScaler) #生成规则
cancer_trainPca=pca_model.transform(cancer_trainScaler) #将 规则 应用于训练集
cancer_testPca=pca_model.transform(cancer_testScaler) #将 规则 应用于测试集
print('PCA降维 前 训练集数据的形状为：',cancer_trainScaler.shape)
print('PCA降维 后 训练集数据的形状为：',cancer_trainPca.shape)
print('PCA降维 前 测试集数据的形状为：',cancer_testScaler.shape)
print('PCA降维 后 测试集数据的形状为：',cancer_testPca.shape)

Big-Winda

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用scikit-learn构建模型——使用sklearn转换器处理数据

使用sklearn转换器处理数据加载datasets模块中的数据集（sklearn自带的数据集）#加载breast_cancer数据集from sklearn.datasets import load_breast_cancercancer=load_breast_cancer() #将数据集赋值给cancer变量print('breast_cancer数据集的长度为：',len(cancer))print('breast_cancer数据集的类型为：',type(cancer))将
复制链接

扫一扫