【大数据】sklearn数据集结构分析

数据集加载工具

sklearn.datasets包嵌入了一些小型玩具数据集。

General dataset API 通用数据集API

对于不同类型的数据集,有三种不同类型的数据集接口。 最简单的是样本图像的界面。

load_sample_images()  加载样本图像以进行图像处理。

load_sample_image(image_name)     加载单个样本图像的numpy数组。

数据集生成函数和svmlight加载器共享一个简单的接口,该接口返回一个元组(X,y),它由n_samples * n_features 的numpy类型的数组X和包含目标y的长度为n_samples的数组所组成。

玩具数据集以及“真实世界”数据集和从mldata.org网站获取的数据集具有更复杂的结构。 这些函数返回一个类似字典的对象,它至少包含两个项目:一个带有关键数据的n_samples * n_features形状的数组(20newsgroups除外)和一个长度为n_samples的numpy数组,这个数组包含目标值和关键目标。

数据集还包含DESCR中的描述,一些描述包含在feature_names和target_names。

 

fr

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值