加载获取流行数据集
API | 说明 |
---|---|
sklearn.datasets.load_*() | 获取小规模数据集 ,数据包含在datasets里 示例:sklearn.datasets.load_iris() |
sklearn.datasets.fetch_*(data_home=None) | 获取大规模数据集 ,需要从网络上下载;示例:sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’) ~~~~~~~ (1)参数data_home表示数据集下载的目录,默认是 ~/scikit_learn_data/ ~~~~~~~ (2)subset:‘train’或者’test’,‘all’,可选,选择要加载的数据集。 ~~~~~~~~~~~~~~~~ 训练集的“训练”,测试集的“测试”,两者的“全部” |
- load和fetch返回的数据类型datasets.base.Bunch(字典格式)
流行数据集的属性 | 说明 |
---|---|
iris.data | 特征值数组,是 [n_samples * n_features] 的二维 numpy.ndarray 数组 |
iris.feature_names | 特征标签名, 新闻数据,手写数字、回归数据集没有 |
iris.target | 目标值数组,是 n_samples 的一维 numpy.ndarray 数组 |
iris.target_names | 目标值标签名 |
iris.DESCR | 数据描述 |
数据集划分sklearn.model_selection.train_test_split
操作 | API | 参数 |
---|---|---|
数据集划分 | train_test_split(iris.data, iris.target, test_size =0.2, random_state=6) | 参数: 数据集的特征值; 数据集的特征值; 测试集占比; 随机数种子; 返回值:x_train, x_test, y_train, y_test |