初次使用需下载scikit-learn这个第三方库
pip3 install scikit-learn
数据(个人理解,通俗大白话):数据由特征值和目标值组成,可理解为由一些额定特征值得到对应的目标值,以西瓜书内为例:根据西瓜声响、颜色、瓜蒂等特征可判断西瓜是否成熟,由一堆这样的数据构成数据集,数据集分为两个部分(训练集和测试集),训练集内数据用来训练我们的模型,测试集即用来判断这个模型的好坏。
小规模数据集的调用
小规模数据使用load方法进行加载,不管是load还是fetch,返回值都是bunch(继承自字典):含有五个键
1、data:特征数据数组
2、feature:目标特征数组
3、feature_names:特征值名称
4、target_names:目标值名称
5、DESCR:记录一些数据的基本信息(一般很少使用)
举个栗子:在sklearn中调用鸢尾花数据集(小规模数据集,含有150条数据)
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data) # 显示特征值数据
print(iris.data.shape) # 显示矩阵形状,150×4
print(iris.target) # 显示目标值数据
print(f"特征值名称:{iris.feature_names}")
print(f"目标值名称:{iris.target_names}")
同理可以使用load_*调用sklearn.datasets中其他小规模数据集。
大规模数据集的调用
在sklearn中可以使用fetch_*下载较大规模数据集,需要连接网络在线下载。
sklearn.datasets.fetch_*(data_home, subset=None, download_if_missing=True)
data_home:下载的数据集存放地址,默认为同级目录
subset:想要获取哪些内容,一般是全部获取,即subset= ‘all’
download_if_missing:设为True,如果文件不存在,则下载
它的返回值和load_*一样,都是一个bunch型数据。
举个栗子:以20_newsgroups新闻案例
from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home=r'E:\Python_learning', subset='all',download_if_missing=False)
# 查看数据和上方load_*类似,此处不在赘述。
同理可以使用fetch_*调用sklearn.datasets中其他较大规模数据集。