Pyhton——Sklearn基础
Sklearn 全名叫scikit-learn ,它是一个非常强大的 Python 机器学习算法包,提供了非常完整的机器学习功能,它的功能覆盖了一个非常完善的机器学习流程。
sklearn官网(http://scikit-learn.org/)提供的文档非常详细的,我们在学习过程中可查阅相关内容
sklearn组成
- 分类 Classification
- 回归 Regression
- 聚类 Clustering
- 降维 Dimensionality reduction
- 模型选择 Model selection
- 预处理 Preprocessing
sklearn的基本流程
sklearn.datasets模块
datasets模块主要提供了一些导入、在线下载及本地生成的很多经典数据集,这三种数据集的主要介绍方法为:
1、使用load方法加载数据
load_<dataset_name>
- Boston房价数据集:datasets.load_boston()
- 乳癌数据集:datasets.load_breast_cancer()
- 糖尿病数据集:datasets.load_diabetes()
- 手写字体数据集:datasets.load_digits()
- 鸢尾花数据集:datasets.load_iris()
2、使用fetch方法在线下载数据集,比较大的数据集
fetch_<dataset_name>
- 用于文本分类的20个新闻语料数据:datasets.fetch_20newsgroups
- 用于回归的加州房产数据:datasets.fetch_california_housing
3、构造数据集
make_<dataset_name>
- d