【机器学习】笔记 3、sklearn的数据集

最新推荐文章于 2024-07-16 19:05:57 发布

若小鱼

最新推荐文章于 2024-07-16 19:05:57 发布

阅读量366

点赞数

分类专栏： python 机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44162809/article/details/119454896

版权

python 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

本文讲解了如何使用sklearn的train_test_split函数进行数据集划分，包括特征x、目标y、测试集比例和随机种子的作用。并介绍了数据集加载接口，如iris数据集示例。涵盖了机器学习基础、数据类型、算法分类以及开发流程，重点在数据预处理和模型选择上。

摘要由CSDN通过智能技术生成

sklearn的数据集

数据集划分

训练集：训练模型
测试集：评估模型
数据集划分的API
- from sklearn.model_selection import train_test_split
- train_test_split(x,y,test_size,random_state)参数介绍
  - x:特征
  - y：目标
  - test_size：测试集的比例
  - random_state：打乱的随机种子
- 返回值：训练特征，测试特征，训练目标，测试目标

数据集接口介绍

sklearn.datasets.load_*():获取小规模的数据集

    # 数据集
    import sklearn.datasets as ds
    # 鸢尾花数据集
    iris = ds.load_iris()
    print(iris)
    # 样本数据的抽取
    feature = iris['data'] #特征数据
    target = iris['target'] #标签数据
    print(feature.shape)
    print(target.shape)

sklearn.datasets.fetch_*(date_home=None,subset):获取大规模的数据集
- data_home表示数据集下载目录，None为默认值表示的是家目录/scikit_learn_data （自动创建该文件夹）下。需要从网络下载.subset为需要下载的数据集，可以为train，test，all

机器学习基础

机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果
算法是核心，数据时计算的基础
找准定位：模型设计一般由算法设计工程师完成（博士、硕士们在做的事情），我们一般只需要做：
- 学会分析问题，使用机器学习相关算法完成对应的需求
- 掌握算法的基本思想，学会对不同问题选择对应的算法去解决
- 学会利用框架和库解决问题

机器学习中的数据类型

离散型数据
连续型数据
注意：连续型数据时有规律的，离散型数据是没有规律的

机器学习算法分类

分类和回归问题
- 分类算法基于的是【目标数据】为【离散型】数据
- 回归算法基于的是【目标数据】为【连续型】数据

机器学习开发流程

数据采集
分析数据推断问题是回归问题还是分类问题
数据的基本处理
- 数据清洗
- 合并
- 级联
特征工程处理
选择合适的模型，进行训练
模型的评估
上线使用

若小鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】笔记 3、sklearn的数据集

sklearn的数据集数据集划分训练集：训练模型测试集：评估模型数据集划分的APIfrom sklearn.model_selection import train_test_splittrain_test_split(x,y,test_size,random_state)参数介绍x:特征y：目标test_size：测试集的比例random_state：打乱的随机种子返回值：训练特征，测试特征，训练目标，测试目标数据集接口介绍sklearn.datasets.lo
复制链接

扫一扫

专栏目录