【机器学习】笔记 3、sklearn的数据集

本文讲解了如何使用sklearn的train_test_split函数进行数据集划分,包括特征x、目标y、测试集比例和随机种子的作用。并介绍了数据集加载接口,如iris数据集示例。涵盖了机器学习基础、数据类型、算法分类以及开发流程,重点在数据预处理和模型选择上。
摘要由CSDN通过智能技术生成

sklearn的数据集

数据集划分

  • 训练集:训练模型
  • 测试集:评估模型
  • 数据集划分的API
    • from sklearn.model_selection import train_test_split
    • train_test_split(x,y,test_size,random_state)参数介绍
      • x:特征
      • y:目标
      • test_size:测试集的比例
      • random_state:打乱的随机种子
    • 返回值:训练特征,测试特征,训练目标,测试目标

数据集接口介绍

  • sklearn.datasets.load_*():获取小规模的数据集
  • 在这里插入图片描述
    # 数据集
    import sklearn.datasets as ds
    # 鸢尾花数据集
    iris = ds.load_iris()
    print(iris)
    # 样本数据的抽取
    feature = iris['data'] #特征数据
    target = iris['target'] #标签数据
    print(feature.shape)
    print(target.shape)
  • sklearn.datasets.fetch_*(date_home=None,subset):获取大规模的数据集
    • data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data (自动创建该文件夹)下。需要从网络下载.subset为需要下载的数据集,可以为train,test,all

机器学习基础

  • 机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果
  • 算法是核心,数据时计算的基础
  • 找准定位:模型设计一般由算法设计工程师完成(博士、硕士们在做的事情),我们一般只需要做:
    • 学会分析问题,使用机器学习相关算法完成对应的需求
    • 掌握算法的基本思想,学会对不同问题选择对应的算法去解决
    • 学会利用框架和库解决问题

机器学习中的数据类型

  • 离散型数据
  • 连续型数据
  • 注意:连续型数据时有规律的,离散型数据是没有规律的

机器学习算法分类

  • 分类和回归问题
    • 分类算法基于的是【目标数据】为【离散型】数据
    • 回归算法基于的是【目标数据】为【连续型】数据

机器学习开发流程

  • 数据采集
  • 分析数据推断问题是回归问题还是分类问题
  • 数据的基本处理
    • 数据清洗
    • 合并
    • 级联
  • 特征工程处理
  • 选择合适的模型,进行训练
  • 模型的评估
  • 上线使用
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值