大数据案例分析学习笔记1.2(数据集及其拆分)

本文探讨了鸢尾花数据集在有监督学习中的应用,详细介绍了ground truth和gold standard的概念,并讨论了训练集、测试集的划分,包括分层抽样策略(Stratified k-fold)。同时,文章提到了如何使用网格搜索进行超参数调优,以提升模型性能。
摘要由CSDN通过智能技术生成

鸢尾花数据集

在这里插入图片描述

类别标签的ground truth与gold standard

  • ground truth:可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等,表示通过直接观察收集到的真是结果
  • gold standard:可翻译为金标准。机器学习领域,更倾向于使用“ground truth”。如果用gold standard这个词,则表示可以很好地代表ground truth

数据集与有监督学习

有监督学习中数据通常分为训练集、测试集两部分
1、训练集(training set)用来训练模型,即被用来学习到的系统的参数值
2、测试集(testing set)用于最终报告模型的评价结果,因此在训练阶段测试集中的样本是不可见的。

有时对训练集做进一步划分为训练集和验证集(validation set)。验证集与测试集类似,也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数,因而一般不用于报告最终结果


训练集、测试集的拆分

  • 可以使用sklearn进行训练集测试集的拆分

一、留出法数据拆分步骤:
1、将数据随机分为两组、一组作为训练集、一组作为测试集
2、利用训练集训

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值