大数据案例分析学习笔记1.2（数据集及其拆分）

最新推荐文章于 2022-12-06 19:48:18 发布

changjingwnag

最新推荐文章于 2022-12-06 19:48:18 发布

阅读量905

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44469890/article/details/104414641

版权

本文探讨了鸢尾花数据集在有监督学习中的应用，详细介绍了ground truth和gold standard的概念，并讨论了训练集、测试集的划分，包括分层抽样策略（Stratified k-fold）。同时，文章提到了如何使用网格搜索进行超参数调优，以提升模型性能。

摘要由CSDN通过智能技术生成

鸢尾花数据集

在这里插入图片描述

类别标签的ground truth与gold standard

ground truth：可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等，表示通过直接观察收集到的真是结果
gold standard：可翻译为金标准。机器学习领域，更倾向于使用“ground truth”。如果用gold standard这个词，则表示可以很好地代表ground truth

数据集与有监督学习

有监督学习中数据通常分为训练集、测试集两部分
1、训练集（training set）用来训练模型，即被用来学习到的系统的参数值
2、测试集（testing set）用于最终报告模型的评价结果，因此在训练阶段测试集中的样本是不可见的。

有时对训练集做进一步划分为训练集和验证集（validation set）。验证集与测试集类似，也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数，因而一般不用于报告最终结果

训练集、测试集的拆分

可以使用sklearn进行训练集测试集的拆分

一、留出法数据拆分步骤：
1、将数据随机分为两组、一组作为训练集、一组作为测试集
2、利用训练集训

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据案例分析学习笔记1.2（数据集及其拆分）

鸢尾花数据集类别标签的ground truth与gold standard
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。