数据集处理

周谷堆

于 2023-11-11 14:17:39 发布

阅读量173

点赞数 5

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74387857/article/details/134346804

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

人工智能的四要素为：数据、算法、算力、场景，训练深度学习模型离不开数据

目标

（1）了解常见的数据类型

（2）掌握数据集划分的原则

（3）掌握处理模型方差与偏差的方法

一、数据集

1.数据类型1

在计算机视觉中，常用的信息主要包含图像数据和视频数据，它俩都是非结构化的数据，我们需要将这些非结构化的数据转化为结构化的数据才能进行处理。

（一）结构化数据

行数据或者列数据，能存储在数据库当中可以用二维表结构来逻辑表达实现的一些数据，结构化数据可以进行比较，比较方便进行搜索，比如说二维表，例如学生的成绩组成一个二维表的数据

（二）非结构化的数据

典型代表就是图像数据、视频数据、文本数据，图像和视频数据通常会用卷积神经网络来提取特征

2.数据类型2

--语音数据

--文本数据

此二者都是序列数据

3.数据类型3

--时序数据

时序数据是一种具有巨大挖掘价值的数据对象，它广泛存在于各个领域当中，比如流媒体文件数据、金融财务数据、气象观测数据、人口普查数据、系统日志数据等等。

常见的时序数据类型包括传感器数据和股价数据

时序数据和序列数据通常会用循环神经网络来提取特征

4.数据集定义

序号1-5这一组数据叫做一个数据集

其中的每一条数据叫做一个样本

面积、学区、朝向为特征

房价为标签，这是做深度学习当中需要进行预测的一列数据

5.数据集划分

二、数据集分割

以下是保证训练集和测试集同分布的俩种方法

1.留出法

注意事项的解决方案

2.k-折交叉验证

将数据集中的数据随机打乱，再划分为k个子集，再k份当中选一份作为测试集，其余k-1作为训练集，接着依次在k份中取一份为测试集，最终训练过程重复了k次，最后取平均测试结果作为最后输出。

优点是对数据量的要求不高，样本信息损失不多，k是一个超参数，通常取10

实际应用中，由于数据集非常大，通常会选用留出法

3.训练集与测试集不同分布

在做鸟的检测任务当中，训练集的图像大多都是高清静止的，测试集中大多是模糊的运动的，二者不是同分布的

解决方案如下

需要在训练集当中加入一些鸟运动的图像以达到训练集和测试集数据分布的属性一致

三、偏差与方差

1.定义

数据不具代表性会导致方差

偏差好比一个人瞄准的能力，方差就是枪的性能

2. 各情况解决方案

--合理选择模型的复杂程度（训练程度）

复杂度过高容易出现过拟合，复杂度过低容易出现欠拟合

--训练不足时，学习器拟合能力比较弱，训练数据的扰动不足会使得学习器产生显著变化，此时偏差占主导，随着训练程度加深，学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐被学习器拟合，此时方差开始占主导，训练程度充足以后，学习器的拟合能力非常强，训练数据发生的轻微扰动都会使学习器发生显著变化。若训练数据自身的非全局的特点被学习器学到了，这时候就会过拟合。

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
5
评论
数据集处理

人工智能的四要素为：数据、算法、算力、场景
复制链接

扫一扫

专栏目录

周谷堆 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

171万+: 周排名

27万+: 总排名

710: 访问

: 等级

51: 积分

1: 粉丝

7: 获赞

6: 评论

8: 收藏

私信

关注

热门文章

分类专栏

深度学习 2篇
python 2篇

最新评论

数据集处理
cv夏一笑: 行文非常的流畅，由浅入深，结构鲜明严谨，期待博主持续输出好文，同时也希望可以来我博客与我互动！
数据集处理
北飞的山羊: 博主文章写的十分细致，结构严谨。感谢博主分享，期待博主持续输出好文，同时也希望可以来我博客指导我一番！
数据集处理
_BugMan: 数据集处理，介绍的很清楚，赞一个
python实现函数的递归调用例题
CSDN-Ada助手: 恭喜您写了第三篇博客！标题看起来就很吸引人，内容肯定也充实有趣。递归调用这个话题对于初学者来说可能有些困惑，但是您的博客一定能帮助他们更好地理解。希望您能继续保持创作的热情，并且不断分享更多有关Python的知识和实践经验。如果可以的话，下一步的创作建议是探索一些高级的递归应用，比如在树结构或图算法中的应用。谦虚地说，我相信您的深入解析会给读者带来更大的收获。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
数据集处理
CSDN-Ada助手: 非常棒的博文！很高兴看到你对人工智能的四要素有深入的了解，并且能够分享给大家。希望你能够继续创作，分享更多关于数据处理和人工智能的知识。除了数据集处理，你或许可以关注一下数据清洗和特征工程的相关内容，这些也是数据处理中非常重要的环节。此外，如果你对数据可视化和模型评估有更深入的了解，也可以分享给大家，相信会受益匪浅。期待你的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。