数据集处理

前言

人工智能的四要素为:数据、算法、算力、场景,训练深度学习模型离不开数据

目标

(1)了解常见的数据类型

(2)掌握数据集划分的原则

(3)掌握处理模型方差与偏差的方法

一、数据集

1.数据类型1

在计算机视觉中,常用的信息主要包含图像数据和视频数据,它俩都是非结构化的数据,我们需要将这些非结构化的数据转化为结构化的数据才能进行处理。

(一)结构化数据

行数据或者列数据,能存储在数据库当中可以用二维表结构来逻辑表达实现的一些数据,结构化数据可以进行比较,比较方便进行搜索,比如说二维表,例如学生的成绩组成一个二维表的数据

(二)非结构化的数据

典型代表就是图像数据、视频数据、文本数据,图像和视频数据通常会用卷积神经网络来提取特征

2.数据类型2

 --语音数据

--文本数据

 此二者都是序列数据

3.数据类型3

--时序数据

 时序数据是一种具有巨大挖掘价值的数据对象,它广泛存在于各个领域当中,比如流媒体文件数据、金融财务数据、气象观测数据、人口普查数据、系统日志数据等等。

常见的时序数据类型包括传感器数据股价数据

时序数据和序列数据通常会用循环神经网络来提取特征

4.数据集定义

 序号1-5这一组数据叫做一个数据集

其中的每一条数据叫做一个样本

面积、学区、朝向为特征

房价为标签,这是做深度学习当中需要进行预测的一列数据

5.数据集划分

二、数据集分割

以下是保证训练集和测试集同分布的俩种方法

1.留出法

注意事项的解决方案

 

2.k-折交叉验证

 将数据集中的数据随机打乱,再划分为k个子集,再k份当中选一份作为测试集,其余k-1作为训练集,接着依次在k份中取一份为测试集,最终训练过程重复了k次,最后取平均测试结果作为最后输出。

优点是对数据量的要求不高,样本信息损失不多,k是一个超参数,通常取10

实际应用中,由于数据集非常大,通常会选用留出法

3.训练集与测试集不同分布

在做鸟的检测任务当中,训练集的图像大多都是高清静止的,测试集中大多是模糊的运动的,二者不是同分布的

解决方案如下

需要在训练集当中加入一些鸟运动的图像以达到训练集和测试集数据分布的属性一致

三、偏差与方差

1.定义

 

数据不具代表性会导致方差 

偏差好比一个人瞄准的能力,方差就是枪的性能 

2. 各情况解决方案

 

 

--合理选择模型的复杂程度(训练程度) 

复杂度过高容易出现过拟合,复杂度过低容易出现欠拟合

--训练不足时,学习器拟合能力比较弱,训练数据的扰动不足会使得学习器产生显著变化,此时偏差占主导,随着训练程度加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐被学习器拟合,此时方差开始占主导,训练程度充足以后,学习器的拟合能力非常强,训练数据发生的轻微扰动都会使学习器发生显著变化。若训练数据自身的非全局的特点被学习器学到了,这时候就会过拟合。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Yolov7是一个目标检测算法,数据集处理包括以下几个步骤: 1. 数据集准备:首先,你需要收集和整理有标注的图像数据集。每张图像都需要有对应的标注文件,标注文件一般使用PASCAL VOC格式或者COCO格式。确保每个标注文件包含目标的类别和边界框信息。 2. 数据集划分:将整个数据集划分为训练集、验证集和测试集。训练集用于模型的训练,验证集用于调整模型的超参数和进行模型选择,测试集用于评估训练好的模型的性能。 3. 数据增强:为了增加数据集的多样性和泛化能力,可以对图像进行一些变换操作,如随机裁剪、缩放、旋转、翻转等。同时,需要相应地更新标注信息。 4. 数据集转换:Yolov7需要将图像和标注信息转换为合适的格式,一般为Darknet的格式。可以使用相应的工具或脚本将数据集转换为Yolov7所需的格式。 5. 数据加载:在训练过程中,需要编写代码加载数据集,并按批次输入给模型进行训练。可以使用Python中的图像处理库(如OpenCV)或者深度学习框架(如PyTorch、TensorFlow)提供的API进行数据加载。 6. 数据预处理:在输入模型之前,需要对图像进行预处理,如缩放到固定尺寸、归一化、转换为模型所需的张量格式等操作。同时,需要对标注信息进行相应的处理,如将边界框转换为相对于图像尺寸的坐标。 以上是对Yolov7数据集处理的一般步骤,具体实现上可能会根据实际情况有所不同。如果你有具体的问题,可以提供更多细节,我可以给出更具体的建议。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值