【机器学习：训练数据集】机器学习训练数据集的完整指

用数据说话用数据决策

于 2024-01-17 13:56:03 发布

阅读量334

点赞数

文章标签：机器学习人工智能

原文链接：https://blog.csdn.net/jcfszxc/article/details/135614446?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-personrec_tag-2-135614446-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog.none-task-blog-personrec_tag-2-135614

版权

【机器学习：训练数据集】机器学习训练数据集的完整指南
我们如何使用训练数据集来训练计算机视觉模型？
什么是好的机器学习训练数据集？
为机器学习创建基于图像或视频的数据集的最佳方法是什么？
如何为机器学习和计算机视觉模型创建更好的训练数据集
使用微模型自动标记机器学习的数据
比较用于创建机器学习训练数据的传统模型和微观模型
训练数据是用于教授机器学习或计算机视觉算法或模型处理信息的初始训练数据集。

计算机视觉和 AI 模型（人工智能）等算法模型使用带标签的图像或视频（原始数据）来学习和理解所显示的信息。

这些模型在遇到新数据并以从之前的数据中学到的知识为基础时，会继续完善其性能⏤，提高决策能力和信心⏤。

高质量的训练数据是成功机器学习的基础，因为训练数据的质量对任何模型的开发、性能和准确性都有深远的影响。训练数据对于生产就绪模型的成功与算法本身一样至关重要，因为标记训练数据的质量和数量直接影响模型学习识别其设计检测结果的准确性。

训练数据指导模型：它是模型从中获取基础知识的教科书和原材料。它显示模型模式并告诉它要寻找什么。数据科学家训练模型后，它应该能够根据从训练数据中学到的模式来识别从未见过的数据集中的模式。

机器学习和基于人工智能的模型是学生。在这种情况下，教师是人类数据科学家、数据操作团队和注释者。他们使用数据标记工具将原始数据转换为标记数据。与人类学生一样，当机器有精心策划的相关示例可供练习和学习时，它们会表现得更好。

如果计算机视觉模型是根据不可靠或不相关的数据进行训练的，那么设计良好的模型可能会变得毫无用处。正如古老的人工智能格言所说：“垃圾进来，垃圾出去”。

我们如何使用训练数据集来训练计算机视觉模型？
两种常见类型的机器学习模型是有监督的和无监督的。

无监督学习是指注释和数据科学团队将数据输入到模型中，而不向其提供有关其进度的具体说明或反馈。训练数据是原始数据，这意味着提供的图像和视频中没有注释或识别标签。因此，计算机视觉模型无需人工指导即可进行训练并独立发现模式。无监督模型可以聚类和识别数据中的模式，但它们无法执行具有期望结果的任务。例如，数据科学家无法提供无监督的动物模型图像并期望模型按物种对它们进行分组：模型可能会识别不同的模式并按颜色对它们进行分组。

当预期结果预先确定时，例如识别肿瘤或天气模式的变化，机器学习工程师会构建监督学习模型。在监督学习中，人类为模型提供标记数据，然后监督机器学习过程，提供有关模型性能的反馈。

人机交互 (HILT) 是人类持续与机器合作并帮助提高其性能的过程。第一步是整理和标记训练数据。实现这一目标的最佳方法之一是使用数据标记工具、主动学习管道和人工智能辅助工具将原材料转化为标记数据集。

标记数据允许数据科学和运营团队以模型可读的方式构建数据。在训练数据中，专家确定机器学习模型旨在预测的目标 ⏤ 结果 ⏤ ，并通过给图像和视频中的对象提供标签来注释它们。

通过标记数据，人类可以指出图像和视频（或任何类型的数据）中的重要特征，并确保模型专注于这些特征，而不是对数据得出错误的结论。应用精心选择的标签对于指导模型的学习至关重要。例如，如果人类希望计算机视觉模型学习识别不同类型的鸟类，那么图像训练数据中出现的每只鸟类都需要用描述性标签进行适当标记。

在数据科学家开始通过向模型提供标记数据来训练模型以预测所需结果后，“人在环”检查其输出以确定模型是否成功且准确地运行。主动学习管道采用类似的方法，尽管更加自动化。就像教师帮助学生准备考试一样，注释者和数据科学家会进行更正并将数据反馈给模型，以便模型可以从任何不准确的地方进行学习。

通过不断验证模型的预测，人类可以确保其学习朝着正确的方向发展。该模型通过这种持续的反馈和实践循环来提高其性能。

一旦机器经过充分的训练，数据科学家将通过向模型提供前所未见的“测试数据”来测试模型返回现实世界预测的性能。测试数据未标记，因为数据科学家不使用它来调整模型：他们使用它来确认模型是否准确运行。如果模型无法从测试数据中产生正确的输出，那么数据科学家就知道它需要更多的训练才能预测所需的结果。

什么是好的机器学习训练数据集？
由于机器学习是一个交互式过程，因此训练数据适用于用例并对其进行适当标记至关重要。

整理的数据必须与模型试图解决的问题相关。例如，如果计算机视觉模型尝试识别自行车，则数据必须包含自行车的图像，最好包含各种类型的自行车。数据的清洁度也会影响模型的性能。如果使用损坏或损坏的数据或具有重复图像的数据集进行训练，该模型将做出错误的预测。最后，正如已经讨论的那样，注释的质量对训练数据的质量有巨大的影响。这是标记图像如此耗时的原因之一，当注释团队能够使用正确的工具（例如 Encord）时，他们的效率会更高。

为机器学习创建基于图像或视频的数据集的最佳方法是什么？
创建、评估和管理培训数据取决于是否拥有正确的工具。

Encord 的计算机视觉优先工具包让客户可以在一个平台上标记任何计算机视觉模式。我们提供快速、直观的协作工具来丰富您的数据，以便您可以构建尖端的人工智能应用程序。我们的平台自动对图像和视频中的对象进行分类、检测片段并跟踪对象。

计算机视觉模型必须学会区分图片和视频的不同方面，这需要它们处理标记数据。他们需要学习的注释类型根据他们正在执行的任务而变化。

让我们看一下计算机视觉任务的一些常见注释工具。

图像分类：对于单标签分类，数据集中的每张图像都有一个标签，模型会为其遇到的每张图像输出一个预测。在多标签分类中，每个图像都有多个互不排斥的标签。

边界框：执行对象检测时，计算机视觉模型会检测对象及其位置，并且不需要详细说明对象的形状即可实现此结果，这使得边界框成为此任务的理想工具。使用边界框，图像中的目标对象包含在一个带有描述性标签的小矩形框中。

多边形/线段：执行图像分割时，计算机视觉模型使用算法将图像中的对象与其背景和其他对象分开。将标签映射到属于同一图像的像素元素有助于模型将数字图像分解为称为片段的子组。这些片段的形状很重要，因此注释者需要一种不将它们限制为矩形的工具。使用多边形，注释者可以通过在图像顶点上绘制点来在目标对象周围创建紧密的轮廓。

Encord 的平台为各种计算机视觉任务提供了注释工具，并且我们的工具嵌入在该平台中，因此用户在访问模型辅助标记之前无需经历任何麻烦。

由于该平台支持各种数据格式，包括图像、视频、SAR、卫星、热成像和 DICOM 图像（X 射线、CT、MRI 等），因此适用于广泛的计算机视觉应用。

在 Encord 中标记机器学习的训练数据
如何为机器学习和计算机视觉模型创建更好的训练数据集
虽然世界上不乏数据，但其中大部分是未标记的，因此实际上不能用于监督机器学习模型。计算机视觉模型，例如为医学成像或自动驾驶汽车设计的模型，需要对其预测非常有信心，因此需要对大量数据进行训练。获取大量标记数据仍然是人工智能进步的严重障碍。

市面上有数十个开源数据集：以下是 10 个最适合计算机视觉项目的精选列表。

由于每个不正确的标签都会对模型的性能产生负面影响，因此数据注释器在创建高质量训练数据的过程中发挥着至关重要的作用。因此，质量保证在数据标记流程中非常重要。

理想情况下，数据注释者应该是模型回答问题领域的主题专家。在这种情况下，数据注释者 ⏤ 由于其领域专业知识，⏤ 了解数据与机器试图解决的问题之间的联系，因此他们的标签信息更丰富且更准确。

数据标记是一个耗时且乏味的过程。从长远来看，一小时的视频数据可能需要人类长达 800 小时的时间来注释。这给有其他时间需求的行业专家带来了问题。医生是否应该花费数百小时对肿瘤扫描进行标记来教机器如何识别它们？或者医生是否应该优先考虑医患互动，并花这些时间为扫描结果明确显示恶性肿瘤的患者提供护理？

数据标记可以外包，但这样做意味着失去主题专家的输入，如果标记需要任何特定于行业的知识，则可能会导致培训数据质量低下。外包的另一个问题是，数据标记工作通常发生在发展中经济体，这种情况对于任何重视数据安全和隐私的领域都不可行。当无法外包时，团队通常会构建内部工具并使用内部员工手动标记数据，这会导致数据基础设施和注释工具变得繁琐，维护成本高昂且难以扩展。

当前手动标记训练数据的做法是不够的或可持续的。 Encord 使用一种称为微模型的独特技术解决了这个问题，并通过减轻手动注释和标签审查的负担使计算机视觉变得实用。我们的平台可自动进行数据标记，在不牺牲质量的情况下提高效率。

使用微模型自动标记机器学习的数据
Encord 使用一种称为微模型的创新技术解决方案来构建其自动化功能。微模型允许以“半监督方式”快速注释。在半监督学习中，数据科学家在训练期间向机器提供少量标记数据和大量未标记数据。

微模型方法源于这样的想法：当对一小组有目的地选择且标记良好的数据进行训练时，模型可以产生强大的结果。微模型在架构或参数方面与传统模型没有区别，但它们具有不同的应用领域和用例。

许多数据科学家的本能反应可能是，这违背了“好的”数据科学，因为微模型是一个过度拟合的模型。在过度拟合模型中，算法无法将“信号”（数据科学家希望从数据中学习的真正潜在模式）与“噪声”（数据集中的不相关信息或随机性）分开。过拟合模型会无意中记住噪声而不是找到信号，这意味着它在遇到看不见的数据时通常会做出糟糕的预测。

过度拟合生产模型是有问题的，因为如果生产模型没有使用大量类似于现实世界场景的数据进行训练，那么它就无法泛化。例如，如果数据科学家仅根据轿车图像训练计算机视觉模型，那么该模型可能无法将卡车识别为车辆。

然而，Encord 的微模型故意过度拟合。它们是特定于注释的模型，旨在查看一项数据、识别一件事并过度训练该特定任务。它们在一般问题上表现不佳，但我们并没有将它们设计为应用于现实世界的生产用例。我们设计它们只是为了自动化数据注释的特定目的。微模型可以解决很多不同的问题，但这些问题必须与模型开发的训练数据层相关。

比较用于创建机器学习训练数据的传统模型和微观模型
由于微模型不需要太多时间来构建，需要大量数据集，或者需要数周的时间来训练，因此循环中的人员只需注释少数示例即可开始训练微模型。然后，微模型使注释过程自动化。该模型开始在一小部分标签上进行自我训练，并将人类从大部分验证过程中剔除。人类会审查一些示例，提供轻微的监督，但大多数情况下，模型每次重新训练时都会验证自身，从而获得越来越好的结果。

通过自动数据标记，需要人工注释的标签数量会随着时间的推移而减少，因为每次模型运行时系统都会变得更加智能。

在自动化综合注释过程时，Encord 将多个微模型串在一起。它将每个标记任务分解为一个单独的微观模型，然后组合这些模型。例如，为了对数据集中的飞机和云进行分类，人类将训练一个微模型来识别飞机，创建并训练另一个微模型来识别云，然后将它们链接在一起以在训练数据中标记云和飞机。

生产模型需要大量标记数据，而对人类注释的依赖限制了它们投入生产和“野外运行”的能力。

微模型可以改变这一点。

通过微模型，用户可以快速创建训练数据以输入下游计算机视觉模型。

文章知识点与官方知识档案匹配，可进一步学习相关知识
OpenCV技能树首页概览23962 人正在系统学习中

jcfszxc
关注

专栏目录
有趣的机器学习：最简明入门指南
02-25
在听到人们谈论机器学习的时候，你是不是对它的涵义只有几个模糊的认识呢？你是不是已经厌倦了在和同事交谈时只能一直点头？让我们改变一下吧！本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了“机器学习”的维基百科词条，倍感挫折，以为没人能给出一个高层次的解释。本文就是你们想要的东西。本文目标在于平易近人，这意味着文中有大量的概括。但是谁在乎这些呢？只要能让读者对于ML更感兴趣，任务也就完成了。机器学习这个概念认为，对于待解问题，你无需编写任何专门的程序代码，泛型算法（genericalgorithms）能够在数据集上为你得出有趣的答案。对于泛型算法，不用编码，而是
Python机器学习实践指南.zip_python_python 教程_python 机器学习_python机器学习_机器学习
07-15
python编程资料，实用，可自行学习.除此之外还可学习机器学习算法。
1 条评论
白话机器学习
热评
内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
写评论
文章《【零基础学机器学习 10】随机森林算法最佳指南以及代码实战》 - 数据集
07-24
文章链接;https://blog.csdn.net/shangyanaf/article/details/131639945
Python数据分析与机器学习实战课程
02-11
Python数据分析与机器学习实战课程，全套14.17G，仅有免密视频，课程目录： 01 人工智能入门指南 02 科学计算库-numpy 03 数据分析处理库-Pandas 04 可视化库-Matplotlib 05 机器学习入门算法实战-K近邻 06 线性回归算法 07 梯度下降与逻辑回归算法 08 项目实战：信用卡欺诈检测 09 决策树算法 10 随机森林与集成算法 11 项目实战-基于随机森林的气温预测 12 贝叶斯算法 13 项目实战-基于贝叶斯的新闻分类任务 14 无监督聚类-Kmeans算法 15 无监督聚类-DBSCAN算法 16 降维算法-PCA主成分分析 17 降维算法-线性判别分析 18 支持向量机SVM 19 Xgboost提升算法 20 项目实战-Xgboost调参实战 21 探索性数据分析-赛事数据集 22 时间序列ARIMA模型 23 时间序列实战
机器学习---kMeans算法
weixin_43961909的博客
1092
性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。鸢（yuan1）尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属。计算两个向量之间的欧氏距离。码，3个类别分别赋值0，1，2。
【机器学习300问】2、机器学习分为哪几类？
qq_39780701的博客
449
【机器学习300问】2、机器学习分为哪几类？监督学习、无监督学习、强化学习
ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模
aishangyanxiu的博客
1261
6、Matplotlib基本图形绘制（线形图、柱状图、饼图、气泡图、直方图、箱线图、散点图等）、图形的布局（多个子图绘制、规则与不规则布局绘制、向画布中任意位置添加坐标轴）3、利用ChatGPT4及插件总结分析文献内容（三句话摘要、子弹式要点摘要、QA摘要、表格摘要、关键词与关键句提取、页面定位、多文档对比、情感分析）7、张量（Tensor）的运算（加法、减法、矩阵乘法、哈达玛积（element wise）、除法、幂、开方、指数与对数、近似、裁剪）2、卷积神经网络的基本原理（什么是卷积核？
数字图像处理练习题
Go_ahead_forever的博客
3024
数字图像处理高飞习题参考，仅供参考，不保证正确
OpenAI的ChatGPT：引领人工智能交流的未来
m0_38109926的博客
1117
OpenAI的ChatGPT是一款基于最新人工智能技术的聊天机器人。它利用先进的自然语言处理技术，能够与用户进行流畅、自然的对话。这种技术在过去几年中取得了飞速的发展，OpenAI作为人工智能领域的领头羊，其开发的ChatGPT在模拟人类语言交流方面达到了新的高度。
如何解决大模型的「幻觉」问题
csdn_aspnet的专栏
1923
在深度学习中，大模型的"幻觉"（hallucination）是指在生成模型中，生成的结果可能包含虚假、不合理或不真实的内容。这些生成结果看起来很真实，但其实是模型在学习过程中产生的虚构信息。这种幻觉可以发生在各种生成任务中，如图像生成、自然语言生成等。大模型的幻觉问题可能是由于以下原因引起的：模型过拟合：大模型容易过拟合训练数据，即对训练数据的学习过于深入，导致模型过于自信地生成与训练数据不符的内容。数据分布不均衡：训练数据中可能存在类别不平衡或样本数量不足的情况，导致模型在生成过程中出现偏见和幻觉。
回归预测 | Python基于ISSA多策略改进麻雀优化ISSA-CNN-BiLSTM多输入单输出回归预测
关注并私信文章链接，获取对应文章源码和数据，机器学习之心的博客。
545
回归预测 | Python基于ISSA多策略改进麻雀优化ISSA-CNN-BiLSTM多输入单输出回归预测
使用 EmbeddingBag 和 Embedding 完成词嵌入
qq_60245590的博客
491
层适用于处理变长的文本，它会计算所有嵌入向量的平均值或和。层适用于单个单词或固定长度的序列。
人工智能（AI）中的一些常见名词-九五小庞
qq_37241964的博客
398
这些名词只是AI领域中的一部分，随着技术的不断发展，新的术语和概念也会不断涌现。
AI与区块链的完美交融创新时代的双重引擎
最新发布
Likelib的博客
408
以和数链为例，就可以记录农产品从生产到销售的全过程，确保食品安全、追根溯源；而AI可以通过分析气象数据、土壤质量等因素，为农民提供更加精准的种植建议。
AI时代下的智能商品计划如何助力服装企业实现库存精准优化
第七在线（7thonline）
933
第七在线AI智能零售商品计划库存管理平台，基于零售商品管理最佳实践，数据算法模型及机器学习为核心，深度覆盖业务场景自动化行业解决方案，通过AI+BI云计算平台，驱动精细化运营并辅助智能决策。综合利用以上AI技术和策略，服装企业可以在数字化时代实现智能商品计划，精准优化库存，提高运营效率，降低库存成本，提供更优质的服务，从而在竞争激烈的市场中脱颖而出。第七在线产品19种Data GPT 算法模型，AI算法 + 机器学习，适应在复杂的业务环境下不同的业务场景逻辑，在数据的积累中不断优化提高预测的精准度。
效率交响曲：AIOps 协调卓越运营
Elastic 中国社区官方博客
1081
让我们先澄清一些与不同 Ops 的一些单并非全部相关的关键概念：你可能已经听说过 DevOps。它是一种通过协作和自动化促进交付来集成软件开发团队 (Dev) 和运营团队 (Ops) 工作的方法。认识到数据的持续增长和相关挑战，你可以将 DataOps 理解为 DevOps 原则和实践在数据上的应用。这是一个通过管理整个数据生命周期使正确的数据到达正确位置的过程。
聊天机器人之接入智能回复（四）
青石的博客
597
通过接入人工智能来做一个智能回复机器人
深度学习预备知识-数据存储、数据预处理
weixin_50601779的博客
236
深度学习预备知识--数据如何存储？采用张量的形式存储数据如何预处理？对NaN的值是插值法和删除发
【EI会议征稿通知】第三届机器视觉、自动识别与检测国际学术会议(MVAID 2024)
weixin_73242859的博客
1137
MVAID 2024将围绕“信息科学”与"教育”等相关最新研究领域，为来自国内外高等院校、科学研究所、企事业单位的专家、教授、学者、工程师等提供一个分享专业经验，扩大专业网络，面对面交流新思想以及展示研究成果的国际平台，探讨本领域发展所面临的关键性挑战问题和研究方向，以期推动该领域理论、技术在高校和企业的发展和应用，欢迎各位领域内专家学者投稿参会！所有的投稿都必须经过 2-3 位组委会专家审稿，经过严格的审稿之后，最终所有被录用的稿件将发表在会议论文集中，4、流程：投稿>审稿>录用>缴费注册>见刊>检索；
用python完成机器学习实验鸢尾花数据集SVM分类需要的参考文献
08-19
以下是用Python完成鸢尾花数据集SVM分类的参考文献： 1. 李航，《统计学习方法》，清华大学出版社，2012年。 2. 《Python机器学习基础教程》，Andreas C. Müller 和 Sarah Guido，人民邮电出版社，2017年。 3. 《Python机器学习实战》，Sebastian Raschka 和 Vahid Mirjalili，人民邮电出版社，2017年。 4. 《Scikit-Learn机器学习库学习指南》，Gavin Hackeling，人民邮电出版社，2018年。 5. 《机器学习实战》，Peter Harrington，人民邮电出版社，2017年。这些参考文献可以帮助你深入了解机器学习和SVM，以及如何使用Python进行数据处理、模型训练和结果分析。祝你顺利完成实验！