机器学习模型可以战胜数据偏见吗？

最新推荐文章于 2025-05-03 08:38:15 发布

练习两年半的工程师

最新推荐文章于 2025-05-03 08:38:15 发布

阅读量330

点赞数

分类专栏：人工智能文章文章标签：机器学习神经网络人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57266891/article/details/123067556

版权

人工智能文章专栏收录该内容

2 篇文章

订阅专栏

机器学习模型可以处理带有偏见的数据集吗？

研究学者表明，机器学习模型的通用性会受数据多样性和训练模型的方法影响。

文章目录

机器学习模型可以处理带有偏见的数据集吗？
前言
一、训练资料的多样性
二、像一个神经科学家一样思考

前言

人工智能系统可以快速处理任务，但这不意味它们可以公正地处理每项任务。如果用于训练机器模型的数据集带有偏见，这个人工智能系统在执行任务时也会带有偏见。

例如，一个数据集中大部分都是男性白种人的图片。那么用这个数据集训练出来的人脸识别模型，在识别女人和其他颜色人种时的准确性会非常低。

一群来自MIT、哈佛大学和富士通公司的学者，着手研究可以如何解决用于训练机器学习模型的数据集所带的偏见。他们使用了神经科学中的方法，研究训练资料可以如何影响人工神经网络识别从未见过的物体的能力。神经网络是一种机器学习模型，模仿人类大脑的运作，包含不同层的神经元。

一、训练资料的多样性

研究结果显示，训练资料的多样性，对神经网络能否克服数据偏见具有主要影响。但是，同一时间，训练资料的多样性，可以降低神经网络的成效。结果还表明，神经网络的训练方法，以及在训练过程中使用的神经元的类型，也对克服数据偏见有主要影响。所以，在我们训练自己的机器学习模型时，不是收集了一大堆原始数据就一了百了，我们需要在一开始时非常仔细地设计数据集。

二、像一个神经科学家一样思考

在神经科学中，使用受控制的数据集是非常重要的。这意味着研究学者会尽可能地知道一个数据集中包含了什么内容。

研究小队建立了一个数据集，数据集中包含了不同模样的不同物体。对于一个不具有多样性的数据集，它包含的大部分数据只是从一个角度观察的物体。相反，一个具有多样性的数据集包含从不同角度观察的物体。

假设每个数据集有相同数量的图片。研究学者使用这些建立好的数据集去训练用于图片识别的神经网络。然后，他们拿数据集中没有的图片，那些从其他角度拍摄的图片，去给这个神经网络识别，评估它的表现。

例如，研究学者训练一个模型去识别图片中的汽车。他们想让模型学习不同汽车的样子。假设这个模型要学习识别福特的雷鸟汽车。如果训练数据集中的雷鸟汽车都是正面照，就算我们给了它一百万张图片去训练，当你给它一张从侧面拍的照片时，它还是可能识别错误。

不同角度的汽车图片

研究学者发现，当数据集更多样，例如包含从不同角度拍摄的图片，神经网络可以更准确地识别图片。因此，数据多样性是克服数据偏见的关键。但也不是数据越多样越好，当神经网络可以更好地识别没见过的新物体时，意味着它识别已见过的物体的能力减弱。

Source: Can machine-learning models overcome biased datasets?

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。