机器学习模型可以战胜数据偏见吗?

机器学习模型可以处理带有偏见的数据集吗?

研究学者表明,机器学习模型的通用性会受数据多样性和训练模型的方法影响。



前言

人工智能系统可以快速处理任务,但这不意味它们可以公正地处理每项任务。如果用于训练机器模型的数据集带有偏见,这个人工智能系统在执行任务时也会带有偏见。

例如,一个数据集中大部分都是男性白种人的图片。那么用这个数据集训练出来的人脸识别模型,在识别女人和其他颜色人种时的准确性会非常低。


一群来自MIT、哈佛大学和富士通公司的学者,着手研究可以如何解决用于训练机器学习模型的数据集所带的偏见。他们使用了神经科学中的方法,研究训练资料可以如何影响人工神经网络识别从未见过的物体的能力。神经网络是一种机器学习模型,模仿人类大脑的运作,包含不同层的神经元。

一、训练资料的多样性

研究结果显示,训练资料的多样性,对神经网络能否克服数据偏见具有主要影响。但是,同一时间,训练资料的多样性,可以降低神经网络的成效。结果还表明,神经网络的训练方法,以及在训练过程中使用的神经元的类型,也对克服数据偏见有主要影响。所以,在我们训练自己的机器学习模型时,不是收集了一大堆原始数据就一了百了,我们需要在一开始时非常仔细地设计数据集。

二、像一个神经科学家一样思考

在神经科学中,使用受控制的数据集是非常重要的。这意味着研究学者会尽可能地知道一个数据集中包含了什么内容。

研究小队建立了一个数据集,数据集中包含了不同模样的不同物体。对于一个不具有多样性的数据集,它包含的大部分数据只是从一个角度观察的物体。相反,一个具有多样性的数据集包含从不同角度观察的物体。

假设每个数据集有相同数量的图片。研究学者使用这些建立好的数据集去训练用于图片识别的神经网络。然后,他们拿数据集中没有的图片,那些从其他角度拍摄的图片,去给这个神经网络识别,评估它的表现。

例如,研究学者训练一个模型去识别图片中的汽车。他们想让模型学习不同汽车的样子。假设这个模型要学习识别福特的雷鸟汽车。如果训练数据集中的雷鸟汽车都是正面照,就算我们给了它一百万张图片去训练,当你给它一张从侧面拍的照片时,它还是可能识别错误。

不同角度的汽车图片

研究学者发现,当数据集更多样,例如包含从不同角度拍摄的图片,神经网络可以更准确地识别图片。因此,数据多样性是克服数据偏见的关键。但也不是数据越多样越好,当神经网络可以更好地识别没见过的新物体时,意味着它识别已见过的物体的能力减弱。

Source: Can machine-learning models overcome biased datasets?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值