任何类型的模型中的“偏差”都描述了模型对提示或输入数据的响应不准确的情况,因为它没有接受足够的高质量、多样化的数据训练来提供准确的响应。一个例子是 苹果的面部识别手机解锁功能对于肤色较深的人来说失败率明显高于肤色较浅的人。 该模型没有接受过足够多的深色皮肤人的图像训练。这是一个风险相对较低的偏见例子,但这正是欧盟人工智能法案提出要求在进入市场之前证明模型功效(和控制)的原因。输出影响业务、财务、健康或个人状况的模型必须值得信赖,否则将不会被使用。
用数据解决偏见
海量高质量数据
在许多重要的数据管理实践中, 克服和最小化人工智能/机器学习模型中的偏差的关键部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织进行协作。传统上,数据获取和协作受到隐私和/或知识产权保护问题的挑战——敏感数据无法发送给模型所有者,模型所有者也不能冒险将其知识产权泄露给数据所有者。一种常见的解决方法是使用模拟或合成数据,这可能很有用,但与使用真实的全上下文数据相比也有局限性。这就是隐私增强技术 (PET) 提供急需答案的地方。
合成数据:接近,但不完全一样
综合数据 是为了模仿真实数据而人工生成的。这很难做到,但通过人工智能工具变得稍微容易一些。高质量的合成数据应该具有与真实数据相同的特征距离,否则它不会有用。高质量的合成数据可以通过填补较小的边缘化人群或人工智能提供商根本没有足够数据的人群的空白,有效地提高训练数据的多样性。合成数据还可用于解决现实世界中可能难以找到足够数量的边缘情况。此外,组织可以生成合成数据集,以满足阻止访问真实数据的