偏见将如何扼杀你的人工智能/机器学习策略以及如何应对

最新推荐文章于 2025-06-05 22:56:29 发布

IT英雄(Hero)

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1k

点赞数 35

文章标签：人工智能机器人自然语言处理 AIGC gpt

本文链接：https://blog.csdn.net/weixin_46083783/article/details/138217506

版权

在这里插入图片描述
任何类型的模型中的“偏差”都描述了模型对提示或输入数据的响应不准确的情况，因为它没有接受足够的高质量、多样化的数据训练来提供准确的响应。一个例子是苹果的面部识别手机解锁功能对于肤色较深的人来说失败率明显高于肤色较浅的人。该模型没有接受过足够多的深色皮肤人的图像训练。这是一个风险相对较低的偏见例子，但这正是欧盟人工智能法案提出要求在进入市场之前证明模型功效（和控制）的原因。输出影响业务、财务、健康或个人状况的模型必须值得信赖，否则将不会被使用。

用数据解决偏见

海量高质量数据

在许多重要的数据管理实践中，克服和最小化人工智能/机器学习模型中的偏差的关键部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织进行协作。传统上，数据获取和协作受到隐私和/或知识产权保护问题的挑战——敏感数据无法发送给模型所有者，模型所有者也不能冒险将其知识产权泄露给数据所有者。一种常见的解决方法是使用模拟或合成数据，这可能很有用，但与使用真实的全上下文数据相比也有局限性。这就是隐私增强技术 (PET) 提供急需答案的地方。

合成数据：接近，但不完全一样

综合数据是为了模仿真实数据而人工生成的。这很难做到，但通过人工智能工具变得稍微容易一些。高质量的合成数据应该具有与真实数据相同的特征距离，否则它不会有用。高质量的合成数据可以通过填补较小的边缘化人群或人工智能提供商根本没有足够数据的人群的空白，有效地提高训练数据的多样性。合成数据还可用于解决现实世界中可能难以找到足够数量的边缘情况。此外，组织可以生成合成数据集，以满足阻止访问真实数据的数据驻留和隐私要求。这听起来很棒；然而，合成数据只是拼图的一部分，而不是解决方案。

合成数据的明显局限性之一是与现实世界的脱节。例如，仅根据合成数据进行训练的自动驾驶汽车将难以应对真实的、不可预见的路况。此外，合成数据继承了用于生成它的现实世界数据的偏见——这几乎违背了我们讨论的目的。总之，合成数据是微调和解决边缘情况的有用选择，但模型功效和偏差最小化的显着改进仍然依赖于访问现实世界数据。

更好的方法：通过支持 PET 的工作流程获取真实数据

PET 在使用时保护数据。当涉及到AI/ML模型时，他们还可以保护正在运行的模型的IP——“二鸟一石”。利用 PET 的解决方案提供了在真实、敏感的数据集上训练模型的选项，而这些数据集以前由于数据隐私和安全问题而无法访问。将数据流解锁为真实数据是减少偏差的最佳选择。但它实际上是如何运作的呢？

目前，主要的选择是从机密计算环境开始。然后，与基于 PET 的软件解决方案集成，使其可以开箱即用，同时满足标准可信执行环境 (TEE) 中未包含的数据治理和安全要求。通过该解决方案，模型和数据在发送到安全的计算环境之前都经过加密。该环境可以托管在任何地方，这在解决某些数据本地化要求时非常重要。这意味着模型 IP 和输入数据的安全性在计算过程中都会得到维护，即使可信执行环境的提供者也无法访问其中的模型或数据。然后，加密结果将被发回以供审核，并且日志可供审核。

无论数据位于何处或由谁拥有，此流程都可以解锁最优质的数据，从而创建一条我们可以信任的偏差最小化和高效模型的路径。这一流程也是欧盟人工智能法案在人工智能监管沙箱的要求中所描述的。

促进道德和法律合规

获取高质量的真实数据非常困难。数据隐私和本地化要求立即限制了组织可以访问的数据集。为了实现创新和增长，数据必须流向那些能够从中获取价值的人。

欧盟人工智能法案第 54 条规定了“高风险”模型类型的要求，即在将其推向市场之前必须经过验证。简而言之，团队需要在内部使用真实世界的数据人工智能监管沙箱以证明足够的模型有效性以及对第三章第 2 章中详述的所有控制的合规性。这些控制包括监控、透明度、可解释性、数据安全、数据保护、数据最小化和模型保护——想想 DevSecOps + Data Ops。

第一个挑战是找到要使用的真实数据集，因为这对于此类模型类型来说本质上是敏感数据。如果没有技术保证，许多组织可能会犹豫是否信任模型提供商及其数据，或者不会被允许这样做。此外，该法案定义“人工智能监管沙盒”的方式本身就是一个挑战。其中一些要求包括保证模型运行后数据从系统中删除，以及治理控制、执行和报告来证明这一点。

许多组织已尝试使用开箱即用的数据洁净室 (DCR) 和可信执行环境 (TEE)。但是，就其本身而言，这些技术需要大量的专业知识和工作才能实施并满足数据和人工智能监管要求。
DCR 使用起来更简单，但还无法满足更强大的 AI/ML 需求。 TEE 是安全的服务器，仍然需要一个集成的协作平台才能快速发挥作用。然而，这为隐私增强技术平台提供了与 TEE 集成的机会，以消除这项工作，从而简化人工智能监管沙箱的设置和使用，从而简化敏感数据的获取和使用。

通过以保护隐私的方式使用更加多样化和全面的数据集，这些技术有助于确保人工智能和机器学习实践符合与数据隐私相关的道德标准和法律要求（例如欧洲的 GDPR 和欧盟人工智能法案）。总之，虽然需求常常伴随着可听见的咕噜声和叹息来满足，但这些需求只是指导我们构建更好的模型，我们可以信任和依赖这些模型来进行重要的数据驱动决策，同时保护用于模型开发的数据主体的隐私和定制。

结论

在我们共同探索了广阔的知识海洋、领略了丰富多元的信息世界后，我诚挚地邀请并强烈推荐每一位读者，将您的在线探索之旅延伸至我的官方网站。这不仅是一个信息集散地，更是一个知识共享、互动交流、价值共创的数字化平台，它承载着我对专业领域的深度洞察，对时代脉搏的敏锐捕捉，以及对提升公众认知、服务社会进步的热忱初心。
访问我的网站，您将享受到以下几大独特价值：
首先，深度与广度并重的专业内容。网站精心筛选并呈现了我所在领域的前沿资讯、深度解析、实用教程等各类高质量内容，无论是行业动态的即时追踪，还是专业知识的系统梳理，皆力求以严谨的态度、生动的笔触，满足您对专业知识的求知欲与提升需求。无论您是初入门槛的新手，还是寻求进阶之道的资深人士，都能在这里找到适配您成长路径的知识养料。
其次，互动交流的开放社区。网站搭建了用户友好、氛围活跃的互动板块，鼓励用户分享见解、提问解惑、交流心得。在这里，您的声音会被倾听，您的观点会被尊重，您的疑惑将得到同行或专家的及时回应。这种跨越地域、时间限制的即时交流，无疑将极大地拓宽您的思维边界，深化对知识的理解与应用能力，同时也能让您结识志同道合的朋友，共享学习的乐趣与挑战的激情。
再者，个性化定制的服务体验。网站充分考虑用户的个体差异与需求多样性，提供定制化的内容推荐、个性化学习计划等功能，确保您在海量信息中精准定位所需，实现高效学习。此外，定期举办的线上讲座、专题研讨会等活动，更能让您与业界翘楚面对面交流，把握行业趋势，提升实战能力。
最后，持续更新与优化的承诺。我深知知识世界的瞬息万变与用户需求的日益提升，因此，我将持续投入资源，对网站进行内容更新、功能升级，确保其始终紧跟时代步伐，为您提供最新、最实用、最具价值的信息服务。
总而言之，访问我的网站，您收获的将不仅仅是一次点击带来的信息获取，更是一段深度参与、持续成长的学习旅程，一个连接知识、连接他人、连接未来的智慧桥梁。在此，我满怀期待地邀请您，即刻启程，一同踏入这片充满机遇与启迪的网络空间，让知识的力量照亮我们的前行之路。您的每一次访问，都是对我们工作的最大肯定与激励；您的每一份收获，都是我们不懈努力的最佳回馈。期待在网站上与您相遇，共赴知识探索之约！---------IT英雄。