随着人工智能(AI)的应用日益广泛,其带来的安全隐患和信任问题也引起了越来越多的讨论。作为一项正在迅猛发展的技术,我们需要人工智能在给人们带来便利的同时也不破坏对人基本权利的尊重,更不能给人类带来不可预知的风险。近年来,世界各国都已经意识到人工智能应用中可能存在的风险,进而纷纷开始了规范化工作甚至立法来保证人工智能技术有序发展。可以说,可信任的人工智能(Trusted AI)是未来人工智能继续发展的基础。
在本文章中,我们将围绕可信任的人工智能在以下几个方面展开讨论。因为涉及的内容较多,我们将分三个部分对可信任的人工智能模型的理论基础和应用就行讨论。本文是其中的第一部分。
第一部分 人工智能模型的公平性和可解释性
第二部分 人工智能模型的质量
第三部分 IBM Watson OpenScale简介
公平性(Fairness)
随着人工智能在业务决策中扮演的角色越来越重,围绕模型的公平性的讨论也越来越多。
模型的公平性旨在消除机器学习算法中的偏见(Bias),特别是消除针对不应该对模型输出产生影响的个体属性(例如性别、种族、宗教信仰等等)的偏见。
在讨论公平性时,经常会用到下面的定义。
有利标签(Favorable Label)是指会对后续产生有利影响的输出值。例如在对一笔贷款的违约风险进行预测时,模型的输出“无风险”(No Risk)就是一个有利标签。因为该预测可能会有利于贷款机构做出批准贷款的决定。与之相对的,不利标签(Unfavorable Label)是指对后续产生不利影响的输出值。例如,模型的输出“有风险”(Risk)就是一个不利标签。
受保护属性(Protected Attribute)是指需要保证在按照该属性分组后各组成员可以受到平等对待的属性,例如性别、种族、宗教信仰等等。需要注意的是,受保护属性是和应用场景密切相关的。并不存在普遍适用的受保护属性。
受保护属性也被称为公平性属性(Fairness Attribute)。
特权(Privileged)是指可能会得到系统性优待的受保护属性取值。例如男性可能会被具有同等条件的女性更容易取得贷款。因此在这个场景里面,男性(Male)就是一个具有特权的值。男性群体就是一个特权(Privileged)群体(Group)。