机器学习模型脆弱性和安全性的提议

本文探讨了机器学习模型面临的多种攻击,包括数据投毒、水印攻击、代理模型反推、对抗样本攻击和模拟。提出了差异影响分析、公平或隐私模型、异常检测等防御措施,并强调了模型安全的重要性,提出了通用的最佳实践,如授权访问、模型文档化和实时监控。
摘要由CSDN通过智能技术生成


AI Conference in Beijing


最后机会:AI Conference 2019 北京站门票正在热销中,机不可失!


编者注:文中超链接如果不能访问可以点击“阅读原文”访问本文原页面;查看2019年6月18日至21日在北京举行的人工智能大会上的相关议题。

和许多人一样,我已经知道机器学习模型本身可能会带来安全风险。最近大量的博文和论文概述了这一内容广泛的主题,列举出了攻击方法和一些漏洞,开始提出了防御的解决方案,并为本文提供了必要的框架。本文的目标是在流行的、传统的预测建模系统(如基于静态数据集训练的线性和树型模型)的上下文中,对潜在的安全漏洞和防御方法进行头脑风暴。虽然我不是安全专家,但我一直在密切关注机器学习的调试、解释、公平性、可解释性和隐私等领域。我认为这些领域中的许多技术可以应用于攻击和防御预测性模型系统。

为了进一步推动安全专家和应用机器学习社区里的实践者(比如我)之间的讨论,这篇文章对通常机构运用的典型机器学习系统提出几个可能的攻击方向,给出可能的防御解决方案,并讨论一些常见的关注点和潜在的最佳实践。

1. 数据投毒攻击

数据投毒是指有人系统地更改训练数据以操纵模型的预测。数据投毒攻击也被称为“诱发性”攻击。为了在数据里投毒,攻击者必须能够访问到部分或全部训练数据。在许多公司,很多不同的员工、顾问和外包人员是能访问到数据的,而且很少有监管。怀有恶意的外部人员也可能通过未授权途径访问部分或全部训练数据并投毒。非常直接的数据投毒攻击可能是更改训练数据集的标签。因此,无论你的模型用于什么商业应用,攻击者都可以从模型的预测中获益 。例如,通过更改标签,以便让模型学会给像攻击者这样的人奖励大额贷款、大额折扣或低保险费。强迫你的模型对攻击者的利益做出错误预测有时被称为模型“完整性”的破坏。攻击者也可能使用数据投毒来让训练出来的模型故意歧视一群人,剥夺他们应得的大额贷款、更大的折扣或更低的保费。这就类似于对模型本身的拒绝服务(DOS)攻击。强制模型进行错误预测以伤害他人有时会被称为破坏模型的“可用性”。虽将看起来通过更改数据集行里面的值来进行数据投毒可能更简单,但数据投毒也可以通过在数据集上添加看似无害或多余的列来进行。然后,更改这些列中的值可以触发模型预测的变化。

现在,让我们讨论对于数据投毒的一些潜在防御和取证的解决方案:

  • 差异影响分析:许多银行已经出于公平借贷目的进行了差异影响分析,以确定他们的模型是否以歧视的方式对待不同类型的人。 然而许多其他机构还没有这么做。差异影响分析可能会发现模型预测中的故意歧视。有几种很好的开源工具可用于检测歧视和差异影响分析,例如Aequitas、Themis和AIF360。

  • 公平或隐私模型:学习公平表示(LFR)和教师模型全体的隐私聚合(PATE)等模型试图更少关注个人人口统计特征以进行预测。这些模型也不太容易受到歧视性数据投毒攻击。

  • 拒绝负面影响(RONI):RONI是一种从训练数据集中删除会降低预测精度的数据行的技术。有关RONI的更多信息,请参见第8节中的第一篇论文”机器学习安全性“。

  • 残差分析:在模型预测的残差中寻找奇怪的、明显的模式,特别是对于员工、顾问或外包人员。

  • 自我检查:用模型对员工、顾问和外包人员打分,并寻找异常好的预测。

差异影响分析、残差分析和自我检查可以在训练时间进行,也可以作为实时模型监测活动的一部分。

2. 水印攻击

水印是从深度学习安全文献中借用的术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值