Microsoft 发布 PyRIT - 生成式 AI 的红队工具

星尘安全

于 2024-10-02 14:21:07 发布

阅读量303

点赞数 11

分类专栏：网络安全文章标签：人工智能工具智能化渗透网络安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45581780/article/details/142579998

版权

网络安全专栏收录该内容

32 篇文章 0 订阅

订阅专栏

微软发布了一个名为PyRIT（Python风险识别工具的缩写）的开放访问自动化框架，用于主动识别生成式人工智能（AI）系统中的风险。

这个红队工具旨在“使全球的每个组织都能够负责任地利用最新的人工智能进步进行创新”，微软的AI红队负责人Ram Shankar Siva Kumar说。

该公司表示，PyRIT可以用于评估大型语言模型（LLM）端点对不同攻击类别的鲁棒性，例如捏造（例如幻觉）、滥用（例如偏见）和禁止内容（例如骚扰）。

它还可以用于识别安全风险，从恶意软件生成到越狱，以及隐私风险，如身份盗窃。

PyRIT带有五个接口：目标、数据集、评分引擎、支持多种攻击策略的能力，以及包含一个JSON或数据库形式的记忆组件，用于存储中间输入和输出交互。

评分引擎还提供了两种不同的评分目标AI系统输出的选项，允许红队成员使用传统的机器学习分类器或利用LLM端点进行自我评估。

“目标是让研究人员有一个基准，了解他们的模型和整个推理管道在不同伤害类别中的表现如何，并能够将这个基准与他们模型的未来迭代进行比较，”微软说。

“这使他们能够获得关于他们模型今天表现如何的经验数据，并基于未来改进检测性能的任何退化。”

尽管如此，这家科技巨头谨慎地强调，PyRIT不是替代生成式AI系统的手动红队评估，而是补充红队现有的领域专业知识。

换句话说，这个工具旨在通过生成可能用于评估AI系统的提示来突出风险“热点”，并标记需要进一步调查的区域。

微软进一步承认，红队评估生成式AI系统需要同时探测安全和负责任的AI风险，而且这个过程更具概率性，同时也指出了生成式AI系统架构之间的广泛差异。

“手动探测虽然耗时，但通常需要用于识别潜在的盲点，”Siva Kumar说。“自动化需要用于扩展，但不能替代手动探测。”

这一发展是在Protect AI披露了流行AI供应链平台（如ClearML、Hugging Face、MLflow和Triton Inference Server）中的多个关键漏洞之后，这些漏洞可能导致任意代码执行和敏感信息泄露。

工具地址：https://github.com/Azure/PyRIT

关注

11
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星尘安全 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。