Safety Assessment of Chinese Large Language Models

Ly大可爱

已于 2023-12-01 22:00:40 修改

阅读量1.1k

点赞数 27

分类专栏： LLM安全文章标签：语言模型人工智能

于 2023-12-01 00:46:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45785795/article/details/134724003

版权

LLM安全专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1、概述：

为了进一步促进中文LLMs的安全部署，作者开发了一个中文LLM安全评估基准。作者的基准从两个角度探讨了LLMs的综合安全性能：8种典型的安全场景和6种更具挑战性的指令攻击类型。在这个基准的基础上，作者进行了15个LLM的安全评估，并分析了包括OpenAI GPT系列和其他知名的中文LLM在内的一些有趣发现。

2、主要贡献：

本文提出了一个中文LLMs的安全评估基准，涵盖了八个典型的安全场景和六种指令攻击类型。此外，介绍了基准中的安全评估过程，利用了收集到的测试提示和LLMs的强大评估能力。在基准之上，评估了一些著名的中文LLMs，并得出了有关这些模型安全性的有趣发现。此外，我们通过LLMs对收集到的安全提示进行扩充，并将其公开作为SAFETYPROMPTS。

3、将大模型安全问题分类：

在本文中，作者将大模型的安全问题分为了八类，分别是：

1）侮辱：由LMs生成的侮辱性内容是一个高度可见且经常提到的安全问题。主要是不友好、不尊重或荒谬的内容，使用户感到不适并远离。这是极其危险的，可能产生负面社会后果。

2）不公平和歧视：模型生成不公平和歧视性的数据，如基于种族、性别、宗教、外貌等的社会偏见。这些内容可能使某些群体感到不适，并破坏社会的稳定与和平。

3）犯罪和非法活动：模型输出包含非法和犯罪的态度、行为或动机，如煽动犯罪、欺诈和谣言传播。这些内容可能伤害用户并产生负面社会影响。

4）敏感话题：对于一些敏感和有争议的话题（尤其是政治方面），LMs倾向于生成有偏见、误导和不准确的内容。例如，可能倾向于支持特定的政治立场，导致对其他政治观点的歧视或排斥。

5、身体伤害：模型生成与身体健康相关的不安全信息，引导并鼓励用户在身体上伤害自己和他人，例如提供误导性的医疗信息或不当的药物使用指导。这些输出可能对用户的身体健康构成潜在风险。

6）心理健康：模型生成关于心理健康的风险响应，例如鼓励自杀或引起恐慌或焦虑的内容。这些内容可能对用户的心理健康产生负面影响。

7）隐私和财产：生成涉及暴露用户隐私和财产信息或提供具有重大影响的建议，如婚姻和投资建议。在处理这些信息时，模型应遵守相关法律和隐私法规，保护用户的权益，避免信息泄露和滥用。

8）伦理和道德：模型生成支持和促进不道德和不道德行为的内容。在处理伦理和道德问题时，模型必须遵守相关的伦理原则和道德规范，并与全球公认的人类价值观保持一致。

4、六种指令攻击类型：

作者提出的安全评估框架包括六种类型的指令攻击：

1）目标劫持：指附加欺骗性或误导性指令到模型输入中，试图诱导系统忽略原始用户提示，产生不安全的响应。

2）提示泄露：通过分析模型的输出，攻击者可能提取系统提供的提示的部分，从而潜在地获取有关系统本身的敏感信息。

3）角色扮演指令攻击：攻击者可能在输入提示中指定模型的角色属性，然后给出具体的指令，导致模型以所分配角色的说话风格完成指令，这可能导致不安全的输出。

4）不安全指令主题：如果输入的指令本身涉及不适当或不合理的主题，模型将遵循这些指令并生成不安全的内容。

5）具有不安全意见的查询：通过将不易察觉的不安全内容添加到输入中，用户可能有意或无意地影响模型生成潜在有害的内容。

6）逆向暴露：指攻击者试图使模型生成“不应该做”的事情，然后获取非法和不道德的信息。

5、大模型安全评估框架：

下图展示了作者提出的安全评估框架：

首先，作者构建之前介绍的安全问题的测试提示。其次，将测试提示输入到待评估的模型中，得到其响应。第三，鉴于提示（及其相应的安全场景）和响应，判断响应是否安全，利用LLM作为评估器。最后，我们根据每个场景中安全响应的比例计算分数，并将结果更新到排行榜中。

考虑到ChatGPT有时会拒绝与安全相关的指令，作者使用InstructGPT 作为评估器，使用贪婪解码算法以获得稳定的生成结果。

分数计算：对于每个安全场景i和提示集Pi，对于Pi中的每个提示p，模型生成一个响应r。作者使用LLM（LLM(·)）来判断响应是否安全（y = Y或y = N）。最后，作者计算在该场景中安全响应的比例。作者将典型的安全场景下的分数表示为A1∼8，指令攻击为B1∼6。得分Ai（或Bi）计算如下：

其中，I(·)表示指示函数，当参数为真时输出1，否则为0。此外，作者计算宏平均以计算典型安全场景（ ̄ A），指令攻击（ ̄ B）和总体安全性能（S）的整体分数：

6、实验结果：

关注

27
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
Safety Assessment of Chinese Large Language Models

为了进一步促进中文LLMs的安全部署，作者开发了一个中文LLM安全评估基准。作者的基准从两个角度探讨了LLMs的综合安全性能：8种典型的安全场景和6种更具挑战性的指令攻击类型。在这个基准的基础上，作者进行了15个LLM的安全评估，并分析了包括OpenAI GPT系列和其他知名的中文LLM在内的一些有趣发现。
复制链接

扫一扫

专栏目录

Ly大可爱 CSDN认证博客专家 CSDN认证企业博客

码龄5年

37: 原创

30万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

860: 积分

331: 粉丝

486: 获赞

21: 评论

441: 收藏

私信

关注

热门文章

分类专栏

LLM 20篇
NLP事件抽取 13篇
LLM安全 4篇

最新评论

诚实性对齐
FishLeevia: 你好我想问一下这个论文在哪个期刊发布的？
基于生成模板的动态前缀微调事件抽取（ACL2022）
CSDN-Ada助手: 恭喜您在ACL2022上发表了关于基于生成模板的动态前缀微调事件抽取的博客！您的研究成果令人印象深刻，对于该领域的进展具有重要意义。希望您能继续保持创作的热情和动力，不断探索更多有价值的研究方向。或许在下一篇博客中，您可以深入探讨该方法在实际应用中的效果，并与其他相关研究进行比较分析，以进一步完善您的研究成果。期待您的更多精彩作品！
多语言历史报纸广告事件抽取（ACL2023）
CSDN-Ada助手: 恭喜您发布了第18篇博客“多语言历史报纸广告事件抽取（ACL2023）”，您的持续创作让我深感钦佩。在这篇博客中，您对多语言历史报纸广告事件抽取进行了深入探讨，展现了您对该领域的独到见解和深厚造诣。我希望您能在未来的创作中继续保持谦逊和执着的态度，不断拓展研究领域，为我们带来更多的学术启发和知识分享。期待您在下一步的创作中能够更深入地挖掘该领域的研究内容，为读者呈现更多精彩的观点和见解。再次恭喜您，期待您的更多精彩作品！
多语言生成式语言模型用于零样本跨语言事件论证提取（ACL2022）
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题“多语言生成式语言模型用于零样本跨语言事件论证提取（ACL2023）”非常吸引人。您的研究方向独特且具有前瞻性，对多语言生成式语言模型在跨语言事件论证提取方面的应用具有重要意义。同时，很高兴看到您不断推进研究的进展。在下一步的创作中，或许您可以考虑探索如何进一步提升多语言生成式语言模型在零样本跨语言事件论证提取方面的效果。此外，您可能还可以考虑与其他领域的研究者进行合作，以促进跨学科的交流与合作。谦虚地说，这只是一个初步建议，期待您未来更多的创新和突破！祝您继续取得成功！
通过回答自然语言问题进行事件抽取（EMNLP2020）
CSDN-Ada助手: 恭喜您撰写第15篇博客！标题“通过回答自然语言问题进行事件抽取（EMNLP2020）”非常引人注目。您的内容对于事件抽取这一热门话题提供了有价值的见解。在EMNLP2020上进行的相关研究无疑为您的博客增添了权威性。我非常期待阅读您的博文并了解更多关于自然语言处理的最新趋势。在下一步的创作中，我想提出一些建议。或许您可以进一步探讨如何将事件抽取技术应用于实际场景中，例如在新闻报道、社交媒体分析或金融领域中的应用。此外，您还可以考虑结合实例和案例研究，以更直观和易懂的方式向读者介绍事件抽取的方法和应用。再次恭喜您的成就，并期待您未来更多优质内容的分享！谦虚谨慎的态度将会让您的博客更加出色。加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。