谷歌：LLM内容安全审核套件ShieldGemma

大模型任我行

于 2024-08-25 15:00:00 发布

阅读量530

点赞数 5

分类专栏：大模型-模型安全文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141469646

版权

大模型-模型安全专栏收录该内容

21 篇文章

订阅专栏

在这里插入图片描述

📖标题：ShieldGemma: Generative AI Content Moderation Based on Gemma
🌐来源：arXiv, 2407.21772

🛎️文章简介

🔸研究问题：如何提高大语言模型（LLM）在内容生成中的安全性和责任性？
🔸主要贡献：论文提出了一系列基于Gemma2的先进内容审核模型，并开发了一种新颖的合成数据生成方法。

📝重点思路

🔺相关工作

🔸安全内容审核：现有资源通常是针对网络环境中人类生成的文本量身定制的，这与人类提示和LLM生成的响应内容有很大不同。
🔸综合数据生成：尽管人机交互据丰富，但由于正面例子的稀缺、对抗性和高度多样化的数据有限以及隐私问题，很难训练LLM的对抗能力。

🔺论文方案

🔸内容安全分类：定义了包括露骨、仇恨、和暴力等六个类别，并根据用户输入和模型输出采用了不同的指令。
🔸数据合成：使用合成数据生成管道创建多样化的对抗性数据，并通过主动学习减少人工标注的需求，得到50k的提示相应对。
🔸数据增强：包括性别、种族和信仰等身份类别的数据，以提高模型的公平性，整合为100k合成数据、20k扩展数据和14k人类偏好。
🔸数据采样：通过BERT生成嵌入，采用聚类边缘算法下采样，以平衡不确定性和多样性。
🔸模型微调：训练Gemma2得到2B、9B和27B模型

🔎分析总结

🔸ShieldGemma系统在模型大小和训练数据量相似的情况下，在基准测试中相比其他模型取得了更高的分数。
🔸较大的模型在新的伤害类型和文本样式上表现出更强的泛化能力。
🔸尽管模型在过滤潜在安全风险方面表现出色，但其对政策违规的解释可能过于保守，可能会影响有用性。

💡个人观点

论文开发了一种基于合成数据的内容安全审核方法，并提供了一种新的合成数据生成管道。

附录

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。