谷歌:LLM内容安全审核套件ShieldGemma

在这里插入图片描述

📖标题:ShieldGemma: Generative AI Content Moderation Based on Gemma
🌐来源:arXiv, 2407.21772

🛎️文章简介

🔸研究问题:如何提高大语言模型(LLM)在内容生成中的安全性和责任性?
🔸主要贡献:论文提出了一系列基于Gemma2的先进内容审核模型,并开发了一种新颖的合成数据生成方法。

📝重点思路

🔺相关工作

🔸安全内容审核:现有资源通常是针对网络环境中人类生成的文本量身定制的,这与人类提示和LLM生成的响应内容有很大不同。
🔸综合数据生成:尽管人机交互据丰富,但由于正面例子的稀缺、对抗性和高度多样化的数据有限以及隐私问题,很难训练LLM的对抗能力。

🔺论文方案

🔸内容安全分类:定义了包括露骨、仇恨、和暴力等六个类别,并根据用户输入和模型输出采用了不同的指令。
🔸数据合成:使用合成数据生成管道创建多样化的对抗性数据,并通过主动学习减少人工标注的需求,得到50k的提示相应对。
🔸数据增强:包括性别、种族和信仰等身份类别的数据,以提高模型的公平性,整合为100k合成数据、20k扩展数据和14k人类偏好。
🔸数据采样:通过BERT生成嵌入,采用聚类边缘算法下采样,以平衡不确定性和多样性。
🔸模型微调:训练Gemma2得到2B、9B和27B模型

🔎分析总结

🔸ShieldGemma系统在模型大小和训练数据量相似的情况下,在基准测试中相比其他模型取得了更高的分数。
🔸较大的模型在新的伤害类型和文本样式上表现出更强的泛化能力。
🔸尽管模型在过滤潜在安全风险方面表现出色,但其对政策违规的解释可能过于保守,可能会影响有用性。

💡个人观点

论文开发了一种基于合成数据的内容安全审核方法,并提供了一种新的合成数据生成管道。

附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值