📖标题:ShieldGemma: Generative AI Content Moderation Based on Gemma
🌐来源:arXiv, 2407.21772
🛎️文章简介
🔸研究问题:如何提高大语言模型(LLM)在内容生成中的安全性和责任性?
🔸主要贡献:论文提出了一系列基于Gemma2的先进内容审核模型,并开发了一种新颖的合成数据生成方法。
📝重点思路
🔺相关工作
🔸安全内容审核:现有资源通常是针对网络环境中人类生成的文本量身定制的,这与人类提示和LLM生成的响应内容有很大不同。
🔸综合数据生成:尽管人机交互据丰富,但由于正面例子的稀缺、对抗性和高度多样化的数据有限以及隐私问题,很难训练LLM的对抗能力。
🔺论文方案
🔸内容安全分类:定义了包括露骨、仇恨、和暴力等六个类别,并根据用户输入和模型输出采用了不同的指令。
🔸数据合成:使用合成数据生成管道创建多样化的对抗性数据,并通过主动学习减少人工标注的需求,得到50k的提示相应对。
🔸数据增强:包括性别、种族和信仰等身份类别的数据,以提高模型的公平性,整合为100k合成数据、20k扩展数据和14k人类偏好。
🔸数据采样:通过BERT生成嵌入,采用聚类边缘算法下采样,以平衡不确定性和多样性。
🔸模型微调:训练Gemma2得到2B、9B和27B模型
🔎分析总结
🔸ShieldGemma系统在模型大小和训练数据量相似的情况下,在基准测试中相比其他模型取得了更高的分数。
🔸较大的模型在新的伤害类型和文本样式上表现出更强的泛化能力。
🔸尽管模型在过滤潜在安全风险方面表现出色,但其对政策违规的解释可能过于保守,可能会影响有用性。
💡个人观点
论文开发了一种基于合成数据的内容安全审核方法,并提供了一种新的合成数据生成管道。