📖标题:Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
🌐来源:arXiv, 2408.01420
🛎️文章简介
🔸研究问题:大语言模型(LLM)在经过安全对齐后,仍然容易受到“越狱”攻击。
🔸主要贡献:论文提出了一种理论框架来分析预训练阶段和后对齐阶段的“越狱”现象,并设计了一种新的强化学习与人类反馈(RLHF)算法来提高模型的安全性。
📝重点思路
🔺相关工作
🔸安全来源:尽管LLM能够有效地执行多项任务,但由于其预训练数据中不可避免地存在有害元素,很容易生成攻击性或不当内容,包括仇恨言论、恶意软件、虚假信息或社会偏见。
🔸对齐难点:训练语料库中的行为多样性,对于捕获不同的文化偏好至关重要,有害的界定最终取决于用户的偏好,因此对齐步骤不是通用的,而是取决于模型使用的特定用例。
🔸当前思路:包括在SFT期间注入安全信息、人类专家组建红队测试和改进整个RLHF流程,但对越狱攻击的原则性通用防御的建议很有限。