📖标题:Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
🌐来源:arXiv, 2408.06518
摘要
🔸尽管语言模型被广泛采用,但人们对语言模型的偏见和意外行为仍然知之甚少。在本文中,我们识别并描述了一种以前从未讨论过的现象,我们称之为语义泄漏,即模型以意想不到的方式将无关信息从提示泄漏到生成中。
🔸我们提出了一种评估设置,用于检测人类和自动的语义泄漏,为诊断这种行为策划了一个多样化的测试套件,并在13个旗舰模型中测量了显著的语义泄漏。我们还表明,模型在除英语之外的语言中以及在不同的设置和生成场景中都表现出语义泄漏。这一发现突显了语言模型中影响其生成模式和行为的另一种偏见。
🛎️文章简介
🔸研究问题:模型会以意想不到的方式将提示中的不相关信息泄漏到生成中。
🔸主要贡献:论文定义并识别了语言模型中的语义泄露现象,构建了检测套件并做了大量的评估,验证了语义泄露在多语言和跨语言环境中的存在。
📝重点思路
🔺相关工作
🔸OpenAI的文本到图像模型DALLE-2,在图像生成表现出与本文相关类型的泄漏。
🔸模型很难分离意义模糊的单词,有研究试图通过鼓励交叉注意力图与提示语法反映的语言绑定一致来缓解这个问题。
🔸随着模型的改进,一系列相关的研究分析它们是否符合人类行为,特别是在认知偏差和启动方面。
🔺论文方案
🔸语义泄露的定义:语言模型可以利用与输入或提示中的单词的语义关联,对生成内容产生不需要、反逻辑和反事实的不当影响。
🔸语义泄露的样例:输入“他喜欢蚂蚁,他最爱的食物是”,输出“巧克力”,错误的将蚂蚁关联到食物。
🔸测试方案:设计了一个评估设置来量化语义泄露的普遍性,使用控制和测试提示生成文本,并通过比较这些生成文本与概念的相似度来推导评估指标。
🔎分析总结
🔸语义泄露现象在多种使用场景和模型中普遍存在,特别是在经过微调/指令微调的模型中更为明显。
🔸语义泄露不仅在英语中存在,还在中文、希伯来语以及跨语言环境中被观察到。
🔸在更开放的生成场景中,语义泄露的表现形式更加多样化,需要结合自动指标和定性分析来评估。
💡个人观点
论文首次识别并定义了生成语言模型中的语义泄露现象,并展示了其在多语言和跨语言生成环境中的普遍性和一致性。
附录