人类对齐笔记
大语言模型的能力主要源自于对于海量文本数据的学习,因此大模型的行为会受到数据质量、数据来源以及具体创作者等多方面的影响。经过大规模的预训练和有监督指令微调,大语言模型具备了解决各种任务的通用能力和指令遵循能力,但是同时也可能生成有偏见的、冒犯的以及事实错误的文本内容。这些潜在的有害行为,可能在下游应用中产生严重的影响与危害,进一步被恶意使用者进行放大与利用。在大语言模型的学习过程中,如何确保大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致成为了一个关键研究问题,通常称这一研究问题为人类对齐。
对齐标准
1、有用性
大语言模型需要提供有用的信息,能够准确完成任务,正确理解上下文,并展现出一定的创造性与多样性。
2、诚实性
模型的输出应具备真实性和客观性,不应夸大或歪曲事实,避免产生误导性陈述,并能够应对输入的多样性和复杂性。
3、无害性
大语言模型应避免生成可能引发潜在负面影响或危害的内容。在处理敏感主题时,模型应遵循道德标准和社会价值观,从而消除冒犯性与歧视性。
细化标准:行为对齐要求人工智能系统能够做出符合人类期望的行为;在此基础上,意图对齐则进一步要求大语言模型在意图和行为上都要与人类期望保持一致,这涉及到哲学、心理学以及技术细节上的多重挑战;道德对齐要求语言模型应避免涉及非法、不道德或有害的话题,在回应中优先考虑用户安全、道德准绳和行为边界。
基于人类反馈的强化学习
由于对齐标准难以通过形式化的优化目标进行建模,因此研究人员提出了基于人类反馈的强化学习