摘要
随着大语言模型的迅速发展,大语言模型的安全性逐渐引起了研究者和公众的密切关注. 为了防止大语言模型在与人类协作中对人类产生伤害,如何确保大语言模型在日常场景中的判断能与人类道德观念相符成为了一个重要问题. 其中一个关键的挑战是,如何确保大语言模型在道德判断方面,能够像人类那样,针对不同的情境,灵活地调整或重新考虑预定的规则,从而使其判断与人类的道德观念保持一致.
受心理学和认知科学中关于人类道德判断的情感和认知影响因素研究的启发,结合大语言模型在认知推理和情感分析能力上的优势,本文设计了一种模仿人类道德判断过程中情感判断和认知判断能力交互的方法,从而提升了大语言模型的道德判断表现. 实验结果证明了所提方法在该任务上的有效性. 总的来说,不仅为大语言模型的道德判断提供了一种创新的方法,也强调了心理学与认知科学理论在此领域的重要性,为未来的进一步研究奠定基础.
主要贡献