📖标题:Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing
🌐来源:arXiv, 2409.11726
摘要
🔸大型语言模型(LLM)角色扮演受到了广泛关注,其中真实的角色知识对于构建逼真的LLM角色扮演代理至关重要。然而,现有的研究通常忽视了LLM在扮演角色时检测角色已知知识错误(KKE)和未知知识错误(UKE)的能力的探索,这将导致低质量的角色可训练语料库的自动构建。
🔸本文提出了一种探测数据集来评估LLM检测KKE和UKE错误的能力。结果表明,即使是最新的LLM也很难有效地检测到这两种类型的错误,尤其是在熟悉的知识方面。我们尝试了各种推理策略,并提出了一种基于代理的推理方法——自回忆和自怀疑(S2RD),以进一步探索提高错误检测能力的潜力。
🔸实验表明,我们的方法有效地提高了LLM检测错误字符知识的能力,但这仍然是一个需要持续关注的问题。探测数据集、提示和代码存放于https://github.com/WYRipple/rp_kw_errors