📖标题:LiveIdeaBench: Evaluating LLMs’ Scientific Creativity and Idea Generation with Minimal Context
🌐来源:arXiv, 2412.17596
🌟摘要
🔸虽然大型语言模型(LLMs)在科学任务中表现出了非凡的能力,但现有的评估框架主要使用丰富的上下文输入来评估它们的表现,而忽略了它们从最少的信息中产生新想法的能力。
🔸我们介绍LiveIdeaBench,这是一个综合基准,使用单个关键字提示评估法学硕士的科学创造力和发散思维能力。借鉴吉尔福德的创造力理论,我们的框架采用了一个由最先进的法学硕士组成的动态小组,从四个关键维度评估产生的想法:原创性、可行性、流畅性和灵活性。
🔸通过对跨越18个科学领域的1180个关键词的20个领先模型进行广泛实验,我们发现科学创造能力与一般智力指标显示出不同的模式。值得注意的是,我们的结果表明,尽管QwQ-32B预览等模型的一般智力得分存在显著差距,但它们的创意表现与o1预览等顶级模型相当。这些发现强调了专业评估框架对科学创造力的重要性,并表明法学硕士的创造力发展可能遵循与传统问题解决能力不同的轨迹。详见https://liveideabench.com/
🛎️文章简介
🔸研究问题:如何评估大语言模型(LLM)在科学创新中的创造力?
🔸主要贡献:论文贡献了一个专门用于评估LLM科学创造力的新框架LiveIdeaBench。
📝重点思路
🔸主要思想:基于Guilford创造力理论的评估框架,通过四个关键维度(流畅性、灵活性、原创性和可行性)来定量评估LLM在科学创意生成中的发散思维能力,而非依赖上下文的性能。
🔸评估方案:使用了20种最先进的LLM(包括专有和开源模型)作为想法生成器,通过由多个LLM组成的评审系统来评估生成的创意。
🔸实验设计:包括严格的模型选择和独立性控制,确保评估的公正性和准确性。此外,研究还采用了动态更新的科学关键词库,以保持评估的前沿性和相关性。
🔎分析总结
🔸LLM的创造力与通用智能不相关:实验表明,LLM在通用智能任务中的表现与其在科学创造力任务中的表现并不一致,某些在通用智能任务中表现较差的模型在创造力任务中表现出色,表明科学创造力可能沿着不同于一般问题解决能力的发展轨迹。
🔸不同模型在创造力维度上的表现差异:不同模型在原创性、流畅性、可行性和灵活性等维度上表现出不同的优势和劣势,表明模型架构对创造力有显著影响,提示了在科学应用中潜在的互补性。
🔸动态评估框架的有效性:LiveIdeaBench的动态评估机制能够有效防止数据污染和过拟合问题,提供了对LLM科学创造力的更全面和准确的评估。
🔸安全性与创造力的张力:实验发现,模型的安全约束可能会影响其创造力评分,表明在评估创造力时需要平衡伦理约束和创新能力。
💡个人观点
论文的核心是通过双角色的系统,一个创作一个评估,发现了创造力和任务性能不相关。
🧩附录