我们再来看一下 AlphaFold。通过采用新技术,科学家在没有专门知识和专业领域训练的情况下,就能够超越该领域基于传统技术的所有专家。这个例子提出了一个重要的问题:如果把最新的技术与研究人员的专业技能结合起来会如何?
未来科学学研究的一个关键领域就涉及人工智能的集成,从而使得机器和人脑能够协同工作。我们期盼人工智能能够以一种人类合作者无法达到的能力扩展科学家的认知,而这将会给科学带来深远的影响。
我们想到了一个近期的例子。为了应对科学目前所面对的“可重复性危机” 的挑战,研究人员使用深度学习来揭示科学论文表述中,表征强科学发现和弱科学发现的模式。2015 年,“可重复性项目:心理学”(RPP)分析了顶尖心理学期刊上的 100 篇论文,使用与论文原始研究一样的方法人工检测了其可重复性,结果发现其中有 61 篇未能通过可重复性检测。此后,在心理学、经济学、金融学和医学等领域的研究也得到了类似的结果。
为此,研究人员把人工智能与人类智能相结合以估算可重复性。研究人员使用经过严格的人工可重复性检测的96项研究,用它们来训练神经网络去估测一篇论文的可重复性的概率,并使用249项其他研究来检测训练后的模型的泛化能力。结果是激动人心的:该模型的平均曲线下面积(AUC)达到0.72,表明其预测精度显著高于完全随机的推断。为了把这一结果与专业评审人所提供的预测信息进行比较,研究人员用同样的数据和训练过程来训练一个新的人工智能模型,但是只使用评审人的评价指标,发现这一基于评审人指标的模型的AUC只有0.68,表明其预测精度显著低于基于内容表述的模型。
这些研究表明人工智能依赖于专业评审人未掌握的特征信息。事实上,尽管人们通常基于论文中的统计报告评价其价值,人工智能则更为精确地表明,论文中的表述文本事实上具有更多人们以前没有挖掘的解释能力。极为重要的是,把从表述模型和评审人指标模型所得到的信息相结合,也就是说,把机器和人类见解相结合,就可以得到具有最高精度的新的人工智能模型(AUC=0.74)。
对模型预测能力背后的机制进行分析,我们发现那些显而易见的因素,诸如单词或短语的出现频率、写作风格、学科、期刊、作者身份或主题等,并不能解释结果。而人工智能系统是基于复杂的语义关系网络来预测可重复性的。尽管科学论文中的文字要比其汇报的统计信息多出几个数量级,论文的文本在科学学研究中至今还几乎没有被发掘。算法现在可以利用论文的全文来检测人类专家可能忽视的一些新模式以及证据不那么强的科学发现。