在论文《HOW NEURAL NETWORKS EXTRAPOLATE: FROM FEEDFORWARD TO GRAPH NEURAL NETWORKS》里,"外推"指的是模型根据训练数据学到的规律,用来预测它未见过的、更极端的或者超出训练范围的数据。为了形象地解释外推任务,可以结合论文中的具体实验来解释。
任务1:多项式回归(Polynomial Regression)
-
形象解释:想象一下,你在学校学了一些数学题,题目中数字范围都在0到10之间。老师让你做更多的类似题目,但这次题目里的数字范围在0到100,甚至更大。你能否通过之前学到的规律,正确解答这些从未见过的新题目呢?这是一个典型的“外推”问题,因为你需要用过去在小范围数据中的经验,去推断和预测更大范围的数据。
-
具体任务:模型在训练时,只见过输入在某个范围内的多项式函数(比如1到10之间的数字),而测试时则需要模型去预测输入在这个范围之外的多项式(比如输入是100或200)。关键在于,模型是否能从已知的低阶多项式中,推测出更高阶多项式的规律。
任务2:图神经网络上的路径长度预测(Path Length Prediction on Graphs)
-
形象解释:假设你是一位快递员,工作区域是一个小镇。小镇的每条街道相当于图中的边,每个路口相当于图中的节点。你已经记住了镇上的所有路线,知道怎么走最短路径送快递。但突然有一天,你被派到一个大城市,路比小镇复杂得多,街道也更多了。这时,你需要依赖你在小镇上学到的路线规划经验,推测出大城市中的最短送货路径。这个任务也是一个“外推”,因为大城市的路线(测试数据)远比小镇的路线(训练数据)复杂得多。
-
具体任务:在这个任务中,图神经网络(GNN)在训练时,只见过一些小规模的图,它需要学会预测图中两点之间的最短路径。然而,在测试阶段,模型需要应用学到的知识,在更大、更复杂的图中预测最短路径。也就是说,模型要在未见过的、更加复杂的图结构中进行推理,这是一种外推任务。
总结
外推任务的本质在于,模型必须在“未见过的数据分布”中进行预测。这与我们日常所熟悉的学习模式不同,通常情况下,人们会依赖已有的经验解决类似的任务(这是插值任务,即训练数据和测试数据分布相似)。但在外推任务中,测试数据的分布范围远远超出训练数据的范围,因此,模型的挑战是在“未知”领域中作出合理的推断。
形象地看,外推任务就像是让一个人根据有限的经验去面对未知的更广阔世界,这个世界可能比他见过的更复杂或更极端。模型能否成功外推,取决于它是否真正理解了数据中的规律,而不仅仅是记住了训练数据。