-
Baseline
释义:基线,起点
个人理解,baseline应该称为baseline model。你的工作中提出的模型new_model是基于先前工作模型A修改优化出来的,那么模型A称为你的工作的baseline model。
不同于先前工作的新模型,比如BERT(new)与LSTM在NLP任务中的比较,比如ViT作为backbone和CNN作为backbone在CV任务中的比较,也可以将先前工作的模型作为baseline。
The baseline is the measurement at a point when comparing facts in time.
baseline model还可以认为是一种底线模型,如果你的模型性能不如baseline model那么你的工作就没有任何意义。
-
Benchmark:
释义:基准,衡量指标
个人理解,benchmark是一个标准过程或者是一整套标准流程。上面的baseline着重强调baseline model,这个model只是benchmark这个过程的一部分。benchmark包含benchmark data,benchmark metrics等。在工作中,你的new_model想要论证是更好的,标准过程大致是,首先找好baseline,然后学习baseline model中的实验方法,数据集,评价指标等。比如数据集肯定要跟baseline model用一样的,评价指标F1,PPL(etc.)这些值也要跟baseline model保持一致,只有这样你的工作有提升时下结论才具有说服力。
The benchmark is the measurement of competition or standard results.(与baseline同为measurement但范围却有很大不同)
不管是数据集,评价方法等,都能体现benchmark的“标准”一词的含义。也就是说,你的实验条件,过程以及指标大家都要认可。
-
SOTA:
个人理解SOTA是结果导向。也就是说,SOTA指benchmark中的某个评价指标或者某些评价指标的数值结果达到了最好。