在论文中有些混淆这几个词的概念,开篇文章记录一下,欢迎大家批评指正
黄金数据集:指的是标准数据集,也被称为Ground Truth数据集,是模型训练和测试的基准,用于衡量模型性能的真实性和准确性。创建黄金数据集是一个劳动密集型过程,通常需要主题专家 (SME) 的输入,以确保数据的准确性和相关性。数据集通常由与实际用户场景密切相关的问答对组成。
类似的概念还有黄金标签,指的是人工标注的具有较高质量的分类标签。
相对的还有白银数据集、白银标签,指的是机器自动标注的数据集和标签
基线baseline指的是一个模型性能的最低标准,在文章中作为参照物。当开发出性能更高的模型时,它们必须明显超过这个基线,以证明其复杂性的合理性。
benchmark指的是一整个评估过程,从设置实验、执行实验到分析实验,是一套标准。通常作为benchmark的过程是比较经典的方法,不一定是最好的,但一定是最有代表性的,已经被广泛研究且被广泛认可的,对它性能的表现形式、测量方法都非常熟悉,因此可以作为标准方法来衡量其他方法的好坏。
黄金数据集、benchmark和baseline之间的关系可以这样理解:黄金数据集可以作为benchmark的一部分,用于评估和比较不同模型的性能。同时,baseline模型的性能可以用同一个benchmark来衡量,以确定新模型是否达到了预期的性能提升。
参考:
(99+ 封私信 / 83 条消息) baseline和benchmark有什么区别? - 知乎 (zhihu.com)
“黄金”在NLP中是什么意思?-腾讯云开发者社区-腾讯云 (tencent.com)
揭秘Ground Truth数据集:机器学习中的黄金标准 (baidu.com)
深度学习中的Benchmark,Baseline,Backbone和SOTA的比较说明举例分析_深度学习benchmark-CSDN博客