网站地址:https://paperswithcode.com/sota
Papers With Code 简介
Papers With Code 由 Reddit 用户 rstoj 开发,旨在提供免费、开源的机器学习论文资源、代码和评估排行榜。目前该网站已经完成了代码与论文的自动化链接,正在研究自动提取论文中的评估数据。
该网站将 ArXiv 上的最新机器学习论文与 GitHub 上的代码(TensorFlow/PyTorch/MXNet 等)对应起来。用户可以按标题关键词查询,或者按流行程度、GitHub 收藏数排列“热门研究”。
据了解,Papers With Code 网站上的所有内容都是可编辑的,而且是版本化的。用户可以从中发现好的任务和最优结果,甚至发现一些以前不知道的研究精华。开发者还开源了整个数据集。
数据下载
论文摘要:
https://paperswithcode.com/media/about/papers-with-abstracts.json.gz
论文与代码之间的链接:
https://paperswithcode.com/media/about/links-between-papers-and-code.json.gz
评估排行榜:
https://paperswithcode.com/media/about/evaluation-tables.json.gz
数据源
大部分数据来自于开发者的论文标注。为了确保广泛覆盖机器学习任务,开发者解析了 6 万多篇论文的标题(命名为“Method X for Task Y”)。此外,开发者还在 2018 年最后一个季度的 1600 篇 arXiv 论文摘要中手动标注了任务和数据集。
开发者还 follow 了以下项目的数据:
NLP 进展:
EFF AI metrics:
SQuAD:
RedditSota:
https://github.com/RedditSota/state-of-the-art-result-for-machine-learning-problems
抓取和导入数据的代码也已开源,详见:
paperswithcode/sota-extractor