arXiv实用技巧,如何让你的paper关注度变高?

《LLM数据工程》停了半个来月,会马上恢复更新的,这两天在搞一个相关论文投稿。回想起来也接触了一段时间科研圈,发现这个领域有点过于封闭了,像是古代拜山头一样,技巧和经验只在同门内流通,感觉有点奇怪,所以尝试科普一些东西

一、arXiv id的含义是什么?

一篇文章有一个唯一id,比如:2407.04694,代表的是24年7月的编号为04694的文章

一篇文章id相关相关的链接有:https://arxiv.org/pdf/2407.04694,中间为pdf则直接是pdf页面。

https://arxiv.org/abs/2407.04694,中间为abs则是详情页

二、 arXiv每日论文在哪里查看?

可以在arxiv首页点击进入感兴趣的主题

每一个小专题的原始路径均为https://arxiv.org/list/xxx/recent,比如https://arxiv.org/list/cs.CL/recent则是cs.CL板块最近的文章

打开某个板块的首页,我们可以看到所有的文章都排列在这里,列出了基本信息:id、名字、作者等信息,而其他例如arxiv_daily、各种知乎、推特等关于arxiv论文的KOL推荐都是从这每日自动爬取的论文。

所以就此我们有了衍生的小trick:

三、如何投稿可以更好地被关注到?

基本的投稿方式可以自己搜索,这里不做赘述。

LLM时代其实会议中不中没那么重要了,因为技术和认知更迭太快,期刊动辄三五个月的时间让很多在科研前沿的人士很大程度上放弃了投稿,期刊就更不用说了,一年的时间过去黄花菜都凉了。

而与此同时arXiv的优势就显示出来了,最快一天就可以见于互联网,方便想快速PR成果的个人和团队,所以很多人都是arXiv战神——成果只挂arXiv,有时间再说投稿的事(比如我)

而arXiv火热的专题每天会有几百甚至上千份投稿,如何才能让自己的稿件脱颖而出?

1. 自荐给KOL

挑选各个平台流量高的kol,将自己刚release的arXiv地址,GitHub地址,最好有demo演示地址、视频等方便外行人可以快速了解你做了什么的东西发给对方,看对方是否愿意帮你做宣传,不需要过度紧张,被拒绝是常事,被接收是幸运。但也要注意基本的社交礼仪,附我早期和他们的交流话术:

有了一次成功经历之后,之后再有其他工作想麻烦他们宣传就很简单了,比如:

2. 自己慢慢做账号

我们会发现很多KOL刚开始对前沿的东西也是一知半解,但是流量高,可以帮助自己起粉丝,所以我们其实可以慢慢培育自己的账号,有几千粉丝之后自己就逐渐变为小KOL了。

而且亲测起号速度也没那么慢

3. arXiv系统排序规则

这条是比较实用的小技巧,首先有一个小认知,和学术界工业界都打过交道的人会发现一个事情:像arXiv这种学术系统一般不会有复杂的工程设计,意思就是他的各种规则和功能一定很简单,根本不会有什么高并发、分布式、雪花算法、容器等东西。

而list页面最上面的文章总是更容易被各个kol和爬虫获取到的,那么问题就变为了:如何让我们的文章尽量排到最上面?

我们观察页面,可以发现一个简单的规律:arXiv的文章展示结果是把arXiv id最大的放在最上面

所以问题变为了:如何让我们的arXiv id在每次更新的所有id中,尽可能地大?

4. arXiv卡点提交

通过研究它的所有文档,我发现了这么一个页面:https://info.arxiv.org/help/availability.html

里面详细列出了arXiv每期的截稿时间和更新时间

也就是周日一二三四的晚上八点会更新之前一次时间截止到当天时间下午两点的论文

而简单建立多个提交请求之后,我们可以发现arXiv是自增id的逻辑,也就是系统每有一个新提交request,就id+1,那么答案自然就来了:尽量在截稿时间前几秒提交,也就是比如周二下午两点截稿,可以卡在13:59:59提交,这样理论上当前周期的id就会最大,文章自然在最前列。(不过建议不要这么极限)

当然,以上时间是美东时间,我们需要把美东时间时间换算为北京时间或你当地的时间,同时要注意美国从3月的第二个星期日开始,到11月的第一个星期日结束是夏令时,其他为冬令时。夏令时和北京时间相差12小时,而冬令时比北京时间晚13小时

PS:arxiv提交之后显示的是UTC时间,可以自己做一下换算

祝大家万事顺意~

<think>好的,我现在需要帮助用户解决如何在arXiv上根据引用量对论文进行排序或找到相关工具的问题。首先,我要回忆一下自己对arXiv的了解。arXiv是一个预印本平台,研究人员可以在这里提前发布论文,但arXiv本身并不提供引用量统计功能,这点我记得没错。用户的需求是找到引用量排序的方法或工具,所以我需要思考有哪些第三方工具或方法可以实现这一点。 首先,想到的是Google Scholar。虽然它不是专门针对arXiv的,但很多arXiv论文会被Google Scholar收录,并且Google Scholar会显示引用次数。用户可以通过搜索论文标题,然后根据引用量手动排序,但这种方法可能效率不。另外,Google Scholar的检索结果可能有不同的排序方式,但不确定是否支持直接按引用量排序。需要确认这一点。 接下来是Semantic Scholar,这个学术搜索引擎确实提供了引用量统计,并且可能支持按引用量排序。用户可以在Semantic Scholar上搜索arXiv论文,然后使用他们的排序功能。不过需要验证是否支持针对arXiv的特定排序。 然后是微软学术(Microsoft Academic),但好像已经停止服务了,可能需要排除这个选项。不过可能有替代的服务或者数据被整合到其他平台中,比如ResearchGate。但ResearchGate更多是社交网络,引用量统计可能不如专门的搜索引擎准确。 还有一个工具是arXiv自身的功能。用户提到引用[3]中的arXiv:1805.05238,说明arXiv可能有相关的统计或推荐。但根据之前的了解,arXiv本身不提供引用排名,可能需要通过其他指标,如下载量或活跃度来间接判断。比如,arXiv的“arXiv sanity preserver”这个工具,由Andrej Karpathy创建,允许用户根据下载量或热度排序,虽然不是直接引用量,但可能有相关性。 另外,用户提到的引用[2]中提到的小工具,可能是指规范引用arXiv论文的工具,但不确定是否有排序功能。可能需要进一步查找是否有这样的工具存在,或者是否有人开发了第三方工具来抓取arXiv论文的引用数据并排序。 还有一个方法是利用API,比如Google Scholar或Semantic Scholar的API,编写脚本获取引用量数据,然后自行排序。但这需要一定的编程能力,可能对普通用户来说门槛较。不过用户如果是研究人员或学生,可能有这方面的资源或能力。 此外,用户引用[3]提到早发arXiv可以提引用量,所以可能用户对引用量提升的方法也感兴趣,但当前问题主要是排序。需要确保回答集中在排序工具上,而不是如何提引用量。 现在需要整理这些思路,并验证每个方法的可行性。比如,检查Semantic Scholar是否支持按引用量排序arXiv论文,或者arXiv sanity preserver是否提供相关功能。可能还需要推荐一些具体的步骤,比如使用Google Scholar的级搜索,或特定工具的链接。 最后,用户可能需要具体的操作步骤,例如: 1. 使用Google Scholar,输入关键词,然后根据引用量排序结果。 2. 在Semantic Scholar中搜索,并选择排序方式为引用量。 3. 使用arXiv sanity preserver,根据热度或下载量排序。 4. 利用第三方工具如Connected Papers分析论文的引用网络。 同时,需要注意这些方法的局限性,比如数据更新频率、覆盖范围是否全面等。例如,Google Scholar的引用统计可能不完整,或者某些预印本未被收录。此外,引用量arXiv论文可能已经正式发表,需要提醒用户注意版本问题,引用时最好使用正式发表的版本,如引用[2]中提到的规范问题。 总结,用户的问题可以通过推荐第三方学术搜索引擎和工具来解决,同时指出arXiv本身不具备此功能,并提供具体的使用步骤和相关工具的链接或名称。此外,需要提到可能的替代指标,如下载量,以及注意事项,如引用正式版本的重要性。</think>### 分步解答 目前arXiv平台**不直接提供按引用量排序论文的功能**,但可以通过以下工具和方法间接实现类似需求: --- ### **方法一:使用学术搜索引擎** 1. **Google Scholar** - 在搜索栏输入目标论文标题或关键词,搜索结果会显示引用次数。 - 可通过手动筛选或浏览器插件(如 *Scholarscope*)辅助统计[^2]。 - *局限性*:无法直接按引用量排序arXiv论文,需手动操作。 2. **Semantic Scholar** - 支持按引用量排序论文,输入关键词后选择“Most Influential”或“Most Cited”选项[^1]。 - 示例链接:[https://www.semanticscholar.org](https://www.semanticscholar.org)。 --- ### **方法二:第三方工具与数据集** 1. **arXiv Sanity Preserver** - 由斯坦福学者Andrej Karpathy开发,提供论文热度排名(基于下载量和社区关注度),可间接反映影响力[^3]。 - 链接:[http://www.arxiv-sanity.com](http://www.arxiv-sanity.com)。 2. **Connected Papers** - 输入一篇arXiv论文,生成相关论文的可视化图谱,部分结果按引用量排序。 - 链接:[https://www.connectedpapers.com](https://www.connectedpapers.com)。 --- ### **方法三:自定义脚本与API** 1. 通过 **Semantic Scholar API** 或 **CrossRef API** 获取论文引用数据,编写脚本按引用量排序。 - 需编程基础(Python/R),示例代码片段: ```python import requests response = requests.get("https://api.semanticscholar.org/v1/paper/arXiv:1805.05238") print(response.json()["citationCount"]) ``` --- ### **注意事项** 1. **引用版本问题**:若arXiv论文已正式发表,建议引用会议/期刊版本以保证规范性[^2]。 2. **数据延迟**:第三方工具引用量更新可能存在滞后(如Google Scholar需1-2月)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值