夕小瑶科技说 原创
作者 | python
8月16日截稿的AAAI 2024,从投稿ID看,已超14000篇投稿。这么多投稿,大家都写了啥?今年什么话题最火?和往年相比,今年的投稿趋势又有什么变化?
本文中,小编通过对比AAAI 2024与2021投稿论文的主题分布与标题关键词,试图回答上述问题。数据来源包含AAAI 2021投稿论文8000余篇与AAAI 2024投稿论文11000余篇。为避免泄露作者具体的论文内容,标题关键词分析中仅考虑同时在10篇以上论文中出现的高频关键词。
大模型研究测试传送门
GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!
投稿主题分布
下面一组图展示了AAAI 2021 与 2024的Top-5投稿主题(subject)分布。
▲AAAI 2021 投稿主题分布, Top-5
▲AAAI 2024 投稿主题分布, Top-5
3年间,Top-5的主题没有变化,但顺序发生了错位。可以看出,CV领域的论文,从2021年的20%飞速增长到2024年的32%,AAAI已被计算机视觉占领。而原本AAAI占主导地位的ML领域,投稿占比从35%降低到32%,屈居CV之后。NLP 与 Data Minding的占比相对稳定,分别是11%->10%与7%->8%。Application Domains的占比有所下降,从7%降低到4%。而因为CV领域的论文占比上升,其它小领域的论文占比从19%下降到14%。
Top-5之后的小领域主题分布如下面一组图所示。整体来说,变化不太大。2021年排第二的Focus Area,是关注COVID-19与神经符号学的一个专题,在2024年消失了。
ML论文投稿主题分布
具体到ML论文的投稿主题分布,见如下一组图。图中仅显示了Top-15的sub-subject,而其他类别均被归于others,这点与后面的图一样。由于小编本身对ML不太了解,不确定分布差异是否是由于主题分类变化导致的,在此就不做细致分析了。
CV论文投稿主题分布
下面一组图展示了CV论文的投稿主题分布。可以看出,3D CV从第三名(9%)跃居到第一名(12%),而传统CV任务,如目标检测(第1->第3)、分割(第4->第7)排名下降明显。
NLP论文投稿主题分布
最后展示了NLP论文的投稿主题分布。在LLM影响下,2024年投稿最火的自然是LLM主体,占比从2021年的5%提高到了20%。传统的强势科目IE,占比只从14%下降到13%,下降1名,LLM时代IE可能还是有搞头的。NLP application从第6名强势提高到了第3名,大模型时代也给自然语言处理的应用带来了更多的可能。多模态也从第13名上升到4名。
而受大模型影响较大的主题有文本生成(第4名->第7名)、多语言与机器翻译(第5名->第12名)。
标题主题词变化
AAAI 2021与2024,投稿标题的高频词词云图如下图所示。为了避免一些常见高频词的影响,小编除了去掉停用词之外,还去掉了这些词:Graph, Models, Data, Learning, Deep, Neural, Network。
可以看出,一些高频词在AAAI 2024依然高频,如Image(No.3->2),Detection(No.2->1),Knowledge(No.5->3),Generation(No.10->6),Reinforcement Learning(No.4->7)。2021年较火,但2024年明显降低了热度的词有:Adversarial(No.1->20)、Classification(No.6->14)、Attention(No.9->29)。而2024年更火的词包括:Segmentation(No.11->4),Efficient(No.15->5),Diffusion(NaN->8),Transformer(No.93->9)。
▲AAAI 2021标题主题词词云图
▲AAAI 2022标题主题词词云图
ML论文标题主题词变化
为了更好地展示各个领域的主题变化,小编还分领域对标题中的高频词绘制了词云图。ML领域的对比如下图所示,可以看到Federated Learning等主题成为今年AAAI的新秀。由于小编对ML不太了解,这里就不做详细分析了。
▲AAAI 2021,ML领域论文标题主题词词云图
▲AAAI 2024,ML领域论文标题主题词词云图
CV论文标题主题词变化
CV领域论文标题的主题词变化如下面一组图所示,可以看出,Video,Diffusion,Transformer,Generation等词语词频提升明显。
▲AAAI 2021,CV领域论文标题主题词词云图
▲AAAI 2024,CV领域论文标题主题词词云图
NLP论文标题主题词变化
NLP领域论文标题的主题词变化如下面一组图所示。NLP中,Large Language Models一飞冲天。除此之外,Reasoning(No.42->6),Multimodal(No.67->7),Speech(No.35->10),Question Answering(No.32->12)词频也提升明显。
▲AAAI 2021,NLP领域论文标题主题词词云图
▲AAAI 2024,NLP领域论文标题主题词词云图
结束语
各位同学,不知道看完这些数据分析之后,你对AAAI 2024大家都投了啥是否有点了解了呢?你是投到了热门主题上了呢,还是还在坚持冷门主题呢?欢迎大家评论区留言讨论。