该博客介绍了如何对论文数据进行统计分析,包括数据预处理、类别统计和时间特征筛选。重点是2019年后计算机科学领域的论文,特别是Computer Vision and Pattern Recognition子类的论文数量最多,且逐年增长。还提到了其他如Computation and Language、Cryptography and Security及Robotics等子领域的论文情况。
摘要由CSDN通过智能技术生成
导入package并读取原始数据
# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图工具
# 读入数据
data =[]#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常withopen("arxiv-metadata-oai-snapshot.json",'r')as f:for idx, line inenumerate(f):# 读取前100行,如果读取所有数据需要8G内存if idx >=1000:break
data.append(json.loads(line))
data = pd.DataFrame(data)#将list变为dataframe格式,方便使用pandas进行分析
data.shape #显示数据大小# (1000, 14)