论文数据统计Task2

最新推荐文章于 2022-01-06 17:43:39 发布

Sylvie小兔

最新推荐文章于 2022-01-06 17:43:39 发布

阅读量98

点赞数

分类专栏：大数据数据分析文章标签：可视化

本文链接：https://blog.csdn.net/weixin_44917733/article/details/112727403

版权

大数据同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数据分析

7 篇文章 0 订阅

订阅专栏

Task2:论文作者统计

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: 
# Also add the following code, 
# so that every time the environment (kernel) starts, 
# just run the following code: 
import sys 
import json
import pandas as pd
import matplotlib.pyplot as plt
sys.path.append('/home/aistudio/external-libraries')
data = []
with open("/home/aistudio/data/data67990/arxiv-metadata-oai-2019.json", 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}
        data.append(d)
        
data = pd.DataFrame(data)

# 选择类别为cs.CV下面的论文
data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]

# 拼接所有作者
all_authors = sum(data2['authors_parsed'], [])

# 拼接所有的作者
authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

# 根据作者频率绘制直方图
plt.figure(figsize=(10, 6))
authors_names[0].value_counts().head(10).plot(kind='barh')

# 修改图配置
names = authors_names[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

在这里插入图片描述

authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

Text(0.5,0,'Count')

在这里插入图片描述

Sylvie小兔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文数据统计Task2

Task2:论文作者统计# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys import jsonimport pandas as pdimport matplotlib.pyplot as pltsys.
复制链接

扫一扫