2021-1-数据分析-Task2-论文作者统计

最新推荐文章于 2021-02-04 07:13:27 发布

Oona要好好写代码

最新推荐文章于 2021-02-04 07:13:27 发布

阅读量248

点赞数

分类专栏： 2021年1月数分

本文链接：https://blog.csdn.net/weixin_47728930/article/details/112702152

版权

该博客介绍了如何统计论文作者出现频率，包括导入数据、清洗作者姓名、统计姓名次数和画频率图的步骤。通过json数据读入、作者姓名拼接、使用Value_counts()函数以及绘制条形图来分析作者信息。

摘要由CSDN通过智能技术生成

统计论文作者出现频率

步骤

导入数据
清洗作者姓名数据
统计作者姓名频率
画频率图

导入数据

知识点

json格式数据读入方法——需使用json包
for函数+enumerate函数，遍历枚举需要的字段值
append函数：扩充原来的序列

# 载入其他过程中会使用到的包
import json #用于载入数据 （数据为json格式的）
import seaborn as sns
from bs4 import BeautifulSoup 
import re
import requests
import pandas as pd
import matplotlib.pyplot as plt

data=[]
with open('arxiv-metadata-oai-snapshot.json','r')as f: # with open的语法？参数r是啥？
    for idx,line in enumerate(f):
        d=json.loads(line)
        d={
   'authors':d['authors'],'categories':d['categories'],'authors_parsed': d['authors_parsed']}
        data.append(d)
        
data=pd.DataFrame(data)