统计论文作者出现频率
步骤
- 导入数据
- 清洗作者姓名数据
- 统计作者姓名频率
- 画频率图
导入数据
知识点
- json格式数据读入方法——需使用json包
- for函数+enumerate函数,遍历枚举需要的字段值
- append函数:扩充原来的序列
# 载入其他过程中会使用到的包
import json #用于载入数据 (数据为json格式的)
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import pandas as pd
import matplotlib.pyplot as plt
data=[]
with open('arxiv-metadata-oai-snapshot.json','r')as f: # with open的语法?参数r是啥?
for idx,line in enumerate(f):
d=json.loads(line)
d={
'authors':d['authors'],'categories':d['categories'],'authors_parsed': d['authors_parsed']}
data.append(d)
data=pd.DataFrame(data)
清洗作者姓名数据
由上一环节的导入结果可看出authors_parsed字段已做过处理,可直接使用;无需再对原生的authors字段做处理(这部分可作为拓展)
知识点
- sum(iterable[, start]) ;拼接作者姓名
- Join 函数
’sep’.join(seq)
- sep:分隔符。可以为空
- seq:要连接的元素序列、字符串、元组、字典
- 上面的语法即:以sep作为分隔符,将seq所有的元素合并成一个新的字符串
- 返回值:返回一个以分