2021-1-数据分析-Task2-论文作者统计

该博客介绍了如何统计论文作者出现频率,包括导入数据、清洗作者姓名、统计姓名次数和画频率图的步骤。通过json数据读入、作者姓名拼接、使用Value_counts()函数以及绘制条形图来分析作者信息。
摘要由CSDN通过智能技术生成

统计论文作者出现频率

步骤

  1. 导入数据
  2. 清洗作者姓名数据
  3. 统计作者姓名频率
  4. 画频率图

导入数据

知识点

  • json格式数据读入方法——需使用json包
  • for函数+enumerate函数,遍历枚举需要的字段值
  • append函数:扩充原来的序列
# 载入其他过程中会使用到的包
import json #用于载入数据 (数据为json格式的)
import seaborn as sns
from bs4 import BeautifulSoup 
import re
import requests
import pandas as pd
import matplotlib.pyplot as plt

data=[]
with open('arxiv-metadata-oai-snapshot.json','r')as f: # with open的语法?参数r是啥?
    for idx,line in enumerate(f):
        d=json.loads(line)
        d={
   'authors':d['authors'],'categories':d['categories'],'authors_parsed': d['authors_parsed']}
        data.append(d)
        
data=pd.DataFrame(data)

在这里插入图片描述

清洗作者姓名数据

由上一环节的导入结果可看出authors_parsed字段已做过处理,可直接使用;无需再对原生的authors字段做处理(这部分可作为拓展)

知识点

- sum(iterable[, start]) ;拼接作者姓名
- Join 函数
’sep’.join(seq)

  • sep:分隔符。可以为空
  • seq:要连接的元素序列、字符串、元组、字典
  • 上面的语法即:以sep作为分隔符,将seq所有的元素合并成一个新的字符串
  • 返回值:返回一个以分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值