数据分析入门（基于python）——学术前沿趋势分析——Task2：论文作者统计

最新推荐文章于 2024-04-21 23:20:06 发布

我的名字叫做_安

最新推荐文章于 2024-04-21 23:20:06 发布

阅读量553

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_45841265/article/details/112601718

版权

Task2：论文作者统计

任务背景
任务描述
数据集介绍
具体思路以及代码实现
总结

任务背景

本任务的背景为使用公开的arXiv论文完成相应的数据分析操作，并且完成具体的可视化分析。

任务描述

论文作者统计，即统计所有论文作者出现频率Top10的姓名。

数据集介绍

数据集来源：数据集链接
数据集的各个特征的含义如下：
在这里插入图片描述
通过以上字段含义信息，可以发现，在本任务中，我们关心的字段有’authors’，‘categories’，以及’authors_parsed’。

具体思路以及代码实现

导入package并读取原始数据

# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

# 读入数据，为了方便处理数据，我们只选择了三个字段进行读取

data = []
with open("arxiv-metadata-oai-snapshot.json", 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {
   'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}
        data.append(d)
        
data = pd.DataFrame(data)

data.head

最低0.47元/天解锁文章

我的名字叫做_安

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据分析入门（基于python）——学术前沿趋势分析——Task2：论文作者统计

Task2：论文作者统计任务背景任务描述数据集介绍具体思路以及代码实现导入package并读取原始数据数据预处理数据分析及可视化任务背景本任务的背景为使用公开的arXiv论文完成相应的数据分析操作，并且完成具体的可视化分析。任务描述论文作者统计，即统计所有论文作者出现频率Top10的姓名。数据集介绍数据集来源：数据集链接数据集的各个特征的含义如下：通过以上字段含义信息，可以发现，在本任务中，我们关心的字段有’authors’（即作者），‘categories’（即文章类别），以及上’aut
复制链接

扫一扫