datawhale的数据分析学习
文章平均质量分 94
减肥的卡比兽
这个作者很懒,什么都没留下…
展开
-
第二章 论文作者分析
任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 数据处理步骤 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤: 使用逗号对作者进行切分; 剔除单个作者中非常规的字符; 具体操作可以参考以下例子: C. Bal\\'azs, E. L. Berger, P. M. Na原创 2021-01-14 22:03:42 · 355 阅读 · 0 评论 -
第一章 论文数据统计
导入package并读取原始数据 # 导入所需的package import seaborn as sns #用于画图 from bs4 import BeautifulSoup #用于爬取arxiv的数据 import re #用于正则表达式,匹配字符串的模式 import requests #用于网络连接,发送网络请求,使用域名获取对应信息 import json #读取数据,我们的数据为json格式的 import pandas as pd #数据处理,数据分析 import matplotlib.p原创 2021-01-14 00:55:50 · 893 阅读 · 1 评论