2021-01-16

weixin_54555987

于 2021-01-16 17:36:39 发布

阅读量103

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_54555987/article/details/112716568

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

task2

一.任务说明
二.数据处理
三.字符串处理
四.具体代码实现以及一定讲解
五.结果

任务说明

任务主题：论文作者统计，统计所有论文作者出现评率Top10的姓名；
任务内容：论文作者的统计、使用 Pandas 读取数据并使用字符串操作；

数据处理

1.使用逗号对作者进行切分；
2.剔除单个作者中非常规的字符；

具体操作

处理字符串

使用引号('或")来创建字符串

具体代码实现以及操作

1.导入所需库
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt
2.数据统计
统计所有作者姓名出现频率的Top10；
统计所有作者姓（姓名最后一个单词）的出现频率的Top10；统计所有作者姓第一个字符的评率；
具体操作：
（1）data2 = data[data[‘categories’].apply(lambda x: ‘cs.CV’ in x)]
all_authors = sum(data2[‘authors_parsed’], [])
（2）authors_names = [’ '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)
plt.figure(figsize(10,6))authors_names[0].value_counts().head(10).plot(kind=‘barh’)
names=authors_names[0].value_counts().index.values[:10]_ = plt.yticks(range(0, len(names)), names)plt.ylabel(‘Author’)plt.xlabel(‘Count’)
（3）authors_lastnames = [x[0] for x in all_authors]authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize(10,6))authors_lastnames[0].value_counts().head(10).plot(kind=‘barh’)

names=authors_lastnames[0].value_counts().index.values[:10]_ = plt.yticks(range(0, len(names)), names)plt.ylabel(‘Author’)plt.xlabel(‘Count’

结果

` **结果**

weixin_54555987

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-01-16

task2一.任务说明二.数据处理三.字符串处理四.具体代码实现以及一定讲解五.结果任务说明任务主题：论文作者统计，统计所有论文作者出现评率Top10的姓名；任务内容：论文作者的统计、使用 Pandas 读取数据并使用字符串操作；数据处理1.使用逗号对作者进行切分；2.剔除单个作者中非常规的字符；处理字符串使用引号('或")来创建字符串具体代码实现以及操作1.导入所需库import seaborn as snsfrom bs4 import BeautifulSoupi
复制链接

扫一扫