数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析
地址:https://tianchi.aliyun.com/competition/entrance/531866/information
一、原理介绍
社交网络分析是图关系挖掘的一个分支,通常以关系图的形式来展示人与人之间的关系网络。在人物关系图中,一个节点代表一个人,节点之间的连线表示这些人之间存在关系。网络的节点越多,说明该社交网络越庞大;连线越多,说明联系越密切。同时,也可以使用连线的粗细来表示社交关系的权重,即关系的亲密程度。
这里通过绘制关系图,来研究论文中的作者关系。
二、代码实现
# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式,匹配字符串的模式
import requests #用于网络连接,发送网络请求,使用域名获取对应信息
import json #读取数据,我们的数据为json格式的
import pandas as pd #数据处理,数据分析
import matplotlib.pyplot as plt #画图工具
import warnings
warnings.filterwarnings("ignore") #过滤掉警告的意思
#读入数据
def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi'