数据分析入门笔记
文章平均质量分 90
xyc_undermoon
AI初学者、CS菜鸟探索者
展开
-
数据分析入门(学术前沿趋势分析)Task5-作者信息关联
Ⅰ、主要内容纲要主题:对作者间的关系进行建模并分析,统计关联最大的作者关系 内容: 构建作者关系图 数据集:arXivⅡ、数据处理思路 处理步骤: 将作者列表进行处理,并完成统计。具体步骤如下:1)将论文第一作者与其他作者(非第一作者)关系构建图结构;2)使用图算法相关操作统计图中某作者与其他作者的联系。 社交网络: 社交网络是一种网络,属于图的一种类型。图是一种重要的结构,是离散数学、数据结构、运筹学等学科的重要内容,广泛应用于现实生活中(如交通规划、网络规划、...原创 2021-01-24 15:00:01 · 531 阅读 · 1 评论 -
数据分析入门(学术前沿趋势分析)Task4-论文种类分类
Ⅰ、主要内容纲要主题:利用数据建模,对新论文进行分类 内容: 借助论文标题、摘要完成论文分类 数据集:arXivⅡ、数据处理思路原始arxiv论文中论文有对应的类别,由作者填写,因此我们可以借助论文的标题和摘要完成分类,主要步骤如下:对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型;文本分类的思路有多种,这里简单介绍几类:思路1:TF-IDF+机器学习分类器思路2:FastText思路3:WordVec+深度学习分类器思路4:Bert词向...原创 2021-01-22 01:19:30 · 798 阅读 · 2 评论 -
数据分析入门(学术前沿趋势分析)Task3-论文代码统计
Ⅰ、主要内容纲要主题:对所有出现代码的论文进行统计,学习正则表达式 内容: 使用正则表达式统计代码连接、页数和图表数据 数据集:arXivⅡ、数据处理分析 步骤: 论文作者经常会在论文的comments或abstract字段中给出具体的代码链接,因此需要从这些字段里面找出代码的链接,主要分为三步:确定数据位置; 进行匹配(正则表达式); 完成相关的统计; 正则表达式: 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可.原创 2021-01-17 22:18:04 · 280 阅读 · 0 评论 -
数据分析入门(学术前沿趋势分析)Task2-论文作者统计
Ⅰ、主要内容纲要主题:统计出现频率top10的论文作者 内容:学习利用 Pandas 读取数据并进行统计以及字符串操作 数据集:arXivⅡ、数据处理分析原始arxiv数据集中中”author”字段是字符串格式,这意味着所有论文作者的名字是存放在一起的,因此要对字符串进行处理,提取出各个作者的姓名。姓名之间通过逗号分隔,因此可以以逗号为标志符将作者划分,然后将作者姓名中的非常规字符剔除。(我们得到的数据集中author_parsed已经将作者信息进行了处理,我们可以直接使用。)【注】(p原创 2021-01-17 15:08:46 · 283 阅读 · 0 评论 -
数据分析入门(学术前沿趋势分析)Task1-论文数据统计
此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作。赛题内容包括对论文数量、作者出现频率、论文源码的统计,对论文进行分类以及对论文作者的关系进行建模。Ⅰ、数据及背景主题:统计论文数量 内容:理解赛题、学习利用 Pandas 读取数据并进行统计 数据集:arXiv 重要的学术公开网站,也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广,涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。原创 2021-01-13 15:46:42 · 1213 阅读 · 0 评论