学术前沿趋势分析
文章平均质量分 76
木得脑袋
这个作者很懒,什么都没留下…
展开
-
学术前沿趋势分析Task5:作者信息关联
作者信息关联1. 研究目的DataWhale数据分析打卡营!最后一天!开源内容1. 研究目的如题,研究ar原创 2021-01-25 23:27:35 · 211 阅读 · 0 评论 -
学术前沿趋势分析Task4:论文种类分类
论文种类分类1. 研究目的2. 主要内容(1)读取数据(2)数据预处理(3)建立模型DataWhale数据分析打卡营开源内容1. 研究目的通过论文的标题+摘要,预测论文所属分类。论文数据来自arXiv。在本系列第一篇博客中已经详细介绍过arXiv数据集↓Kaggle上的一个数据集,可以理解为计算机领域论文信息库。是一个有很多行的表,每一行代表一篇论文,记录每一篇论文的作者、标签、发表年份等信息。2. 主要内容代码来自Datawhale开源内容,只做了重新编排,非原创…(1)读原创 2021-01-22 22:25:20 · 306 阅读 · 0 评论 -
学术前沿趋势分析Task3:论文代码统计
论文代码统计1. 研究目的2. 主要内容(1)读取数据(2)获取代码页数并分析作者在评论部分写下代码页数的情况作者在评论部分留下github链接其他情况DataWhale数据分析打卡营开源内容1. 研究目的统计arXiv数据集中论文代码的页数在本系列第一篇博客中已经详细介绍过arXiv数据集↓Kaggle上的一个数据集,可以理解为计算机领域论文信息库。是一个有很多行的表,每一行代表一篇论文,记录每一篇论文的作者、标签、发表年份等信息。2. 主要内容这次做的内容主要使用正则表达式匹原创 2021-01-19 23:53:44 · 188 阅读 · 0 评论 -
学术前沿趋势分析Task2:论文作者统计
论文数据统计1. 研究目的2. 主要内容(1)读取数据(2)预处理论文作者姓名(3)统计频率并作图DataWhale数据分析打卡营开源内容1. 研究目的统计arXiv数据集中出现次数TOP10的论文作者在上一篇博客中已经详细介绍过arXiv数据集↓Kaggle上的一个数据集,可以理解为计算机领域论文信息库。是一个有很多行的表,每一行代表一篇论文,记录每一篇论文的作者、标签、发表年份等信息。2. 主要内容这次做的内容非常简单。代码来自Datawhale开源内容,只做了重新编排,非原创 2021-01-16 22:32:33 · 188 阅读 · 0 评论 -
学术前沿趋势分析Task1:论文数据统计
论文数据统计1. 研究目的2. 数据(1) arXiv数据集(2) 网站爬虫3. 思路和代码(1)获得2019年往后的论文a. 读取arXiv数据集b. 筛选2019年往后的论文*c. 拆分categories(教程以外的东西)(2)爬取所有类别(3)合并前两步的结果(4)数据分析a. 饼图b. 查看细分子类信息DataWhale数据分析打卡营开源内容1. 研究目的统计2019年及以后全年计算机各个方向论文的数量2. 数据(1) arXiv数据集Kaggle上的一个数据集,可以理解为计算机领域原创 2021-01-13 23:46:09 · 353 阅读 · 0 评论