前沿学术数据分析AcademicTrends
文章平均质量分 69
前沿学术数据分析AcademicTrends
黄元帅
努力做好一件事
展开
-
【Task05】前沿学术数据分析AcademicTrends-作者关系挖掘
一、任务 任务主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类 任务内容:使用论文标题完成类别分类 任务成果:学会文本分类的基本方法、TF-IDF等 二、读取数据并简单查看 读取到第20万行数据,这里需要注意的是,由于先存后判断,所以是第20万行可以取到: data = [] with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d原创 2021-01-26 00:32:50 · 394 阅读 · 0 评论 -
【Task04】前沿学术数据分析AcademicTrends-论文种类分类
一、任务 任务主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类 任务内容:使用论文标题完成类别分类 任务成果:学会文本分类的基本方法、TF-IDF等 二、读取数据并简单查看 读取到第20万行数据,这里需要注意的是,由于先存后判断,所以是第20万行可以取到: data = [] with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d原创 2021-01-23 00:17:56 · 222 阅读 · 1 评论 -
【Task03】前沿学术数据分析AcademicTrends
一、任务 任务主题:论文代码统计,统计所有论文出现代码的相关统计 任务内容:使用正则表达式统计代码连接、页数和图表数据 任务成果:学习正则表达式统计 二、元字符基础 常用元字符 代码 说明 . 匹配除换行符以外的任意字符 [ ] 字符类,匹配方括号中包含的任意字符 () 标记一个子表达式的开始和结束位置 | 分支结构,匹配符号之前的字符或后面的字符 \ 转义符,它可以还原元字符原来的含义 \w 匹配字母或数字或下划线 \s 匹配任意的空白符 \d 匹配数字原创 2021-01-20 00:19:02 · 189 阅读 · 0 评论 -
【Task02】前沿学术数据分析AcademicTrends
TODO 重新梳理数据源原创 2021-01-17 01:00:04 · 219 阅读 · 0 评论 -
【Task01】前沿学术数据分析AcademicTrends
一、准备工作 1.安装包 pandas、matplotlib和seaborn提前安装了,所以只安装下面两个: 验证成功: 二、查看数据 data = [] with open("./data/arxiv-metadata-oai-2019.json", 'r') as f: for idx, line in enumerate(f): #只读取前500行 if idx >= 500: break data.ap原创 2021-01-13 23:43:31 · 250 阅读 · 0 评论