前沿学术数据分析AcademicTrends
文章平均质量分 69
前沿学术数据分析AcademicTrends
黄元帅
努力做好一件事
展开
-
【Task05】前沿学术数据分析AcademicTrends-作者关系挖掘
一、任务任务主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类任务内容:使用论文标题完成类别分类任务成果:学会文本分类的基本方法、TF-IDF等二、读取数据并简单查看读取到第20万行数据,这里需要注意的是,由于先存后判断,所以是第20万行可以取到:data = []with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d原创 2021-01-26 00:32:50 · 360 阅读 · 0 评论 -
【Task04】前沿学术数据分析AcademicTrends-论文种类分类
一、任务任务主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类任务内容:使用论文标题完成类别分类任务成果:学会文本分类的基本方法、TF-IDF等二、读取数据并简单查看读取到第20万行数据,这里需要注意的是,由于先存后判断,所以是第20万行可以取到:data = []with open("arxiv-metadata-oai-snapshot.json", 'r') as f: for idx, line in enumerate(f): d原创 2021-01-23 00:17:56 · 200 阅读 · 1 评论 -
【Task03】前沿学术数据分析AcademicTrends
一、任务任务主题:论文代码统计,统计所有论文出现代码的相关统计任务内容:使用正则表达式统计代码连接、页数和图表数据任务成果:学习正则表达式统计二、元字符基础常用元字符代码说明.匹配除换行符以外的任意字符[ ]字符类,匹配方括号中包含的任意字符()标记一个子表达式的开始和结束位置|分支结构,匹配符号之前的字符或后面的字符\转义符,它可以还原元字符原来的含义\w匹配字母或数字或下划线\s匹配任意的空白符\d匹配数字原创 2021-01-20 00:19:02 · 172 阅读 · 0 评论 -
【Task02】前沿学术数据分析AcademicTrends
TODO重新梳理数据源原创 2021-01-17 01:00:04 · 198 阅读 · 0 评论 -
【Task01】前沿学术数据分析AcademicTrends
一、准备工作1.安装包pandas、matplotlib和seaborn提前安装了,所以只安装下面两个:验证成功:二、查看数据data = []with open("./data/arxiv-metadata-oai-2019.json", 'r') as f: for idx, line in enumerate(f): #只读取前500行 if idx >= 500: break data.ap原创 2021-01-13 23:43:31 · 234 阅读 · 0 评论