自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2021-01-25

DataWhale Task 5/论文作者信息关联 任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 社交网络分析 图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模

2021-01-25 23:18:42 79

原创 2021-01-23

DataWhale Task4/论文种类分类 任务说明 任务主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 任务内容:使用论文标题完成类别分类; 任务成果:学会文本分类的基本方法、TF-IDF等 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型; 文本分类思路 思路**1:TF-IDF+机器学习分类器 直接使用TF-IDF对文本提

2021-01-23 00:36:09 70

原创 2021-01-20

DaWhale Task3/论文代码统计 任务说明 任务主题:统计所有论文出现代码的相关统计; 任务内容:使用正则表达式统计代码链接、页数和图表数据; 任务成果:学习正则表达式统计 正则表达式 正则表达式描述了一种字符串的匹配模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中提取出符合某个条件的子串。 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号 字符 描述 [ABC] 匹配[…]中的所有字符,eg:[aeiou]匹配"google runoob

2021-01-20 00:38:10 54

原创 2021-01-16

DataWhale Task2/论文作者统计 任务说明 任务主题:论文作者统计 任务内容:使用Pandas读取并使用字符串操作 任务结果:掌握Pandas字符串操作 字符串处理 方法 说明 str.casefold() 将字符串全部小写 str.capitalize() 第一个字符串大写 str.join() 字符串拼接 str.upper() 小写转大写 具体代码 import seaborn as sns #用于画图 from bs4 import Beautifu

2021-01-16 23:43:23 55

原创 2021-01-13

DataWhale Task1/论文数据统计笔记 Task说明 任务主题:统计2019年全年计算机方向论文数量; 任务内容:基于Pandas进行数据的读取及统计 任务结果:掌握Pandas的基础操作 一、数据载入 1.1数据集介绍 下载地址:https://www.kaggle.com/Cornell-University/arxiv 数据集的格式如下: id:arXiv ID,可用于访问论文; submitter:论文提交者; authors:论文作者 title:论文标题; comments:论文页

2021-01-13 22:46:39 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除