- 博客(4)
- 收藏
- 关注
原创 数据分析/论文作者统计
任务说明¶ 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 数据处理步骤 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤: 使用逗号对作者进行切分; 剔除单个作者中非常规的字符; 具体操作可以参考以下例子: C. Bal\'azs, E. L. Berger, P. M. Nadols
2021-01-16 00:36:43 373
原创 异常检测/基于统计学的方法
1、概述 统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。 异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。 即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。 根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。 参数方法假定正常的数据对象被一个以Θ\T
2021-01-16 00:32:14 248
原创 Datawhale/异常检测介绍
1 什么是异常检测? 异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。 识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。 异常检测: 数据不平衡下的分类问题 1.1 异常的类别 点异常: 指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标; 上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快
2021-01-12 22:40:20 272
原创 Datawhale/论文数据统计打卡
@Datawhale/论文数据统计打卡 一 载入数据 1.1首先进行数据的载入 下载链接:https://www.kaggle.com/Cornell-University/arxiv 1.2 导入相关的python包 import seaborn as sns #用于画图 from bs4 import BeautifulSoup #用于爬取arxiv的数据 import re #用于正则表达式,匹配字符串的模式 import requests #用于网络连接,发送网络请求,使用域名获取对应信息 imp
2021-01-11 13:24:27 179
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人