自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 Datawhale-心跳信号分类预测5 模型融合

1.机器学习之模型融合(stacking):对于每一轮的 5-fold,Model 1都要做满5次的训练和预测。Titanic 栗子:Train Data有890行。(请对应图中的上层部分)每1次的fold,都会生成 713行 小train, 178行 小test。我们用Model 1来训练 713行的小train,然后预测 178行 小test。预测的结果是长度为 178 的预测值。这样的动作走5次! 长度为178 的预测值 X 5 = 890 预测值,刚好和Train data长度吻合。这个

2021-03-29 01:08:53 263 2

原创 Datawhale-心跳信号分类预测4

内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估:回归模型/树模型/集成模型;模型评估方法;模型评价结果;模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法;

2021-03-25 23:51:03 143

原创 Datawhale-心跳信号分类预测3

数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理在这里插入代码片import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_features# Tsfresh(TimeSeries Fresh)是一个Python第三方工具包。 它自动计算大量的时间序.

2021-03-22 22:28:30 275 5

原创 Datawhale-心跳信号分类预测2

数据分析(EDA-数据探索性分析)简略观察数据(head().append(tail())首尾数据 + shape)数据总览:describe() 熟悉数据的相关统计量 + info() 熟悉数据类型判断数据缺失和异常:​ 缺失值:data.isnull().sum()——查看每列的存在nan情况​ 异常值检测(转换为nan/按照某种规律进行填充)了解预测值的分布...

2021-03-20 00:14:06 139 1

原创 深度推荐模型:DeepCrossing

背景特征工程是绕不开的话题,巧妙的特征组合也许能够为模型带来质的提升。但同时,特征工程耗费的资源也是相当可观的,对于后期模型特征的维护、模型线上部署不太友好。2016年,微软提出Deep Crossing模型,旨在解决特征工程中特征组合的难题,降低人力特征组合的时间开销,通过模型自动学习特征的组合方式,也能达到不错的效果,且在各种任务中表现出较好的稳定性。与FNN、PNN不同的是,Deep Crossing并没有采用显式交叉特征的方式,而是利用残差网络结构挖掘特征间的关系。本文将对DeepCrossin

2021-03-17 01:07:44 178

原创 Datawhale-心跳信号分类预测 1

赛题理解:赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。赛题数据:训练集数据:d 为心跳信号分配的唯一标识heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)label 心跳信号类别(0、1、2、3)测试集数据:id 心跳信号分配的唯一标识heartbeat_signals 心跳

2021-03-17 00:42:07 595 1

原创 学术前沿趋势分析5:作者信息关联

1. 主要任务主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;内容:构建作者关系图,挖掘作者关系成果:论文作者知识图谱、图关系挖掘2. 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;3. 代码data = [] #初始化#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常with open(r"F:\dataset\arx

2021-01-26 00:23:53 121

原创 异常检测5: 高维数据异常检测

1. 引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起

2021-01-24 23:29:07 142

原创 学术前沿趋势分析4:论文种类分类

1. 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类学习成果:学会文本分类的基本方法、TF-IDF等2. 分析思路第一步:处理数据arxiv论文中对应类别是由作者填写的。因此,论文种类与论文题目和摘要有着直接关系,可利用题目和摘要对论文进行分类。第二步:分类思路1. 直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等。思路2. 利用Facebook提供的Fast

2021-01-23 01:08:54 109

原创 异常检测4: 基于相似度的方法

1、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。    实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。    在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“

2021-01-22 01:33:19 137 1

原创 学术前沿趋势分析3:论文代码统计

1. 任务:主题:论文代码统计,统计所有论文出现代码的相关统计;内容:使用正则表达式统计代码连接、页数和图表数据;2. 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;3. 正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子

2021-01-20 01:03:24 76

原创 异常检测3:线性模型

1. 引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。变量的相关性分析主要分为2类:一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:  假设一:近似线性相关假设。线性相关假设是使用线性回归

2021-01-18 23:52:47 110

原创 学术前沿趋势分析2:论文作者统计

一、任务说明主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;内容:论文作者统计、使用 Pandas 读取数据并使用字符串操作;成果:学习 Pandas 的字符串操作;二、代码实现data=[]with open(r"D:\Datawhale\arxiv-metadata-oai-snapshot.json") as f: for idx,line in enumerate(f): if idx>=10000: break

2021-01-16 23:56:15 115

原创 异常检测2:基于统计学的方法

1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ \

2021-01-16 00:28:24 467

原创 学术前沿趋势分析1:论文数据统计

**一 、载入数据**1.1 数据集下载下载链接::https://www.kaggle.com/Cornell-University/arxiv1.2import seaborn as snsfrom bs4 import BeautifulSoupimport reimport requestsimport jsonimport pandas as pdimport matplotlib.pyplot as plt在这里插入代码片提示:这里可以添加学习目标例如:一周掌握 Ja

2021-01-13 23:51:33 1901 2

原创 异常检测1:概述

**异常检测**1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群

2021-01-12 23:41:59 241 2

Java开发(一轮复习).md

Java开发(一轮复习).md

2021-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除