自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Task2 EDA

了解训练集和测试集数据概况简单观察数据```pythondata.head().append(data.tail())data.shape```数据总览data.describe() #查看统计量及数据分布情况data.info() #查看每个字段的数据类型以及缺失情况查看数据缺失与异常data.isnull().sum() #查看每列缺失情况查看分布data['y'].value_counts()data['y'].skew() #偏度data['y'].kurt()

2021-03-20 02:37:54 173

原创 Task1 赛题理解及baseline

赛题地址背景赛题以医疗数据挖掘为背景,要求使用提供的心跳信号传感器数据训练模型,完成预测心电图心跳信号类别的多分类任务。赛题数据数据来源:某平台心电图数据记录数据量:总数据量20万+,训练集10万,测试集A2万,测试集B2万数据形式:时间序列数据,每条数据采集频次相同,长度相等字段表字段描述id心跳信号的唯一标识heartbeat_signals心跳序号序列label心跳信号类别(0、1、2、3)测评标准需提交4种不同心跳信号的预测概率,求预

2021-03-14 20:57:26 316

原创 利用python验证中心极限定理

中心极限定理说的是从服从任意分布中的总体中抽取n个样本,这个过程重复进行m次,这m个样本均值服从正态分布。import numpy as npimport matplotlib.pyplot as plt#假设总体服从均匀分布data = np.random.randint(1,10,1000) #进行6000次取样means = []for i in range(6000): ...

2020-04-13 11:40:35 953

原创 集成学习要点总结

集成学习需要解决的两个重要问题:如何得到若干个弱学习器bagging:并联boosting:串联集合策略对弱学习器预测结果进行逻辑处理:投票、平均将若学习器的预测结果作为特征:stacking、blending关于stacking和blending可见 模型融合...

2020-04-12 23:32:49 153

原创 mysql笔记之判断null值

在mysql中不能用=或者<>判断null值,而使用is null或者is not null判断null值。

2020-02-12 23:02:31 86

原创 熵、条件熵、互信息、相对熵、交叉熵、信息增益、Gini系数之间有什么关系

一直以来对信息论中相关的概念总是一知半解,查阅了相关资料,结合自己之前的笔记,总算明白了个七七八八。正式介绍之前我们有必要了解几个概念:随机变量,事件,概率分布。简单来说,随机变量X={x1,x2,...,xn}X = \{x_1,x_2,...,x_n\}X={x1​,x2​,...,xn​},在机器学习中我们通常叫它特征,其中的一个水平xix_ixi​就是一个事件,而一个随机变量会服从概率...

2019-12-05 14:49:35 476

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除