自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 作业03 特征工程

作业03 特征工程 这次的特征工程有点难度。 首先是搭建环境。Gensim安装总是出错。 二个方法解决: 用清华镜像安装 下WHL包,安装 知识点: 分组统计特征agg的使用非常重要,在此进行代码示例,详细请参考: http://joyfulpandas.datawhale.club/Content/ch4.html 请注意{}和[]的使用 分组标准格式: df.groupby(分组依据)[数据来源].使用操作 先分组,得到 gb = df.groupby([‘School’, ‘Grade’]) 1

2021-04-18 23:08:24 106 1

原创 TASK02数据分析

tasK02 数据分析的目的: EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 了解特征之间的相关性、分布,以及特征与预测值之间的关系。 为进行特征工程提供理论依据。 学习目标 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值) 学习了解变量之间的相互关系、变量与预测值之间的存在关系。 完成相应学习打卡任务 训练数据读取: 总体了解数据 查看数据集的样本个数和原始特征维度 查看数据集中特征缺失值、唯一值等

2021-04-16 15:22:02 77

原创 Task01 搭建环境

task01 搭建环境作业01 搭建环境 本次数据挖掘课题是属于地理空间数据分析类,顾名思义,将会用到许多地理分析的工具,在本模块任务介绍中主要是针对常用的shapely、geopandas、folium、kepler.gl、geohash等工具进行训练和学习。 所以,大多数小白是没有使用过这些高大上的工具的。首先就要安装。 下安装包。需要到网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal下载 同样的,安装过程充满了心酸的泪水。 Shapely使用pip

2021-04-14 00:26:47 86

原创 task05 学习笔记

学习笔记 这二天做了调参作业。 贝叶斯调参对分数的提升的效果有限,其它二个也是一样。下面的工作可能要拓宽。使用CNN,或者RNN,RESNET 然后在进行模型融合。 这里开始学习如何使用CNN,RESNET对心电图学习。 先做一下心电图ECG笔记,加深对图像病例的理解 ECG,是electrocardiogram的缩写。就是我们平时常见的心电图。典型的心电信号由P波,QRS波,T波等一系列特征波组成,它们以及一些特征段(QRS间期,ST段,PR段等)包含着丰富的病理信息: 医生就是通过分析这些波形的特点,结

2021-03-28 13:10:20 101

原创 task04 学习笔记

task04学习笔记 两类需要调参的参数(parameters) 优化类的参数:学习率(learning rates)、mini batch、训练代数(epochs) 模型类的参数:隐含层数(hidden layers)、模型结构的参数(如RNN)

2021-03-24 22:33:46 115

原创 task03学习笔记

task03 lightGBM模型学习笔记 LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升算法。其详细的原理及操作内容详见:LightGBM 中文文档。 1,lightgbm常用函数 A、lgb.Dataset() B,交叉验证cv num_round = 10 lgb.cv(param, train_data, num_round, nfold=5) C,创建成lgb特征的数据集格式 2,设置参数和训练 params = { ‘boosting_type’: ‘gbdt’, # 设

2021-03-21 14:48:22 133

原创 task02 笔记 数据探索阶段

数据探索阶段 我是零基础做数据分析,以前学了一些python,但是没有实践用过,还停留在理论阶段。 据了解,队里15人退了三分之一,没有跑出来的问题是本地环境没有搭建成功,所以baseline跑不出了,直接就失去了信心。认为这东西太难。 下面记录一下我在环境搭建下遇到的坑和解决方法。 最初我在DSW下,导入xgboost和 catboost,怎么也不成功。我意识到可能与本地环境有关,才开始在anaconda下,先下载包到本地保存. 试过!pip install xgboost不超过,三个小时过去了。Catb

2021-03-19 21:40:56 58

原创 与心电心跳分类课题相关的几个核心概念

与心电心跳分类课题有关的几个核心概念 #临床诊断和病理学方面: ECG判读在临床心电图工作流程中起着至关重要的作用,各种各样的诊断都被医生们测试,以综合得出一个比较准确的判断,到底病人是得了什么类别的心脏病,或者有几个类别的疾病综合,以便给出后续可靠的治疗或者手术方案。在大数据科学出现以前,医生们主要靠症状,验血,心电图来判断,遇到疑难杂症,即使是有医生专家组会诊,也难以得出准确的结果。 降低误诊率,是大数据科学应用到医学的一个重要课题。以下是一些课题研究重要的思想: #图像识别:将时间序列的波形转化为图像

2021-03-16 21:22:12 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除