自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 作业03 特征工程

作业03 特征工程这次的特征工程有点难度。首先是搭建环境。Gensim安装总是出错。二个方法解决:用清华镜像安装下WHL包,安装知识点:分组统计特征agg的使用非常重要,在此进行代码示例,详细请参考: http://joyfulpandas.datawhale.club/Content/ch4.html请注意{}和[]的使用分组标准格式:df.groupby(分组依据)[数据来源].使用操作先分组,得到gb = df.groupby([‘School’, ‘Grade’])1

2021-04-18 23:08:24 142 1

原创 TASK02数据分析

tasK02数据分析的目的:EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解特征之间的相关性、分布,以及特征与预测值之间的关系。为进行特征工程提供理论依据。学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)学习了解变量之间的相互关系、变量与预测值之间的存在关系。完成相应学习打卡任务训练数据读取:总体了解数据查看数据集的样本个数和原始特征维度查看数据集中特征缺失值、唯一值等

2021-04-16 15:22:02 105

原创 Task01 搭建环境

task01 搭建环境作业01 搭建环境本次数据挖掘课题是属于地理空间数据分析类,顾名思义,将会用到许多地理分析的工具,在本模块任务介绍中主要是针对常用的shapely、geopandas、folium、kepler.gl、geohash等工具进行训练和学习。所以,大多数小白是没有使用过这些高大上的工具的。首先就要安装。下安装包。需要到网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal下载同样的,安装过程充满了心酸的泪水。Shapely使用pip

2021-04-14 00:26:47 101

原创 task05 学习笔记

学习笔记这二天做了调参作业。贝叶斯调参对分数的提升的效果有限,其它二个也是一样。下面的工作可能要拓宽。使用CNN,或者RNN,RESNET然后在进行模型融合。这里开始学习如何使用CNN,RESNET对心电图学习。先做一下心电图ECG笔记,加深对图像病例的理解ECG,是electrocardiogram的缩写。就是我们平时常见的心电图。典型的心电信号由P波,QRS波,T波等一系列特征波组成,它们以及一些特征段(QRS间期,ST段,PR段等)包含着丰富的病理信息:医生就是通过分析这些波形的特点,结

2021-03-28 13:10:20 118

原创 task04 学习笔记

task04学习笔记两类需要调参的参数(parameters)优化类的参数:学习率(learning rates)、mini batch、训练代数(epochs)模型类的参数:隐含层数(hidden layers)、模型结构的参数(如RNN)

2021-03-24 22:33:46 142

原创 task03学习笔记

task03 lightGBM模型学习笔记LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升算法。其详细的原理及操作内容详见:LightGBM 中文文档。1,lightgbm常用函数A、lgb.Dataset()B,交叉验证cvnum_round = 10lgb.cv(param, train_data, num_round, nfold=5)C,创建成lgb特征的数据集格式2,设置参数和训练params = {‘boosting_type’: ‘gbdt’, # 设

2021-03-21 14:48:22 170

原创 task02 笔记 数据探索阶段

数据探索阶段我是零基础做数据分析,以前学了一些python,但是没有实践用过,还停留在理论阶段。据了解,队里15人退了三分之一,没有跑出来的问题是本地环境没有搭建成功,所以baseline跑不出了,直接就失去了信心。认为这东西太难。下面记录一下我在环境搭建下遇到的坑和解决方法。最初我在DSW下,导入xgboost和 catboost,怎么也不成功。我意识到可能与本地环境有关,才开始在anaconda下,先下载包到本地保存.试过!pip install xgboost不超过,三个小时过去了。Catb

2021-03-19 21:40:56 87

原创 与心电心跳分类课题相关的几个核心概念

与心电心跳分类课题有关的几个核心概念#临床诊断和病理学方面:ECG判读在临床心电图工作流程中起着至关重要的作用,各种各样的诊断都被医生们测试,以综合得出一个比较准确的判断,到底病人是得了什么类别的心脏病,或者有几个类别的疾病综合,以便给出后续可靠的治疗或者手术方案。在大数据科学出现以前,医生们主要靠症状,验血,心电图来判断,遇到疑难杂症,即使是有医生专家组会诊,也难以得出准确的结果。降低误诊率,是大数据科学应用到医学的一个重要课题。以下是一些课题研究重要的思想:#图像识别:将时间序列的波形转化为图像

2021-03-16 21:22:12 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除