- 博客(6)
- 收藏
- 关注
原创 第2章 索引
一、单级索引 (a)loc方法(注意:所有在loc中使用的切片全部包含右端点!) ① 单行索引:df.loc[1103] ② 多行索引:df.loc[[1102,2304]] df.loc[1304:].head() df.loc[2402::-1].head() 逆项 ③ 单列索引:df.loc[:,‘Height’].head() ④ 多列索引:df.loc[:,[‘Height’,‘Math...
2020-04-23 19:53:28 197
原创 第1章 Pandas基础
一、文件读取与写入 读取¶ (a)csv格式 df = pd.read_csv('data/table.csv') (b)txt格式 df_txt = pd.read_table('data/table.txt') (c)xls或xlsx格式 df_excel = pd.read_excel('data/table.xlsx') 写入 (a)csv格式 df.to_csv('dat...
2020-04-20 21:03:22 120 1
原创 Task5 模型融合
5.1 模型融合目标 对于多种调参完成的模型进行模型融合。 完成对于多种模型的融合 5.2 内容介绍 模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stacking...
2020-04-04 21:40:28 82
原创 Task4 建模调参
线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 嵌入式特征选择: Lasso回归; Ridge回归; 决策树; 模型对比: 常用线性模型; 常用非线性模型; 模型调参: 贪心调参方法; 网格调参方法; 贝叶斯调参方法; 4.3 相关原理...
2020-04-01 20:56:22 91
原创 Task3 特征工程
常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对幂律分布,可以采用公式:????????????((1+x)/(1+median)) 数据分桶: 等频分桶; 等距分桶; Best-KS 分桶(类似利用基尼指数进行二分类); 卡方分桶...
2020-03-28 13:26:07 109
原创 Task2 数据分析
探索性数据分析(Exploratory Data Analysis,简称EDA) &EDA的主要价值是熟悉数据集,了解数据集,对数据集进行验证来确定所获的数据集可以用于接下来的机器学习或者深度学习使用。 &了解数据集之后就需要了解变量间的相互关系以及变量与预测值之间的存在关系。 实践步骤: (1)载入各种数据科学以及可视化库 #coding:utf-8 #导入warnings包,利...
2020-03-24 14:54:21 155
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人