自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 算法实践进阶(三)【任务3 - 模型融合】

【任务3·模型融合】用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。导入包import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardSc...

2019-01-09 21:35:55 379

原创 算法实践进阶(二)【任务2 - 特征选择】

任务:分别用IV值和随机森林进行特征选择。然后分别构建模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM),进行模型评估。导入模块import pandas as pdfrom pandas import DataFrame as dffrom numpy import logimport numpy as npfrom sklearn.model_s...

2019-01-07 21:59:51 380 1

原创 算法实践进阶(一)【任务1 - 数据预处理】

【数据集下载】这是我们本次算法实践进阶数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。【任务1·数据预处理】数据类型转换和缺失值处理(尝试不同的填充看效果)以及及其他你能借鉴...

2019-01-04 21:20:21 327

原创 算法实践(四)【任务3 - 模型调优】

【任务3 - 模型调优】使用网格搜索法对7个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果~# 加载库import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom ...

2018-12-27 17:47:43 241

原创 算法实践(三)【任务2 - 模型评估】

【任务2 - 模型评估】记录7个模型(在Task1的基础上)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出Roc曲线# 加载库import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import ...

2018-12-27 17:46:08 298

原创 算法实践(二)【任务1.2 - 模型构建之集成模型】

【任务1.2 - 模型构建之集成模型】构建随机森林、GBDT、XGBoost和LightGBM这4个模型,评分方式任意# 加载库import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifierfrom skl...

2018-12-27 17:38:45 144

原创 算法实践(一)【任务1.1 - 模型构建】

【任务1.1 - 模型构建】给定数据集,数据三七分,随机种子2018。(在任务1中什么都不用考虑,即不需数据处理和模型调参) 调用sklearn的包,简单构建逻辑回归、SVM和决策树3个模型,评分方式任意(e.g. 准确度和auc值)。# -*- coding: utf-8 -*-# 读取数据import pandas as pddata_all = pd.read_csv('data_...

2018-12-27 17:36:51 158

原创 算法梳理(三)决策树

目录1. 信息论基础1.1 熵1.2 条件熵1.3 联合熵1.4 信息增益1.5 基尼不纯度2. 决策树原理3. 决策树的不同分类算法3.1 ID3算法3.2 C4.5算法3.3 CART算法4. 决策树防止过拟合手段5. 模型评估6. sklearn参数1. 信息论基础1.1 熵熵是表示随机变量不确定性的度量。熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也...

2018-12-23 16:33:00 750

原创 算法梳理(二) 逻辑回归

目录1. 逻辑回归与线性回归的联系与区别2. 逻辑回归的原理3. 逻辑回归损失函数推导及优化4. 正则化与模型评估指标5. 逻辑回归的优缺点6. 样本不均衡问题解决方法7. sklearn参数1. 逻辑回归与线性回归的联系与区别逻辑回归是用来分类的,是一个非线性的二分类模型,主要是计算在某个样本特征下事件发生的概率,但是它本质上又是一个线性回归模型,除去sigmoid映射函数,其他的步骤,算法...

2018-12-20 18:43:57 541

原创 算法梳理(一)线性回归

目录1. 机器学习的一些概念1.1 机器学习的概念1.2 有监督学习1.3 无监督学习1.4 半监督学习1.5 强化学习1.6 泛化能力1.7 过拟合1.8 欠拟合1.9 常见模型指标1.10 交叉验证2. 线性回归2.1 线性回归的原理2.2 线性回归的目标函数、损失函数2.3 优化方法2.4 线性回归的评估指标2.5 sklearn参数详解1. 机器学习的一些概念1.1 机器学习的概念计...

2018-12-19 18:52:21 972

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除