机器学习
Zed
这个作者很懒,什么都没留下…
展开
-
如何在比赛和项目中培养一个好的探索性分析(EDA)思维 —— 翻译自kaggle一位有趣的分享者
EDA(探索性分析)指的是在已有数据的基础上,通过作图等各种方法探索数据的结构和内在信息的一种研究手段,由美国统计学家J.K.Tukey在上世纪70年代提出。在一个机器学习项目中,EDA起着非常重要的作用,他在项目初进行,决定了数据预处理和特征工程的方向,也决定着算法的拟合度和泛化性能。本文主要翻译参考自kaggle社区 COMPREHENSIVE DATA EXPLORATION WITH P...原创 2020-01-21 20:38:34 · 398 阅读 · 0 评论 -
LightGBM 训练及调参
LightGBM是微软开源的一个快速的,分布式的,高性能的基于决策树算法的梯度提升算法,对比于XGBoost算法来说准确率在大部分情况下相较无几,但是在收敛速度,内存占用情况下相较于XGBoost来说较为优秀。详细的算法原理可见LightGBM官方文档。在已经有了训练值和label的情况下可以创建lightgbm进行训练了,这里我是先对数据集进行划分得到了X_train,X_test, y_tr...原创 2020-01-19 21:39:11 · 7083 阅读 · 1 评论 -
机器学习特征工程——运用sklearn进行特征工程小结
文章目录1.什么是特征工程2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值处理2.5 数据变换2.6 回顾3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4 互信息法3.2 Wrapper3.2.1 递归特征消除法3.3 Emb...转载 2020-01-17 19:34:26 · 419 阅读 · 0 评论 -
机器学习房产预测task02——数据清洗
导入数据及所需的包#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')# GBDTfrom sklearn.ensemble import GradientBoostingRegressor# XGBoostimport xgboost as xgb# ...原创 2020-01-11 20:50:54 · 266 阅读 · 0 评论 -
机器学习房产预测task01——赛题分析
文章目录赛题简述得分指标数据概况导入包及数据1.总体情况一览2.辨析分类特征与连续特征3.缺失值分析4.单调特征列分析5.统计特征值频次大于100的特征6.label分布总结赛题简述根据给定的数据集,建立模型,预测房屋租金。数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等典型的回归预测得分指标????2:残差平方和:????????????????????=∑(????????−????̂ ????)2...原创 2020-01-10 22:45:48 · 879 阅读 · 0 评论