数据挖掘
文章平均质量分 94
辰星M
保持学习,知识分享
展开
-
[数据挖掘案例]逻辑回归LR模型实现电商商品个性化推荐
目录 一、问题描述二、数据摸底三、数据清洗和特征筛选3.1 数据抽取和清洗3.2 特征筛选:决策树3.3 特征分布转换3.4 特征共线性检查四、模型搭建4.1 数据集4.2 模型训练4.3 模型验证五、模型上线效果跟踪一、问题描述 在电商平台中,有海量的商品,如何为用户挖掘出感兴趣的商品,真正实现千人千面具有重要的意义。商品得分...原创 2018-07-04 18:00:16 · 5289 阅读 · 4 评论 -
[特征工程]数据预处理的方法和技巧
目录一、数据的抽取要正确反映业务需求二、处理缺失值和异常值2.1 缺失值处理2.2 异常值处理三、数据转换3.1 改善变量分布的转换3.2 数据标准化四、筛选有效的输入变量五、变量共线性问题 工业界有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部...原创 2018-06-28 14:52:47 · 2973 阅读 · 0 评论 -
[模型优化]模型欠拟合及过拟合判断、优化方法
目录一、模型欠拟合及过拟合简介二、模型欠拟合及过拟合判断三、模型欠拟合与过拟合的优化方法1、模型欠拟合2、模型过拟合一、模型欠拟合及过拟合简介模型应用时发现效果不理想,有多种优化方法,包含: 添加新特征 增加模型复杂度 减小正则项权重 获取更多训练样本 减少特征数目 增加正则项权重 具体采用哪种方法,才能够有效地提高模型精度,我...原创 2018-06-14 18:45:56 · 15824 阅读 · 0 评论 -
[kaggle]Titanic生还概率预测,accuracy-0.79425
目录一、数据摸底1.1 数据加载1.2 数据统计描述和可视化1、数据类型查看2、特征缺失值查看3、变量统计描述4、特征变量与目标变量的相关性二、数据预处理2.1 名字字符串提取title2.2 缺失值填充2.3 类别变量转化为数值型2.4 连续变量转化为离散型2.5 组合特征变量三、模型构建1、rf模型一、数据摸底1.1 数据加载...原创 2019-02-26 16:20:45 · 361 阅读 · 0 评论