weixin_45271076-CSDN博客

原创各类特征的创建-业务统计特征创建

【代码】各类特征的创建-业务统计特征创建。

2024-07-04 09:22:57 169 1

所谓联合概率分布，指的是将离散变量两两组合，然后查看这个新变量的相对占比分布。(2).如果分布不太一致，则说明训练集和测试集规律不太一致，此时模型预测效果上限会受此影响而被限制，并且模型大概率容易过拟合，在实际建模过程中可以多考虑使用交叉验证等方式防止过拟合，并且需要注重除了通用特征工程和建模方法外的trick的使用；所谓规律一致性，指的是需要对训练集和测试集特征数据的分布进行简单比对，以“确定”两组数据是否诞生于同一个总体，即两组数据是否都遵循着背后总体的规律，即两组数据是否存在着规律一致性。

2024-06-06 11:11:49 403

原创特征优化+模型优化

首先，我们注意到，每一笔信用卡的交易记录都有交易时间，而对于时间字段和文本字段，普通的批量创建特征的方法都是无法较好的挖掘其全部信息的，因此我们需要围绕交易字段中的交易时间进行额外的特征衍生。当然，我们也曾尝试过进行有针对性的特征优化，在Day 5的内容中，我们曾采用NLP方法用于提取特征ID列的信息，并得到了一系列能够更加细致描述用户行为信息与商品偏好的特征，借助该特征，我们最终训练得出了一个效果更好的模型，该结果也进一步验证了特征优化对模型效果提升所能起到的作用。首先，先来看特征优化思路。

2024-06-06 10:49:24 581

原创各类封装函数代码及各类手动实现代码-模型融合

在实际模型优化的过程中，有很多方法可以考虑，包括使用更加复杂高效的模型、进行模型融合、特征优化等等，但除此以外，还有一类经常被忽视但又同样高效优化的方法，那就是借助交叉验证进行多模型结果集成，当然此处所谓的多模型并不是采用了不同的评估器，而是同一个评估器（例如随机森林）在不同数据集上进行多次训练后生成多个模型，然后借助多个模型对测试集数据输出预测结果，最终通过取均值的方式来计算最终模型对测试集的预测结果。Wrapper 特征筛选+lightgbm建模+TPE调优。4.随机森林交叉验证评估与中间结果保存。

2024-06-02 13:12:06 442

原创特征衍生方法汇集

reset_index()可以把tenure拉回到列名的位置。

2024-05-26 16:10:12 168

原创 GBDT的建模

2024-05-24 12:27:48 121

原创 GBDT调参--贝叶斯调参

随机抽特征和随机抽样本。

2024-05-16 12:01:44 209

原创手动实现blending算法

estimators: level0的个体学习器，输入格式形如sklearn中要求的[(名字，算法)，(名字，算法)…#2.分训练和验证集，验证集占完整数据集的比例为0.4，因此占排除测试集之后的比例为0.4/(1-0.2)#建立空dataframe用于保存个体学习器上的验证结果，即用于生成新特征矩阵。#循环，在每个训练完毕的个体学习器上进行预测，并收集每个个体学习器上输出的概率。#循环、训练每个个体学习器、并收集个体学习器在验证集上输出的概率。#新建空列表用于保存训练完毕的个体学习器，以便在测试中使用。

2024-05-16 10:10:37 386

原创特征衍生-多变量交叉组合特征衍生

https://www.bilibili.com/video/BV1Kg411n7jv?p=21&vd_source=08e23da22e328e8950aeb24d2001d586

2024-05-16 09:14:26 184

原创网格搜索的

2024-05-15 10:33:35 304

原创 LightGBM连续变量数据压缩

2024-05-09 16:18:00 88

原创 LightGBM超参数优化-贝叶斯，网格

choice里的参数是独立的，如果用了randint模型会推测参数之间的大小，不太好对调参。针对上面的升级改造：训练模式和测试模式两套放在一起，根据最优秀的参数来实例化一个模型。超参数调完之后如何有更好的效果，–单独模型的交叉训练-非常有bagging的原理。二、基于网格搜索的超参数优化—枚举原理，TPE是根据迭代次数猜的，不会穷尽参数。超参数结果不如原始模型，最好是迭代次数的增加。取5次预测结果的均值作为最终的预测结果。–不一定有效果，但是可以试一下的。

2024-05-09 15:27:14 277

原创 #Pandas数据分析——超好用的Groupby与map、apply、applymap详解

apply应该是大家的老朋友了，它相比agg和transform而言更加灵活，能够传入任意自定义的函数，实现复杂的数据操作。在Pandas数据处理三板斧，你会几板？中，介绍了apply的使用，那在groupby后使用apply和之前所介绍的有什么区别呢？区别是有的，但是整个实现原理是基本一致的。两者的区别在于，对于groupby后的apply，以分组后的分组DataFrame作为参数传入指定函数的，基本操作单位是DataFrame，而之前介绍的apply的基本操作单位是Series。还是以一个案

2024-05-08 13:20:26 332

原创集成学习案例-幸福感预测

赛题要求使用以上 139 维的特征，使用 8000 余组数据进行对于个人幸福感的预测（预测值为1，2，3，4，5，其中1代表幸福感最低，5代表幸福感最高）。赛题也给出了index文件中包含每个变量对应的问卷题目，以及变量取值的含义；比赛的数据使用的是官方的《中国综合社会调查（CGSS）》文件中的调查结果中的数据，其共包含有139个维度的特征，包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子女、家庭资本等等）、社会态度（公平、信用、公共服务）等特征。

2024-05-08 09:34:21 194

原创模型融合的方法

测试集：用的是个体学习器对测试集的预测结果，最终是。训练集：用的是个体学习器对验证集的预测结果。

2024-05-08 09:23:46 98

原创游戏氪金的实例

2024-05-06 10:41:55 61

原创 python可视化学习（十九）joy plot特征的分布情况峰峦图

峰峦图。

2024-04-28 11:20:24 137

原创电商订单异常检测实战

虽然是类别，但是有点多，所以需要根据某种特征进行聚合，比如一线城市，省份，等。enumerate生成器，打开需要用*

2024-04-26 12:38:07 198

原创随机森林在巨量数据上的增量学习warm_start

2024-04-17 16:02:34 123

原创集成学习-Bagging与随机森林回归

【代码】集成学习-Bagging与随机森林回归。

2024-04-17 10:08:50 382 1

原创模型融合1

一、模型融合：与集成算法一样，都是训练多个评估器，并将多个评估器以某种方式结合起来解决问题的机器学习办法。但是区别是模型融合能够再经典集成模型的基础上进一步提升分数，使用模型融合ji融合：与集成算法一样，都是训练多个评估器，并将多个评估器以某种方式结合起来解决问题的机器学习办法。但是区别是模型融合能够再经典集成模型的基础上进一步提升分数，使用模型融合。

2024-04-14 13:59:28 164

原创数组之间的合并

2022-05-17 19:12:46 190

原创 SAS 宏

sas宏语言详细教程在这里插入图片描述

2022-05-04 10:36:03 811

原创 EXCEL数据透视表

1、显示报表筛选页，汇总每个城市的项目，然后按照每个城市分页1、

2022-04-18 17:48:57 223

原创 sas字符数字转

知乎以下内容原地址SAS中变量可以分为数值型变量和字符型变量，我们希望一些特定的变量是数值型的，尤其对于连续型变量，比如年龄，身高，体重等，以便于进行数值运算。试想，如果身高是字符型变量，我们是无法计算其均值的。同时，我们也希望一些特定变量是字符型的，比如身份证号码，我们只希望其是一个标识，并不需要对其进行运算；如果身份证号码是以数值型变量出现，由于其比较长，除非特别设定format格式，不然SAS中往往不能完整的展示出来。实际数据分析中，将字符型变量转换为数值型变量最为常见。但是在实际导入excel数

2022-03-25 12:00:06 8019

空空如也

空空如也