自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(151)
  • 收藏
  • 关注

原创 各类特征的创建-业务统计特征创建

【代码】各类特征的创建-业务统计特征创建。

2024-07-04 09:22:57 169 1

原创 训练集和测试集的分布一致性分析

所谓联合概率分布,指的是将离散变量两两组合,然后查看这个新变量的相对占比分布。(2).如果分布不太一致,则说明训练集和测试集规律不太一致,此时模型预测效果上限会受此影响而被限制,并且模型大概率容易过拟合,在实际建模过程中可以多考虑使用交叉验证等方式防止过拟合,并且需要注重除了通用特征工程和建模方法外的trick的使用;所谓规律一致性,指的是需要对训练集和测试集特征数据的分布进行简单比对,以“确定”两组数据是否诞生于同一个总体,即两组数据是否都遵循着背后总体的规律,即两组数据是否存在着规律一致性。

2024-06-06 11:11:49 403

原创 特征优化+模型优化

首先,我们注意到,每一笔信用卡的交易记录都有交易时间,而对于时间字段和文本字段,普通的批量创建特征的方法都是无法较好的挖掘其全部信息的,因此我们需要围绕交易字段中的交易时间进行额外的特征衍生。当然,我们也曾尝试过进行有针对性的特征优化,在Day 5的内容中,我们曾采用NLP方法用于提取特征ID列的信息,并得到了一系列能够更加细致描述用户行为信息与商品偏好的特征,借助该特征,我们最终训练得出了一个效果更好的模型,该结果也进一步验证了特征优化对模型效果提升所能起到的作用。首先,先来看特征优化思路。

2024-06-06 10:49:24 581

原创 各类封装函数代码及各类手动实现代码-模型融合

在实际模型优化的过程中,有很多方法可以考虑,包括使用更加复杂高效的模型、进行模型融合、特征优化等等,但除此以外,还有一类经常被忽视但又同样高效优化的方法,那就是借助交叉验证进行多模型结果集成,当然此处所谓的多模型并不是采用了不同的评估器,而是同一个评估器(例如随机森林)在不同数据集上进行多次训练后生成多个模型,然后借助多个模型对测试集数据输出预测结果,最终通过取均值的方式来计算最终模型对测试集的预测结果。Wrapper 特征筛选+lightgbm建模+TPE调优。4.随机森林交叉验证评估与中间结果保存。

2024-06-02 13:12:06 442

原创 特征衍生方法汇集

reset_index()可以把tenure拉回到列名的位置。

2024-05-26 16:10:12 168

原创 GBDT的建模

2024-05-24 12:27:48 121

原创 GBDT调参--贝叶斯调参

随机抽特征和随机抽样本。

2024-05-16 12:01:44 209

原创 手动实现blending算法

estimators: level0的个体学习器,输入格式形如sklearn中要求的[(名字,算法),(名字,算法)…#2.分训练和验证集,验证集占完整数据集的比例为0.4,因此占排除测试集之后的比例为0.4/(1-0.2)#建立空dataframe用于保存个体学习器上的验证结果,即用于生成新特征矩阵。#循环,在每个训练完毕的个体学习器上进行预测,并收集每个个体学习器上输出的概率。#循环、训练每个个体学习器、并收集个体学习器在验证集上输出的概率。#新建空列表用于保存训练完毕的个体学习器,以便在测试中使用。

2024-05-16 10:10:37 386

原创 特征衍生-多变量交叉组合特征衍生

https://www.bilibili.com/video/BV1Kg411n7jv?p=21&vd_source=08e23da22e328e8950aeb24d2001d586

2024-05-16 09:14:26 184

原创 网格搜索的

2024-05-15 10:33:35 304

原创 LightGBM连续变量数据压缩

2024-05-09 16:18:00 88

原创 LightGBM超参数优化-贝叶斯,网格

choice里的参数是独立的,如果用了randint模型会推测参数之间的大小,不太好对调参。针对上面的升级改造:训练模式和测试模式两套放在一起,根据最优秀的参数来实例化一个模型。超参数调完之后如何有更好的效果,–单独模型的交叉训练-非常有bagging的原理。二、基于网格搜索的超参数优化—枚举原理,TPE是根据迭代次数猜的,不会穷尽参数。超参数结果不如原始模型,最好是迭代次数的增加。取5次预测结果的均值作为最终的预测结果。–不一定有效果,但是可以试一下的。

2024-05-09 15:27:14 277

原创 #Pandas数据分析——超好用的Groupby与map、apply、applymap详解

apply应该是大家的老朋友了,它相比agg和transform而言更加灵活,能够传入任意自定义的函数,实现复杂的数据操作。在Pandas数据处理三板斧,你会几板?中,介绍了apply的使用,那在groupby后使用apply和之前所介绍的有什么区别呢?区别是有的,但是整个实现原理是基本一致的。两者的区别在于,对于groupby后的apply,以分组后的分组DataFrame作为参数传入指定函数的,基本操作单位是DataFrame,而之前介绍的apply的基本操作单位是Series。还是以一个案

2024-05-08 13:20:26 332

原创 集成学习案例-幸福感预测

赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。赛题也给出了index文件中包含每个变量对应的问卷题目,以及变量取值的含义;比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。

2024-05-08 09:34:21 194

原创 模型融合的方法

测试集:用的是个体学习器对测试集的预测结果,最终是。训练集:用的是个体学习器对验证集的预测结果。

2024-05-08 09:23:46 98

原创 游戏氪金的实例

2024-05-06 10:41:55 61

原创 python可视化学习(十九)joy plot特征的分布情况 峰峦图

峰峦图。

2024-04-28 11:20:24 137

原创 电商订单异常检测实战

虽然是类别,但是有点多,所以需要根据某种特征进行聚合,比如一线城市,省份,等。enumerate生成器,打开需要用*

2024-04-26 12:38:07 198

原创 随机森林在巨量数据上的增量学习warm_start

2024-04-17 16:02:34 123

原创 集成学习-Bagging与随机森林回归

【代码】集成学习-Bagging与随机森林回归。

2024-04-17 10:08:50 382 1

原创 模型融合1

一、模型融合:与集成算法一样,都是训练多个评估器,并将多个评估器以某种方式结合起来解决问题的机器学习办法。但是区别是模型融合能够再经典集成模型的基础上进一步提升分数,使用模型融合ji融合:与集成算法一样,都是训练多个评估器,并将多个评估器以某种方式结合起来解决问题的机器学习办法。但是区别是模型融合能够再经典集成模型的基础上进一步提升分数,使用模型融合。

2024-04-14 13:59:28 164

原创 数组之间的合并

2022-05-17 19:12:46 190

原创 SAS 宏

sas宏语言详细教程在这里插入图片描述

2022-05-04 10:36:03 811

原创 EXCEL数据透视表

1、显示报表筛选页,汇总每个城市的项目,然后按照每个城市分页1、

2022-04-18 17:48:57 223

原创 sas字符数字转

知乎以下内容原地址SAS中变量可以分为数值型变量和字符型变量,我们希望一些特定的变量是数值型的,尤其对于连续型变量,比如年龄,身高,体重等,以便于进行数值运算。试想,如果身高是字符型变量,我们是无法计算其均值的。同时,我们也希望一些特定变量是字符型的,比如身份证号码,我们只希望其是一个标识,并不需要对其进行运算;如果身份证号码是以数值型变量出现,由于其比较长,除非特别设定format格式,不然SAS中往往不能完整的展示出来。实际数据分析中,将字符型变量转换为数值型变量最为常见。但是在实际导入excel数

2022-03-25 12:00:06 8019

原创 SAS字符数字转换

SAS数值型变量与字符型变量之间的转换·之前写过一篇字符变量转换为数值型变量的文章,这次算是总结上次的,在加上一个数值转字符的方法。在一般的情况下,前者用到的可能性药大一点,因为有时候在进行各种不同类型的数据库之间转移的时候经常会出现意外,或者在数据录入的时候的意外字符混入。字符型变量转数值型变量这里提供2种方法:1. 使用运算符转换原理就是字符型加上一个0,sas就会默认的把这个计算得到的变量设为数值型。例 字符自动转数值data b;input x y$;

2022-03-25 11:33:02 6795

原创 时间格式特征处理

#转化成时间格式for data in [data_train, data_test_a]: data['issueDate'] = pd.to_datetime(data['issueDate'],format='%Y-%m-%d') startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d') #构造时间特征 data['issueDateDT'] = data['issueDate'].apply(l

2022-01-13 13:32:42 126

原创 无序高基数类别特征(例如城市,省份这样的

‘’‘无序高基数类别特征(例如城市,省份这样的):我们用目标编码,为减小过拟合现象,采用5折交叉验证的思路,转化特征值,见下图’’’def kfold_stats_feature(train, test, feats, k): folds = StratifiedKFold(n_splits=k, shuffle=True, random_state=6666) # 这里最好和后面模型的K折交叉验证保持一致 train['fold'] = None for fold_, (t

2022-01-10 17:37:46 179

原创 excel处理技巧三

2022-01-07 22:02:34 256

原创 sns一些图在乳腺癌上的数据可视化和特征选择

可以具体看一下#数据量纲不一样,是否需要统一量纲进行标准化#小提琴图是箱线图与核密度图的结合,箱线图展示了分位数的位置,核密度图则展示了任意位置的密度,#通过小提琴图可以知道哪些位置的数据点聚集的较多,因其形似小提琴而得名import pandas as pd pd.melt(id_vars=['商品'],value_vars=['广州','上海','北京'],var_name=['城市'],value_name=['销量'])data = pd.melt(data,id_vars="di

2022-01-07 15:53:40 585

原创 11种离散型变量编码方式及效果对比及类别型特征

11种离散变量编码效果对比一、背景当我们预处理数据时,碰到类别型变量,需要将它们编码转换后才能输入进模型当中。按照不同的划分标准,类别型变量有:● 按照类别是否有序:有序和无序的类别特征。● 按照类别数量:高基类和低基类的类别特征。针对不同的类别特征和任务,可选的类别特征编码方法也不一样。本文主要介绍常见且好用的类别编码方法,希望对大家有所帮助。二、方法标签编码(Label Encoder)标签编码就是简单地赋予不同类别,不同的数字标签。属于硬编码,优点是简单直白,网上很多说适用于有序类

2022-01-04 19:43:57 1051

原创 分类型特征 数值型特征-金融贷款违约预测特征工程

参考该博主的特征工程#根据本身的含义进行看是类别变量还是数值变量#根本不是根据object 和int#类别变量:本身不是数值表示的#数值变量,不管是连续还是离散,本身就是用数值表示的#还有一种本身不是数值表示的,但是匿名处理之后用连续数值表示的一些变量#“policyCode”,唯一值,去掉,ID 去掉#首先找出,分类型特征都有哪些cate = Xtrain.columns[Xtrain.dtypes == "object"].tolist()#除了特征类型为"object"的特征们,还有

2021-12-30 21:29:08 421

原创 机器学习中为什么正态分布如此常见

原因真正的原因是中心极限原理:多个独立统计量的和的平均值,符合正态分布根据中心极限原理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,他们加总后,结果的平均值就是正态分布许多事物受到多种因素的影响,这导致了正态分布的常见,正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了...

2021-12-25 16:24:36 808

原创 特征类型总结

2.3.5 查看特征的数值类型有哪些,对象类型有哪些特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定‘’'广

2021-12-24 20:49:25 3692

原创 评分卡建模工具scorecardpy全解读

评分卡建模工具说到评分卡建模工具,做过评分卡的应该都能想到谢博士的scorecardpy和专为工业界模型开发设计的Python工具包–Toad,两者相比,scorecardpy更加轻量级,且依赖较少,可以满足大多数场景下的评分卡构建。为了使评分卡建模流程更加便捷,该Python包针对建模中各个关键步骤都提供了现成的函数,如下:数据集划分 (split_df)变量筛选(iv, var_filter)变量分箱(woebin, woebin_plot, woebin_adj, woebin_ply)分

2021-12-23 20:07:13 1155

原创 excel技巧2

快速填充,给出示例,excel自动会进行填充或者ctrl+e,或者下来之后有快速填充选项快速填充的时候要保证附近左边是有数据的,即使是空的一列,但是行标题至少是有的,保证他们是一体的...

2021-12-20 19:34:25 155

原创 excel基础技巧

定义名称indirect间接可以来自两个不同的单元格左边单元格选择西式早餐的时候,右边单元格相应的显示西式种类,分列ctrl+上下左右四个箭头就可以到表格的四个角ctrl+shift+向左的箭头可以选择所有列+向下的箭头就会选择整个表格VLOOKUP HVLOOKUP只能单向查询,且主键只能在最左或者最上,当主键在中间的时候,可以采用index和match配合可以进行多向查询index(在这里插入图片描述m...

2021-12-19 21:39:57 175

原创 SAS数值型函数

/*input将字符型的变量转为数值变量*//*20071001在SAS中默认是yymmdd10.格式,010203默认是yymmdd8.格式*/data a;x1="20071001";x2="010203";y1=input(x1,yymmdd10.);y2=input(x2,yymmdd8.);/*读入什么样的格式*/run;/*input将字符型的变量转为数值变量*//*20071001在SAS中默认是yymmdd10.格式,010203默认是yymmdd8.格式*/data

2021-12-16 16:53:11 1906

原创 SAS字符型函数

528866wmYSJ*```sqldata compress_1;x1=" 1 2 a 3";x2="Abacabbad";x3="134-7596-5241";x4="123***14567";y1=compress(x1," ");y2=compress(x2,"Ab");/*消除的是A 或b不是且的关系*/y3=compress(x3,"0123456789","k");/*消除除了数字外的所有其它字符*/y4=compress(x4,"0123456789","k");

2021-12-14 20:13:40 1555

原创 连续变量类型转换

(1) pd.get_dummies()不指定列如果直接使用pd.get_dummies()而不指定列,则只有那些数据类型为object,也就是str类型的列会被变成onehot当指定了columns时,只有指定的列被处理为onehot,不管这个列数据类型是什么,都可以进行处理tcc[“TotalCharges”]=tcc[“TotalCharges”].astype(float)tcc[“TotalCharges”]有正儿八经总结一下,报这个错通常是因为:要转换成浮点数的字符串中包含 非数字字

2021-12-08 18:58:11 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除