人之初哈哈-CSDN博客

原创风控问题

建模流程；数据结果数据离散化的方式（分箱）；缺失值（连离）和异常值（业务）的处理；变量的筛选；LR和XGboost模型PCA；用户画像；样本不平衡；拒绝推断；账龄分析，迁移率分析冠军挑战...

2021-01-26 18:08:33 153

##配色————经常用的蓝色（#02a4de）,金色（gold）和灰色（grey/grey40）#home页点击进对应文件夹，就可以直接open数据，df=open("sample.csv","r")#导入所有可能用到的包import randomimport mathimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.ticker as mtick plt.rcPar

2021-01-26 17:59:34 149

原创 Lift提升度,风险倍数指标

Lift提升度的计算逻辑是：在模型中算出来每个评分等级的分数，之后便将将打分后的样本按分数从低到高排序，取10或20等分，并将坏样本数与组内观察数作商，最后再将该值比各个自然分组与整体样本数的比值，这便是lift提升值的概念。某公司中4个产品（a/b/c/d）中，dpd30+的逾期的情况，整体的dpd30+的逾期率为1.6%，将每组数值跟总体（也叫大盘，为1.6%）取比值，我们能计算出每一组风险倍数的数值（倍数即除平均）。result_df['风险倍数'] = result_df['bad_rate']

2021-01-26 17:52:32 5420 1

原创 vim

三种模式（Linux命令模式，vim一般模式，编辑模式）i-----进入编辑Esc退出编辑，然后ZZ保存并退出, u撤销一步或相同多步ENTER，回车键，换行BACK SPACE，退格键，删除光标前一个字符DEL，删除键，删除光标后一个字符方向键，在文本中移动光标HOME/END，移动光标到行首/行尾Page Up/Page Down，上/下翻页Insert，切换光标为输入/替换模式，光标将变成竖线/下划线ESC，退出输入模式，切换到命令模式H 光标移动到这个屏幕的最上方那一行的第一个

2021-01-26 17:43:07 64

原创 information_schema

select concat(‘select "’,table_name,’",count(1) from ‘,table_name,’ union all’)from informaation_schema.tableswhere table_schema=“work1”;

2021-01-26 17:41:24 62

原创 SQL注意

##分组排序select *, Row_Number() over (partition by deptid order by salary desc) as rank from a##分页查询：limit 5,5等价于limit 5,offset 5不换行的简单注释，在注释文字前用“–”标识，如果注释内容特别多，多于一行，应把多行注释写在“/* … */”内。SQL语句中的所有保留字均需大写，且不要使用缩写，如ALL, AS, CASE, CREATE, DATABASE, DELETE, FR

2021-01-26 17:39:49 63

原创维度建模

因果维度：如果某个维度的变化会导致事实表变化，则称其为因果维度。事实上，每个维度（比如时间维度）的变化都会造成事实表（比如销售量）的变化，因果维度的特殊性在于这种变化是主动的，用来描述决策者行为对事实表的变化，而时间等维度更多的是自然性的变化。因果维度的对立面是偶然维度，可能指的是相关而非因果的信息。促销维度是一种典型的因果维度，其中包括降价，活动等等2. 总线结构：这是对于公司不同部分在数据仓库建设方面的关联方法，增量的构建数据仓库。既然不同业务部门都要建立数据仓库，作者提出按...

2021-01-26 17:37:04 167

原创数据分析工具快捷键

linux命令cd命令：切换目录 cd … cd zzls命令：查看文件与目录pwd命令：当前路径mkdir命令：新建新目录 mkdir zzrmdir命令：删除空的目录 rmdir zz（删除文件用rm）cp命令：复制文件或目录（-r必须）cp -r /root/zz/z1 /root/zz/z2mv命令：移动文件与目录，或更名 mv /root/zz/z1 /rootcat命令：查看文件内容 cat za.txthead命令：取出前面几行head za.txttail命令：取出后

2021-01-26 17:32:48 220

原创数据分析（二）

数据集中，部分分类变量存在一定程度的缺失，而除了薪水以外的数值变量只存在极少的缺失。对于其余数值变量存在缺失的观测，我们直接采用舍弃的策略。舍弃数值变量存在缺失的变量后，训练集还剩 29951 个观测，测试集还剩 9997 个观测。我们所关心的就只剩如何处理分类变量以及薪水变量中存在的大面积缺失问题。因变量不平衡的问题大多数机器学习分类算法使用了两个假设：各个观测之间是独立的，因变量的分布是平衡的。在本问题中，各个观测之间的独立性并不令人怀疑，但显然因变量的分布极度不平衡。如果这些被错误率驱动的分类算

2021-01-26 17:29:32 146

原创数据分析（一）

特征提取数据有40000 个报告编号，其中 30000 个给予了是否存在违约行为的信息。我们的目标是利用 30000 个有标注的观测拟合模型并在 10000 个未标注的观测上做出预测。对于某些文件中存在的某个报告编号对应多条观测的状况，我们采用了求和，平均等方法构造出新的特征，并对所有的特征依据以下原则进行了筛选。• 贷款、贷记卡两张表与信用评级的相关数据在之后的未销户贷记卡或者未结清贷款、逾期（透支）信息汇总、贷记卡逾期/透支记录等几张表中均有所体现，所以我们选择从后几张表中提取我们所关心的解释变量

2021-01-26 17:24:25 98

转载反欺诈

这里写自定义目录标题许多公司都需要一个商用设备来群发短信，比如邮电局、税务局、海关、银行、证券商、各类交易所、期货经纪公司、工商局以及各类信息呼叫中心等，这台设备就像一个能插入多张手机卡的简易手机，你可以把它理解为“n卡n待”，这种设备，就是猫池。你可以把大量的手机SIM卡插入猫池，通过这台设备来接收短信。根据端口数量的不同，猫池可以插入不同数量的手机SIM卡，少则8张，多则64张。当你把猫池连接电脑，电脑就变成了

2020-08-13 11:21:56 808

weixin_45235606的博客