![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
金融风控
人之初哈哈
这个作者很懒,什么都没留下…
展开
-
风控问题
建模流程;数据结果数据离散化的方式(分箱);缺失值(连离)和异常值(业务)的处理;变量的筛选;LR和XGboost模型PCA;用户画像;样本不平衡;拒绝推断;账龄分析,迁移率分析冠军挑战...原创 2021-01-26 18:08:33 · 157 阅读 · 0 评论 -
python可视化
##配色————经常用的蓝色(#02a4de),金色(gold)和灰色(grey/grey40)#home页点击进对应文件夹,就可以直接open数据,df=open("sample.csv","r")#导入所有可能用到的包import randomimport mathimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.ticker as mtick plt.rcPar原创 2021-01-26 17:59:34 · 155 阅读 · 0 评论 -
Lift提升度,风险倍数指标
Lift提升度的计算逻辑是:在模型中算出来每个评分等级的分数,之后便将将打分后的样本按分数从低到高排序,取10或20等分,并将坏样本数与组内观察数作商,最后再将该值比各个自然分组与整体样本数的比值,这便是lift提升值的概念。某公司中4个产品(a/b/c/d)中,dpd30+的逾期的情况,整体的dpd30+的逾期率为1.6%,将每组数值跟总体(也叫大盘,为1.6%)取比值,我们能计算出每一组风险倍数的数值(倍数即除平均)。result_df['风险倍数'] = result_df['bad_rate']原创 2021-01-26 17:52:32 · 5499 阅读 · 1 评论 -
vim
三种模式(Linux命令模式,vim一般模式,编辑模式)i-----进入编辑Esc退出编辑,然后ZZ保存并退出, u撤销一步或相同多步ENTER,回车键,换行BACK SPACE,退格键,删除光标前一个字符DEL,删除键,删除光标后一个字符方向键,在文本中移动光标HOME/END,移动光标到行首/行尾Page Up/Page Down,上/下翻页Insert,切换光标为输入/替换模式,光标将变成竖线/下划线ESC,退出输入模式,切换到命令模式H 光标移动到这个屏幕的最上方那一行的第一个原创 2021-01-26 17:43:07 · 66 阅读 · 0 评论 -
information_schema
select concat(‘select "’,table_name,’",count(1) from ‘,table_name,’ union all’)from informaation_schema.tableswhere table_schema=“work1”;原创 2021-01-26 17:41:24 · 65 阅读 · 0 评论 -
SQL注意
##分组排序select *, Row_Number() over (partition by deptid order by salary desc) as rank from a##分页查询:limit 5,5等价于limit 5,offset 5不换行的简单注释,在注释文字前用“–”标识,如果注释内容特别多,多于一行,应把多行注释写在“/* … */”内。SQL语句中的所有保留字均需大写,且不要使用缩写,如ALL, AS, CASE, CREATE, DATABASE, DELETE, FR原创 2021-01-26 17:39:49 · 66 阅读 · 0 评论 -
数据分析工具快捷键
linux命令cd命令:切换目录 cd … cd zzls命令:查看文件与目录pwd命令:当前路径mkdir命令:新建新目录 mkdir zzrmdir命令:删除空的目录 rmdir zz(删除文件用rm)cp命令:复制文件或目录(-r必须)cp -r /root/zz/z1 /root/zz/z2mv命令:移动文件与目录,或更名 mv /root/zz/z1 /rootcat命令:查看文件内容 cat za.txthead命令:取出前面几行head za.txttail命令:取出后原创 2021-01-26 17:32:48 · 222 阅读 · 0 评论 -
数据分析(二)
数据集中,部分分类变量存在一定程度的缺失,而除了薪水以外的数值变量只存在极少的缺失。对于其余数值变量存在缺失的观测,我们直接采用舍弃的策略。舍弃数值变量存在缺失的变量后,训练集还剩 29951 个观测,测试集还剩 9997 个观测。我们所关心的就只剩如何处理分类变量以及薪水变量中存在的大面积缺失问题。因变量不平衡的问题大多数机器学习分类算法使用了两个假设:各个观测之间是独立的,因变量的分布是平衡的。在本问题中,各个观测之间的独立性并不令人怀疑,但显然因变量的分布极度不平衡。如果这些被错误率驱动的分类算原创 2021-01-26 17:29:32 · 153 阅读 · 0 评论 -
数据分析(一)
特征提取数据有40000 个报告编号,其中 30000 个给予了是否存在违约行为的信息。我们的目标是利用 30000 个有标注的观测拟合模 型并在 10000 个未标注的观测上做出预测。对于某些文件中存在的某个报告编号对应多条观测的状况,我们采用了求和,平均等方法构造出新的特征,并对所有的特征依据以下原则进行了筛选。• 贷款、贷记卡两张表与信用评级的相关数据在之后的未销户贷记卡或者未结清贷款、逾期(透支)信息汇总、贷记卡逾期/透支记录等几张表中均有所体现,所以我们选择从后几张表中提取我们所关心的解释变量原创 2021-01-26 17:24:25 · 101 阅读 · 0 评论 -
反欺诈
这里写自定义目录标题 许多公司都需要一个商用设备来群发短信,比如邮电局、税务局、海关、银行、证券商、各类交易所、期货经纪公司、工商局以及各类信息呼叫中心等,这台设备就像一个能插入多张手机卡的简易手机,你可以把它理解为“n卡n待”,这种设备,就是猫池。你可以把大量的手机SIM卡插入猫池,通过这台设备来接收短信。根据端口数量的不同,猫池可以插入不同数量的手机SIM卡,少则8张,多则64张。当你把猫池连接电脑,电脑就变成了转载 2020-08-13 11:21:56 · 833 阅读 · 0 评论