Python数据科学-CSDN博客

原创贷前风控策略：框架、准入、收紧、回捞、置换、定额...

本文探讨了信贷风控中贷前策略的核心地位与方法，指出贷前风控可控制80%的风险。文章首先区分了欺诈风险（还款意愿）与信用风险（还款能力），并构建了基础审批流程框架。随后详细介绍了贷前策略的四大核心方法：1）策略收紧，通过调整规则阈值降低风险；2）策略回捞，从拒绝客户中筛选优质客群；3）策略置换，通过新旧策略对比实现风险优化；4）风险预测，量化分析策略调整效果。文中提供了具体的数据分析方法和可视化案例，强调策略优化需平衡通过率与逾期率。完整内容见东哥100天风控课程。（149字）

2025-09-27 23:31:20 1294

原创 Vintage账龄分析表计算底层逻辑（Python实操）

大家好，我是东哥。信贷风控领域中，经常用到账龄Vintage报表，这是入门初学者的难点之一，因为它涉及到用户还款、逾期等多种行为以及业务上的多种统计口径，因此很多朋友一直无法将逻辑梳理清楚。本次来给大家详细介绍Vintage报表的底层计算逻辑是什么样的。出品人：东哥起飞原创：👉原创大数据风控课程《

2024-03-16 10:20:43 3672

原创 CART决策树暴力生成风控规则（Python代码）

上一篇我们介绍了决策树节点信息更新的方法，以辅助我们制定风控规则，可视化的方法比较直观，适合做报告展示，但分析的时候效果没那么高。本篇我们介绍一种通过决策树自动挖掘规则的方法。出品人：东哥起飞原创：👉原创大数据风控课程更新100期以上。

2024-03-16 10:12:25 1996 1

原创一文搞懂 “风控3大核心报表”：Vintage、迁徙率、滚动率

本文系统介绍了信贷风控中Vintage和迁徙率两大核心分析工具。Vintage分析采用群组方法，通过账龄趋势展现各月放款资产质量，重点讲解其定义、计算逻辑（基于应还款日、实际还款日、MOB观察日）、逾期口径选择及Python实现。迁徙率则用于追踪逾期状态恶化路径，通过M(n-1)-M(n)公式计算各阶段转化率。二者均基于还款行为数据，但Vintage侧重资产质量横向对比，迁徙率关注逾期状态纵向演变。文章结合实例详细说明了两种报表的统计方法、分析视角和业务应用价值，并提供了完整的代码实现路径。

2025-11-16 22:48:46 1808

原创一文搞懂 “贷前A卡模型” 的策略应用

摘要：本文介绍了贷前A卡模型在风控策略中的应用。贷前模型作为有监督学习模型，利用历史数据预测客户风险，其特点包括样本选取、特征变量构建和复杂算法应用。模型主要用于审批准入和额度定价分层两大场景：在审批准入中，通过设定阈值拒绝高风险客户；在额度定价中，利用模型的风险分层实现差异化策略。文章还探讨了多模型组合策略的多种方式（串行、交叉、融合），并提供了相关实战项目资源参考（如《100天风控专家》和贷前策略实战项目）。全文强调模型需具备良好区分度和排序性，是风控策略的核心工具。

2025-11-16 22:30:20 800

原创一文搞懂 “风控坏账预估 3 个方法”：迁徙率、Vintage年损...

本文系东哥原创文章，100天风控节选内容，不支持任何转载，抄袭和侵权必究。大家好，我是东哥。上一篇我们介绍了信贷风控领域中Vintage、迁徙率、滚动率报表的计算逻辑：一文搞懂 “风控3大核心报表”：Vintage、迁徙率、滚动率。本次来说下这些报表在 “风险坏账预估” 上的应用，这个在企业财务和风控经营分析中需要用到。下面介绍坏账预估的3种常见的方法和步骤，内容节选自👉《》损益篇。01_贷款年化利率(1)：APR和IRR02_贷款年化损失(1)：Vintage年损。

2025-11-05 22:33:15 1561

原创贷中风控策略：分群、支用、调额、调价、预警...

本文系统介绍了贷中风控策略的核心内容，重点阐述了四大关键模块：1）客户分群，通过特征和场景两个维度进行精细化分类；2）支用策略，提出"二道风控"概念并建立分群审批框架；3）调额调价，详细说明额度调整的多种方式与实施要点；4）风险预警，介绍指标体系搭建和分级处置措施。文章强调贷中管理需结合产品特性设计，针对长周期循环贷尤为重要，通过数据驱动的分群管理和动态策略，实现风险控制与业务发展的平衡。全文配有详细图表说明，并提供完整视频讲解链接供深入学习。

2025-11-05 21:02:02 1357

原创贷前拒量回捞策略（Python实操）

本文介绍了贷前授信阶段的拒量回捞策略方法，重点分析了回捞变量的筛选标准（风险指标与回捞空间）和两种回捞策略设计方式（无差别回捞与针对性回捞）。文章指出，回捞策略的核心在于发现头部优质客户，建议从陪跑变量或第三方数据源中挖掘新增益变量。同时提供了相关Python实操课程的介绍，包含代码示例、视频讲解及简历模板，适用于风控策略经验补充。课程采取阶梯定价策略，提示读者把握优惠报名时机。全文强调原创性，禁止任何形式的转载或抄袭。（149字）

2025-10-31 09:40:55 766

原创风控 “分箱算法”详解：等频等距分箱、决策树分箱、KS分箱、卡方分箱、最优分箱...

本文介绍了信贷风控领域中常用的五种变量分箱算法：1) 等频/等距分箱（基础分箱方法）；2) 决策树分箱（基于CART算法，使用基尼系数选择最优分割点）；3) KS分箱（通过最大化好坏客户分布差异确定分箱点）；4) 卡方分箱（基于卡方检验的独立性检验方法）；5) 最优分箱（采用数学规划公式处理复杂约束条件）。文章详细阐述了各算法的原理、计算步骤和适用场景，并提供了Python代码实现参考，内容节选自《100天风控专家》课程。这些分箱方法在风控策略和模型开发中具有重要应用价值。

2025-10-20 11:59:37 1073

原创一文搞懂风控评估指标：KS、AUC、PSI、LIFT

本文介绍了风控领域常用的四大评估指标KS、PSI、ROC/AUC和LIFT，分别从计算逻辑、应用场景和Python实现三个维度展开。KS用于衡量模型区分好坏客户的能力，PSI评估模型稳定性，ROC/AUC反映模型整体分类性能，LIFT则展示模型在不同分位数的预测提升效果。文章不仅提供了各指标的计算公式和评估标准，还附有可直接使用的Python代码示例，帮助开发者快速实现指标计算。这些指标在贷前、贷中、贷后等不同场景有差异化应用要求，是风控模型效果评估的核心工具。

2025-10-20 11:45:54 1962

原创为什么风控多头借贷 “排序倒挂” ？

本文介绍了信贷风控中的多头借贷概念及其应用。多头借贷指借款人在多个平台同时借款或申请的行为数据，是评估信用风险的重要指标。文章分析了多头借贷的动机，包括资金需求、借不到款导致的"以贷养贷"以及利率敏感等因素，并阐述了多头与风险、支用率的关系。此外，还探讨了多头数据在贷前贷中策略中的应用，当前市场环境下多头数据普遍升高甚至出现风险倒挂的原因，包括流量平台路由、助贷增信、借新还旧等因素。最后指出需要结合其他维度综合评估风险，避免仅凭多头数据误判。

2025-10-11 17:19:57 1029

原创风控中的SDK数据产品介绍

本文介绍了信贷风控中SDK设备类数据的应用，包括SDK的定义、作业流程、数据厂商对比及产品类型。SDK作为软件开发工具包，可嵌入各类场景提供功能支持并同步数据。风控领域主要使用其标准产品和联合建模两种方式：标准产品提供结构化变量，联合建模则基于样本回溯历史数据并衍生变量。文章还概述了联合建模流程、底层数据表结构及注意事项，并提及APPLIST特征挖掘思路。

2025-10-11 17:05:00 1169

原创一文搞懂贷中运营管理：分群、调额、调价..

本文介绍了现金贷产品贷中风控策略中的运营管理部分，重点阐述了客户分群、运营手段、触发机制和策略制定四大核心模块。在客户分群环节强调通过多维度标签构建客户画像；运营手段围绕额度、定价和期限展开，提出了调额调价的具体操作方法；触发机制分为固定周期和事件触发两种方式；最后详细讲解了策略制定的三个关键点。文章还推荐了《100天风控专家》课程，提供更全面的风控策略学习内容。

2025-09-27 23:44:01 705

原创一文搞定信贷风控 “逾期指标” ：FPD/DPD/CPD...

这篇文章系统介绍了信贷风控中的关键风险指标，包括逾期概念、逾期率计算、FPD/DPD/CPD三大核心指标及其应用场景。文章详细阐述了逾期天数和期数的表达方式，金额/用户数逾期率的计算方法，以及FPD作为早期风险指标在欺诈识别和策略评估中的作用。同时讲解了DPD指标的计算逻辑和特殊处理方式，并对比了不同逾期指标的业务意义。最后介绍了Vintage分析、迁徙率等进阶风控指标，为信贷风险管理提供了全面的指标框架和分析方法。文章内容节选自《100天风控专家》课程，适合风控从业者系统学习信贷风险计量技术。

2025-08-23 11:41:20 3105

原创终于把风控中的 Lift 搞懂了！！

Lift（提升度）是评估模型或者规则是否有效的一个度量指标，它表示模型或规则对于目标用户的预测能力相对于随机预测的提升程度（倍数）。Lift提升度最初是应用在营销场景中的，举个例子，比如现在我们给100个客户营销，其中有10个响应，那么响应率就是10%，这是我们不使用任何手段的条件下随机营销的结果。对于这个结果公司可能不满意，于是针对该场景开发了营销响应模型，通过模型的预测结果进行营销。现在使用模型预测结果对其它条件相同的100个客户营销，发现有30个客户响应，那么响应率就是30%。

2025-03-18 23:46:46 4778 2

原创 4张图，9个方法，搞定 “信贷风控策略调优”

风控策略开发上线后并不是一成不变的，它会受业务目标、市场变化、数据质量效果等很多方面的影响，比如：业务不同发展阶段下会有不同的业务目标，策略需跟随调整；客群质量变好或者变差，策略需进行放松或收紧的调整；监管政策变化，比如要求定价不得高于24%，策略需要调整；数据下线或者效果衰减，策略需进行下线或者替换的调整；所以策略是需要不断调整优化的。简单理解，策略调优就是根据当前最新的变化对现有策略所做出的调整，以适应最新的变化。这个变化可能来自业务、市场、产品、数据、技术等可能影响策略的各种因素。

2025-03-18 00:12:28 2209

原创终于把风控中的 KS 搞懂了！！

KS（Kolmogorov-Smirnov）统计量由两位苏联数学家A.N.Kolmogorov和N.V.Smirnov提出。在风控中，KS常用于评估模型或者变量的区分度，业内通用的定义为：好坏客户累积分布差异的最大值。

2025-03-16 10:57:58 3619

原创一文搞懂风控的 “贷中支用策略”

一文搞懂风控的 “贷中支用策略”

2025-03-16 00:48:33 2038

原创终于把风控中的 Vintage 搞懂了！！

Vintage加工逻辑拆解+Python代码实操

2025-01-16 16:05:27 7196

原创风控迁徙率报表逻辑和开发(Python)

什么是迁徙率呢？我们说，一个账户现在处于某一逾期状态（比如M1），一个月后，这个账户要么从良为M0状态，要么恶化为更坏的下一个逾期状态M2。迁徙率表示上一个阶段有多少比例的逾期金额会向下一个逾期阶段继续转化，它描述了逾期状态向后恶化的程度。一般用 M(n-1)-M(n) 的形式表示，例如：M0-M1 = 当月进入M1的贷款余额 / 上月末M0的贷款余额M1-M2 = 当月进入M2的贷款余额 / 上月末M1的贷款余额。

2024-04-15 11:05:12 2956

原创风控规则决策树可视化（升级版）

上一篇我们介绍了如何通过交叉表来生成规则，本篇我们来介绍一种可以生成多规则的方法，决策树。除了做模型以外，也可以用来挖掘规则，原理是一样的。下面通过sklearn的决策树方法来实现风控规则的发现，同时分享一种可以更新决策树节点信息的方法，以辅助制定风控规则。出品人：东哥起飞原创：👉原创大数据风控课程《

2024-03-10 15:13:10 2054

原创基于交叉表生成风控规则（Python）

大家好，我是东哥。规则是风控策略中最常用的工具之一，生成、筛选、监控、调优，几乎每天都在打交道，本篇来介绍如何基于交叉表来生成风控规则，并且如何基于评估指标进行筛选。出品人：东哥起飞专栏：《

2024-03-08 23:26:23 1336

原创风控实战：用Python实现vintage报表

大家好，我是东哥。本篇继续分享风控的内容，关于如何用python实现vintage报表及可视化图的实战。账龄分析(vintage)是风控中非常重要的报表之一，通过它可以将不同月份的资产数据拉齐对比贷后表现，也可以用于指导制定风控模型Y标签的成熟表现期。那么账龄分析是如何做的呢？账龄分析需要客户的还款计划表数据，即客户历史的还款记录，包括放款金额、每期到期日期、每期还款日期、每期应该金额、每期实还金额、期数等等。基于这些数据就可以做出vintage报表，以及相应的可视化图。

2023-12-20 18:33:49 2692

原创 pandas 分类数据处理大全（附代码）

大家好，我是东哥。继续更新pandas数据清洗，历史文章：感兴趣可以关注这个话题：pandas数据清洗，第一时间看到更新。所有数据和代码可在我的GitHub获取：https://github.com/xiaoyusmd/PythonDataSciencecategory是pandas的一种分类的定类数据类型。和文本数据.str.<methond>一样，它也有访问器功能.cat.<method>。本文将介绍：什么是分类数据？分类数据cat的处理方法为什么要使用

2022-03-21 18:37:50 4890

原创 pandas 文本处理大全（附代码）

大家好，我是东哥。继续更新pandas数据清洗，历史文章：pandas 缺失数据处理大全（附代码）pandas 重复数据处理大全（附代码）感兴趣可以关注这个话题pandas数据清洗，第一时间看到更新。所有数据和代码可在我的GitHub获取：https://github.com/xiaoyusmd/PythonDataScience本次来介绍关于文本处理的常用方法。文本的主要两个类型是string和object。如果不特殊指定类型为string，文本类型一般为object。

2022-02-27 23:02:21 3594

原创 pandas 重复数据处理大全（附代码）

大家好，我是东哥。继续更新pandas数据清洗，上一篇说到缺失值的处理。链接：pandas 缺失数据处理大全（附代码）感兴趣可以关注这个话题pandas数据清洗，第一时间看到更新。所有数据和代码可在我的GitHub获取：https://github.com/xiaoyusmd/PythonDataScience本次来介绍重复值处理的常用方法。重复值处理主要涉及两个部分，一个是找出重复值，第二个是删除重复值，也就是根据自己设定的条件进行删除操作。定位重复值对于重复值，我们首先需要查看这

2022-02-27 22:59:30 951

原创 pandas 缺失数据处理大全（附代码）

大家好，我是东哥。之前一直在分享pandas的一些骚操作：pandas骚操作，根据大家反映还不错，但是很多技巧都混在了一起，没有细致的分类，这样不利于查找，也不成体系。利用闲暇之余将有关数据清洗、数据分析的一些技能再次进行分类，里面也包含了我平时用到的一些小技巧，此次就从数据清洗缺失值处理走起，链接：pandas数据清洗，关注这个话题可第一时间看到更新。所有数据和代码可在我的GitHub获取：https://github.com/xiaoyusmd/PythonDataScience如有帮助，

2022-01-10 22:40:52 3355

原创一文读懂异常检测 LOF 算法（Python代码）

大家好，我是东哥。本篇介绍一个经典的异常检测算法：局部离群因子(Local Outlier Factor)，简称LOF算法。一、背景Local Outlier Factor（LOF）是基于密度的经典算法（Breuning et. al. 2000）, 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的，或者是借用了一些聚类算法用于异常点的识别（比如，DBSCAN，OPTICS）。这些方法都有一些不完美的地方：基于统计的方法

2021-12-21 23:55:18 6289 1

原创一文读懂层次聚类（Python代码）

大家好，我是东哥。本篇想和大家介绍下层次聚类，先通过一个简单的例子介绍它的基本理论，然后再用一个实战案例Python代码实现聚类效果。首先要说，聚类属于机器学习的无监督学习，而且也分很多种方法，比如大家熟知的有K-means。层次聚类也是聚类中的一种，也很常用。下面我先简单回顾一下K-means的基本原理，然后慢慢引出层次聚类的定义和分层步骤，这样更有助于大家理解。层次聚类和K-means有什么不同？K-means 工作原理可以简要概述为：决定簇数（k）从数据中随机选取 k 个点作为质心将所

2021-11-21 21:24:54 15678 3

原创 pandas GUI 神器 D-Tale，可视化操作自动转代码

大家好，我是帅东哥。关于pandas的GUI工具，我之前介绍过pandasgui。可以说，有了GUI可视化界面，操作就和Excel一样简单，本次再介绍一款功能强大的GUI神器：D-Tale。这个库的名字为啥要D-Tale呢？东哥还信还去查了下，它是detail的谐音，初衷是要提供数据的所有详细信息。下面介绍下如何使用它。关于pandas精选的系列内容，可以看看我的专栏：pandas骚操作系列启动、数据加载D-Tale支持多种文件格式，包括CSV、TSV、XLS、XLSX。它是一个以Flask 为后

2021-11-13 14:15:23 1513

原创 JupyterLab 出 Windows 桌面版了！

大家好，我是东哥。Jupyter最近迎来了一个劲爆的更新：JupyterLab 发布了桌面APP版本！知道后第一时间码字来告诉大家。要知道之前都是在网页上的，这次直接发布了桌面版，对于我这个爱好者来说，简直是YYDS！JupyterLab AppJupyterLab App是JupyterLab的一个跨平台的独立应用，前端捆绑JupyterLab，后端捆绑conda作为JupyterLab App的server服务，然后打包成一个Electron应用。因此，它是需要conda环境依赖的。原理实现上

2021-09-28 00:00:28 1217 4

原创 LightGBM+OPTUNA超参数自动调优教程（附代码框架）

大家好，我是帅东哥。原创系列持续更新，欢迎微信搜一搜「 Python数据科学」阅读机器学习系列文章。最近在kaggle上有一个调参神器非常热门，在top方案中频频出现，它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里，这次结合一些自己的经验，给大家带来一个LGBM模型+OPTUNA调参的使用教程，这对可谓是非常实用且容易上分的神器组合了，实际工作中也可使用。关于LightGBM不多说了，之前分享过很多文章，它是在XGBoost基础上对效率提升的优化版本，由微软发布的，运行效率极高，且准确度不降

2021-09-12 13:51:55 7725 5

原创再见 CSV，速度提升 150 倍！

大家好，我是东哥。前几天有个粉丝留言，说pandas的100个骚操作系列为什么只有21个啊？这里和大家说一下，这个系列「pandas100个骚操作」还在持续更新中。由于平时工作较忙，更新稍慢，不过还是在一直更新的。我的原计划是输出100个，目前来看可能最终不一定会到100个，但每个都是超实用且平时经常会遇到的问题。pandas的用法太多了，如果不熟练，平时是需要经常网上查找的，这个系列可以帮助大家快速回忆用法。或者万一平时遇到问题查不到无法解决，也可以过来看下，毕竟某度上是查不到微信文章的。该系列预

2021-09-10 00:34:35 1925 1

原创 20 个短小精悍的 pandas 骚操作

大家好，我是东哥啊。本次为大家准备了一个pandas实用操作的大集合，共25个功能，个个短小精悍，一次让你爱个够。系列内容，请看???? pandas骚操作系列1. ExcelWriter很多时候dataframe里面有中文，如果直接输出到csv里，中文将显示乱码。而Excel就不一样了，ExcelWriter是pandas的一个类，可以使dataframe数据框直接输出到excel文件，并可以指定sheets名称。df1 = pd.DataFrame([["AAA", "BBB"]], colum

2021-08-07 11:24:19 1091 2

原创 Toad：基于 Python 的标准化评分卡模型

大家好，我是东哥。在信贷的风控模型中最常用、最经典的可能要属评分卡了，所谓评分卡就是给信贷客户进行打分，按照不同业务场景可为贷前、贷中、贷后和反欺诈，一般叫做ABCF卡。模型得到分数，通过设置cutoff阈值给出评估结果，结果可直接用于通过或拒绝，或者用于策略应用。区别于xgb等机器学习模型，评分卡使用逻辑回归，之所是还在使用时因为它属于广义线性回归，在特征的解释性上非常的强。本次和大家分享一个开源的评分卡神器toad。从数据探索、特征分箱、特征筛选、特征WOE变换、建模、模型评估、转换分数，都做了完

2021-07-31 18:34:57 8930 2

原创好习惯！pandas 8 个常用的 index 索引设置

大家好，我是东哥呀！本篇是pandas100个骚操作系列的第 18 篇：8个常用的index设置系列内容，请看上面专栏，或者订阅????「pandas100个骚操作」在数据处理时，经常会因为index报错而发愁。不要紧，本次来和大家聊聊pandas中处理索引的几种常用方法。1.读取时指定索引列很多情况下，我们的数据源是 CSV 文件。假设有一个名为的文件data.csv，包含以下数据。date,temperature,humidity07/01/21,95,5007/02/21,94,55

2021-07-31 17:42:19 4157 1

原创 2021斯坦福大学计算机系完整课程列表

大家好，我是东哥呀。这次要和大家推荐个良心学习资源：斯坦福公开课。这所名校想必也不用我过多介绍了，CS专业相当的强悍，之所以能够成为公开课，是因为无论从师资，教学方法，还是课程质量都已经足够优秀了，公开出来可以帮助更多没有学习机会的人。因此，如果你没有机会去名校学习，也在从事相关工作，不如看看它的公开课。下面这份列表是知乎@成为文艺复兴人从 Hackernews 上看到一份比较完整的 stanford 的计算机课程列表，共 88 门课，包括人工智能、编程、计算机系统、计算机网络、数据库、算法、机器人、

2021-07-14 23:35:37 4916 8

空空如也

空空如也