使用Python进行逻辑回归建立评分卡的完整示例代码，包括数据预处理、分箱、特征工程、共线性剔除、模型评估和信用评分规则制定的过程

最新推荐文章于 2024-03-29 13:31:42 发布

田晖扬

最新推荐文章于 2024-03-29 13:31:42 发布

阅读量749

点赞数

文章标签： python 逻辑回归

本文链接：https://blog.csdn.net/yang1015661763/article/details/131348529

版权

风控建模专栏收录该内容

3 篇文章 1 订阅

订阅专栏

废话不多说直接上代码：

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score
from statsmodels.stats.outliers_influence import variance_inflation_factor

# 1. 数据准备和预处理
data = pd.read_csv('credit_data.csv')  # 读取数据集，假设包含特征变量和目标变量
data.dropna(inplace=True)  # 处理缺失值
X = data.drop('default', axis=1)  # 特征变量
y = data['default']  # 目标变量

# 2. 分箱（Binning）
# 对连续型特征进行分箱操作，将其转化为离散型变量。
# 这里以年龄（age）为例，将其分为5个箱子（bins）。
# 可以根据实际业务需求和统计分析来确定分箱方案。
X['age_bin'] = pd.cut(X['age'], bins=[0, 18, 30, 40, 50, float('inf')])

# 3. 特征工程
# 根据业务需求选择合适的特征变量，并进行编码等处理。

# 例如，对性别（gender）进行二值化编码
X['gender'] = X['gender'].map({'Male': 0, 'Female': 1})

# 例如，对收入（income）进行分段编码
X['income_bin'] = pd.qcut(X['income'], q=5, labels=False)

# 进一步处理其他特征...

# 删除原始特征变量
X_encoded = X.drop(['age', 'income'], axis=1)

# 4. 共线性剔除
# 检查特征之间的共线性，并剔除高度相关的特征。

def calculate_vif(X):
    vif = pd.DataFrame()
    vif["Feature"] = X.columns
    vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
    return vif

vif = calculate_vif(X_encoded)
high_vif_features = vif[vif["VIF"] > 5]["Feature"]
X_encoded = X_encoded.drop(high_vif_features, axis=1)

# 5. 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.3, random_state=42)

# 6. 建立逻辑回归模型
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

# 7. 模型评估
y_pred = logreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred)

print("Accuracy: {:.2f}".format(accuracy))
print("AUC: {:.2f}".format(auc))

# 8. 制定信用评分规则
# 根据逻辑回归模型的系数（coef_）和截距（intercept_），可以制定信用评分规则。
# 例如，将系数乘以10并四舍五入作为信用评分。

feature_names = list(X_encoded.columns)
coefs = logreg.coef_[0]
intercept = logreg.intercept_

credit_scores = {}
for feature, coef in zip(feature_names, coefs):
    credit_scores[feature] = round(coef * 10, 2)

credit_scores['Intercept'] = round(intercept[0] * 10, 2)

print("Credit Scores:")
for feature, score in credit_scores.items():
    print("{}: {}".format(feature, score))

以下是使用逻辑回归建立评分卡的基本步骤：

数据准备和预处理：收集相关的特征变量和目标变量数据，并进行必要的预处理，例如处理缺失值、异常值等。
分箱（Binning）：对连续型特征进行分箱操作，将其转化为离散型变量。通常根据实际业务需求和统计分析来确定分箱方案，例如按照年龄范围或收入水平将样本分成不同的组别。
特征工程：根据业务需求选择合适的特征变量，并进行编码等处理。例如，对性别进行二值化编码，对收入进行分段编码。
拆分数据集：将数据集拆分为训练集和测试集，一般按照70%训练集和30%测试集的比例进行划分。
建立逻辑回归模型：使用训练集数据训练逻辑回归模型。
模型评估：使用测试集数据对训练好的模型进行评估，通常采用准确率（Accuracy）和AUC值（ROC曲线下面积）等指标。
制定信用评分规则：根据逻辑回归模型的系数（coef_）和截距（intercept_），可以制定信用评分规则。一种常见的方法是将系数乘以10并四舍五入作为信用评分。通过该评分，可以根据个人的特征变量得到一个综合评分，用于衡量其违约风险。

田晖扬

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用Python进行逻辑回归建立评分卡的完整示例代码，包括数据预处理、分箱、特征工程、共线性剔除、模型评估和信用评分规则制定的过程

逻辑回归是一种用于建立评分卡的常用统计模型。评分卡是银行、信用机构等金融机构用于评估个人信用风险的工具，通过将个人的各项信息转化为一个综合评分来判断其违约概率。
复制链接

扫一扫