信贷违约风险评估模型（下篇）：机器学习模型

最新推荐文章于 2024-08-13 20:36:53 发布

Goodsta

最新推荐文章于 2024-08-13 20:36:53 发布

阅读量9.8k

点赞数 9

文章标签：机器学习

本文链接：https://blog.csdn.net/wong2016/article/details/89500796

版权

本文探讨了信贷违约风险评估中的机器学习模型，包括Logistic回归和随机森林。通过模型训练和测试，发现随机森林在预测效果上表现出更强的性能。特征工程和模型解释显示，特定变量对预测具有重要影响，且很多不重要的特征可以剔除。总结了机器学习项目的工作流程，强调理解问题、数据预处理和模型改进的重要性。

摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

机器学习模型

Logistic回归模型

作为一个基础模型，我们将使用scikit-learn库的LogisticRegression, 建立Logistic模型。为此，我们将使用所有的特征，我们也将填补缺失值，归一化特征。

from sklearn.preprocessing import MinMaxScaler, Imputer

# Drop the target from the training data
if 'TARGET' in app_train:
    train = app_train.drop(columns = ['TARGET'])
else:
    train = app_train.copy()
    
# Feature names
features = list(train.columns)

# Copy of the testing data
test = app_test.copy()

# Median imputation of missing values
imputer = Imputer(strategy = 'median')

# Scale each feature to 0-1
scaler = MinMaxScaler(feature_range = (0, 1))

# Fit on the training data
imputer.fit(train)

# Transform both training and testing data
train = imputer.transform(train)
test = imputer.transform(app_test)

# Repeat with the scaler
scaler.fit(train)
train = scaler.transform(train)
test = scaler.transform(test)

print('Training data shape: ', train.shape)
print('Testing data shape: ', test.shape)

Training data shape: (307511, 240)
Testing data shape: (48744, 240)

我们只改变一个默认参数，正则参数C, 它用来控制过度拟合程度，降低它的值将减小过度拟合度。在这里，我们使用常见的scikit-learn建模语法规则：