基于MetaSpore on AlphaIDE快速落地风控算法

元灵数智

于 2022-07-22 17:52:44 发布

阅读量359

点赞数 1

文章标签：算法人工智能大数据

本文链接：https://blog.csdn.net/weixin_56712350/article/details/125934145

版权

本文介绍了如何基于MetaSpore on AlphaIDE开发环境，利用天池贷款违约数据集训练和评估违约预测模型，实现智能信用评分。通过特征工程、模型训练、评估和信用评分卡的构建，展示了MetaSpore在风控算法落地中的应用。

摘要由CSDN通过智能技术生成

首先，附上 Github 链接MetaSpore：https://github.com/meta-soul/MetaSpore，可搜索公众号元灵数智，在底部菜单了解我们 - 用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。

1.导读

随着中国 GDP 快速跃居世界第二位，消费金融市场的发展也进入了发展的快车道，根据艾瑞咨询2022年的预测，预计未来几年中国狭义消费信贷余额将以7.9%的复合增长率持续快速增长，到2026年将接近25万亿。面临如此巨大的市场，无论是传统商业银行，还是互联网金融科技新贵，都面临着金融风控问题。

传统的风控信用评估模型经过数十年的沉淀发展，技术相对成熟稳定，以美国 FICO 评分为代表，构建了规则引擎，促进了美国金融贷款业务快速发展。近年来，随着大数据和人工智能的技术实现了跨越式的发展，在新技术的加持下，使得金融机构可以更加多元化地勾勒用户画像，更加精准地构筑风控模型。

本文将以天池贷款违约数据集[1]为例，在数元灵科技推出的 MetaSpore on AlphaIDE 开发环境中，训练、评估违约预估模型，并根据预估概率给出智能信用评分。在后面的章节中，我们将会围绕着环境使用、问题建模、特征衍生、模型、评分卡等几个主题陆续展开。

2.MetaSpore On AlphaIDE

2.1 IDE环境配置与启动

注册或者登录AlphaIDE账号：https://registry-alphaide.dmetasoul.com/，进入 Alpha IDE 服务后，点击左侧应用服务，点击 Kubeflow 下拉菜单，可以进入 Jupyter 页面。

点击右上角创建 Notebook，然后在 CPU / RAM 下选择要申请的资源，推荐使用 2Core CPU X 8GB RAM以上的配置：

此处，需要勾选Kubeflow、AWS、Spark三个配置，之后就可以选择Launch，创建Notebook了。

等待Juyper Notebook建立后，点击connect进入，打开一个Terminal，运行：

git clone git@github.com:meta-soul/MetaSpore.git

等待代码库clone完成后，就可以运行我们的算法Demo并进行开发了。

2.2 训练机器学习模型

可以参考我们在MetaSpore的demo目录中的算法项目，里面涉及到推荐、搜索、NLP、风控相关的应用。这里我们以风控项目（demo/riskmodels/loan_default/）为例：

1.Spark Session启动：对于Spark Session的建立过程，如果在Alpha IDE中利用Spark集群进行分布式训练，需要增加spark.kubernetes.namespace参数配置，比如：

def init_spark(app_name, cluster_namespace, ..., **kwargs):
    spark = pyspark.sql.SparkSession.builder\
        .appName(app_name) \
        .config("spark.kubernetes.namespace", cluster_namespace)
        ...
        .getOrCreate()
    sc = spark.sparkContext
    print(sc.version)
    print(sc.applicationId)
    print(sc.uiWebUrl)
    return spark

当然，也可以使用local模式运行，只需将上述代码第四行改为master("local")即可。在样本数量较少的情况下，推荐使用local模式。

2.启动模型训练脚本