首先,附上 Github 链接MetaSpore:https://github.com/meta-soul/MetaSpore,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。
1.导读
随着中国 GDP 快速跃居世界第二位,消费金融市场的发展也进入了发展的快车道,根据艾瑞咨询2022年的预测,预计未来几年中国狭义消费信贷余额将以7.9%的复合增长率持续快速增长,到2026年将接近25万亿。面临如此巨大的市场,无论是传统商业银行,还是互联网金融科技新贵,都面临着金融风控问题。
传统的风控信用评估模型经过数十年的沉淀发展,技术相对成熟稳定,以美国 FICO 评分为代表,构建了规则引擎,促进了美国金融贷款业务快速发展。近年来,随着大数据和人工智能的技术实现了跨越式的发展,在新技术的加持下,使得金融机构可以更加多元化地勾勒用户画像,更加精准地构筑风控模型。
本文将以天池贷款违约数据集[1]为例,在数元灵科技推出的 MetaSpore on AlphaIDE 开发环境中,训练、评估违约预估模型,并根据预估概率给出智能信用评分。在后面的章节中,我们将会围绕着环境使用、问题建模、特征衍生、模型、评分卡等几个主题陆续展开。
2.MetaSpore On AlphaIDE
2.1 IDE环境配置与启动
注册或者登录AlphaIDE账号:https://registry-alphaide.dmetasoul.com/,进入 Alpha IDE 服务后,点击左侧应用服务,点击 Kubeflow 下拉菜单,可以进入 Jupyter 页面。
点击右上角创建 Notebook,然后在 CPU / RAM 下选择要申请的资源,推荐使用 2Core CPU X 8GB RAM以上的配置:
此处,需要勾选Kubeflow、AWS、Spark三个配置,之后就可以选择Launch,创建Notebook了。
等待Juyper Notebook建立后,点击connect进入,打开一个Terminal,运行:
git clone git@github.com:meta-soul/MetaSpore.git
等待代码库clone完成后,就可以运行我们的算法Demo并进行开发了。
2.2 训练机器学习模型
可以参考我们在MetaSpore的demo目录中的算法项目,里面涉及到推荐、搜索、NLP、风控相关的应用。这里我们以风控项目(demo/riskmodels/loan_default/)为例:
1.Spark Session启动:对于Spark Session的建立过程,如果在Alpha IDE中利用Spark集群进行分布式训练,需要增加spark.kubernetes.namespace参数配置,比如:
def init_spark(app_name, cluster_namespace, ..., **kwargs):
spark = pyspark.sql.SparkSession.builder\
.appName(app_name) \
.config("spark.kubernetes.namespace", cluster_namespace)
...
.getOrCreate()
sc = spark.sparkContext
print(sc.version)
print(sc.applicationId)
print(sc.uiWebUrl)
return spark
当然,也可以使用local模式运行,只需将上述代码第四行改为master("local")即可。在样本数量较少的情况下,推荐使用local模式。
2.启动模型训练脚本