前言
随着推荐算法引起的信息茧房和自由主义的发展,让这个世界以无与伦比的速度分裂着。一个浅显的好处是打破了原先的单一价值追求,由着不同的价值取向朝着各自平行的元宇宙进发。
多元化本身来说是件好事,但另一方面也让本就“黑盒”的 AI
模型遭遇了前所未有的挑战,进而引起一系列的混沌,摩擦,对立甚至冲突...
可解释性
在实际应用中,特别是涉及到金融领域,可解释性太重要了。一个决策系统,如果结果无法归因,那谁也不敢在生产环境中使用。
举个例子,Zillow
是美国最受欢迎的在线房地产数据库之一,作为交易服务的一部分,平台除了为房地产买卖双方提供交易撮合服务,还提供了房产估价模型——Zestimate
。记得在当年Kaggle
竞赛上,这个房价预测模型曾大杀四方,让公司估值翻了几倍。
但同样这个模型在去年的疫情环境下,却出现了严重的偏差,差点让公司破产。
究其原因,从新冠疫情开始后不久,美国的房地产市场就开始进入狂飙突进的阶段。政府疯狂撒钱的情况下,所有人对美元贬值的恐惧植入了心灵。
模型哪见过这种场面啊,首先历史数据造成预测的价格总是低于市场价,随着最近市场数据的权重越来越高,最新的预测价格则远高于现实,就埋下了很大的隐患。待到市场回归理性,Zillow
"旧屋翻新"项目里那段时间大把高价购入的房子就砸手里了。
这就是极端行情和从未出现过的黑天鹅事件的共同作用下,时间趋势类的金融模型预测失真,如果当时能多一些归因和最终决策前的人工审核,其实能降低这种灾难性事件发生的概率。毕竟当时传统的房地产专家普遍给出过“不宜追高”的建议,无奈大数据起家的 Zillow
更偏信了模型。
Dalex 框架
介绍一个工具,可以对模型整个生命周期的各个阶段进行数据分析和可视化,便于理解模型每个阶段所做的工作,用于对比预测和实际的效果。
本质上现阶段绝大多数的 AI
模型只是对自然事件或人类活动的一种概率仿真,即使是看似极富创造力的GPT3
或是StyleGAN
,所学习的也是一种可迁移的模式,并非人类程度的“理解后的创作”,称之为对人类活动的高维模仿更适合些。所以可解释性是破模型黑盒
的一种必要手段。
我们采用一个经典的“银行电话营销成功率”为例,以下网站可以下载到完整数据集。
https://archive.ics.uci.edu/ml/datasets/bank+mark