一、引言
近年来,机器学习在大数据和算力发展的加持下在各个应用领域获得了令人印象深刻的成果,尤其是深度学习模型和集成学习模型(Random Forest,XGBoost和LigntGBM)。但是,这些模型有一个共同的特点:它们的内部结构非常复杂,其运作机制就像一个黑盒(Black-Box),难以用人类可以理解的语言去描述整个推理过程,模型的输出结果也难以被解释(为什么是这个结果?)。因此,在一些模型的决策可能会产生重大影响的领域,比如自动驾驶、医疗诊断、银行业和法律界,复杂的机器学习算法的应用仍然面临挑战。
二、黑盒模型存在的问题
1.无法挖掘因果关系或者因果错判
机器学习往往又被称为统计学习,或者统计机器学习,因为大部分的算法都是建立在统计的基础之上的,比如最大似然,贝叶斯推论等。并且,传统的评价指标,如正确率,精确度,召回率,AUC和F1分数也不能保证模型的推理过程是合理的。因此,机器学习常常捕捉到的是特征之间的相关性而非因果性。
一个非常典型的例子是各个国家的诺贝尔奖获奖数量和人均巧克力的消耗量之间的关系,如果使用线性回归基于人均巧克力消耗量对国家诺贝尔奖获奖数量进行“预测”,我们会发现误差非常小,但是,我们能说多吃巧克力就能多获诺贝尔奖吗?显然不能。
2. 不安全性
对于模型的设计来说,黑盒模型内部结构复杂,当模型受到攻击时,我们很难发现这些攻击。常见的例子是对抗样本,人们在图片中添加一些人类无