机器学习是近来许多科学和技术进步的核心。随着计算机在诸如围棋比赛中战胜人类专业选手等案例里所展现出的进步,许多人开始思考机器能否成为更好的司机或更好的医生。
在机器学习的许多应用中,用户常常被要求信任那些帮助他们进行决策的模型。但医生肯定不能仅仅依据“模型就是这样说的”来给病人动手术。即使是在低风险的场景里,比如在 Netflix 上选择一部电影观看,我们也需要某种程度的信任来决定将几个小时时间交付给模型的决策。尽管许多机器学习模型都是黑箱,理解模型预测背后的基本原理将肯定有助于帮助用户决定什么时候可以信任模型的预测或是不信任。如图1所示,模型预测某个病人患有流感。然后该预测由一个解释器来解释,强调了对模型来说最重要的症状。基于这些模型背后的推理信息,医生现在就有能力选择是否信任这个模型了。
图1:向人类决策者解释单个预测。图片来源:Marco Tulio Ribeiro
从某种意义上说,工程师每次将一个机器学习模型应用于生产系统时,他或她都隐含地表示信任模型将能够做出合理的预测。这样的信心通常是通过评估保留数据验证的准确性或其它一些聚合评测来获得的。但是,任何实践过机器学习应用的人都知道,这些指标有时是非常有误导性的。有时候,不应该使用的数据意外地混入了训练数据和验证数据中。有时候,模型会给出一些尴尬得难以接受的错误。这些和其它的问题说明,在决定一个模型是否值得信任时,能理解模型的预测可以成为一个有用的工具。这是因为人类通常有较好的直觉和商业智慧,而这些都难以在评估指标中获得。如果在机器学习过程中有一个“挑选步骤”,即可以选择某些典型的预测去解释给人来听,那么这个过程就会类似于图2。
图2:向人类决策者解释一个模型。图片来源:Marco Tulio Ribeiro
在由