机器学习干货篇:黑箱模型的解释性分析解读

发布于 2021-10-12 20:27

有许多小伙伴对机器学习分类部分的模型解释性还不太了解，这次主要针对这一部分内容进行讲解和说明。

01 相关名词说明

1.黑盒模型

黑盒模型是一个不揭示其内部机制的系统。在机器学习中，黑盒模型描述了通过查看参数（例如深度神经网络）也无法理解的模型。

2.可解释的机器学习

可解释的机器学习指使机器学习系统的行为和预测能够被人类理解的方法和模型。

3.可解释性

可解释性是指人们能够一致地预测模型结果的程度。机器学习模型的可解释性越高，人们就越容易理解为什么做出某些决策或者预测。

02 模型解释性图形讲解

以样例数据库中《心内——心力衰竭临床记录数据集（299例）》这个数据为例来做一个模型解释性图片讲解。

1.平台操作

进入智能AI分析<机器学习分类，建立模型XGBoost模型参数选择和结果分析如下图所示。

图1 平台操作图

2.SHAP解释力图

由于SHAP可以计算Shapley值，而Shapley值可以通过样本来估算每个特征对预测的贡献，它显示了如何在特征之间公平地分配。

其可视化效果为：可以将Shapley值之类的特征归因可视化为“力”，每个特征值都是增加或减少预测的力。预测从基线开始，Shapley值的基线是所有预测的平均值。

图2、3、4中，每个Shapley值都是一个箭头，可推动增加（正值）或减少（负值）预测。这些力所在数据实例的实际预测中相互平衡。

图2、3、4显示了三位心衰死亡的SHAP解释力图，其中可以看出图2的基线（平均预测概率）为0.00，第一个样本有很低的预测概率0.00。Age、anaemia 特征的增加效应被serum creatinine、ejection fraction、creatinine phosphokinase特征减少的效应所抵消。

图3中显示第二个样本的的预测概率较高，为0.60。血液中151mcg/L的CPK酶（creatinine phosphokinase）、血液中201000kiloplatelets/mL的血小板数量（platelets）增加了心衰死亡的预测概率。图4解释类似。