机器学习干货篇:黑箱模型的解释性分析解读

发布于 2021-10-12 20:27

有许多小伙伴对机器学习分类部分的模型解释性还不太了解,这次主要针对这一部分内容进行讲解和说明。

01 相关名词说明

1.黑盒模型

黑盒模型是一个不揭示其内部机制的系统。在机器学习中,黑盒模型描述了通过查看参数(例如深度神经网络)也无法理解的模型。

2.可解释的机器学习

可解释的机器学习指使机器学习系统的行为和预测能够被人类理解的方法和模型。

3.可解释性

可解释性是指人们能够一致地预测模型结果的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决策或者预测。

02 模型解释性图形讲解

以样例数据库中《心内——心力衰竭临床记录数据集(299例)》这个数据为例来做一个模型解释性图片讲解。

1.平台操作

进入智能AI分析<机器学习分类,建立模型XGBoost模型参数选择和结果分析如下图所示。

图1 平台操作图

2.SHAP解释力图

由于SHAP可以计算Shapley值,而Shapley值可以通过样本来估算每个特征对预测的贡献,它显示了如何在特征之间公平地分配。

其可视化效果为:可以将Shapley值之类的特征归因可视化为“力”,每个特征值都是增加或减少预测的力。预测从基线开始,Shapley值的基线是所有预测的平均值。

图2、3、4中,每个Shapley值都是一个箭头,可推动增加(正值)或减少(负值)预测。这些力所在数据实例的实际预测中相互平衡。

图2、3、4显示了三位心衰死亡的SHAP解释力图,其中可以看出图2的基线(平均预测概率)为0.00,第一个样本有很低的预测概率0.00。Age、anaemia 特征的增加效应被serum creatinine、ejection fraction、creatinine phosphokinase特征减少的效应所抵消。

图3中显示第二个样本的的预测概率较高,为0.60。血液中151mcg/L的CPK酶(creatinine phosphokinase)、血液中201000kiloplatelets/mL的血小板数量(platelets)增加了心衰死亡的预测概率。图4解释类似。

图2 SHAP值解释第一位心力衰竭预测死亡概率

图3 SHAP值解释第二位心力衰竭预测死亡概率

图4 SHAP值解释第三位心力衰竭预测死亡概率

3.SHAP概要图

SHAP概要图将特征重要性与特征效应结合在一起。SHAP概要图上的每个点都是一个特征和一个实例的Shapley值。

重叠点在纵坐标轴方向上抖动,因此可以了解每个特征的Shapley值的分布。这些特征根据其重要性排序。

如图5所示,ejection fraction值越大,心衰死亡的概率越低;ejection fraction值越小,心衰死亡的概率越大。在概要图中我们首先看特征值与对预测的影响之间的关系。

图5 SHAP 概要图

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!

往期精彩回顾

【1】高分SCI使用 | 限制性立方样条

【2】高维变量和稀疏性假设——Lasso回归

【3】什么!竟然有比ROC曲线还要好的模型评估方法——DCA曲线!

【4】AI分析:临床预测模型常用方法——多模型比较

【5】通过一篇NEJM文献快速理解K-M曲线和Cox回归

B站|极智分析

 THE  END 

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材