【指南翻译】如何构建并解读癌症预后列线图

发布于 2021-09-28 07:22

工欲善其事必先利其器。

这期推送全文翻译了2008年发表在Journal of Clinical Oncology (IF:44+)上的列线图指南。

全方位认识列线图就在现在,Come on!

DOI: 10.1200/JCO.2007.12.9791

How to build and interpret a nomogram for cancer prognosis.

Iasonos A, et al. J Clin Oncol. 2008.

如何构建并解读癌症预后列线图

摘要

列线图广泛用于预测癌症预后。这是因为列线图将统计预测模型简化为事件概率的单一预测值,例如死亡或复发。这种预测针对个体患者的具体情况计算。用户友好的图形化界面促进列线图的临床应用,为临床决策提供信息。然而,需要对模型的统计学结果仔细审查,并且点估计的可信区间。本指南为非统计专业背景的研究者提供了构建、解释和使用列线图来估计癌症预后或其他健康相关结果的方法。

背景

肿瘤学家和患者都希望获得针对个体患者量身定制的可靠预后信息。近年来,已经开发出针对大多数癌症类型的统计预测模型。列线图就是这样的一种预测工具,它创建了统计预测模型的简单图形化展示,来计算临床事件的发生概率。对于许多癌症,列线图优于传统的 TNM 分期系统,因此被提出作为替代方案甚至作为新的标准。列线图生成个性化预测的能力使其可用于识别和分层参与临床试验的患者。用户友好界面和基于网络的广泛可及性促进了列线图在肿瘤学家和患者中的使用。

我们计划详述列线图的开发过程,以便临床医生了解其统计学基础。此外,我们还提供了列线图报告标准的指南,以促进正确使用发布的列线图。在本文中,我们概述了列线图构建的一系列步骤及对应的评估方法。为了说明这些步骤,我们使用了一篇已发布的列线图作为范例。该列线图旨在预测接受肾占位手术的患者为恶性肾透明细胞癌的可能性(图 1)。列线图开发的初始步骤包括定义患者群体和结局事件、识别重要的协变量、确定统计模型、以及验证模型性能(表 1)。

步骤一、定义患者群体(patient population)

列线图构建的第一步是确定人群来源。应事先确定患者的纳入标准。人群可能来自单中心、多中心或是基于人群的队列。基于多中心/基于人群的队列进行构建的模型更可能具有普适性(generalizable);然而,这种来源的人群可能难以提供一些共同的详细数据,例如可以提高预后准确性的特定肿瘤标志物。需要从研究一开始就仔细斟酌模型普适性和一些详细数据之间的权衡。重要的是,必须考虑数据来源人群是否类似于将应用该列线图的人群。评估人群来源时需要考虑的问题可能包括:人群来源是否唯一(unique)?它是否能代表各个年龄段的人群?治疗模式是否具有代表性?在构建列线图之前必须考虑这些因素,因为这些因素重要影响模型应用于其他人群时的有用程度。

在我们的范例研究中,纳入的患者群体包括:在一个特定单中心接受肾脏占位手术的患者;并排除了术前已知有转移性病变的患者。提供纳入研究的患者群体的详细信息,使列线图用户能够确定该列线图计算的结果能否适用其自己的患者。

步骤二、定义结局事件(outcome)

构建列线图需要精确定义结局事件。结局事件通常是一个事件,例如恶性肿瘤的诊断,或事件发生的时间,例如到发生复发或死亡的时间。列线图用于预测特定事件发生的概率,例如活检阳性的概率、复发的概率、或生存率(使用固定时间锚点(fixed-time anchors),例如 3年复发概率)。在我们的范例研究中,该列线图的目标是基于术前临床及影像资料,预测病理结果为透明细胞癌的概率。

步骤三、识别可能的协变量(potential covariates)

在构建列线图之前,需要确定可能对感兴趣的结局事件有预测价值的预测指标(表 1)。预测指标必须根据先前的研究或合理的临床推理预先确定,以便排除缺失数据过多的预测指标,保证数据收集基本完整。在我们的范例研究中,潜在的协变量包括年龄、性别、诊断时的症状、彩超结果中的血管流量、肿瘤大小、占位在肾内的位置、影像学上的坏死和多灶性。在已发布的列线图中,确定变量所考虑的通常是数据的可及性和临床意见而不是统计的显着性。

步骤四、构建列线图

1.选择模型

列线图可以呈现许多统计模型的结果。在我们的范例研究中,研究目标是使用上述变量预测一个二分类结局事件(binary outcome),是/不是病理诊断为恶性透明细胞癌。底层的logistic模型以等式形式展示如下:

如果结局事件是事件发生时间(censored outcome,截尾结局事件),例如总体生存率(overall survival),则通常选择 Cox 比例风险模型(Cox proportional hazard model)。原因是Cox 模型是对风险建模,风险即是时间函数(function of time)的瞬时失效率(instantaneous failure rate)。如果我们的目的是用相同的上述变量预测患者是否会在3年后经历结局事件(死亡),其模型由下式给出:

其中基线风险(baseline hazard)指当所有协变量均为0时发生结局事件的风险。

上述等式的右侧指定了模型的基本函数。等式的左侧是列线图中呈现的预测概率。为每个协变量估计Beta系数(coefficient),并将其转换为优势比(odds ratios,到结局事件的时间的风险比)作为效果的衡量标准。使用患者个体的指标数据在该方程中进行计算即可获得所讨论结局事件的预测概率。

2.选择预测因子(predictor)

研究人员从其预期对结局事件有影响的协变量开始分析。统计学检验的结果可以确认数据是否支持其对协变量的预期。然而在选择纳入的协变量时,要同时考虑临床和统计学意义。统计学显着性(通常表示为P值)取决于效应的大小、样本大小和数据的分布情况(方差,variance)。因此,大型研究可以发现小的差异,而小型回顾性研究可能无法检测到重要的临床发现。许多列线图使用回顾性或单一中心数据开发,因此可能缺少足够的样本量来确定显着的效应估计量(effect estimate)。因此,样本量估计是很重要的。根据Harrell准则[1],当结局事件是二分类变量时,两种响应水平例数的最小值应大于预测变量数的10倍。在我们的范例研究中,有169个透明细胞和130个非透明细胞肾肿瘤。因此,限制的样本大小为130。根据Harrell准则,最多可容纳 13 个预测变量。当结局事件是总体存活(overall survival,OS)时,死亡人数应大于预测变量数的10倍,以使Cox模型预测概率的误差小于10%。

[1] Harrell FE Jr: Regression Modeling StrategiesWith Applications to Linear Models, Logistic Regres-sion, and Survival Analysis. New York, NY, SpringerVerlag, 2001

其他因素也可能影响统计学显着性,可以改变对结局事件的效应大小(magnitude of the effect),或提供错误的效应估计(effect estimates)。从统计学的角度看,对这些潜在的复杂性的考虑是必不可少的,我们在下面总结了几个例子。

2.1混杂因素(Confounders)/共线性(Multicollinearity)

混杂因素是与模型中的结局事件和其他独立预测因子相关的变量,但请注意,在这种关系中没有因果关系。存在混杂因素的情况下,协变量的统计学显着性可能会受到影响。在我们的范例研究中,影像学上的坏死可能与结局事件(恶性肿瘤)以及另一个预测因子(多灶性)相关。用这些预测因子开发的模型可能呈现出,影像学上坏死是预测恶性肿瘤的重要因素,但与坏死相关的其他预测因子,如多灶性,可能似乎并不重要。在这个例子中,多灶性的影响被影像学上坏死混淆了。预测因子之间的关系(也称为多重共线性)会影响模型中的Beta系数,带来虚假关联和可能并不可靠的效应估计(effect estimates)。效应估计时的意外的数值幅度或符号(与直觉相矛盾),以及单因素分析和多因素分析的结果相反是识别多重共线性的一些方法。一种常见的处理方法是评估这些混杂因素的相关性并决定是否可以去除其中一些协变量。然而,基于冗余而选择去除一个或多个预测变量并不总是可行的解决方案。尽管变量之间存在数学上的相关性,但因此去除预测变量可能是错误的,因为每个变量都提供重要且具体的信息。统计学家可以评估相关性(correlations)、方差膨胀因子(variance inflation factor,VIF)和特征值(eigenvalues),并使用多种统计工具来尝试解决这个问题。岭回归(Ridge regression)、主成分分析(principal component analysis)和其他变量选择方法不完全依赖于P值小于0.05的标准,已被建议用于处理多重共线性。但这些方法尚未用于列线图的研究中,也许应该考虑使用这些方法。

2.2交互作用(Interactions)

建立模型时应考虑对交互作用进行评估。相互作用是一种协同效应(即两个或多个因素共同作用的方式)。例如,年龄(≤65岁 vs.>65岁)和性别(男性vs.女性)的每对组合可能对结局事件有不同的影响。也就是说,年龄和性别单独的影响可能不足以解释结局事件。交互项可能会为年轻男性患者和年轻女性患者提供不同的预测结果。假设有200名患者,其中15%的患者年龄≤65岁,其中有50%为女性,因此年轻女性只有15名患者。未能显示年龄/性别的交互作用并不意味着这种影响不存在,而是因为样本量小的原因所致。因此,很少研究检查变量对结局事件的共同影响(simultaneous effects),这也是为什么一些模型即使具有良好的敏感性(sensitivity)也缺乏特异性(specificity)的原因之一。我们不主张在模型构建中常规对所有可能的成对交互作用进行评估,而是建议以临床专业知识为指导对潜在交互作用进行评估。在我们的范例研究中,性别和血管流动之间交互作用的趋势在临床上没有意义,因此从模型中省略。此外,39%的患者是女性,整个队列中只有21%(299名患者中的62名)具有感兴趣的结果,这意味着这种趋势可能难以在更大的队列中重现。

2.3变量转换(Transformations,重编码)

到目前为止,我们讨论的模型均假定预测因子与结局事件之间的存在线性关系(logistic模型假定logit尺度上的线性关系;Cox模型假定log hazard尺度上线性关系)。这样的假设可能并不总是存在的。当关系不是线性的时候,可能需要对预测变量进行变量转换。例如,非线性关系可以是血红蛋白水平和年龄之间的U形关系。变量转换在任何多变量模型中均可使用,因此不是列线图的独有特点。在我们的范例研究中,病理诊断为透明细胞癌的概率随着肿瘤大小和年龄的增加而线性增加,因此不需要进行变量转换。在列线图构建过程中应以图形方式对这种线性关系进行评估并证明是否需要进行变量转换。

变量转换或复杂函数(例如样条函数,splines)的转换经常出现在列线图模型中。有时,选择比简单非线性变换更复杂的变换函数会导致过拟合(overfit)。当模型尝试拟合特定数据集中存在的每个细节时,会发生模型过拟合。即使是对小样本数据的建模也可能发生这种情况。生成的模型可能对特定数据集具有高度特异性,却因此降低了普适性,难以推广到其他数据集。

步骤五、确定最终模型:验证

构建个性化的风险预测模型为了是尽可能准确地预测结局事件。模型区分具有不同结局事件的患者的能力被称为区分度(Discrimination)。预测结局事件与实际结局事件的差距被称为校准度(Calibration)。校准度一般通过绘制来自列线图模型中给定组的预测概率与实际概率的关系图来评估。完美准确的列线图预测模型的校准图表现为,其中各观察点(横轴值为预测概率,纵轴值为实际概率)均落在45度对角线上。这些观察点与45度对角线之间的距离是对列线图预测结果的绝对误差的度量。包括了可信区间的肾透明细胞癌列线图的校准图如图2所示。描述校准图时需要同时描述观察点和45度对角线的位置关系以及可信区间的宽度。请注意,可信区间的宽度取决于每个给定组中包括的患者数量,并且组越小,可信区间的宽度就会越宽。

列线图的预测准确性(区分度)通过一致性指数 (concordance index,c-index) 来衡量。该指数量化了预测概率与发生结局事件的实际情况之间的一致性水平。C-index指所有病人对子中预测结果与实际结果一致的对子所占的比例。带可信区间的c-index更全面衡量了区分度。C-index的可信区间可以通过bootstrap重采样方法(bootstrap resampling)或Pencina和Agostino提出的方法获得[2]。训练集(构建列线图的数据集)的c-index往往比验证集(另外的数据集)的c-index要高。因此,在最终确定模型时,需要进行交叉验证(cross-validation)以防止模型过拟合的情况。通过这种方式,提供列线图在新患者队列中使用时的性能评估。交叉验证方法包括拆分样本(split-sample)或bootstrap技术。这些方法使用单独的训练集样本来构建模型,以及单独的验证集样本来测试模型。下面给出了验证方法的定义。

图2 范例研究的校准图。虚线表示理想的参考线,参考线上预测概率与实际概率相匹配。黑色短线表示为四个四分位数组中的每一个分组的列线图预测概率,以及各自的可信区间。

5.1交叉验证(Cross-Validation)

数据拆分(Data splitting)和 jackknifing方法是交叉验证的类似方法,其中数据被随机分成几组。Jackknife方法将数据分到和样本数相同数量的组中(一组一个样本),也称为“留一法交叉验证”(leave-one-out cross-validation)。或者,可以将它们分成更大的组,例如仅将数据随机分到10个组中,这称为10折交叉验证。我们首先留出其中一组,用剩余9组数据构建模型。然后用这个模型预测被留出的一组数据的结局事件,获得一次模型评价结果。接着重复这个过程10次,每次留出不同的组。通过这种方法一共获得10次评价结果,汇总计算模型最终的一致性指数。

为了防止随机划分数据的影响,交叉验证被多次重复(例如200次),并且这200个指数的平均值是偏差校正的指数(bias-corrected index)。例如,在我们的范例研究中,原始队列的一致性指数为0.82,在经过10折交叉验证的偏差校正后降低到0.79。

5.2 Bootstrap验证(Bootstrap Validation)

另一种方法是Bootstrap验证方法。Bootstrap方法通过有放回地从原始数据集随机抽取样本(随机采样),抽取次数与原始队列的大小相同。在我们的范例研究中,Bootstrap采样得到的队列同样包括299名患者。但在这个新队列中,患者A可能出现3次,而患者B可能出现零次。尽管每个患者被采样的概率相同,但随机机会可能导致这种不均匀的结果。事实上,每个Bootstrap采样结果通常至少包含原始队列中的大约三分之二患者。使用基于原始队列构建的模型预测Bootstrap采样得到的人群。重复此过程200(或更多)次将产生200 个模型性能指标。建立在整个队列上的模型的性能指标总是高于这200个指标的平均值。两者的差异是源于过拟合或乐观的估计。这200个指数的平均值被认为是模型未来表现的偏差校正估计(bias-corrected estimate)。

5.3外部验证(External Validation)

尽管交叉验证和Bootstrap方法可以防止对训练集数据的过度解释(over-interpretation),但它们不能确保模型的外部适用性。列线图是否普遍适用于新的患者群体比过拟合更令人担忧,这是一个需要仔细进行临床判断的问题。已发表的列线图试图通过在外部患者群体中验证模型表现来评估外部适用性。在我们的范例研究中,当模型在前瞻性队列中进行外部评估时,一致性指数为0.76,表明使用训练集来评估列线图的预测表现存在偏差。

研究人员在文献中概述了这些局限性,诸如“列线图需要外部验证”或“是否可以普遍应用还有待确定”等评论。但是我们能否用简单的话向患者解释列线图的局限性?如果模型中不包含种族这个变量,并且该模型的训练集包含85%的白人人口(临床试验中的近似种族分布)。由于白人的合并症和风险因素最少,因此尚不清楚具有某些合并症和风险因素的非白人患者能否从这个特定的列线图获得准确的预测结果。如果列线图建立在接受手术且有大肿瘤病灶的患者上,那这个连线图在小病灶患者身上不会同样表现良好。因为在原始数据中小病灶患者的代表性不足或缺失。尽管仍然可以通过该列线图进行概率估计,但此估计将不相关。对与训练集人群不同的人群上进行回归模型外推(extrapolating)时必须十分谨慎。

步骤六、解释最终列线图

列线图的用处在于它在用户友好图形界面中将预测概率映射到从0到100的点。各协变量累加的总分对应患者的预测概率。列线图中各协变量的轴通过对效应估计(effect estimates)进行排序而绘制,而不管统计学显着性如何,并且它受其他协变量存在的影响。图3展示了一个双变量列线图作为示例。假设我们在模型中包含两个不显着的效应,性别(β性别=0.12,P=0.63)和症状(β症状=0.51,P=0.10)。在这个例子中,症状的影响最大,因此转换为100分。有症状者得100分,无症状者得0分。无论统计显着性如何,β(绝对值)最高的效应将在量表上分配 100 分,其余变量分配与其效应大小成比例的较小点数。男性患者将获得23.5分,这等于β性别/β症状的比率乘以100。这表示与最显着变量相比,该变量的相对重要性。然而,仅仅通过观察列线图并假设点数越大,变量越重要,人们可能会错误地解释“症状这个变量能强烈预测恶性肿瘤的发生”。

假设我们在模型中添加了有统计学显着性效应的变量而不是性别,例如超声血管血流(β超声血管血流=2.85,P=0.0001;β症状=0.30,P=0.42;图 4)。该模型中效应最强的变量,超声血管血流,将被转换为100分,现在有症状的患者将获得10.5分。而图3中,有症状的患者将获得100分。10.5分反映了β症状比起β超声血管血流的相对重要性(0.30/2.85乘以100)。图 4 中的总点数轴最高可达110.5点,预测概率范围为0.15到0.80。选择第二个列线图而不是第一个是因为它具有更高的区分度(c指数为0.77 vs.0.55),并且超声血管血流的影响在统计上是显着的。列线图仅在模型中根据当前协变量对预测结局事件的效应的重要性进行排序。从广义上讲,点数既不反映与结局事件的关联,也不代表P值方面的统计学显着性。

图3 一个包括症状和性别变量的列线图,预测肾脏占位病理证实为透明细胞癌的概率。

图4 一个包括症状和超声血管流量变量的列线图,预测肾脏占位病理证实为透明细胞癌的概率。

步骤七、应用列线图

当列线图确实在临床上用于提供预测时,例如对某位患者进行5年复发的概率,理解正确的结果解读对于临床医生和患者来说都很重要。回想一下,模型公式中的beta系数是不确定的,因此预测结果存在可变性。相应地,这些预测结果有对应的置信区间,这些可信区间应该与患者有关。此外,临床医生还应该使用这些可信区间来评估他们对预测结果的信心。可用的统计软件包提供这些可信区间,并且这些软件包可以在设备中进行编程(SAS中的logistic和phreg程序)。

在列线图中具有相同预测概率的患者可能有不同的可信区间。在我们的范例研究中对列线图的预测过程进行了举例。例如,一名69岁男性患者,肾脏肿块3.9厘米,超声无血管血流(患者A)。另外一位48岁女性患者肾脏肿块9.7厘米,超声无血管血流(患者B)。两者都有18%的病理证实为透明细胞癌的概率。患者A的95% CI为10%至29%,而患者B的95% CI为7%至41%。在这个范例研究中,预测值的95% CI的中位数宽度为18%(11%至47%),表明50%(299 名患者中的 147 名)的患者对其预测有低于9%的不确定性。95%(299名中的283名)的患者对其预测结果的不确定性低于16%。偏离平均患者特征的患者(在本例中为具有大肿瘤的年轻女性患者)很少见,并且与具有预测概率的患者相比,其预测概率往往具有更宽的可信区间。我们认识到理解预后估计的不确定性对患者来说具有挑战性,特别是当患者的读写和计算能力有限的时候。但是,由于列线图更重要的是首先由临床医生作为工具使用,来传达预后信息,因此纳入对预测结果不确定性的估计是重要的。尽管这增加了预测结果图形化展示的复杂性,但它增强了列线图的完整性。进一步研究如何传达预后估计结果及其不确定性给患者是需要优先考虑的,这需要临床医生、统计学家和行为研究人员之间的合作。

在实践中,临床医生可以应用已发布的列线图,即使该列线图是基于与自己感兴趣的人群不同的患者数据构建的。通过将原始队列中的患者特征分布与外部队列中的患者特征分布进行比较,可以知道人群是否据有有效的代表性。在表2中,我们概述了临床医生在评价已发表的列线图质量时需要审查的要点。表3列出了临床医生在考虑现有列线图是否适合其自己使用时需要考虑的一组基本问题。

总之,临床医生应该理解列线图构建的方法,以得当地理解预测的结果。2004年,国家癌症研究所(National Cancer Institute)主办了一个与预测模型相关的方法论问题的研讨会,包括模型的开发、评估和验证。我们扩展以前的这些工作,并通过提供分步指导来帮助临床医生构建新的列线图或评估和应用已发表的列线图。统计学概念通常并不明显。统计学家有责任在列线图开发过程中解释这些步骤的重要性,并确保从这些工具得出的预后预测被可靠地解释。列线图的有效性在于统计模型的前提假设,应仔细分析。应正确分析预后变量与结局事件指标之间的关系,讨论协变量之间的关系,并评估协同效应。建立列线图是使用复杂数学公式和优雅的简洁性之间的权衡(trade-off):与任何其他估计技术一样,偏倚(bias)和不确定性(uncertainty)或可变性(variability)是此过程中固有的。有意义的变量间关系应该是列线图模型的基础。更多依赖模型开发、验证和使用的一组标准将提高列线图在临床决策和医患沟通中的价值。

[1] Harrell FE Jr: Regression Modeling StrategiesWith Applications to Linear Models, Logistic Regres-sion, and Survival Analysis. New York, NY, SpringerVerlag, 2001

[2] Pencina  MJ,  D’Agostino  RB:  Overall  C  as  ameasure   of   discrimination   in   survival   analysis:Model  specific  population  value  and  confidenceinterval estimation. Stat Med 23:2109-2123, 2004

专|家|介|绍
马驰原

主任医师,博士生导师

东部战区总医院神经外科副主任 

中华医学会神经外科学分会全国青委副主委

国家卫健委医管所脑出血外科专家委员会执行青年主委

中国医师协会神经内镜培训基地(南京)主任

中央电视台《挑战不可能》第一位医生

王忠诚中国神经外科青年医师奖

专|家|介|绍
刘玉秀

东部战区总医院重症医学科主任医师

东部战区总医院临床试验伦理委员会主任委员

中国医药教育协会医药统计专业委员会主任委员

以一作和通讯作者发表论文百余篇

获省部级科技成果奖13项

主编2部、副主编10部、参编22部教材和专著

下面日常打广告

助力你与患者的医患沟通!提高临床服务质量!

后台回复“代码”,一次性领取列线图分析的R语言代码!

打开就用,随用随会!最适合又忙又要写文章的你!

我们接下来会经常推送各种列线图教程

以及优质的列线图研究文章

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材