适应性设计之样本量重估 | CHW inverse normal 加权统计量方法
发布于 2021-04-09 18:03
样本量重估系列专辑
第一期:样本量重估之背景介绍
第二期:样本量重估之盲态样本量重估
第三期:非盲态样本量重估之CHW inverse normal加权统计量方法
第四期:非盲态样本量重估之promising zone希望区域方法
未完待续,敬请期待...
I 类错误率及其控制
如果回顾一下通常的统计检验,我们首先会选择一个检验统计量(如Wald统计量),也就是对数据进行汇总的一个特定规则。在对数据分布进行一定程度的假定后,我们通常可以得到这个检验统计量在无效假设成立时的(近似)分布,如标准正态分布。最终的检验规则可通过比较检验统计量与这个分布的某个分位数完成。如果一切顺利,那么I类错误率会得到控制。整个过程中各种因素都可能最终影响I类错误率,而其中检验统计量与其无效分布必须是对应的。如果检验统计量发生变化,那么对应的无效分布也有可能变化。而在SSR中(无论盲态还是非盲态),一个常常令人忽略的陷阱就是:若仅从简化过的公式上看,最终检验统计量和常见的统计量“貌合”到以假乱真的地步,然而两者实则“神离”十万八千里。
为简化讨论,我们可以考虑单样本、方差为1、均值μ未知的正态分布数据,并设无效假设为H0:μ=0。假设受试者群体足够大,我们可以把可能的数据用X1,X2,…这样一个无限序列代表。在固定样本量n的试验中,我们的Wald统计量为
对应的H0分布为标准正态。注意这里的统计量是样本量n和无数条数据的函数,但是Z的计算规则忽略了Xn+1及以后的全部数据,并且第1条至第n条数据在统计量中各使用一次。
如果我们的SSR方案规定在得到前n1条数据之后,对样本量根据现有数据进行重估。最终仍然用和Wald统计量类似的公式来做统计检验,那么检验统计量可以简写为
其中为重估样本量规则。这个新的检验统计量Ζ′貌似与Wald统计量Z形式上相近,但却有重要区别:首先,它们的自变量不同,除了数据外,Ζ′需要固定的中期样本量n1来计算,而Z需要的是固定总样本量n;更重要的是,它们的计算规则也不同,前n1条数据在Ζ′中使用了多次,一次作为加和项出现,另一次出现在总和的终止规则n*中,后者还出现在标化系数当中。如果我们把Ζ′展开来写,就是
而对应的Z则是,
其中前n1条数据均已高亮显示。比较两者展开公式不难发现,Ζ′与Z并不是同一个统计量,那么Ζ′的H0分布就无法保证和Z的一样,也就是说它不一定仍然近似服从标准正态分布。如果我们仍然把Ζ′与标准正态的分位数相比较来进行假设检验,那么I类错误也就不一定可以得到控制。
由上面的特例分析可以看到,在进行样本量重估时,如果对最终检验统计量和/或检验规则不进行谨慎的选择或评估,I类错误率是有可能变化的。这里至少有两点值得注意。
首先,上面的分析针对盲态及非盲态样本量重估均成立。在盲态样本量重估中如果不认真选择最终检验统计量或检验规则,同样会导致自变量发生变化、前期数据被使用多次的问题。因而坊间广泛流传的盲态样本量重估不会导致I类错误率增加的传言在统计上并不是完全可靠的,特别在非劣效或等效性试验中更需谨慎;某些情况下即使盲态下重估也会导致I类错误率高于预期。
其次,上述分析也不应误读为重估样本量一定会导致I类错误率增加。我们强调的是I类错误率可能会变化,它既可能变大,也可能变小,还可能几乎不变。具体情形取决于最终如何选择检验统计量或检验规则(也间接取决于重估方法)。还以前例来说,我们可以考虑两个极端情况(仅为协助大家思考背后的一般性问题,而不是说现实中真会有试验如此操作):第一种情况是,固定的中期样本量n1不太大,而重估规则是如果中期结果较好,重估样本量为1000n1;如果中期结果不好,重估样本量为5000n1。此时,无论中期结果如何,前期数据对最终检验的影响都已经被后期极大量数据洗消殆尽,因此最终I类错误即便增加也仅微乎其微。另一个极端情况是,如果固定中期样本量中n1与试验前设定的总样本量n非常接近,而重估规则是如果中期p值不超过α,那么总样本量不变;如果中期p值大于α,那么总样本量增至一个极大数值。简单分析可以得出,此时I类错误率大约是α×1+(1-α)×α=2α-α2≈2α,错误率近于翻倍。
综上,在进行样本量重估时,我们需要对I类错误是否能得到控制的问题慎之又慎,往往需要具体分析,而非一概而论。与此同时,如果在中期分析中除了调整样本量之外,还允许试验提前因有效或无效终止,则还需综合成组序贯设计的一些方法来处理I类错误率控制的问题,如使用α消耗函数。
幸运的是,我们并非对I类错误率变化的问题毫无对策。例如,当前述Ζ′统计量的H0分布不是标准正态,那我们可以尝试推导其真实的或近似的分布。又如,某些情况下使用排列检验可以轻易协助我们获得给定重估样本量后的检验统计量的真实条件分布;再如,通过重新设计新的检验统计量,我们可以保证新的统计量以标准正态(或其他已知分布)为其H0分布。限于篇幅,本文仅对最后一种思路略做介绍。
一类较为常见的最终检验统计量是Bauer等于1989年提出的对各阶段检验统计量或p值合并的Combination Test方法,这可以认为是众所周知的Fisher Combination检验在适应性设计中的一个延伸,由于其不受资料分布状态的影响等优势被广泛应用于适应性设计的数据分析。多年来各阶段p值合并的方法被不断的发展和完善,多种现存统计方法都被尝试应用于临床试验中并逐渐衍生出新的方法,其中应用最广、最具代表性的几个分别为Bauer-Kohne法(Fisher结合检验法)、逆正态合并p值法以及p值累加法。临床试验中应用较多的是逆正态合并p值法,由Lehmacher和Wassmer于1999年提出,它是将各阶段的p值转换成标准正态分布的分位数后进行线性合并,得到一个最终统计量。在k个阶段的适应性设计临床试验中,各阶段权重相等为,且平方和为1。Cui等推荐在逆正态p值的方法中各阶段权重系数可以不等,通常由各阶段初始的计划样本量决定,但权重一定不随适应性设计中样本量的改变而改变,从而保持检验统计量在H0下的分布仍然近似是标准正态。这就是适应性设计指导原则中提到的CHW inverse normal加权统计量方法,它适用于连续型数据、两分类型数据以及时间事件型数据。
CHW检验统计量如何计算?
Cui, Hang and Wang(CHW)加权统计量方法把中期分析前后看成两个阶段,第二阶段的样本量是根据第一阶段的中期分析结果重新估计得到的,除此之外前后两个阶段的数据互相不重叠。
假设H0:μ1=μ2 vs 单边H1:μ1>μ2。CHW检验统计量定义为,并与zα=Φ-1(1-α)(不需要进行调整)进行比较来完成统计检验。这里Z1为仅基于第1阶段n1例数据得出的Z统计量,为仅基于调整后第2阶段的例数据得出的Z统计量,而权重ω1和ω2为预先设定的常数并满足条件,通常取,,其中n1和n2是试验设计阶段初始计划的两阶段各自样本量。在原假设成立时Z1服从标准正态分布;而在给定前期数据后(亦即给定后期样本量后),的条件分布为标准正态分布。因此在H0成立这个特定条件下,Z1和独立且均服从标准正态分布;而H0不成立时(如H1成立或者μ1<μ2),二者并不独立。由独立性及正态分布的可加性,最终CHW检验统计量的H0分布也为标准正态分布。
用什么规则调整样本量?
那么具体用什么规则调整样本量?后续研究中已简单明了地证明了CHW方法不依赖于任何样本量调整的规则,只需要保证在原假设成立时,给定前期数据后的第二阶段统计量的条件分布为标准正态分布即可。这里可以选择的方法比较多,在最初CHW方法的文献里建议可以基于conditional power来计算调整的样本量,使得调整后的样本量达到一定的目标条件效能(关于conditional power,在后面的推文中会详细介绍)。或者基于原预期标化处理效应与已观察标化处理效应大小的比值的函数来进行样本量重估,即。其中N为初始计划的样本量,N′为重估后的样本量,a为任一指定常数,E′为已观察数据的标化处理效应估计值,E为原预期标化处理效应大小。基于后者这种方法做样本量重估应当注意一个问题:当实际分析中发现E′与E的方向不同时,此时不建议再继续进行原计划的样本量重估,而是需要对其原因做分析:一方面考虑试验药物的疗效与原假设相反,此时试验失败停止;另一方面也要考虑是否由于前期累积数据太少,数据成熟度不够导致随机差异,此时应进一步增大观测数据后再进行疗效的分析。
该方法的优势与劣势?
CHW inverse normal加权统计量方法总的来说是对最终检验统计量的调整。相比较之下延展开来,Muller and Schafer提出的一类方法则更具一般性,CHW可认为是此类方法的一个特例。(曾有研究将其中一部分方法归结于“对最终的检验界值进行调整”。但由于调整后的界值也是随机变量,而非常数,因此该分类似有不妥,不宜与常规意义的统计检验量与常数进行比较的统计检验同日而语。因其实质可理解为某统计量减去随机界值所得差值在充当实际的检验统计量的角色,故也应归类于“创建新的统计量”的范畴。)Muller and Schafer等方法的优势是使用灵活,可以用于任何的适应性调整(例如增加样本量、增加期中分析等等),已经被证明当仅仅是样本量调整时Muller and Schafer等方法与CHW inverse normal加权统计量方法等价,内在原理都是在给定中期数据的条件下,最终适应性检验的条件I类错误率与不进行适应性设计的条件I类错误率相同,因此本质上两类方法并无实质性差异。虽然在统计学上该思路不难推广到多次适应性调整的情形,但在监管指南中特别提到了在一个临床试验中一般建议只做一次适应性调整。
CHW inverse normal加权统计量方法的优势到此已经显而易见,它操作简单,最终分析的检验界值保持不变(条件假阳性率的方法即Muller and Schafer方法控制I类错误率可能展现为更新最终分析的界值的形式)。一些统计师对CHW方法的常见批评是,因为试验设计初期就固定了两阶段的权重始终不变,所以第二阶段新增加的样本量对最终分析的贡献往往相当于被削弱了。虽然类似评论并不被全部统计师认可,但不可否认,CHW方法控制I类错误率的代价之一是经常需要对临床研究人员进行一定统计培训才能正确解读结果。所以从临床实用的角度来说,也为了方便起见,部分统计师更倾向于使用一些常见的统计量,比如采用看似与Wald形式一致的统计量来做最终的统计检验。在这种需求下就应运而生了我们下篇推文要介绍的方法:希望区域promising zone方法做非盲态样本量重估(Mehta and Pocock, 2011)。它会是我们所寻找的多能解药么?请待下篇讨论。
我们前面提到,简单使用Wald形式的统计量最终有可能导致I类错误率改变;而我们也强调过“改变”并不一定都是升高,也有可能降低。如果对I类错误率降低的情况进行仔细分析,就可以发展出我们下篇推文要介绍的希望区域promising zone方法做非盲态样本量重估,敬请期待。
Statistician
dMed Biostatistics
修订:曲龙 李宝月 李文婷 伍晓菁
关于缔脉
缔脉生物医药科技(上海)有限公司是一家立足中国、面向全球的临床合同研究组织(CRO)。员工中有很多是跨国药企的行业精英和中美两国医药监督管理机构的权威专家,借助多年丰富的药物开发经验,从方案设计到申报策略、从运营执行到质量保证,为客户提供更有价值的建议和更可靠的运营管理,为中国及全球生物医药公司和医疗器械公司提供高质量高水准全方位的临床服务,从而提高客户临床研发的效率,缩短研发的周期,提高研发成功的几率。
我们的主营业务包括专家咨询、药政事务与策略、早期临床开发、临床科学与医学事务、临床试验运营、生物统计、临床编程、数据管理、药物安全与警戒、质量保证与临床稽查和系统支持等。
我们的员工覆盖包括上海、北京、武汉、广州、成都、纽约、华盛顿、旧金山和布鲁塞尔等地,全球员工数逾600人,其中60%以上具有硕士或以上学历,五分之一员工有10年以上工作经验。
本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。
相关素材