您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页ICH E9临床试验的统计学指导原则解析

ICH E9临床试验的统计学指导原则解析

来源:尚车旅游网


ICH E9临床试验的统计学指导原则解析

ICH E9 Statistical principles for clinical trials (临床试验的统计学指导原则)可谓生物统计师的bible,目的在于协调欧洲、日本和美国在进行药品上市申请的临床试验时所应用的统计学方法的指导原则。虽说中国是协调三方之外的国家,SFDA还为此另外制定了自己的《化学药物和生物制品临床试验的生物统计学技术指导原则》,但其内容基本还是照抄翻译了ICH E9的内容。

首先,我们先看一下ICH E9的内容概况:

1. 引言

2. 整个临床试验的基本考虑

3. 试验设计中的基本考虑

4. 试验进行中的基本考虑

5. 数据分析

6. 安全性与耐受性评价

7. 研究报告

临床研发计划中的统计思维

众所周知,药物临床研究的主要目标就是以最小的成本和最快的时间,科学地评估有希望进入市场的药物的风险-效益。万事计划为先,为了保证药物研发的成功,制定一个临床研发计划(clinical development plan)是十分必要的。

那什么是临床研发计划包括哪些内容呢?

通常地,临床研发计划包括研发依据、试验的一些基本情况、时间表、预算以及所需的人力物力财力资源等。

在大多数公司,在开展一项临床试验前,可能不会有一项正规的成文的临床研发计划,但总会考虑到上述这些内容。

尽管临床研发计划的确定主要基于医学和科学的正确合理,但其他方面比如生物统计、注册、市场甚至管理层的影响也同等重要。

在这里我们重点讨论一下,统计在临床研发中的作用。首先,管理者在做临床研发计划时希望从生物统计师这里获得一些有助于他们决策的有用的信息。他们需要在市场销售、医学、注册等各方面追求一个平衡。他们需要明确知道药物研发的风险收益。

Confirmatory Trial(验证性试验)和Exploratory Trial (探索性试验)

对整个临床试验的角度考虑,我们通常可以把临床试验分为Confirmatory Trial(验证性试验)和Exploratory Trial (探索性试验)两种类型。

什么是验证性试验呢?简单地讲,验证性试验就是检验假设(hypothesis-testing)的试验,是一种事先提出假设,并对其进行检验的有对照组的试验。可以提供疗效和安全

性方面的确定的证据。我们进行的验证性试验包括所有的III期试验、大多数IV期试验以及一些晚期的II期试验。当然对于验证性试验,我们接触最多的便是III期注册试验。其中验证性试验最核心的部分就是假设(Hypothesis),而对于它必须做到:

1. 假设必须直接根据试验的主要目的确定

2. 假设必须在试验前事先确定

3. 假设必须在试验完成后进行检验

与之对应的探索性试验,对数据作一些探索分析,可能会做一些假设检验,但这些假设不需要是事先确定的,而是根据数据的特点而定的,因此不能作为证实疗效的正式依据。虽然说是探索,但其也应有清晰的明确的目的。其实,一系列的探索性试验正是验证性试验必要性及设计的基础。简单地说,探索性试验是产生假设(hypothesis-generating),验证性试验是检验假设(hypothesis-testing)。探索性试验常见于一些II期试验,现在越来越多被一些研究者申办的上市后研究所采用(post-marketing exploratory study),基本是为了探索新的用法以及新的应用范围等。

在这里小胖顺便提一下探索性试验样本量的确定,因为探索性试验没有预先确定的假设,因此样本量的确定就只能是precision-based,即对试验结果的精确度有个要求,最后还要提一点,就是往往每个试验都同时具有探索和验证两方面。比如,在大多数验证性试验中,常对一些资料进行探索分析,而往往这些探索的结果可为后续的研究提出进一步的假设。

研究人群(population)

众所周知,临床试验一个主要的目的就是提供某种药物对于患有某种疾病的病人群体的准确可靠的临床评估。而我们的统计和临床推断都是基于这个病人群体中的抽取的样本。什么意思呢?举个例子,我们要做一个降脂药治疗原发性高胆固醇血症的试验,那么研究人群(population)就是原发性高胆固醇血症病人,在具体实践中,我们会根据样本量的大小,从原发性高胆固醇血症病人(总体)抽取一定数量的病人(样本),进行病人入组,接受治疗,然后对这些抽取的病人(样本)的疗效和安全性进行评估,并进行统计和临床推断,然后再推广到整个原发性高胆固醇血症病人(总体),进而得出最后的结论,这就是一个样本描述推断总体的过程。

临床试验中的研究人群是通过入选/排除标准来确定的,因此入选/排除标准的确定对于试验的成功显得十分重要。入选/排除标准的确定主要应基于病人的基本特征、诊断标准以及疾病严重程度等。

在研究方案制定时,对临床试验目标人群的选择十分重要。这时往往存在两种选择偏差情况,一种情况是选择的人群过于宽泛,比如说,你的研究药物可能只对程度严重的某种疾病更为有效,可是你选择了轻、中、重各种程度的病人,结果导致观察不到期望的临床疗效;另一种情况对选择的人群过于限制,比如你只选择了某种疾病中某个基因型或者具有某个基线特征的病人,虽然得到了你期望的临床疗效,但批准的适应症很可能也仅限于这个特征的病人人群,在以后的市场推广方面会受到很大的限制。

主要变量和次要变量

关于主要变量(primary variables, primary endpoints)和次要变量(secondary variables, secondary endpoints), ICH E9中有较为详细的描述。小胖在这里简要地给大家作一下概括。

对于主要变量来说:

1) 与研究主要目的直接相关

2) 最好只选择一个

3) 早期研究或在已发表的文献中报道过的可信有效的变量

4) 用于样本量的计算

5) 预先在方案中规定

对于次要变量来说:

1) 与主要目的相关的支持性指标

2)与次要目的相关的指标

O’Neil曾经写了篇题为“Secondary endpoints cannot be validly analyzed if the primary endpoint does not demonstrate clear statistical significance”的文章,而Davis CE则对应地写了篇“Secondary endpoints can be validly analyzed, even if the primary endpoint does not provide clear statistical significance”。而现在比较普遍的看法是,对临床试验结果的解释不能仅仅集中于主要变量的显著性。在主要变量未显示出统计学意义的情况下,应该对次要变量进行分析,但其分析结果只能被认为是支持性的或

探索性的结果。一句话,对临床试验次要变量的解释,其重要性远远大于只是盯住那个所谓的p值。

次要变量在临床试验中的地位

大家都知道,一般地,我们在临床试验研究方案中会设计几个次要变量,但这些次要变量在整个临床试验中究竟处于什么地位呢?一直以来,对这个问题都没有达成共识。

下边简单地介绍一下次要变量的三种情况:

1. 次要变量作为支持性证据

次要变量可以为治疗的效果提供另外的临床特征,但是次要变量本身不足以为药物申请或增加适应症提供可以信服的证据。此时,次要变量主要是为主要目的提供支持性证据,可信区间和统计检验只能作为探索性结果,不能据此下结论。这种情况在临床试验中最为常见,在此小胖无需赘述。

2. 次要变量作为得出另外结论的依据

如果次要变量是假设检验证实性策略的一部分,其显著性结果只有在主要目的达到的情况下才能得出另外的结论。更为重要的是,一旦主要目的被证实,和次要目的相关的次要变量可以成为得出另外结论的依据。处理这种次要变量的一个有效的方法是逐级检验。一旦基于主要目的的无效假设被拒绝,对于次要变量就可以按照顺序逐级进行证实性假设检验。在这种情况下,主要变量和次要变量的不同只是在检验假设中的顺序的不同,当然这种顺序的不同反映了在研究中相应的重要性的不同。

举个例子吧,小胖曾经历过一项某降血脂药临床试验的研究方案,主要变量为LDL-C变化百分率,次要变量为总胆固醇变化百分率、甘油三脂变化百分率、HDL-C变化百分率。其分析策略是对次要变量进行逐级检验,逐级检验顺序如下: 1)总胆固醇 2) 甘油三酯 3) HDL-C。如果得不出主要变量显著性结果,则不能由此对后面的次要变量(总胆固醇、甘油三酯和HDL-C)进行相应的推断性检验,而仅对这些指标用进行描述性分析。同样的,在次要变量分析中,按顺序如果排在前边的次要变量得不出显著性结果,则不能对后边的次要变量进行推断性检验。而我们的结论呢,根据显著性结果,在得出降低LDL-C结论的基础上,也可得出降胆固醇、甘油三脂或升高HDL-C的结论。

3.次要变量作为临床有效的标志指标

一些潜在的显示临床有效的重要指标或者反映安全性的重要指标都应该归为次要变量。但是,如果观察到的疗效比预期的要大,但是却无法达到其主要目的,此时需要进一步的研究来支持观察到的疗效。

这种情况较为少见,意思是什么呢,就是某个次要变量对显示临床疗效十分重要,而且结果也很显著,但此时主要变量却未显示出显著意义,此时就比较难以下结论,怎么办,那只有需要进一步的研究了。

复合变量(一)

当难以确定单一的主要变量时,可将多个变量组合即构成我们所谓的复合变量。复合变量一般有两种类型。

一种就是我们临床上经常采用的量表,例如我们在抑郁临床试验中常用到的HAMD

量表(汉密顿抑郁量表)就是由若干项目组成的复合变量。关于这一种复合变量,小胖在此不做过多解释。

另一种复合变量多见于生存分析中,几种事件被合并定义为一个复合变量。这种情况在心血管临床试验中最为常见,例如,在急性冠脉综合征临床试验中,主要变量可使用一个复合变量,即出现任何原因的死亡、心肌梗塞、有证据的需再次住院的不稳定性心绞痛、血管重建术和中风的事件。

为什么要使用复合变量,使用复合变量有什么好处呢?

现在许多疾病都有其标准治疗方法,一种新的治疗方法经常出于伦理的原因不可能与安慰剂作比较,而与标准治疗作比较为了显示显著性差异就必须需要较大的样本量。特别是对于那些事件发生率低的,比如说死亡吧,标准治疗3%,这时如果把主要变量设为死亡率,新治疗再好,想显示出与标准治疗2-3%的差别,其样本量也十分巨大。在这种情况下,引进复合变量不失为一种好的解决方法,这时我们把主要变量设置为死亡、心肌梗塞和中风等的复合变量,这时可能事件发生率就相对较高,就较容易检验出显著差别,自然所需的样本量就会大大减少,临床试验的成本和时间也会大大削减,当然产品也会早点上市。。。

复合变量(二)

如何选择复合变量呢?复合变量的选择有什么临床和注册方面的要求呢?

现在比较普遍的看法,复合变量的选择一般应有以下要求:

1. 复合变量中的每个组成部分必须具有临床意义,而且对病人来说具有相似的重要性

2. 治疗对每个组成部分的预期作用是相似的,这也是我们使用复合变量的理论依据。注册方面也要求治疗对每个单个组成部分的影响应该是一致的。

3. 组成复合变量的临床上较为重要的单个组成部分至少应保证不会受治疗的负面影响。这时注册方面则要求对于复合变量的每个组成部分必须单独进行分析,以清楚地知道治疗是影响所有的组成部分,还是仅仅影响其中单个结局。

以上是复合变量选择的基本要求,有兴趣的同学可以阅读一下小胖附在后边的EMEA《Points to consider on multiplicity issue in clinical trail》中6. HOW SHOULD COMPOSITE VARIABLES BE HANDLED STATISTICALLY WITH RESPECT TO REGULATORY CLAIMA? 的内容。

复合变量(三)

对复合变量作为主要变量的应用,有如下简单建议供大家参考:

1. 构建复合变量:

(1) 在试验开始前,就应该事先确定好复合变量,并清楚地定义复合变量的各个组成部分

(2) 避免选择那些治疗不可能有效的组成部分

(3) 避免选择那些临床上意义不大的组成部分

(4) 避免选择在临床重要性及治疗效果差异较大的组成部分

2. 对涉及复合变量作为主要变量的临床研究的结果的报告:

(1) 对构成复合变量的所有组成部分也应该单独进行报告,以确定是否其中有某个组成部分在复合变量中起着主导作用,以及确定对各个组成部分治疗的效果是否一致。

(2) 复合变量的各个组成部分通常定义为次要变量,并和主要变量的分析一起进行报告,最好放在一个表格里

(3) 对复合变量的解释,必须把各个组成部分放在一起作为一个整体复合变量来解释,而不是分开各个组成部分进行解释

(4) 对复合变量的结果的报告必须清晰,明确到底有没有意义,避免诸如单个组成部分显示有效这样的suggestion

复合变量的应用是一个复杂的问题,小胖只是略作一最基本的介绍,想要了解更多关于复合变量,可阅读一下此文后所附的文件《Methodologic discussions for using and interpreting composite endpoints are limited, but still identify major concerns》。

多个主要变量

我们在临床试验中会遇到主要变量不止一个,最常见的我们在临床方案中会遇到co-primary endpoint这个词,由此会带来对α的调整问题。这时大家可能有的会有些疑

惑,怎么有的情况下需要调整,有的情况下不需要调整。在此,对于为何调整和为何不调整的原理不作具体解释,只是简单地告诉大家什么时候调整,什么时候不调整吧。

其实很简单,要判断到底该不该调整α,就看你的研究目的是不是要求所有的主要变量都必须有统计学意义,通俗说就是必须所有的主要变量都有统计学意义才能说明疗效好,如果是,那么你就可以在0.05的显著性水平(词)上进行检验而无需进行调整,这时需要注意的是,此时会增加II类错误β,相应地power(1-β)会减少,因此你在试验设计阶段算样本量时,对每个主要变量,最好取90%或95%的power,以便最后的总体power能达到80%。另一种情况,如果说几个主要变量中有一个主要变量有统计学意义就能说明疗效好的话,那么对每个主要变量的检验就应该进行α的调整,最简单的办法就是,如果你有K个主要变量,那么你就应该对每个主要变量在显著性水平为0.05/k上进行统计检验,以维持总的显著水平为0.05。

下边举个通俗的例子说吧,我们要比较A药和B药的疗效,主要变量有两个P1和P2,那么有两种情况:

(1) A药在P1和P2两个主要变量都优于B药才能说明A药疗效优于B药,这时我们要做的就是对两种药物分别进行P1和P2两个指标的统计学检验,当两个指标统计学检验P值都小于0.05时,就可以说A药疗效优于B药。

(2) A药在P1和P2两个主要变量中任何一个主要变量优于B药就说明A药疗效优于B药, 这时我们要做的也是对两种药物分别进行P1和P2两个指标的统计学检验,但不同的时,当两个指标统计学检验P值中有一个小于0.025(0.05/2)时,就可以说A药疗效优于B药。

当然以上例子介绍的是单纯的直接拿0.05除以k的调整方法,这种方法比较保守,当然还有其他调整方法,以后将加以介绍。

多个治疗组的比较(一)

在临床试验中,我们常遇到一些试验涉及多个治疗组。例如,最常见的情况如某项试验包括以下治疗组:

(1) 三个治疗组:高剂量试验药物、低剂量试验药物和对照组(阳性对照药或安慰剂)

(2) 四个治疗组:A药、B药、A药和B药联合、安慰剂

(3) 剂量反应研究:多个剂量组

(4) 。。。。。。

这时我们就需要针对不同的情况采取不同的方法了。

多个治疗组的比较(二)

对于涉及到多个治疗组的临床试验,一个常见的简单的办法就是定义一个主要的比较(primary comparison),这种情况最常见于高剂量试验药物、低剂量试验药物和对照组三组比较的试验中,以下是个例子:

某项研究旨在研究A药物对急性鼻窦炎的疗效,包括三个组:高剂量A药、低剂量A

药和安慰剂。这时我们可以把高剂量组和安慰剂的比较作为主要比较,具体的分析方法如下:

先对高剂量组和安慰剂进行比较

(1) 如果上述P值大于0.05,则无需进行低剂量和安慰剂的比较,结论是A药无效

(2) 如果上述P值小于0.05, 则再对低剂量组和安慰剂进行比较,如果这时低剂量比较的P值也小于0.05,说明无论高剂量还是低剂量都有效,如果时低剂量比较的P值大于0.05,则说明高剂量A药有效

当然上述是三组比较的例子,同理推断,如果有四组或以上的比较,我们可以根据临床意义对这些比较进行事先的排序,依次在显著性水平为0.05上进行统计比较,但需要记住的是,如果排序在前的比较没有达到统计学意义,那么排序随后的比较就无需进行而被认为是无统计学意义的了。

当然需要最后强调的一点是,上述比较的统计检验显著性水平均为0.05,无需进行调整。

多个治疗组的比较(三)

和前面提到的如果研究目的要求所有的主要变量都必须有统计学意义那么无需进行α的调整一样,如果研究目的要求所有的治疗组比较都有统计学意义的话,α也无需进行调整。

举个例子来说吧,某项试验想研究一下药物剂量和疗程对疗效的影响,有三个治疗组:

A组:X药物剂量为5mg疗程为24周

B组:X药物剂量为10mg疗程为24周

C组:X药物剂量为5mg疗程为48周

研究目的是显示,不仅B组优于A组而且C组优于A组,通俗地讲就是不仅剂量加大了疗效会变好而且疗程变长了疗效也会变好。这时就要求B组和A组比较、C组和A组比较都要有统计学意义。具体的做法就是:

(1) 对B组和A组进行统计学比较

(2) 对C组和A组进行统计学比较

(3) 看看上面两个比较的p值是否都小于0.05,如果是,才能达到研究目的

多个治疗组的比较(四)

我们想看一个药物在加大剂量或延长疗程后疗效有没有提高,同样有三个治疗组:

A组:X药物剂量为5mg疗程为24周

B组:X药物剂量为10mg疗程为24周

C组:X药物剂量为5mg疗程为48周

这时我们研究的目的是想显示B组优于A组(剂量加大是否提高疗效)或者C组优于A组(疗程延长是否提高疗效),我们并不需要剂量加大和疗程延长都能提高疗效,其中之一就达到研究目的。这时我们在统计分析时就要对α进行调整。下边介绍一个现在临床试验中比较流行的方法Hochberg Method。具体的做法是:

(1) 分别对B组和A组,C组和A组进行统计学比较,计算出各自比较的p值

(2) 对两个p值进行排序

(3) 如果较大的p值小于0.05则两个比较都有统计学意义,即B组和A组,C组和A组之间都有统计学差别

(4) 如果较大的p值大于0.05,则要看较小的p值,如果较小的p值小于0.05/2,则较小的p值对应的那个比较具有统计学意义,而较大的p值对应的那个比较无统计学意义;如果如果较小的p值大于0.05/2,则两个比较均无统计学意义。

盲法

在临床试验中,避免偏倚一个的两个重要设计技巧是盲法和随机化,这些都是注册试验所包含的临床对照试验的一般特点。在这篇博文中,小胖简单地给大家介绍一下盲法的一些基本知识。

何谓盲法?盲法就是为了控制在临床试验过程中以及对结果解释时产生有意或无意的偏倚。这些偏倚来自于哪里呢?这个很好理解,首先,如果俺知道了某个受试者分在了研究治疗组,在治疗过程中,俺可能就对他就比较照顾啊,对他治疗的态度比较好啊,在对

他的终点进行评价时也会产生有意或无意的偏倚,甚至如果他失访了,对他的处理也会产生偏差,甚至在分析时剔出一些数据方面,也会产生偏倚,等等。一句话,只要你知道了,在一系列的处理中,都有可能产生偏倚,而盲法要做到的就是让你不知道受试者接受何种治疗。

根据盲法实施的不同,可以分为以下四种临床试验类型:

1. 开放性试验(open-label):不实施盲法,受试者、研究者等都知道受试者的分组情况,这时我们需要强调的是,一旦你采取了开放性试验,你的endpoints必须是十分客观的指标,比如说生存率等

2. 单盲试验(single-blinded):对分组情况,受试者不知道而研究者知道。这种试验较为少见,其实据Spilker研究其效果与开放性试验类似。

3. 双盲试验(double-blinded):对分组情况,受试者和研究者都不知道。这种试验也是大部分临床试验的金标准,也最为常见。

4. 三盲试验(triple-blinded):对分组情况,受试者、研究者以及sponsor、统计师等都不知道。这种试验类型常见于药厂申办的临床试验。在这里小胖需要说的一点是,在实际操作中,

现在双盲试验和三盲试验很多时候都被大家混在一起,而被统称为双盲试验了。其实大家现在做的大部分双盲试验,sponsor也是不知道分组情况,另外有时统计师在分析时,也会采取盲法,即不知道具体的分组情况,只是用A组,B组来代替组别情况,等分析结果出来后,再揭盲,从而知道A组是什么组,B组又是什么组。

另外,小胖在这里提一下另外一个试验类型Third-party blind。对这个类型的试验,大家也许会在一些文献里遇到,对它的中文翻译,小胖也暂时没找到合适的词。实际上它并不属于盲法的类型,它是由和试验结果无利益关系的第三方来负责管理治疗分组情况。英文是这样说的,A resource not invested in the outcome of the trial is utilized to prepare and/ or administer the treatment 。

来源:MedSci医学统计与图表制作技巧

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务