一、不同随机分组方法的使用情况
Lin等人研究发现[1],2014年在新英格兰医学杂志、Lancet和JAMA发表的224个RCT中,使用简单随机分组的只有12个(6%),而分层(区组)随机分组的有156个(70%)(图1)。
图1. 2014年NEJM、Lancet和JAMA上发表RCT的随机分组方法(N=224)
检索万方数据库2014年全年“医药卫生”领域的“期刊论文”发现,主题词为“随机 and(区组 or 分层)”的文献数量仅占了主题词为“随机”的文献数量的1%(图2)。
图2. 2014年万方数据库医药卫生领域期刊论文的主题词检索结果
大致浏览后发现,主题词包含“随机 and(区组 or 分层)”的这1%的文献,大多数是因为主题词中有“随机分组”和“分层分析”而被检索到,而不是“分层随机化”。
可以猜想的是,中文报道的研究中,很少使用分层(区组)随机分组,或者使用了但未详细报道。
“只会简单随机化?Naive!”中已经介绍,简单随机分组时,组间人数不相等才是大概率事件。那么,为什么中文文献中,绝大部分采用简单随机分组,但两组样本量完全相等的研究报告那么多呢?
二、为什么要实施区组随机化
理想情况下,简单随机分组后,就能使1)组间基线特征基本均衡;2)组间人数基本相等; 3)组间重要协变量均衡。(重要协变量指的是与主要评价指标具有较强相关关系的预后因子,如年龄、疾病严重程度等。)然而,实际情况并不是这样的。相反,简单随机分组时,组间人数不相等才是大概率事件。
举例来看,某RCT纳入10名研究对象,如果简单随机分组为干预组(A)和对照组(B),就有8.8%的概率产生分配出以下样本量:干预组8名,对照组2名;或者干预组2名,对照组8名。两组人数完全相等的概率只有24.6%。另外,如果不同特征的研究对象入组时间明显不同(如早期进入研究的都病情较重),也会对试验结果产生影响。
区组随机化就能解决这个问题。
实际上,简单随机分组在临床试验中使用已经很少,而分层区组随机分组(Stratified Blocked Randomization)才是目前临床试验中应用最多最广泛的方法。
三、区组随机化如何实施
所谓区组 (Block),我们可以把它想象成一些格子(图3-1)。在分配研究对象时,先将研究对象装在这些格子中,再随机分配,并可以保证每个格子中的干预组(A)和对照组(B)的研究对象数量完全相等。
图3. 区组随机分组示意图
区组随机化时,要先设定区组长度,即一个区组内要装多少个研究对象。区组长度至少是研究组数的2倍,建议区组长度设置为4-10。如只有两组时,区组长度可以是4、6、8……
我们以区组长度4为例:
1、一个区组内的4个研究对象可以有6种排列方式:1. AABB, 2. ABAB, 3. ABBA, 4. BAAB, 5. BABA, 6. BBAA (图3-2)
2、确定好所有的排列形式后,接下来需要将6个区组随机排列。我们可以用各种方式(如SPSS、Excel、SAS等)产生一串随机数字,比如:92591264823981721367278057575098834352688429029……
3、因为只有6种排列方式,因此可以只选择1-6之间的数字,25126423121362555343526422……
4、按照上述随机数字排列区组(图3-3)。当然,也可以采用其它方法随机排列区组。
至此,区组随机化就完成了,两组人数完全相等。
四、区组随机化的其它问题
如果是研究未采用盲法,则区组长度必须隐藏。否则,会出现以下情况(以两组,区组长度=4为例)
B A B ? 肯定是A。
A A ? ? 肯定是B B。
这样会带来选择偏倚。如何避免这种情况呢?
可以设计为随机长度的区组,如区组长度依次为4、6、6、8、6、4、8、8、4……
参考文献
1. Lin Y, et al. The pursuit of balance: An overview of covariate-adaptive randomization techniques in clinical trials. Contemp Clin Trials. 2015;45:21-5.
(更多内容请关注医咖会微信:用生动有趣的形式传播医学知识和研究进展,探讨临床研究方法学。)
我来说两句排行榜