2016 (368)
2017 (136)
2018 (148)
2019 (185)
2020 (305)
2021 (216)
2022 (127)
2023 (142)
过去两周,美国两家企业,Pfizer和Moderna,相继宣布了它们的三期临床试验初步数据,都达到了惊人的90%以上的有效率,这给了深陷新冠灾难不可自拔的世界一个希望。而且据说这种新型mRNA生产相对容易,安全,光Pfizer一家,年产量就可以达到14亿支,加上Moderna,也许还有新来者,明年世界有望拜托新冠这个噩梦。
但我仔细看了Pfizer的统计方法,(Moderna也用的同样方法),觉得一惊,这个方法好像有点不对劲。我当然不是大统计学家,但也算内行,在此就将这个疑虑说出来,与大家分享,有高手也希望与我解惑。
我在工业部门(不是学术研究)做过疫苗和蛋白药物的免疫原性试验(Immunogenecity),对疫苗的临床试验过程有一点了解,以我以往的了解,疫苗在批准前需完成三期临床试验。和其它药物的临床试验不同,疫苗的受试者(Subject)全是正常的志愿者,而不是病人。
一期试验的目的是安全性。根据临床前在动物身上摸索出的剂量,从小计量开始,逐渐升级,在几十个受试者身上观察毒副作用,当到达出现了严重副作用的剂量,试验终止。一期试验成功,只是说找到了安全的剂量范围。也有药物从最小剂量开始就有很大副作用,或疫苗受试者感染上了新冠,那可能这个疫苗的安全性有问题,就不再进行下去了。
二期试验是安全性和免疫原性试验。安全性贯其一生都是重要指标,疫苗的有效性要看其是否有预防作用,这和大多数药物着重于治疗性不同。在二期还无法作预防性试验,只是看疫苗能否在受试者身上激发其免疫原性。
人体免疫原性有两个分支,体液免疫和细胞免疫。这两者是互相联系的,大多数免疫反应两者都有。相比之下,体液免疫有可溶性的抗体,测定方法比较简单可靠,所以大多数疫苗都以测定抗体为主要观察指标。一个疫苗可以激发无数种抗体,我们一定要证明所测到的抗体能够阻止病毒进入体内,或抑制某种功能,是所谓中和抗体(Neutralizing),这需要一系列复杂的步骤。如果在二期试验内没发现严重副作用,并在多数受试者体内测到高滴度的中和抗体,这说明疫苗过了第二关,可以进入第三关了。
三期试验是安全性和预防有效性试验。受试者人数需上万例,必须在流行区域进行。受试者随机分两组,一组接种疫苗,一组接种安慰剂,通常是包装和疫苗一样的生理盐水。谁是疫苗组,谁是安慰剂组,受试者自己不知道,接种的医护人员也不知道,所谓双盲,只有最后分析时才揭盲,以避免人为的倾向性(BIAS)。
Pfizer公布的方法是这样的: 招募到的受试者被随机双盲注射两剂疫苗或安慰剂(间隔7天),然后就让他们如常生活,并没有强调不许自我防护。当其中出现确诊的新冠病例到达164例时,或总例数到达44,000时,(看哪一个先到达),则终止试验。按原计划,在达到确诊新冠数30,60,120例时要进行中期分析,但因技术原因无法进行。到11月份,总试验例数达到了43,538例,已经接近44,000的终止指标时开始了中期分析,当时的确诊新冠病人有94例,其中打疫苗只有8例得病,因此得出保护率90%的结论。进一步试验目标修正为达到确诊数120例时终止(不是164例了)。
我想象中的临床试验方法是这样的:试验组和安慰剂组暴露在同样条件下,比较两组的感染率,进行统计学分析,根据P值,如果随机因素造成的概率<0.05,判断为两组有显著差异。试验组的感染率低,则为疫苗有效,有效率的差距>50%,可以上市。
而Pfizer的方法不是这样的,试验组和安慰剂组的暴露情况并不能保证一致,当然,伦理上不能要求受试者不进行自我保护,但客观上,这样做参试者的暴露情况是不一致的。虽然,那些得了病的一定是受到有效病毒暴露了,因此在他们中间是否接种疫苗而造成的感染率不同,确实具有一定的意义,但我觉得这不是真正意义上的统计学显著差异,而只是算术差异。这里的90%有效率,并不等同于统计学上的90%有效率。
这就好比验证两组妇女,哪组更容易怀孕。你的做法不是让两组妇女在受孕期和同一个男子性交来比较受孕率,而是把她们放羊,一定时间后检查受了孕的妇女的数量,比较两组的差异。这里的影响因素多了,妇女有没有性交,是不是受孕期,和男人是否不对......
统计学是门很tricky的科学,这次美国大选的民调也是基于统计学的,结果一笔吊帐。从我的眼光看,这些疫苗应该说是有效的,但其真正有效率还需要在实际使用中得到验证。
用这么少的几例阳性来比较两种疫苗的有效率就是数字游戏。
Donald_Trump 发表评论于 2020-11-17 19:50:55
再用Moderna数据: 95人5人疫苗。如没疫苗就有90人感染,疫苗救了85人。疫苗有效率=85/90=94.44%。即所谓接近95%。
新冠的感染受防护措施影响极大。戴好N95口罩,打疫苗的防护作用根本看不到。不强制让受试者不加防护与确诊新冠病人密切接触足够长时间,怎么能确切观察到疫苗的保护效果?
统计学无法解决实验设计的缺陷。这两个疫苗的保护性到底多强仍然存在疑问。
从招募志愿者角度考虑,如果参加实验就要和确诊病人共处,没人愿意被分到对照组,那能不能招够志愿者都难说。除了人性化考虑,不限制受试者使用防护措施必然降低感染率,数据好看。说实在的,打疫苗打的不就是信心嘛。谁不想接种100%有效的呢? 从制药公司的生意角度考虑,客观指标在二期的中和抗体滴度里呢。三期没有严重副作用就可以放心使用了。难道要搞出保护率低的数据让前期投入打水漂不成?
疫苗的保护性实验不限制受试者的防护措施有其难言之隐,是综合平衡的考虑。相信疫苗的尽早接种,不信的戴好口罩。
收试者本来或因受试疫苗变得更懂。这不影响结论,毕竟两组几万人都一样有可比性!
如50%以上,即94人感染,其中23.5人感染.
一、是random sampling的
二、A|B test 有做 propensity score matching
就基本就可以了,何况样本数量有4万多个,从大数据来看很足够了!我看Pfizer的数据应该没问题。
楼主的担忧完全可以使用 propensity score matching 解决,稍微对统计有些认识的研究人员都知道的。
大选前民调不准,那是sampling技术不好,而统计模型也没有对数据的粗糙做出必要矫正,这说明统计学用得不够,用得不到家,并非是看不上统计学的理由。
问卷调查很难避免一些受访者在一些问题上说谎,想不出有什么好办法可以校正这种偏差。也许同时测谎?
因为并不是所有受试者在特定时间,比如打第二针后某天接受病毒检测,只是自觉出现症状就医确诊,又因为理论上存在大量无症状感染者,所以只能说,疫苗可减轻感染后症状或避免感染者出现症状。这个数据并不能证实疫苗的作用肯定是避免感染。
传统上一个成功疫苗的研发要10多年,现在搞大跃进,非要几个月就得结论,所以很难避免这种有点糊了糊涂的结论。
2万人随机分到对照,另外2万人随机分到疫苗组,基本就能保证暴露状况一致了。而且的分组的时候,要确保两组间的年龄,基础病状况差不多。