看透研究|33|统计报告规范:让你的方法部分经得起审查
Methods部分含糊的文章,读者无法判断结论是否可信。这不是夸张,是对"可重复性"这个科学基本要求的字面翻译。
一封退稿信
BRIDGE研究投稿后三周,住院医收到了编辑的意见:"The statistical methods are insufficiently described. Please provide details on the software used, model specification, handling of missing data, and correction for multiple comparisons.""他们说统计方法描述不够。但我觉得我已经写了——用MMRM分析主要终点,用Cox回归分析骨折,用Kaplan-Meier画曲线……""你写了用什么方法,没写怎么用。MMRM用的什么协方差结构?固定效应里放了哪些变量?缺失数据的假设是什么?次要终点做了多重比较校正吗?用的什么方法?""这些在论文里都没有,读者怎么判断你的分析是否正确?怎么重现你的结果?"
四个主要报告规范
不同研究设计有对应的报告规范,核心目的一致:让读者在不看原始数据的情况下,能够评估研究方法是否合理,结论是否可信。CONSORT(Consolidated Standards of Reporting Trials)
核心要求:随机化方法(如何产生随机序列,如何隐藏分配)、盲法实施细节(谁被盲、如何实施)、CONSORT流程图(筛选→随机→干预→分析的患者流向)、ITT分析的定义和执行、所有预设终点的结果(不能只报告显著的)。BRIDGE研究需要报告:300例患者的完整流程图,说明25例失访发生在哪个阶段、原因是什么,以及MMRM如何处理这些缺失数据。STROBE(Strengthening the Reporting of Observational Studies in Epidemiology)
核心要求:研究设计的选择理由、暴露和结局的定义及测量方法、混杂因素的处理策略(多变量调整、倾向评分)、敏感性分析。观察性研究比RCT更依赖STROBE——因为没有随机化,设计和分析的透明度是读者评估结论可信度的主要依据。TRIPOD(Transparent Reporting of a multivariable prediction model)
核心要求:预测模型的目的(预测vs解释)、样本量和EPV计算、变量选择方法(不能只写"逐步回归")、内部验证方法和Bootstrap校正结果、校准曲线和E/O比、DCA结果和临床适用阈值范围。PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)
核心要求:文献检索策略(数据库、检索词、时间范围)、纳入排除标准、偏倚风险评估工具(RCT用Cochrane RoB,观察性研究用NOS)、异质性量化(I²、τ²)、发表偏倚检验、PRISMA流程图(检索→筛题→全文→纳入的文献流向)。
Methods部分:六个必须写清楚的统计信息
不管哪种研究设计,统计方法部分至少需要说清楚以下六件事。一、分析软件与版本
"统计分析使用R软件(版本4.3.1)完成,主要分析包括nlme(版本3.1-163)和survival(版本3.5-7)。"版本号不是格式要求,是可重复性的基础——不同版本的软件,同一个函数的算法可能不同,结果可能有差异。只写"用SPSS进行统计分析",读者无法判断你用了哪个版本,用了什么检验,假设是什么。二、模型规格
固定效应里放了哪些变量(治疗组、时间、治疗×时间交互项、基线值、协变量)。协方差结构的选择(MMRM用非结构化UN还是AR(1),选择理由是什么)。"主要终点采用混合效应重复测量模型(MMRM)分析。固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD,以及基线年龄和既往骨折史作为协变量。受试者间协方差结构采用非结构化(Unstructured)矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差,用于估计组间差值及其95%置信区间。"三、缺失数据的假设和处理方法
敏感性分析如何检验MAR假设的稳健性(比如最坏情况填补、tipping point分析)。"本研究假设数据在随机缺失(MAR)机制下缺失。MMRM在MAR假设下能够利用所有可用数据进行无偏估计,无需显式填补缺失值。为检验MAR假设的稳健性,预设了三种敏感性分析:完整案例分析(CCA)、多重填补(MI,m=20)、以及对失访患者假设无治疗效果的保守填补。"四、多重比较校正策略
有多少个终点,哪些是主要的,哪些是次要的,哪些是探索性的。每一层用的校正方法(主要终点α=0.05,次要终点Holm校正,探索性终点BH法)。不说明这些,读者无法判断你的5个显著结果里有多少是在多重比较保护下的,有多少是裸奔的p值。五、所有预设敏感性分析
敏感性分析必须在SAP里预设,在Results里完整报告——包括不显著的结果。只报告和主要分析一致的敏感性分析,沉默不一致的,是选择性报告,本质上是一种报告偏倚。六、亚组分析的预设状态
每个亚组分析,必须说明:预设还是事后,交互项检验的结果,以及结论的证据等级(确认性还是探索性假说)。
Results部分:效应量、置信区间和绝对数字
p值是补充,不是主角
"地舒单抗组腰椎BMD增加8.3%,唑来膦酸组增加5.6%,组间差值2.7%(95%CI:1.9%到3.5%),p=0.003。"这是正确的写法——效应量和置信区间在前,p值在后,p值只是补充信息。"两组BMD存在统计学显著差异(p=0.003)。"这是错误的写法——p值在前,没有效应量,没有置信区间,读者无法判断差异有多大,方向如何,精度怎样。p值只告诉你"有没有",不告诉你"多大"。绝对数字,不只是相对数字
"地舒单抗组骨折发生率5.3%,唑来膦酸组8.0%,HR=0.35(95%CI:0.17-0.74),p=0.006。绝对风险降低(ARR)=2.7%,需治疗人数(NNT)=37。"只报告HR=0.35而不报告ARR和NNT,给临床医生的是一个相对数字——"降低65%的骨折风险"听起来很强,但基线风险8%时的ARR=2.7%,NNT=37,才是临床决策真正需要的数字(第20篇)。几个禁用的统计表达
"趋势显著"(p=0.07):要么显著,要么不显著,没有"趋势"这个等级。p=0.07在预设α=0.05的框架下就是不显著,加"趋势"二字是在用自然语言绕过统计判断。"高度显著"(p=0.001):显著性没有等级,p=0.001不比p=0.049"更显著",只是更小——但统计决策是二元的,越过阈值就是显著,没有高低之分。"接近显著"(p=0.06):同上,这是不显著,不是"接近"显著。"具有显著差异的趋势":这是什么意思?没有人能从统计上定义这个表达。这几个说法的共同动机:研究者在p值没有越过阈值时,试图用自然语言的模糊性来软化"不显著"的结论。正确做法是直接报告效应量和置信区间,让读者自己判断临床意义——一个p=0.07但效应量2.5%、CI为0.1%到4.9%的结果,和一个p=0.07但效应量0.1%、CI为-0.5%到0.7%的结果,临床含义完全不同,不应该都被掩盖在"趋势显著"这四个字里。
BRIDGE的Methods标准写法vs常见错误写法
"统计分析采用SPSS 25.0完成。主要终点采用混合效应模型分析。次要终点包括全髋BMD、骨代谢标志物和骨折事件,采用相应统计方法分析。缺失数据采用最后观测值结转法(LOCF)处理。p<0.05认为差异有统计学意义。"这段话的问题:没有说明模型的固定效应和协方差结构;次要终点"采用相应统计方法"完全没有信息量;LOCF已经被淘決,第13篇说明了原因;没有多重比较校正的说明;没有敏感性分析。"统计分析采用R软件(版本4.3.1)完成。主要终点(腰椎BMD24月变化百分比)采用混合效应重复测量模型(MMRM)分析,固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD、年龄及既往骨折史,受试者间协方差结构采用非结构化矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差估计组间差值及95%置信区间(双侧α=0.05)。缺失数据假设在随机缺失(MAR)机制下,MMRM利用所有可用数据进行分析,不对缺失数据进行显式填补。预设三种敏感性分析检验MAR假设的稳健性:完整案例分析、多重填补(m=20,Rubin规则合并)及保守性填补。次要终点采用Holm法校正多重比较(预设检验顺序见SAP附录)。所有亚组分析为预设探索性分析,采用治疗×亚组交互项检验效应修正,交互项p值作为主要判断标准。"两段话的信息密度差距,就是一篇文章能不能被审查、能不能被重现的差距。
本篇学到了什么
- 不同研究设计有对应的报告规范:RCT用CONSORT,观察性研究用STROBE,预测模型用TRIPOD,系统综述用PRISMA——规范不是格式要求,是让读者评估结论可信度的前提
- Methods部分六个必须写清楚的统计信息:分析软件与版本、模型规格(固定效应、协方差结构)、缺失数据假设和处理方法、多重比较校正策略、所有预设敏感性分析、亚组分析的预设状态
- Results部分的核心原则:效应量+95%CI是主角,p值是补充;必须同时报告绝对数字(ARR、NNT)和相对数字(HR、RRR);"趋势显著""接近显著""高度显著"是用自然语言的模糊性绕过统计判断,都是不规范的表达
误用陷阱
"统计分析采用SPSS进行,p<0.05认为有统计学意义。"这是临床研究Methods里最常见的不完整写法,几乎提供了零信息量。没有版本号,没有具体检验方法,没有模型规格,没有缺失数据处理,没有多重比较校正。读者无法判断分析是否正确,无法重现结果,无法评估结论的可信度。这个写法在低影响因子期刊里普遍存在,但高质量期刊的统计审稿人看到这一句,直接要求大修。"所有统计检验均为双侧检验,p<0.05认为差异有统计学意义,统计分析由专业统计师完成。"读者需要的是分析方法的细节,不是执行者的身份背书。统计师可以犯错,规范的Methods写法让读者能够独立判断分析是否正确,这是背书做不到的。"未达到统计学显著性,可能与样本量不足有关(p=0.12)。"这句话的逻辑是:我的结果不显著,但如果样本量更大可能就显著了。这是对统计功效的错误使用——post-hoc power analysis的变体(第27篇)。p=0.12时,正确的处理是报告效应量和置信区间,让读者评估临床意义:"观察到的组间差值为1.2%(95%CI:-0.3%到2.7%),95%置信区间包含0,也包含预设的最小临床重要差值2.1%,本研究无法排除临床意义上的效应存在,需要更大样本的研究进一步验证。"
下一篇
从变量类型到生存分析,从缺失数据到贝叶斯更新,从样本量计算到报告规范——每一篇背后都有一个相同的问题:BRIDGE研究的那个78岁患者,腰椎T值-3.1,既往发生过一次无痛性椎体骨折,她来门诊,你怎么做决策?最后一篇,用BRIDGE研究串联全系列的统计决策链——从PICO到分析策略,从主要终点到敏感性分析,从效应量到临床决策,每一个统计选择对应的是哪个临床问题,每一个方法背后假设了什么,违反假设时结论会如何变化。下一篇,这座桥是怎么建成的:统计决策链的全景回顾。
统计报告的目标是让读者在不看你的数据的情况下,能够重现你的分析——做不到这一点的Methods,是不完整的;不完整的Methods,让再好的统计分析都无从验证;无从验证的结论,在循证医学里等于不存在。