推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

看透研究|33|统计报告规范:让你的方法部分经得起审查

   日期:2026-04-19 08:31:20     来源:网络整理    作者:本站编辑    评论:0    
看透研究|33|统计报告规范:让你的方法部分经得起审查

统计做得再好,写不清楚,等于没做。
Methods部分含糊的文章,读者无法判断结论是否可信。
无法判断可信度的结论,在循证医学里等于不存在。
这不是夸张,是对"可重复性"这个科学基本要求的字面翻译。

一封退稿信

BRIDGE研究投稿后三周,住院医收到了编辑的意见:
"The statistical methods are insufficiently described. Please provide details on the software used, model specification, handling of missing data, and correction for multiple comparisons."
住院医看完,转给导师:
"他们说统计方法描述不够。但我觉得我已经写了——用MMRM分析主要终点,用Cox回归分析骨折,用Kaplan-Meier画曲线……"
导师把稿子调出来,指着Methods的统计部分:
"你写了用什么方法,没写怎么用。MMRM用的什么协方差结构?固定效应里放了哪些变量?缺失数据的假设是什么?次要终点做了多重比较校正吗?用的什么方法?"
住院医逐一对照,发现这些细节他确实都没写。
"这些在论文里都没有,读者怎么判断你的分析是否正确?怎么重现你的结果?"
这封退稿信,是统计报告规范存在的理由。

四个主要报告规范

不同研究设计有对应的报告规范,核心目的一致:让读者在不看原始数据的情况下,能够评估研究方法是否合理,结论是否可信。

CONSORT(Consolidated Standards of Reporting Trials)

适用:随机对照试验。
核心要求:随机化方法(如何产生随机序列,如何隐藏分配)、盲法实施细节(谁被盲、如何实施)、CONSORT流程图(筛选→随机→干预→分析的患者流向)、ITT分析的定义和执行、所有预设终点的结果(不能只报告显著的)。
BRIDGE研究需要报告:300例患者的完整流程图,说明25例失访发生在哪个阶段、原因是什么,以及MMRM如何处理这些缺失数据。

STROBE(Strengthening the Reporting of Observational Studies in Epidemiology)

适用:队列研究、病例对照研究、横断面研究。
核心要求:研究设计的选择理由、暴露和结局的定义及测量方法、混杂因素的处理策略(多变量调整、倾向评分)、敏感性分析。
观察性研究比RCT更依赖STROBE——因为没有随机化,设计和分析的透明度是读者评估结论可信度的主要依据。

TRIPOD(Transparent Reporting of a multivariable prediction model)

适用:临床预测模型的建立和验证研究(第25篇)。
核心要求:预测模型的目的(预测vs解释)、样本量和EPV计算、变量选择方法(不能只写"逐步回归")、内部验证方法和Bootstrap校正结果、校准曲线和E/O比、DCA结果和临床适用阈值范围。

PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)

适用:系统综述和Meta分析(第26篇)。
核心要求:文献检索策略(数据库、检索词、时间范围)、纳入排除标准、偏倚风险评估工具(RCT用Cochrane RoB,观察性研究用NOS)、异质性量化(I²、τ²)、发表偏倚检验、PRISMA流程图(检索→筛题→全文→纳入的文献流向)。

Methods部分:六个必须写清楚的统计信息

不管哪种研究设计,统计方法部分至少需要说清楚以下六件事。

一、分析软件与版本

"统计分析使用R软件(版本4.3.1)完成,主要分析包括nlme(版本3.1-163)和survival(版本3.5-7)。"
版本号不是格式要求,是可重复性的基础——不同版本的软件,同一个函数的算法可能不同,结果可能有差异。只写"用SPSS进行统计分析",读者无法判断你用了哪个版本,用了什么检验,假设是什么。

二、模型规格

对于每个主要分析模型,需要说明:
固定效应里放了哪些变量(治疗组、时间、治疗×时间交互项、基线值、协变量)。
随机效应的结构(如果是混合效应模型)。
协方差结构的选择(MMRM用非结构化UN还是AR(1),选择理由是什么)。
BRIDGE研究MMRM的正确写法示例:
"主要终点采用混合效应重复测量模型(MMRM)分析。固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD,以及基线年龄和既往骨折史作为协变量。受试者间协方差结构采用非结构化(Unstructured)矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差,用于估计组间差值及其95%置信区间。"

三、缺失数据的假设和处理方法

不能只写"缺失数据用MMRM处理",需要说明:
假设的缺失机制(MAR、MCAR还是MNAR)。
MMRM在MAR假设下的处理逻辑。
敏感性分析如何检验MAR假设的稳健性(比如最坏情况填补、tipping point分析)。
"本研究假设数据在随机缺失(MAR)机制下缺失。MMRM在MAR假设下能够利用所有可用数据进行无偏估计,无需显式填补缺失值。为检验MAR假设的稳健性,预设了三种敏感性分析:完整案例分析(CCA)、多重填补(MI,m=20)、以及对失访患者假设无治疗效果的保守填补。"

四、多重比较校正策略

需要说明:
有多少个终点,哪些是主要的,哪些是次要的,哪些是探索性的。
检验顺序(Gatekeeping结构)。
每一层用的校正方法(主要终点α=0.05,次要终点Holm校正,探索性终点BH法)。
不说明这些,读者无法判断你的5个显著结果里有多少是在多重比较保护下的,有多少是裸奔的p值。

五、所有预设敏感性分析

敏感性分析必须在SAP里预设,在Results里完整报告——包括不显著的结果。
只报告和主要分析一致的敏感性分析,沉默不一致的,是选择性报告,本质上是一种报告偏倚。

六、亚组分析的预设状态

每个亚组分析,必须说明:预设还是事后,交互项检验的结果,以及结论的证据等级(确认性还是探索性假说)。

Results部分:效应量、置信区间和绝对数字

p值是补充,不是主角

"地舒单抗组腰椎BMD增加8.3%,唑来膦酸组增加5.6%,组间差值2.7%(95%CI:1.9%到3.5%),p=0.003。"
这是正确的写法——效应量和置信区间在前,p值在后,p值只是补充信息。
"两组BMD存在统计学显著差异(p=0.003)。"
这是错误的写法——p值在前,没有效应量,没有置信区间,读者无法判断差异有多大,方向如何,精度怎样。p值只告诉你"有没有",不告诉你"多大"。

绝对数字,不只是相对数字

骨折分析的正确报告:
"地舒单抗组骨折发生率5.3%,唑来膦酸组8.0%,HR=0.35(95%CI:0.17-0.74),p=0.006。绝对风险降低(ARR)=2.7%,需治疗人数(NNT)=37。"
只报告HR=0.35而不报告ARR和NNT,给临床医生的是一个相对数字——"降低65%的骨折风险"听起来很强,但基线风险8%时的ARR=2.7%,NNT=37,才是临床决策真正需要的数字(第20篇)。

几个禁用的统计表达

"趋势显著"(p=0.07):要么显著,要么不显著,没有"趋势"这个等级。p=0.07在预设α=0.05的框架下就是不显著,加"趋势"二字是在用自然语言绕过统计判断。
"高度显著"(p=0.001):显著性没有等级,p=0.001不比p=0.049"更显著",只是更小——但统计决策是二元的,越过阈值就是显著,没有高低之分。
"接近显著"(p=0.06):同上,这是不显著,不是"接近"显著。
"具有显著差异的趋势":这是什么意思?没有人能从统计上定义这个表达。
这几个说法的共同动机:研究者在p值没有越过阈值时,试图用自然语言的模糊性来软化"不显著"的结论。正确做法是直接报告效应量和置信区间,让读者自己判断临床意义——一个p=0.07但效应量2.5%、CI为0.1%到4.9%的结果,和一个p=0.07但效应量0.1%、CI为-0.5%到0.7%的结果,临床含义完全不同,不应该都被掩盖在"趋势显著"这四个字里。

BRIDGE的Methods标准写法vs常见错误写法

常见错误写法:
"统计分析采用SPSS 25.0完成。主要终点采用混合效应模型分析。次要终点包括全髋BMD、骨代谢标志物和骨折事件,采用相应统计方法分析。缺失数据采用最后观测值结转法(LOCF)处理。p<0.05认为差异有统计学意义。"
这段话的问题:没有说明模型的固定效应和协方差结构;次要终点"采用相应统计方法"完全没有信息量;LOCF已经被淘決,第13篇说明了原因;没有多重比较校正的说明;没有敏感性分析。
标准写法:
"统计分析采用R软件(版本4.3.1)完成。主要终点(腰椎BMD24月变化百分比)采用混合效应重复测量模型(MMRM)分析,固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD、年龄及既往骨折史,受试者间协方差结构采用非结构化矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差估计组间差值及95%置信区间(双侧α=0.05)。缺失数据假设在随机缺失(MAR)机制下,MMRM利用所有可用数据进行分析,不对缺失数据进行显式填补。预设三种敏感性分析检验MAR假设的稳健性:完整案例分析、多重填补(m=20,Rubin规则合并)及保守性填补。次要终点采用Holm法校正多重比较(预设检验顺序见SAP附录)。所有亚组分析为预设探索性分析,采用治疗×亚组交互项检验效应修正,交互项p值作为主要判断标准。"
两段话的信息密度差距,就是一篇文章能不能被审查、能不能被重现的差距。

本篇学到了什么

  • 不同研究设计有对应的报告规范:RCT用CONSORT,观察性研究用STROBE,预测模型用TRIPOD,系统综述用PRISMA——规范不是格式要求,是让读者评估结论可信度的前提
  • Methods部分六个必须写清楚的统计信息:分析软件与版本、模型规格(固定效应、协方差结构)、缺失数据假设和处理方法、多重比较校正策略、所有预设敏感性分析、亚组分析的预设状态
  • Results部分的核心原则:效应量+95%CI是主角,p值是补充;必须同时报告绝对数字(ARR、NNT)和相对数字(HR、RRR);"趋势显著""接近显著""高度显著"是用自然语言的模糊性绕过统计判断,都是不规范的表达

误用陷阱

"统计分析采用SPSS进行,p<0.05认为有统计学意义。"
这是临床研究Methods里最常见的不完整写法,几乎提供了零信息量。
没有版本号,没有具体检验方法,没有模型规格,没有缺失数据处理,没有多重比较校正。读者无法判断分析是否正确,无法重现结果,无法评估结论的可信度。
这个写法在低影响因子期刊里普遍存在,但高质量期刊的统计审稿人看到这一句,直接要求大修。
"所有统计检验均为双侧检验,p<0.05认为差异有统计学意义,统计分析由专业统计师完成。"
"由专业统计师完成"不是报告规范的替代品。
读者需要的是分析方法的细节,不是执行者的身份背书。统计师可以犯错,规范的Methods写法让读者能够独立判断分析是否正确,这是背书做不到的。
"未达到统计学显著性,可能与样本量不足有关(p=0.12)。"
这句话的逻辑是:我的结果不显著,但如果样本量更大可能就显著了。
这是对统计功效的错误使用——post-hoc power analysis的变体(第27篇)。
p=0.12时,正确的处理是报告效应量和置信区间,让读者评估临床意义:"观察到的组间差值为1.2%(95%CI:-0.3%到2.7%),95%置信区间包含0,也包含预设的最小临床重要差值2.1%,本研究无法排除临床意义上的效应存在,需要更大样本的研究进一步验证。"
这个写法比"样本量不足"更诚实,也更有信息量。

下一篇

这个系列走到第33篇。
从变量类型到生存分析,从缺失数据到贝叶斯更新,从样本量计算到报告规范——每一篇背后都有一个相同的问题:
BRIDGE研究的那个78岁患者,腰椎T值-3.1,既往发生过一次无痛性椎体骨折,她来门诊,你怎么做决策?
统计不是终点,她才是。
最后一篇,用BRIDGE研究串联全系列的统计决策链——从PICO到分析策略,从主要终点到敏感性分析,从效应量到临床决策,每一个统计选择对应的是哪个临床问题,每一个方法背后假设了什么,违反假设时结论会如何变化。
下一篇,这座桥是怎么建成的:统计决策链的全景回顾。

统计报告的目标是让读者在不看你的数据的情况下,能够重现你的分析——做不到这一点的Methods,是不完整的;不完整的Methods,让再好的统计分析都无从验证;无从验证的结论,在循证医学里等于不存在。
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON