推广 热搜： 采购方式甲带滤芯气动隔膜泵带式称重给煤机减速机型号无级变速机链式给煤机履带减速机

看透研究|33|统计报告规范:让你的方法部分经得起审查

日期：2026-04-19 08:31:20 来源：网络整理作者：本站编辑评论：0

统计做得再好，写不清楚，等于没做。

Methods部分含糊的文章，读者无法判断结论是否可信。

无法判断可信度的结论，在循证医学里等于不存在。

这不是夸张，是对"可重复性"这个科学基本要求的字面翻译。

一封退稿信

BRIDGE研究投稿后三周，住院医收到了编辑的意见：

"The statistical methods are insufficiently described. Please provide details on the software used, model specification, handling of missing data, and correction for multiple comparisons."

住院医看完，转给导师：

"他们说统计方法描述不够。但我觉得我已经写了——用MMRM分析主要终点，用Cox回归分析骨折，用Kaplan-Meier画曲线……"

导师把稿子调出来，指着Methods的统计部分：

"你写了用什么方法，没写怎么用。MMRM用的什么协方差结构？固定效应里放了哪些变量？缺失数据的假设是什么？次要终点做了多重比较校正吗？用的什么方法？"

住院医逐一对照，发现这些细节他确实都没写。

"这些在论文里都没有，读者怎么判断你的分析是否正确？怎么重现你的结果？"

这封退稿信，是统计报告规范存在的理由。

四个主要报告规范

不同研究设计有对应的报告规范，核心目的一致：让读者在不看原始数据的情况下，能够评估研究方法是否合理，结论是否可信。

CONSORT（Consolidated Standards of Reporting Trials）

适用：随机对照试验。

核心要求：随机化方法（如何产生随机序列，如何隐藏分配）、盲法实施细节（谁被盲、如何实施）、CONSORT流程图（筛选→随机→干预→分析的患者流向）、ITT分析的定义和执行、所有预设终点的结果（不能只报告显著的）。

BRIDGE研究需要报告：300例患者的完整流程图，说明25例失访发生在哪个阶段、原因是什么，以及MMRM如何处理这些缺失数据。

STROBE（Strengthening the Reporting of Observational Studies in Epidemiology）

适用：队列研究、病例对照研究、横断面研究。

核心要求：研究设计的选择理由、暴露和结局的定义及测量方法、混杂因素的处理策略（多变量调整、倾向评分）、敏感性分析。

观察性研究比RCT更依赖STROBE——因为没有随机化，设计和分析的透明度是读者评估结论可信度的主要依据。

TRIPOD（Transparent Reporting of a multivariable prediction model）

适用：临床预测模型的建立和验证研究（第25篇）。

核心要求：预测模型的目的（预测vs解释）、样本量和EPV计算、变量选择方法（不能只写"逐步回归"）、内部验证方法和Bootstrap校正结果、校准曲线和E/O比、DCA结果和临床适用阈值范围。

PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）

适用：系统综述和Meta分析（第26篇）。

核心要求：文献检索策略（数据库、检索词、时间范围）、纳入排除标准、偏倚风险评估工具（RCT用Cochrane RoB，观察性研究用NOS）、异质性量化（I²、τ²）、发表偏倚检验、PRISMA流程图（检索→筛题→全文→纳入的文献流向）。

Methods部分：六个必须写清楚的统计信息

不管哪种研究设计，统计方法部分至少需要说清楚以下六件事。

一、分析软件与版本

"统计分析使用R软件（版本4.3.1）完成，主要分析包括nlme（版本3.1-163）和survival（版本3.5-7）。"

版本号不是格式要求，是可重复性的基础——不同版本的软件，同一个函数的算法可能不同，结果可能有差异。只写"用SPSS进行统计分析"，读者无法判断你用了哪个版本，用了什么检验，假设是什么。

二、模型规格

对于每个主要分析模型，需要说明：

固定效应里放了哪些变量（治疗组、时间、治疗×时间交互项、基线值、协变量）。

随机效应的结构（如果是混合效应模型）。

协方差结构的选择（MMRM用非结构化UN还是AR(1)，选择理由是什么）。

BRIDGE研究MMRM的正确写法示例：

"主要终点采用混合效应重复测量模型（MMRM）分析。固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD，以及基线年龄和既往骨折史作为协变量。受试者间协方差结构采用非结构化（Unstructured）矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差，用于估计组间差值及其95%置信区间。"

三、缺失数据的假设和处理方法

不能只写"缺失数据用MMRM处理"，需要说明：

假设的缺失机制（MAR、MCAR还是MNAR）。

MMRM在MAR假设下的处理逻辑。

敏感性分析如何检验MAR假设的稳健性（比如最坏情况填补、tipping point分析）。

"本研究假设数据在随机缺失（MAR）机制下缺失。MMRM在MAR假设下能够利用所有可用数据进行无偏估计，无需显式填补缺失值。为检验MAR假设的稳健性，预设了三种敏感性分析：完整案例分析（CCA）、多重填补（MI，m=20）、以及对失访患者假设无治疗效果的保守填补。"

四、多重比较校正策略

需要说明：

有多少个终点，哪些是主要的，哪些是次要的，哪些是探索性的。

检验顺序（Gatekeeping结构）。

每一层用的校正方法（主要终点α=0.05，次要终点Holm校正，探索性终点BH法）。

不说明这些，读者无法判断你的5个显著结果里有多少是在多重比较保护下的，有多少是裸奔的p值。

五、所有预设敏感性分析

敏感性分析必须在SAP里预设，在Results里完整报告——包括不显著的结果。

只报告和主要分析一致的敏感性分析，沉默不一致的，是选择性报告，本质上是一种报告偏倚。

六、亚组分析的预设状态

每个亚组分析，必须说明：预设还是事后，交互项检验的结果，以及结论的证据等级（确认性还是探索性假说）。

Results部分：效应量、置信区间和绝对数字

p值是补充，不是主角

"地舒单抗组腰椎BMD增加8.3%，唑来膦酸组增加5.6%，组间差值2.7%（95%CI：1.9%到3.5%），p=0.003。"

这是正确的写法——效应量和置信区间在前，p值在后，p值只是补充信息。

"两组BMD存在统计学显著差异（p=0.003）。"

这是错误的写法——p值在前，没有效应量，没有置信区间，读者无法判断差异有多大，方向如何，精度怎样。p值只告诉你"有没有"，不告诉你"多大"。

绝对数字，不只是相对数字

骨折分析的正确报告：

"地舒单抗组骨折发生率5.3%，唑来膦酸组8.0%，HR=0.35（95%CI：0.17-0.74），p=0.006。绝对风险降低（ARR）=2.7%，需治疗人数（NNT）=37。"

只报告HR=0.35而不报告ARR和NNT，给临床医生的是一个相对数字——"降低65%的骨折风险"听起来很强，但基线风险8%时的ARR=2.7%，NNT=37，才是临床决策真正需要的数字（第20篇）。

几个禁用的统计表达

"趋势显著"（p=0.07）：要么显著，要么不显著，没有"趋势"这个等级。p=0.07在预设α=0.05的框架下就是不显著，加"趋势"二字是在用自然语言绕过统计判断。

"高度显著"（p=0.001）：显著性没有等级，p=0.001不比p=0.049"更显著"，只是更小——但统计决策是二元的，越过阈值就是显著，没有高低之分。

"接近显著"（p=0.06）：同上，这是不显著，不是"接近"显著。

"具有显著差异的趋势"：这是什么意思？没有人能从统计上定义这个表达。

这几个说法的共同动机：研究者在p值没有越过阈值时，试图用自然语言的模糊性来软化"不显著"的结论。正确做法是直接报告效应量和置信区间，让读者自己判断临床意义——一个p=0.07但效应量2.5%、CI为0.1%到4.9%的结果，和一个p=0.07但效应量0.1%、CI为-0.5%到0.7%的结果，临床含义完全不同，不应该都被掩盖在"趋势显著"这四个字里。

BRIDGE的Methods标准写法vs常见错误写法

常见错误写法：

"统计分析采用SPSS 25.0完成。主要终点采用混合效应模型分析。次要终点包括全髋BMD、骨代谢标志物和骨折事件，采用相应统计方法分析。缺失数据采用最后观测值结转法（LOCF）处理。p<0.05认为差异有统计学意义。"

这段话的问题：没有说明模型的固定效应和协方差结构；次要终点"采用相应统计方法"完全没有信息量；LOCF已经被淘決，第13篇说明了原因；没有多重比较校正的说明；没有敏感性分析。

标准写法：

"统计分析采用R软件（版本4.3.1）完成。主要终点（腰椎BMD24月变化百分比）采用混合效应重复测量模型（MMRM）分析，固定效应包括治疗组、访视时间点、治疗×时间交互项、基线腰椎BMD、年龄及既往骨折史，受试者间协方差结构采用非结构化矩阵。主要推断基于24月时治疗×时间交互项的最小二乘均值差估计组间差值及95%置信区间（双侧α=0.05）。缺失数据假设在随机缺失（MAR）机制下，MMRM利用所有可用数据进行分析，不对缺失数据进行显式填补。预设三种敏感性分析检验MAR假设的稳健性：完整案例分析、多重填补（m=20，Rubin规则合并）及保守性填补。次要终点采用Holm法校正多重比较（预设检验顺序见SAP附录）。所有亚组分析为预设探索性分析，采用治疗×亚组交互项检验效应修正，交互项p值作为主要判断标准。"

两段话的信息密度差距，就是一篇文章能不能被审查、能不能被重现的差距。

本篇学到了什么

不同研究设计有对应的报告规范：RCT用CONSORT，观察性研究用STROBE，预测模型用TRIPOD，系统综述用PRISMA——规范不是格式要求，是让读者评估结论可信度的前提
Methods部分六个必须写清楚的统计信息：分析软件与版本、模型规格（固定效应、协方差结构）、缺失数据假设和处理方法、多重比较校正策略、所有预设敏感性分析、亚组分析的预设状态
Results部分的核心原则：效应量+95%CI是主角，p值是补充；必须同时报告绝对数字（ARR、NNT）和相对数字（HR、RRR）；"趋势显著""接近显著""高度显著"是用自然语言的模糊性绕过统计判断，都是不规范的表达

误用陷阱

"统计分析采用SPSS进行，p<0.05认为有统计学意义。"

这是临床研究Methods里最常见的不完整写法，几乎提供了零信息量。

没有版本号，没有具体检验方法，没有模型规格，没有缺失数据处理，没有多重比较校正。读者无法判断分析是否正确，无法重现结果，无法评估结论的可信度。

这个写法在低影响因子期刊里普遍存在，但高质量期刊的统计审稿人看到这一句，直接要求大修。

"所有统计检验均为双侧检验，p<0.05认为差异有统计学意义，统计分析由专业统计师完成。"

"由专业统计师完成"不是报告规范的替代品。

读者需要的是分析方法的细节，不是执行者的身份背书。统计师可以犯错，规范的Methods写法让读者能够独立判断分析是否正确，这是背书做不到的。

"未达到统计学显著性，可能与样本量不足有关（p=0.12）。"

这句话的逻辑是：我的结果不显著，但如果样本量更大可能就显著了。

这是对统计功效的错误使用——post-hoc power analysis的变体（第27篇）。

p=0.12时，正确的处理是报告效应量和置信区间，让读者评估临床意义："观察到的组间差值为1.2%（95%CI：-0.3%到2.7%），95%置信区间包含0，也包含预设的最小临床重要差值2.1%，本研究无法排除临床意义上的效应存在，需要更大样本的研究进一步验证。"

这个写法比"样本量不足"更诚实，也更有信息量。

看透研究|33|统计报告规范:让你的方法部分经得起审查

一封退稿信

四个主要报告规范

CONSORT（Consolidated Standards of Reporting Trials）

STROBE（Strengthening the Reporting of Observational Studies in Epidemiology）

TRIPOD（Transparent Reporting of a multivariable prediction model）

PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）

Methods部分：六个必须写清楚的统计信息

一、分析软件与版本

二、模型规格

三、缺失数据的假设和处理方法

四、多重比较校正策略

五、所有预设敏感性分析

六、亚组分析的预设状态

Results部分：效应量、置信区间和绝对数字

p值是补充，不是主角

绝对数字，不只是相对数字

几个禁用的统计表达

BRIDGE的Methods标准写法vs常见错误写法

本篇学到了什么

误用陷阱

下一篇