文献精讲|放射学中大语言模型研究的报告指南:一项国际德尔菲专家调查

文献精讲｜放射学中大语言模型研究的报告指南：一项国际德尔菲专家调查

本研究发表于Radiology2026年第318卷第2期，通过系统综述联合国际德尔菲专家调查法，首次制定了放射学领域大语言模型（LLM）研究的专属报告指南——FLAIR（Framework for LLM Assessment in Radiology）清单。该研究填补了放射学LLM研究缺乏标准化报告规范的空白，为提升该领域研究的可重复性、可靠性及临床适用性提供了共识性框架，对推动LLM在放射学中的临床转化与应用具有重要的学术与实践价值。

一、研究背景与研究目的

LLMs基于transformer架构，相较传统深度神经网络具备更强的复杂序列数据解读与上下文理解能力，在放射学工作流中展现出变革性应用潜力，涵盖文本总结、诊断决策支持、报告校对、结构化报告生成、多模态影像-文本数据整合等多个方向。视觉语言模型更实现了视觉与文本数据的融合，为放射学整体诊断提供了新的研究思路。

但目前放射学LLM相关研究呈快速增长趋势，研究方法与结果报告存在显著异质性，且缺乏针对该领域的标准化LLM研究报告规范。LLM的性能受架构、训练数据集、提示工程、微调方法等多种参数影响，加之放射学领域存在专业数据格式、多模态工作流等特有特征，现有通用AI研究报告清单（如CLAIM、TRIPOD-LLM）无法满足放射学LLM研究的报告需求，严重影响研究的可重复性、可比性及临床转化。

基于此，本研究旨在制定放射学LLM研究的结构化报告指南，补充现有AI研究报告规范的不足，为该领域研究提供标准化的报告框架。

二、研究方法：共识性清单的开发

本研究采用两步法开发放射学LLM研究的共识性报告清单，整体研究设计严格遵循学术规范，确保清单的科学性、系统性与实用性，具体包括系统文献综述与初始条目筛选、德尔菲法专家共识评估两个部分。

（一）系统文献综述与初始条目筛选

检索策略：于PubMed、IEEE Xplore、ACM Digital Library三大数据库，检索2023年5月至2024年3月发表的放射学LLM相关研究。检索词包含MeSH术语（radiology、large language models）、自由文本关键词（radiology、imaging、large language models、LLMs）及具体LLM模型名称，同时追溯纳入研究与相关综述的参考文献，确保检索的全面性。
纳入与排除标准：纳入原发性研究、聚焦放射学领域LLM应用、评估模型定量性能/准确性或定性影响的研究；排除非放射学/非LLM研究、非原发性研究（社论、综述、读者来信、评论等）、非同行评审/会议相关成果（摘要、预印本、病例报告、书籍章节等）。
研究筛选：由2名研究者独立进行标题与摘要的初筛及全文的资格审核，纳入决策的分歧通过讨论或第三位研究者咨询解决。共检索获得511项研究，经多轮筛选最终57项纳入详细分析【图】。
图注：流程图展示研究选择过程。对PubMed（美国卫生与公众服务部）、IEEE Xplore（电气和电子工程师协会）和ACM Digital Library（计算机协会数字图书馆）2023年5月至2024年3月发表的研究进行系统数据库检索，共筛选511项研究记录，444项因研究范围或文章类型不符合被排除，67项进行全文评估，其中10项因研究主题或文章类型不符被进一步排除，最终57项相关研究被纳入详细分析。
数据提取与初始条目确定：2名研究者独立提取纳入研究中与报告相关的方法学及结果信息，分歧经讨论解决。从纳入研究中识别出14项与放射学LLM研究评估和报告相关的核心方面，并将其划分为3个大类，作为德尔菲法专家共识评估的初始讨论条目。

（二）德尔菲法专家共识评估

专家委员会遴选：基于研究的转化属性，从临床放射学、计算机科学、放射学领域期刊的科学评审/编辑三大领域招募国际专家，确保覆盖临床与技术研究的多学科视角。专家遴选标准为：持有MD或PhD学位，且在至少一个相关领域拥有≥5年博士后研究经验；具备AI专业能力，满足以下至少2项标准——发表≥5篇AI/LLM领域原创文章、担任影响因子前10%放射学期刊编辑且处理过AI相关稿件、获得独立同行推荐。研究团队共邀请28名专家，20名（71%）同意参与，形成最终专家面板。
专家面板特征
专业领域
1–5年工作经验
6–10年工作经验
>10年工作经验
总计
临床放射学
2
5
8
15
计算机科学
0
5
7
12
科学评审
2
8
10
20
科学编辑
5
5
2
12
表注：数据为专家人数。20名专家中，6人具备2个领域的专业知识，9人具备3个领域的专业知识，5人具备全部4个领域的专业知识。
德尔菲法实施：2024年5月至2025年1月开展四轮德尔菲法调查，通过浏览器端在线调查平台进行匿名调查，以减少偏倚并鼓励开放反馈。每轮调查前向专家反馈上一轮结果，实现清单条目的迭代优化；手稿同行评审后额外开展第五轮随访调查，整合评审建议并完善清单。
共识定义：采用已确立的方法定义共识，Likert量表（1-10分）问题中，≥70%的评分落在均值±2分范围内即达成共识，均值≥7分的条目纳入清单，<4分则剔除，4~6分的条目进入下一轮重新评估；二分类与多项选择题中，≥70%的专家支持即纳入清单，≤30%的专家支持则剔除。
调查流程：首轮基于系统综述的14项条目+研究团队提出的7项条目，共21项初始问题，同时通过开放问题收集专家新增建议；后续每轮将未达成共识的条目与专家新增条目共同评估，对持续未达成共识的条目重新表述并转为二分类问题，确保形成确定性结论；第五轮随访调查针对同行评审建议的新条目，采用二分类问题进行最终共识评估。

专业领域	1–5年工作经验	6–10年工作经验	>10年工作经验	总计
临床放射学	2	5	8	15
计算机科学	0	5	7	12
科学评审	2	8	10	20
科学编辑	5	5	2	12

三、系统文献综述结果

对纳入的57项放射学LLM研究进行分析，结果显示14项核心报告方面的披露情况存在显著异质性，各维度报告率差异明显，具体分为三大类别，核心结果如下：

一般信息与数据输入：AI模型（95%）、AI开发者（93%）、访问方法（84%）、交互语言（79%）的报告率较高，而模型版本/开发日期（47%）、访问日期（39%）的报告率较低，关键基础信息披露不完整。
prompting and fine-tuning：prompting type（95%）报告率较高，prompt engineering细节（47%）报告率一般，而retrieval-augmented generation（RAG）使用情况（7%）、模型微调信息（4%）的报告率极低，核心技术细节披露严重不足。
performance metrics：准确性（61%）为最常报告的指标，可靠性分析（46%）次之，F1 score（7%）、灵敏度与特异度（2%）的报告率极低，定量评估指标的选择与报告缺乏标准化，难以实现研究间的有效对比【图2】。
图注：放射学大语言模型（LLMs）的系统文献综述结果。柱状图展示了研究报告不同方面的比例，包括一般信息与数据输入、提示工程与微调、性能指标三大类。结果表明，放射学LLMs相关研究的报告方式存在显著的异质性。AI=人工智能，RAG=检索增强生成。

四、德尔菲法实施结果

（一）专家参与度

四轮德尔菲法调查中，前3轮20名专家均完成全部问卷，第四轮19名（95%）完成，四轮平均参与率98.75%；第五轮随访调查18名（90%）专家参与，五轮整体参与率97%。高参与率保证了共识结果的代表性与科学性，且20名专家来自比利时、中国、德国、瑞士、英国、美国6个国家，实现了研究的国际多中心视角。

（二）各轮共识进展

第一轮：21项初始问题中13项达成共识，2项未达成共识，无条目被剔除；通过开放问题收集到78项专家新增条目，共计80项条目进入第二轮评估。
第二轮：80项条目通过43项Likert量表、36项多项选择、1项二分类问题进行评估，31项达成共识，9项被剔除；合并2项重叠条目后得到38项条目，结合专家意见新增1项，共计39项条目进入第三轮评估。
第三轮：39项条目通过16项Likert量表、23项二分类问题进行评估，25项达成共识，14项未达成共识；无条目被剔除，结合专家意见新增1项条目，共计15项条目进入第四轮评估。
第四轮：将15项未达成共识的条目全部转为二分类问题进行最终表决，10项达成共识并纳入清单，5项被剔除。
第五轮：针对同行评审建议提出8项新条目，以二分类问题进行评估，6项达成共识，其中5项纳入最终清单，1项（将清单条目分级为不同推荐水平）被推迟至清单后续更新中【图3】。
图注：制定放射学大语言模型（LLMs）研究报告指南的四轮德尔菲法工作流程。标注了每轮的问题类型分布（开放、多项选择、李克特、二分类）。第一轮包含基于放射学LLMs现有研究系统综述设计的开放问题和李克特量表问题，基于专家意见生成了大量与放射学LLM研究指南相关的主题。该图展示了各轮中条目的共识达成与剔除情况，以及最终清单条目的形成过程。期刊同行评审后，额外开展了第五轮随访调查，对评审者的建议进行讨论。

（三）最终清单形成

德尔菲法调查中共79项条目达成共识，14项条目被最终剔除。研究团队对达成共识的79项条目进行整合、精简与结构化梳理，形成包含32项条目的最终FLAIR清单，该清单经所有参与专家最终审核与批准。

FLAIR清单共分为6个核心类别，其中前3类由系统文献综述确定并经德尔菲法验证，后3类为德尔菲法过程中新增的关键维度，全面覆盖了放射学LLM研究报告的核心内容。

五、FLAIR清单核心内容

FLAIR清单包含6大类别32项条目，为放射学LLM研究提供了结构化、标准化的报告框架，各类别核心报告要求如下【图4】，清单同时配套了应用实例与报告示例作为补充材料，提升了实际使用的可操作性。

图注：放射学大语言模型评估框架（FLAIR）清单。AI=人工智能，API=应用程序编程接口，CE=欧盟合格认证，FDA=美国食品药品监督管理局，GPU=图形处理器，LLM=大语言模型，NLP=自然语言处理，NPV=阴性预测值，PPV=阳性预测值。

general information and data input（1.1-1.9）：明确研究目的与参与机构数量；详细说明输入数据类型，视觉语言模型需明确输入格式、分辨率、压缩方式及每例输入的影像数量；报告训练数据的公开可用性，明确提示工程/优化数据与模型评估数据的独立性，存在重叠时需说明理由并分析偏倚风险；完整描述使用的AI模型，包括命名、版本、技术细节，同时记录模型访问方法、交互语言、访问日期及版本更新监测与缓解措施；披露实验所需硬件规格及数据隐私与安全保护措施。
prompting and fine-tuning（2.1-2.7）：阐述prompt engineering的方法学过程与科学依据，包括开发方法、实验方案、迭代优化思路；明确使用的prompting type，包括开放式/封闭式、零样本/少样本/思维链等；说明研究中查询的实施方式，即新对话窗口查询或同一对话窗口连续查询；在方法学部分或补充材料中展示原始prompt；若以放射学报告为输入，需说明所采用的报告风格；报告模型是否进行微调及具体微调技术；描述是否使用RAG，若使用则需详细说明检索过程、来源及嵌入与重排模型。
model evaluation and output generation（3.1-3.6）：报告是否使用量化方法及具体方法类型；评估模型的可靠性与鲁棒性，说明对LLM固有随机性的处理方式，包括是否进行多轮运行及结果一致性保障措施；披露模型生成参数，包括temperature、top-k、top-p、最大token长度等，同时说明多轮生成结果的处理方式；根据研究设计选择合适的性能指标，包括灵敏度、特异度、NPV、PPV（含原始数据）、F1-Score及NLP相关指标（BLEU、ROUGE、BERT等）；详细描述性能指标的推导过程，明确输出质量评估标准、主观评分定义及评估者培训方式，同时说明评估者人数与专业背景。
ethics and data transparency（4.1-4.2）：讨论所研究的LLM放射学应用场景的潜在伦理问题；说明研究是否采用开放数据和/或开放代码。
implementation, risks, and limitations（5.1-5.3）：探讨LLM应用场景与临床环境的工作流整合问题，包括人-AI协作、模型可解释性、可信度、对临床决策的影响及认证要求；分析潜在风险与非预期后果，并提出相应的评估与应对措施；报告研究的局限性、偏倚来源与不确定性，讨论标准化评估工具/框架的使用，同时分析影响临床实际应用的因素（如成本、数据隐私）。
further/optional aspects（6.1-6.5）：根据研究主题，可讨论LLM开发的最新技术方法；评估并报告LLM输出中可能存在的性别偏倚及相关模式；报告计算效率，包括计算时间、token使用量、预估成本及碳足迹；探讨在计算资源有限的临床环境中推广LLM的策略，促进公平可及；分析LLM在临床场景中的个性化与情境化潜力，评估模型处理新知识及适应突发情况的能力。

放射学大语言模型评估框架（FLAIR）报告清单

一级类目	二级条目编号	核心报告要求
general information and data input（一般信息与数据输入）	1.1	明确研究的核心目的
1.2	说明参与研究的机构数量
1.3	详细描述输入数据类型；视觉语言模型需明确输入格式、分辨率、压缩方式及每例输入的影像/视频数量
1.4	报告训练数据的互联网公开可用性，明确其是否可能成为模型训练数据的一部分
1.5	清晰说明提示工程/优化所用数据与模型评估数据是否相互独立；若存在重叠，需提供合理性论证并分析其对结果偏倚、有效性的潜在影响
1.6	完整描述所使用的AI模型，包括结构化命名、具体版本及相关技术细节
1.7	记录模型的访问方法（如API、在线聊天界面）、交互使用的语言及实验过程中的语言变化情况，同时标注模型访问日期
1.8	阐述AI模型的版本管理方式（尤其API访问的LLM）；说明研究期间模型是否存在更新，及对更新的监测、缓解措施与记录方式，确保研究结果的时间一致性
1.9	披露实验所需的硬件规格（如GPU资源）；明确数据隐私与安全保护措施（如数据存储、传输的加密方法）
prompting and fine-tuning（提示工程与微调）	2.1	阐释提示工程的方法学过程及科学依据，包括提示开发方法、实验方案、提示设计的科学推理、迭代优化思路及指导提示构建的假设/模型规范
2.2	明确所使用的提示类型（如开放式/封闭式、零样本/少样本/思维链、靶向/非靶向、情境提示、上下文学习、提示链、引导生成等）
2.3	说明研究中查询的实施方式（新聊天窗口单次查询/同一聊天窗口连续查询）
2.4	在方法学部分或补充材料中展示研究所用的原始提示
2.5	若以放射学报告为输入数据，需说明分析所纳入的报告风格及变体（如自由文本、结构化报告）
2.6	说明模型是否进行微调；若有微调，需明确具体微调技术（如参数高效微调、全量微调）
2.7	描述研究是否使用检索增强生成（RAG）；若使用，需详细说明检索过程、检索来源，及所采用的嵌入模型、重排模型
model evaluation and output generation（模型评估与输出生成）	3.1	报告研究是否使用量化方法，并明确具体的量化方法类型
3.2	评估模型的可靠性（不同数据集、场景、设置下的性能表现），并说明模型鲁棒性的评估方式
3.3	说明研究对LLM固有随机性的处理方式；明确是否通过多轮运行评估输出变异性，及为保证结果一致性、解释随机性所采取的措施
3.4	披露与LLM交互时的生成参数（如temperature、top-k、top-p、最大token长度）；说明对多轮生成结果的处理方式（如平均、筛选、对比）
3.5	根据研究设计选择并报告合适的性能指标，包括灵敏度、特异度、阴性预测值（NPV）、阳性预测值（PPV，含基础原始数据）、F1值；若适用，报告自然语言处理（NLP）相关指标（如BLEU、ROUGE、BERT）
3.6	清晰描述性能指标的推导过程；明确输出质量的评估标准/评分细则，定义所有主观评分项；说明评估者的培训方式、人数及专业背景
ethics and data transparency（伦理与数据透明度）	4.1	探讨所研究的LLM放射学应用场景存在的潜在伦理问题
4.2	说明研究是否采用开放数据和/或开放代码模式
implementation, risks, and limitations（实施、风险与局限性）	5.1	探讨所研究的LLM应用场景与临床环境的工作流整合问题，包括人-AI协作（放射科医师、临床医师）、模型可解释性、可信度、对临床决策的影响及相关认证要求（如CE、FDA）
5.2	分析LLM应用的潜在风险与非预期后果，并提出相应评估与应对措施，包括非性能指标评估、故障与任务特异性挑战分析、临界测试边界制定、外部非互联网数据集验证、人工监督与人机协作等
5.3	报告研究的局限性、偏倚来源及潜在不确定性（如数据局限性、模型复杂性、领域特异性挑战）；讨论标准化评估工具/框架的使用；分析影响临床实际应用的因素（如成本、数据隐私）
further/optional aspects（其他/可选方面）	6.1	若与研究主题相关，讨论LLM开发领域的最新技术方法
6.2	若与研究主题相关，评估并报告LLM输出中可能存在的性别偏倚，包括相关模式与差异特征
6.3	若与研究主题相关，报告模型的计算效率，包括计算时间、token使用量、预估成本，并探讨其产生的碳足迹
6.4	若与研究主题相关，探讨在计算资源有限的临床环境中推广LLM的策略，促进技术的公平可及
6.5	若与研究主题相关，分析LLM在临床场景中的个性化与情境化潜力；评估模型处理新知识、适应突发情况（如新型病毒爆发）的能力

六、研究结果的解读与学术意义

放射学LLM研究的报告现状亟待规范：系统综述明确证实，当前放射学LLM研究在关键信息的报告上存在显著异质性与不完整性，模型版本、prompt engineering细节、微调与RAG技术、特异性性能指标等核心内容的披露率极低，直接导致研究的可重复性与临床转化价值受限，也印证了制定领域专属标准化报告指南的必要性与紧迫性。
FLAIR清单具备鲜明的放射学领域针对性：与现有通用AI/LLM研究报告规范（CLAIM、TRIPOD-LLM、MI-CLEAR-LLM、CANGARU）相比，FLAIR清单针对放射学的领域特征进行了专属设计，明确要求报告影像参数（分辨率、压缩方式）、放射学报告风格、硬件规格、临床工作流整合等放射学特有内容，填补了放射学LLM研究标准化报告规范的领域空白。
FLAIR清单的共识基础保障了科学性与适用性：20名国际跨学科专家的高参与率与高完成率，保证了FLAIR清单的国际适用性与学科全面性；德尔菲法的迭代共识过程，使清单条目充分贴合放射学LLM研究的实际需求，覆盖技术、方法、伦理、临床实施等全维度，为研究提供了可操作的标准化报告框架。
FLAIR清单与现有报告规范形成互补：FLAIR清单并非替代现有的AI/LLM研究报告规范，而是针对LLM的模型特征（如prompt engineering、随机性、RAG技术）与放射学的领域需求进行了补充与细化，与CLAIM、TRIPOD-LLM等规范共同构成了更完善的医学AI研究报告体系。

七、研究的局限性

德尔菲法的实施形式限制：本研究采用在线调查形式的德尔菲法，缺乏专家的现场讨论，可能对部分复杂条目的共识形成产生一定影响；尽管专家面板涵盖了6个国家的多学科专家，但难以完全捕捉LLM这一快速发展领域的所有研究视角。
研究的时效性限制：LLMs与基础模型的发展速度极快，本研究的结果与FLAIR清单仅反映当前领域的研究与报告现状，随技术的持续进步，清单需进行周期性的更新与优化；系统综述的文献检索周期与德尔菲法的实施周期存在时间差，可能导致部分最新的放射学LLM研究成果未被纳入分析。
FLAIR清单的待完善点：同行评审提出的将清单条目分级为“必要”“推荐”“可选”的建议，因当前难以通过共识法实现，被推迟至清单的后续更新中；未来可基于科学社区的实际使用反馈，进一步优化清单的结构与实用性。
检索策略的针对性限制：本研究的检索词针对放射学LLM应用进行了精准设计，与部分采用广谱检索策略的研究相比，可能遗漏少量相关研究成果。

八、研究结论

LLMs在放射学领域展现出巨大的临床转化潜力，但标准化报告规范的缺失严重阻碍了其临床应用与研究间的有效对比。本研究通过系统文献综述联合国际德尔菲专家调查法，制定了包含6大类别32项条目的FLAIR清单，全面覆盖了放射学LLM研究的general information and data input、prompting and fine-tuning、performance metrics、ethics and data transparency、implementation, risks, and limitations、further/optional aspects六大核心维度。

FLAIR清单为放射学LLM研究提供了标准化的报告框架，可有效提升该领域研究的透明度、可重复性、可比性与临床适用性，同时为研究者、评审者与期刊编辑提供了实用的学术工具，推动放射学LLM研究的质量提升。未来需基于LLM技术的发展与科学社区的使用反馈，对FLAIR清单进行周期性的更新与优化，进一步促进LLMs在放射学临床工作流中的整合与应用，最终通过提升放射学诊疗的效率与准确性，改善患者的诊疗结局。