放射学中大语言模型研究报告指南:一项国际德尔菲专家调查
一、背景
大语言模型(LLMs)的迅速崛起为放射学工作流程带来了变革性的机遇。基于Transformer架构,这些模型代表了相较于传统深度神经网络的重大进步。LLMs擅长解释和整合复杂的序列数据,能够实现高级别的上下文理解。
Transformer能够处理多种数据类型(包括多模态数据集),并适应广泛的应用场景。
LLMs在文本记录至关重要的领域发挥价值(如放射学工作流程、方案规划、结构化报告生成、用患者易懂的语言总结发现,以及提供后续建议)。
视觉语言模型有助于图像识别、自动化异常检测和标注,尽管它们在放射学领域的性能通常仍被认为有限。
许多研究仍停留在概念验证或可行性探索阶段,并且在方法和结果的报告方面表现出高度的异质性。LLMs的性能受多种参数影响,包括架构、训练数据集、预训练和后训练方法,以及模型交互所使用的语言。LLM和视觉语言模型在放射学中应用的多样性,加上专业数据格式和多模态图文工作流程等领域的特定特征,迫切需要制定放射学专用的报告指南,以确保可重复性并促进研究间的可比性。
目的:制定一份指南,用于规范放射学领域LLM研究报告的结构和内容,以补充现有的人工智能研究检查表,如《医学影像人工智能检查表》(CLAIM)和《个体预后或诊断多变量模型透明报告》(TRIPOD)-LLM指南。
二、各类别及条目详解
| | | |
|---|
| 总体信息和数据输入 | | |
| | | |
| | | |
| | 大语言模型(LLM):说明AI模型使用的数据类型(例如放射影像、文本数据、放射学报告)。 视觉语言模型:说明输入要求,包括输入格式(如tiff、jpeg)、输入分辨率(如300×300 dpi)以及应用的任何压缩方法。说明每个输入或每个病例提供的图片或视频数量。 | |
| | 说明用于评估模型的信息是否可公开获取(从而可能成为模型训练数据的一部分)。 | |
| | 清楚报告用于提示工程或优化的数据是否独立于用于模型评估的数据。如果存在重叠,请提供理由并讨论对结果偏倚或有效性的潜在影响。 | |
| | 详细描述所使用的AI模型,包括其结构化命名、具体版本和相关技术细节。说明本研究所调查的AI模型的开发实体。 | |
| | 记录访问AI模型的方法(如API、在线聊天界面)、访问日期以及交互所使用的语言,包括实验过程中的任何变化。 | |
| | 描述AI模型的版本控制方法,特别是通过API访问的大语言模型。说明模型在研究期间是否可能发生更新,以及如何监测、缓解和记录此类变化。包括模型访问的日期以及为确保结果一致性所采取的任何步骤。 | |
| | 如适用,报告进行实验的硬件要求(如GPU资源)。说明数据隐私和安全措施,例如数据存储和传输的加密方法。 | |
| 提示与微调 | | |
| | 解释提示工程的方法学过程及其科学依据。包括以下内容:提示开发方法及其实验方案,提示具体内容及其迭代和细化的科学理由,指导提示构建的底层假设或模型说明。 | |
| | 说明所使用的提示类型(例如:开放式/封闭式、零样本/少样本/思维链、目标导向/非目标导向;上下文提示、上下文学习、提示链、引导生成;以及语言)。 | |
| | 说明研究中的每次查询是在新聊天中发起,还是所有查询在同一个聊天中连续进行。 | |
| | | |
| | 如果使用放射学报告作为输入数据,请说明分析中考虑了哪些报告风格或其变体(例如自由文本、结构化)。 | |
| | 说明是否对模型进行了微调,如果有,请说明使用了哪些技术(例如参数高效微调 vs. 全参数微调)。 | |
| | 描述研究中是否使用了检索增强生成(RAG)。如果使用了RAG,请包括检索过程、来源以及嵌入和重排序模型的详细信息。 | |
| 模型评估与输出生成 | | |
| | | |
| | 报告模型的可靠性(即在不同的数据集、设置和场景下评估模型性能)。说明是否以及如何评估模型的鲁棒性。 | |
| | 报告如何处理LLM固有的随机性。说明是否进行了多次运行以评估输出的变异性,并描述为确保一致性或考虑随机性而采取的任何措施。 | |
| | 报告与LLM交互时使用的生成设置(例如温度、top-k、top-p、最大令牌长度)。说明是否对多次生成进行了平均、选择或比较。 | |
| | 根据研究设计报告适当的性能指标。可能的指标包括灵敏度、特异度、阴性预测值、阳性预测值(包括原始数据)和F1分数。如适用,报告特定的自然语言处理指标(如BLEU、ROUGE、BERT、METEOR)。 | |
| | 清楚描述性能指标的推导方式。说明用于评估输出质量的标准或评分规则,定义所有主观评分,并描述如何培训评估人员。说明评估人员的数量及其专业背景。 | |
| 伦理与数据透明度 | | |
| | 讨论所研究的LLM在放射学中应用场景的潜在伦理考量。 | |
| | | |
| 实施、风险与局限性 | | |
| | 讨论将所研究的LLM应用场景整合到临床环境中的问题。考虑因素可包括人类(放射科医生、临床医生)与AI的协作、模型可解释性、可信度、对临床决策的影响以及认证要求(如CE或FDA)。 | |
| | 根据研究设计和使用场景,讨论此主题可包括以下措施,这些措施可能是研究本身的一部分或后续实施工作的一部分: 1. 评估非性能指标、幻觉和特定任务的挑战。 2. 开发测试边界的基准,包括具有警示标志的挑战性或关键病例。 3. 使用无法从互联网获取的外部数据集进行测试。 4. 通过模拟测试、真实世界试验以及持续学习/更新和监测进行评估。 5. 人类监督、人机配对以及与专家协作。 | |
| | 根据研究设计,酌情讨论以下主题: 1. 报告研究背景下的局限性和潜在偏倚来源。 2. 识别并讨论潜在的不确定性来源(例如数据局限性、模型复杂性和领域特定挑战)。 3. 讨论标准化评估工具/框架的使用。 4. 讨论影响实际应用可行性的因素(例如成本、数据隐私)。 | |
| 其他/可选方面 | | |
| | 如果与研究主题相关,讨论LLM开发的最新技术方法。 | |
| | 如果与研究主题相关,评估并报告LLM输出中(可能存在的)性别偏倚,包括观察到的任何模式或差异。 | |
| | 如果与研究主题相关,报告计算效率,包括计算时间和令牌使用量,以及预估成本,并讨论由此产生的碳足迹。 | |
| | 如果与研究主题相关,讨论在计算资源有限的临床环境中促进公平使用LLM的策略。 | |
| | 如果与研究主题相关,探索LLM在临床环境中个性化和情境化的潜力。评估模型处理新知识或适应突发情况(如新病毒爆发)的能力。 | |
三、总结:尽管近期关于放射学领域大语言模型(LLM)的研究已展现出其变革性的潜力,但要在临床上实现应用,仍需共同努力来规范报告实践。FLAIR(放射学中大语言模型评估框架)检查清单包含六个类别共32个项目:总体信息与数据输入;提示与微调;性能指标;伦理与数据透明度;实施、风险与局限性;以及其他/可选方面。通过提供这一基于共识的检查清单,目的在于提升未来研究的透明度、可重复性、可比性和临床适用性,为LLM融入日常放射学实践铺平道路。