











?arXiv 6-Nov-2025 LLM相关论文(38/42)
?更多论文见主页/合集
?arXiv ID: arXiv:2511.03048
?论文标题: ROBoto2: An Interactive System and Dataset for LLM-assisted Clinical Trial Risk of Bias Assessment
? 问题背景:临床试验的偏倚风险评估是系统综述中的关键瓶颈,传统ROB2工具耗时且依赖人工,限制了大规模综述的效率。现有自动化方法难以满足高质量评估需求,亟需人机协作解决方案。
? 研究动机:为减轻人工负担,研究团队开发了ROBOTO2平台,结合LLM与检索增强技术,实现交互式ROB2评估。通过实时反馈机制提升效率,同时构建儿科临床试验数据集推动领域研究。
? 方法简介:ROBOTO2集成PDF解析、段落检索与LLM问答,采用SentenceTransformers匹配证据文本。用户可上传报告、获取系统建议并实时修正,系统自动计算领域级和整体偏倚风险评级。
? 实验设计:在521份儿科临床试验报告(含8954个信号问题)上测试4个LLM,对比检索策略与上下文长度影响。评估指标包括F1值、证据召回率及人工修正率,分析模型保守倾向与改进空间。
?更多论文见主页/合集
?arXiv ID: arXiv:2511.03048
?论文标题: ROBoto2: An Interactive System and Dataset for LLM-assisted Clinical Trial Risk of Bias Assessment
? 问题背景:临床试验的偏倚风险评估是系统综述中的关键瓶颈,传统ROB2工具耗时且依赖人工,限制了大规模综述的效率。现有自动化方法难以满足高质量评估需求,亟需人机协作解决方案。
? 研究动机:为减轻人工负担,研究团队开发了ROBOTO2平台,结合LLM与检索增强技术,实现交互式ROB2评估。通过实时反馈机制提升效率,同时构建儿科临床试验数据集推动领域研究。
? 方法简介:ROBOTO2集成PDF解析、段落检索与LLM问答,采用SentenceTransformers匹配证据文本。用户可上传报告、获取系统建议并实时修正,系统自动计算领域级和整体偏倚风险评级。
? 实验设计:在521份儿科临床试验报告(含8954个信号问题)上测试4个LLM,对比检索策略与上下文长度影响。评估指标包括F1值、证据召回率及人工修正率,分析模型保守倾向与改进空间。


