
Towards Knowledgeable Deep Research: Framework and Benchmark
摘要
本文介绍了"知识驱动深度研究"(KDR)这一新型任务,要求大模型智能体综合利用结构化与非结构化知识,生成多模态综合研究报告。研究团队提出了混合知识分析框架(HKA)和专业评测基准KDR-Bench,覆盖9大领域、41个专家级问题及1,252张数据表格,为深度研究智能体的发展提供了新的方法论基础。
原文PDF及中文解读链接 https://t.zsxq.com/4tWKZ,或者文末阅读原文获取
一、研究背景:深度研究智能体的新挑战
近年来,大型语言模型(LLM)智能体在数学推理、软件工程、科学发现等复杂任务中展现出卓越能力。在诸多应用场景中,"深度研究"(Deep Research,DR)任务因其服务于高价值、高风险决策场景而备受关注。与传统信息检索不同,深度研究任务要求LLM智能体自主完成多步骤的信息搜寻、处理与推理,最终生成具有事实依据的综合性研究报告。
然而,现有深度研究智能体普遍存在一个共同局限:它们或过度依赖网络搜索,或依靠预设工具生成简短回答,均难以灵活地对大规模结构化知识(如数据表格、统计图表)进行深度推理。面对"2025年全球ESG投资区域差异的驱动因素是什么?"此类需要量化分析的研究问题,结构化知识的缺失将导致分析深度严重不足——结构化数据能够提供坚实的数据基础、支持量化计算,并引导分析者得出具有洞见的结论。
正是在这一背景下,来自中国科学院计算技术研究所、中国科学院大学及新加坡国立大学的研究团队提出了"知识驱动深度研究"(Knowledgeable Deep Research,KDR)这一新型任务范式,并围绕该任务构建了完整的框架与评测体系。
二、KDR任务:超越非结构化网页内容的深度研究
2.1 任务定义
知识驱动深度研究(KDR)在传统深度研究任务的基础上提出了更高要求:给定研究问题 q,LLM智能体须基于结构化知识源 S 和非结构化知识源 U 的多步骤推理,生成长篇幅、多模态的综合报告 y(即包含文字、图表、数据表格的研究报告)。
整体推理轨迹记为 ℛ = (r₁, …, rᵢ, …, rT),每一推理步骤 rᵢ 自主调用可用工具集合 T 中与两类知识源相关的工具。与主要聚焦于非结构化知识(如网页)的传统DR任务不同,KDR任务明确要求智能体额外利用结构化知识源 S(如数据表格),这一区别是KDR的核心创新所在。
2.2 现有方法的局限
现有深度研究框架通常不区分不同类型的知识,对结构化知识仅能进行浅层分析,缺乏高效处理大规模结构化数据、执行复杂计算、并从中提炼新颖洞见的能力。
从工业应用层面看,Gemini、Perplexity等产品级深度研究智能体已具备一定知名度,被视为高级智能体推理和工具使用能力的标志。开源社区的努力主要集中在两个方向:一是构建强大的多智能体工作流以模拟闭源系统;二是通过智能体强化学习训练LLM掌握复杂工具使用,包括信息检索和长文写作。但这些方法的共同短板在于,它们主要在非结构化网络资源上运行,对结构化知识的计算与推理支持十分有限。
三、HKA框架:混合知识分析的多智能体架构
3.1 框架总览
为解决上述挑战,研究团队提出了混合知识分析框架(Hybrid Knowledge Analysis,HKA)——一个能够同时对结构化与非结构化知识进行推理的多智能体架构。
HKA利用结构化知识提供坚实的数据基础,支持量化计算,并实现深度分析;同时整合非结构化知识源,输出涵盖文本、图表和数据表格的综合研究报告。

【图1:HKA框架示意图】
3.2 四大核心子智能体
HKA由四个LLM驱动的子智能体组成,各司其职、协同运作:
(1)规划器(Planner)
规划器是整个框架的"大脑",负责任务规划和工作流程控制。给定研究问题后,规划器首先将其分解为一系列细粒度子任务,然后针对每个子任务自主判断当前所需的知识类型,并生成工具调用指令以激活相应的知识分析器。
对于非结构化知识分析器,规划器生成查询指令并传递历史状态作为上下文;对于结构化知识分析器,规划器则以不同方式传递相关指令。规划器的动态调度能力是HKA高效运转的关键保障。
(2)结构化知识分析器(Structured Knowledge Analyzer,SKA)
这是HKA框架中最具创新性的核心设计。结构化知识分析器采用双模型架构:
- 代码语言模型(Code LLM)
:负责生成代码,通过代码执行的方式处理结构化数据,产出统计图表和数据表格等多模态材料; - 视觉语言模型(Vision-Language Model,VLM)
:负责对上述生成的图表进行理解与解读,产出对应的文字洞见与分析结论。
这一设计使得结构化知识分析器不仅能产出图文表等多模态内容,还能从数据中提炼出具有实质意义的分析洞见,实现了从"数据处理"到"知识发现"的跨越。
(3)非结构化知识分析器(Unstructured Knowledge Analyzer,UKA)
非结构化知识分析器负责从网页等非结构化知识源中检索和摘要信息,为报告提供背景知识、定性分析等文本支撑材料。
(4)撰写器(Writer)
撰写器位于工作流的最后环节,负责汇聚来自两类分析器的全部多模态材料,解决各子任务结论之间的潜在冲突,最终整合生成连贯、全面的研究报告。
3.3 工作流程

HKA的完整工作流程如下:
- 问题接收
:接收用户提出的研究问题; - 任务分解
:规划器将问题拆解为多个细粒度子任务; - 动态调度
:对每个子任务,规划器判断所需知识类型并调用相应分析器; - 知识获取与分析
结构化知识分析器通过代码执行处理表格数据,生成图表并产出洞见; 非结构化知识分析器检索网页信息并生成摘要; - 报告整合
:撰写器汇总所有子任务的多模态材料,生成最终研究报告。
四、KDR-Bench:专家级知识驱动深度研究评测基准
4.1 基准构建理念
在评测体系方面,现有深度研究基准可分为两类:一是复杂问题求解类(如HLE、BrowserComp),主要评估多步推理和信息检索能力;二是长篇报告生成类(如DeepResearch Bench、Personal DR)。然而,面向报告生成的基准通常侧重文本信息的聚合,难以对智能体利用知识进行量化分析和得出新颖结论的能力进行细粒度评估。
为填补这一空白,研究团队专门构建了KDR-Bench,旨在评估深度研究智能体在知识分析方面的综合能力。
4.2 基准规模与覆盖范围
KDR-Bench具有以下核心特征:
- 领域覆盖
:涵盖9大领域,分别为:农业(Agriculture)、政治与经济(Politics & Economics)、能源与环境(Energy & Environment)、金融与保险(Finance & Insurance)、金属与电子(Metals & Electronics)、社会(Society)、艺术(Art)、技术(Technology)、交通运输(Transportation); - 问题规模
:包含41个专家级研究问题; - 结构化知识库
:汇集1,252张数据表格,形成大规模结构化知识资源; - 标注体系
:为每个问题标注了主要结论和关键知识点。
4.3 三类评测指标
基于上述数据和标注,KDR-Bench设计了三类评测指标,采用"LLM即评判者"(LLM-as-a-Judge)的评估范式:
(1)通用指标(General-Purpose Metrics)
评估报告的整体质量,包括内容完整性、逻辑连贯性、证据支撑等通用维度。
(2)知识中心指标(Knowledge-Centric Metrics)
专门评估智能体对结构化与非结构化知识的利用能力,重点考察量化分析的深度和知识驱动结论的质量。
(3)视觉增强指标(Vision-Enhanced Metrics)
采用多模态大语言模型(MLLM)作为评判者,评估报告中图表、数据可视化内容的质量和信息价值——这一维度专为HKA等能够生成多模态内容的智能体设计。
五、实验结果:HKA的综合表现
5.1 对比实验设计
研究团队在KDR-Bench上评测了12个不同基线模型和HKA框架,基线覆盖三类系统:
- 带搜索工具的LLMs
:标准大语言模型配备网络搜索工具; - 闭源深度研究智能体
:包括Gemini等产品级系统; - 开源深度研究智能体
:开源社区的最新研究成果。
5.2 核心实验发现
实验结果揭示了以下关键发现:
在通用指标和知识中心指标上,HKA一致性地优于大多数现有深度研究智能体,包括产品级系统,充分验证了多智能体框架和结构化知识处理能力的有效性。
在视觉增强指标上,HKA的表现尤为突出,甚至超越了当前最先进的产品级深度研究智能体Gemini。这一结果具有重要意义——它不仅验证了HKA在多模态报告生成方面的技术优势,更揭示了传统单一文本评测方法应用于多模态报告时的局限性。当报告包含图表等视觉内容时,传统评测指标无法全面反映报告质量,需要引入MLLM作为评判者进行多模态评估。

六、学术贡献总结
本研究的主要学术贡献可概括为以下四个维度:
贡献一:新任务范式
提出知识驱动深度研究(KDR)任务,明确要求深度研究智能体综合推理结构化和非结构化知识,生成全面的研究报告,填补了现有深度研究任务范式的空白。
贡献二:新框架方法
提出HKA多智能体框架,通过独特的结构化知识分析器(结合代码模型和视觉语言模型),实现了超越纯文本输出的多模态报告生成能力,包括统计图表、数据表格及对应的文字洞见。
贡献三:新评测基准
构建KDR-Bench专家级评测基准,覆盖9个领域、41个问题和1,252张数据表格,配备涵盖通用、知识中心和视觉增强三个维度的LLM评测框架。
贡献四:新实验洞见
实验结果证实HKA在通用和知识中心指标上优于大多数深度研究智能体,在视觉增强指标上超越Gemini,同时揭示了传统评测方法面对多模态报告时的局限性。
七、研究展望与行业意义
本研究不仅在技术层面实现了突破,在应用层面同样具有重要价值。
对于企业决策者和研究机构而言,KDR任务直接对应于实际业务中的高价值分析需求——如行业趋势分析、市场量化研究、政策影响评估等。这些场景均需要智能体能够跨越结构化数据库与非结构化文献,综合产出兼具量化支撑和定性洞见的专业报告。
对于投资机构而言,HKA框架所展示的能力——从大规模结构化数据中自动提炼投资相关洞见并生成多模态分析报告——预示着智能化投研工具的重要发展方向。
对于AI研究者而言,KDR-Bench所建立的评测体系,特别是其视觉增强指标对MLLM评判者的引入,为未来多模态深度研究智能体的评估提供了方法论参考。
研究团队明确表示,希望本工作能够成为深度研究智能体中结构化知识分析的新基础,并推动未来多模态深度研究的相关研究进展。
相关信息
原文链接:https://arxiv.org/abs/2604.07720
发表日期:2026年4月9日(arXiv:2604.07720v1)
作者单位:中国科学院计算技术研究所AI安全国家重点实验室、中国科学院大学、新加坡国立大学
许可协议:CC BY-NC-SA 4.0
标签
Deep ResearchLLM Agents大语言模型深度研究智能体结构化知识分析多模态报告生成
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

往期推荐


