清华大学:AI幻觉深度研究报告_展会资讯_资讯

清华大学:AI幻觉深度研究报告

2026-04-26 18:19

清华大学:AI幻觉深度研究报告

AI科普馆部分垂类内容转移至?

【长三角人工智能联盟】公众号，快点进去瞧瞧！

清华大学清新研究团队发布的这份75页的《AI幻觉深度研究报告》和市面上其他"AI幻觉"文章不同，这份报告把"幻觉"拆成了可测量、可治理、可追责的系统性风险单元，并给出了一套完整的幻觉治理工程栈。结论很明确：幻觉问题不是"模型够不够聪明"，而是"错误如何被组织采信并执行"。

核心结论：三个总判断

报告开篇用三个判断定调：

判断一：幻觉是"生成—采信—执行"链条上的系统性风险，不是单点准确率问题。 真正危险的不是模型偶尔说错一句话，而是那句话被写进报告、进入决策、触发执行。

判断二：基准分数无法替代场景化评估。 同样5%的错误率，在娱乐问答里可以容忍，在医疗诊断里就是事故。风险必须在后果严重程度、可发现性和业务语境中衡量。

判断三：真正有效的方案是复合治理栈。 检索锚定、拒答机制、人工复核、日志监测与责任制度并行，而不是押宝某一个"零幻觉"模型。

一、六类幻觉：不只"说错话"

报告把幻觉拆成六类，这个分类是全文最重要的基础：

类型	表现	危险场景
事实性幻觉	编造事实、数据、事件	开放问答、陌生主题
引用性幻觉	伪造文献、法条、判例、链接	法律、政策、学术写作
语境性幻觉	对上下文理解偏差，断章取义	跨文档、跨时间的任务
逻辑性幻觉	推理链错误，因果关系混乱	分析报告、决策建议
行动性幻觉	调用错工具、传错参数、误触发流程	Agent自动化、工作流
遗漏性幻觉	关键信息缺失、过度拒答	高护栏系统、医疗诊断

其中引用性幻觉被报告特别强调——一条伪引一旦进入PPT、备忘录或论文，就会从"模型错误"变成"组织知识污染"，在机构内持续传播。

二、五个根因：为什么幻觉消灭不了

报告花了大量篇幅解释幻觉从哪来。结论很清醒：幻觉来自统计生成机制本身，不可能被彻底消灭。

根因一：统计生成机制。 模型的本职是根据概率分布生成"最像真的"后续文本，而不是连接外部真值。只要现实约束没有被注入，模型就会用语言概率去填补知识空白。"能接着说下去"本身就是幻觉的结构起点。

根因二：知识边界与专业断层。 通用模型擅长平均化知识，不擅长处理实时、版本敏感、需要高度专业语境的问题。幻觉在专业边界处显著升高。

根因三：提示不充分与指令冲突。 如果系统没有设计拒答逻辑，模型会倾向于"继续补全"而不是承认自己不知道。很多幻觉并非"模型故意乱说"，而是系统把"必须回答"设成了默认目标。

根因四：组织对速度与完整感的偏好。 很多团队把"回复快、看起来全、语气像专家"当作优秀体验，却忽略了可验证性。越像"聪明助手"，越可能在关键时刻给出不该被执行的答案。

根因五：检索—生成错配。 RAG（检索增强生成）的核心价值是把回答锚定到权威知识源，但它并不自动保证真实。检索内容召回不完整、文档版本过期、来源互相矛盾时，生成层仍可能拼出似是而非的回答。

三、真实世界案例：幻觉已经造成后果

这是报告最扎实的部分，用五个真实案例说明幻觉如何从"屏幕上的错误"变成"组织中的风险"。

案例一：GOV.UK Chat——品牌会放大幻觉风险

英国政府官方AI聊天实验，近70%用户认为回答有用，但官方同时观察到若干幻觉案例。问题出在哪？GOV.UK的品牌可信度让用户低估了系统失真风险，形成过度信任。

报告的结论很尖锐：权威界面（政府、医院、高校、金融机构）不是风险缓冲器，而是风险放大器。用户倾向于信任品牌，反而会忽视风险，需要更强的显性护栏。

案例二：美国联邦机构——采用加速，治理滞后

GAO报告显示，2024年11个联邦机构报告的生成式AI用例为282个，较2023年的32个约增长9倍。但同期机构面临的难题包括合规约束、预算资源和使用政策维护。

当采用加速而治理滞后时，幻觉问题就会从试验风险变成运营风险。

案例三：MHRA（英国药品和健康产品管理局）——遗漏有时并不比幻觉更轻

MHRA用RAG增强的GPT模型做临床问答测试：基线GPT模型在333次测试中出现了6次重大幻觉（约1.8%），但SmartGuideline版本出现了35次遗漏（约10.5%）。

这个跷板效应非常关键：收紧护栏能压低幻觉率，却可能抬高遗漏率、拒答率和信息不全率。 医疗场景中，如果系统为了安全而频繁不回答，临床人员可能错过关键提示；如果为了显得全面而继续补全，则可能直接误导临床决策。

案例四：教育场景——学生面对的是知识还是错觉

英国教育指导明确提醒：生成式AI会给出荒谬、错误或虚假但像事实一样的话。问题不只是正确率，而是知识习得方式是否被错误地重塑——如果学生先接受"流畅但未经核验的答案"，批判性阅读与证据意识都会被削弱。

案例五：网络安全场景——从文本幻觉走向系统边界失守

NCSC（英国国家网络安全中心）提醒：LLM既不稳健区分"指令"和"数据"，又易受提示注入和数据投毒影响。当模型被嵌入工作流、邮箱、表单、Agent和外部系统时，幻觉就会升级为边界失守。

提示注入（Prompt Injection）为什么特别危险？因为它不是SQL注入的简单翻版——只要Agent系统摄入了外部文本，就可能把恶意内容当作新指令执行。Agent场景的核心不是"回复内容像不像人"，而是"系统边界能不能守住"。

四、六层治理栈：从"能不能回答"到"出了错谁负责"

报告第四部分给出了迄今最完整的幻觉治理工程框架——六层治理栈，从底层到顶层依次是：

第一层：任务分级。 先画任务风险地图——哪些任务允许模型直接回答？哪些必须附证据？哪些需要人工审核？哪些禁止自动执行？只有先做任务分级，才知道护栏强度该放在哪里。

第二层：知识锚定。 优先使用受控知识源、版本化文档、内部知识库与RAG，让答案尽量回到可验证证据上。英国RAG指导认为，RAG的重要价值不是让回答更长，而是让回答更能被追溯。

第三层：生成约束。 明确规定"答不出来时如何回应"，是避免响应链路幻觉的重要措施。生成约束的关键不在于提示写得多华丽，而在于是否把边界写清楚。

第四层：验证校正。 对高风险输出做事实校验、引用核对、规则匹配、结构化比对和异常检测。【正式文稿】与【对外材料】，要求关键事实必须能回链到【原始来源】。

第五层：上线监控与日志。 记录提示、模型版本、检索来源、回答文本、人工修订、用户反馈和异常案例。没有日志，组织就无法回放错误链条，也无法判断问题出在模型、检索、提示还是流程。

第六层：责任治理。 最后一道护栏永远不是模型，而是组织如何分配权力与责任。明确业务owner、模型owner、审核责任人、供应商边界、升级通道与事故响应机制。

报告特别强调：在Agent场景中，抑幻觉工程必须和安全工程合并。 "说错"和"做错"之间的距离被大幅缩短，系统需要具备最小权限、外部内容标注、关键动作确认、确定性校验和可熔断设计。

五、五个原创概念：把幻觉讨论变成组织语言

报告第五部分提出了五个原创概念，用于把零散的幻觉讨论压缩成更适合组织理解和执行的风险语言：

概念一：概率真相陷阱。 把"最像真的输出"误认为"最接近真实的答案"。语言质量越高，用户越容易把表达能力误判为事实能力。治理方法是把证据、来源和不确定性显式前置。

概念二：引用幻影链。 模型先伪造来源，再用脚注、链接、判例名把缺失证据包装成"已核验链条"。一条伪引会在PPT、备忘录、论文和法律材料中继续传播。治理方法是来源必须能回链到原文，关键场景禁止无检索生成参考文献。

概念三：低置信高伤害区。 模型自己并无稳定依据，组织却让它介入高后果任务，形成"模型低置信、用户高依赖"的危险带。对健康、安全、权利、财务、合规与公共影响类任务，要么禁用生成式AI单独处理，要么把它降格为辅助工具。

概念四：遗漏—幻觉跷板。 收紧护栏能压低幻觉率，却可能抬高遗漏率。不同场景必须配置不同参数值，不能用一套参数治理所有任务。

概念五：责任折返门。 组织表面设置了human-in-the-loop，但人工复核既不充分也不可证明，最后既没控住风险，也没形成责任归属。人工复核必须有意义、可抽检、可追责，否则只是一种"责任表演"。

六、H3M成熟度模型：从"会用模型"到"驾驭模型"

报告提出了幻觉治理成熟度模型（H3M），分为五个等级：

L1 试用级：个人经验驱动，零星试用，无系统治理
L2 规则级：开始积累规则，有基本提示工程和输出核查
L3 流程级：流程标准化，有任务分级、人工复核节点和日志留痕
L4 工程级：工程自动化，六层治理栈部分或完整落地，有持续监测
L5 治理级：制度能力，幻觉治理嵌入组织制度和责任分配

成熟度越高，组织越能把幻觉从"偶发事故"转化为"可度量运营风险"。

七、行动路线图：30-60-90天

报告最后给出了可执行的行动路线图：

30天内： 先找"低置信高伤害区"——标出哪些输出会进入正式文稿、数据库、审批流程或自动执行链。先识别最危险的任务，再谈模型扩展。

60天内： 为高风险问答场景接入受控知识源、版本化文档与RAG；把"找不到就拒答""必须附来源""引用不可伪造"写进系统指令与产品规则；把错误反馈入口产品化，形成可追踪的工单和案例库。

90天内： 明确谁审、审什么、怎么升级、如何留痕，避免责任折返门；对关键输出建立抽检、复盘、回放与红队测试流程；让每次幻觉事件都能被解释、被归因、被修正。

结语： 报告的最终判断——未来真正有竞争力的组织，不是让模型看起来无所不知，而是让模型在不知道时停下来、在高风险时退后一步。 幻觉治理的对象不是一句错话，而是一整条从生成到执行、从证据到责任的链条。当证据链、流程控制、审计机制与责任分配同时嵌入，组织才算从"会用大模型"迈向"驾驭生成式AI"。

本文基于清华大学清新研究团队《AI幻觉深度研究报告》撰写，更多详细内容请查阅原文。

以下是内容节选↓↓↓ 文末点击链接免费下载pdf,扫二维码加入交流群